第84回情報処理学会全国大会 第4回中高生情報学研究コンテスト
チーム名:大泉高校Techcamp
佐々木俊輔くん(都立大泉高等学校 1年)
(2022年3月取材)
新型コロナウイルスが地球規模で猖獗を極める現在、⽇本の教育現場ではオンライン授業が導⼊され、インターネット利⽤に関する格差が問題となっている。世界的にもアフリカや南アジアでインターネット利用率の低さが目立ち、先進諸国との格差は顕著である。そこで、国際間のインターネット利用の格差について研究した。
この格差を考えるうえで注目すべき事柄を探るため、52件の論文のテキストマイニング結果を参考に、8項目のデータを取得した。2変数の積項も追加して説明変数を44項目とし、Pythonを⽤いて線形系・決定⽊系の回帰分析をそれぞれ交差検証法とグリッドサーチを利用して行い、インターネット利用率を予測するモデルを構築した。SHAPモデルにより、所得や識字率、経済・教育分野の男⼥格差がインターネット利用率に影響すること、特に所得が与える影響が大きいことが分かったが、今後は所得格差についても考究する必要がある。
※クリックすると拡大します。
■今回発表した研究を始めた理由や経緯を教えてください。
地球規模での発展を考えるうえで、国際間の格差の是正は重要なテーマです。
先進国と呼ばれる国々と、アフリカの国々とで、インターネットを利用する個人の割合の格差が目立つことについて、格差を是正するための解決策を探ることにしました。
研究方法は、複数のデータをもとにインターネット利用率を予測するモデルを構築し、その予測の様子を可視化することとしました。
■今回の研究にかかった時間はどのくらいですか。
データ分析の勉強に半年、インターネット利用の格差の研究に半年で、合計1年ほどです。
■今回の研究ではどんなことに苦労しましたか。
出典の異なる複数のデータを一つのデータセットにまとめることが大変でした。本研究では世界中の国や地域のデータを用いましたが、出どころによって国名の表記のされ方が異なることがあるため、単純にExcelのフィルター機能等を使うだけでは正しい操作になりません。
また、回帰分析では、予測の判断材料として用いるデータが、最終的な分析の精度に大きな影響を及ぼすため、データの取得は慎重に行う必要がありました。結果的に、Google Scholarで得た53本の論文のテキストマイニングの結果を参考に取得するデータを決定することにしました。
■「ココは工夫した!」「ココを見てほしい」という点を教えてください。
数字を扱う研究なだけに、分析結果をできるだけ表やグラフなどで可視化し、より多くの情報をよりわかりやすく伝えられるように工夫しました。
また、分析の精度を高めることに特に力を注ぎました。具体的には、主に2つのことをしました。1つ目は、2種類のデータの積を追加してデータ数を増やすこと、2つ目は、全てのパラメータの組み合わせでテストする手法をとったことです。
図5-分析の結果のテストデータR2にご注目ください。0から1までの値をとるこのスコアは、0.8を超えると精度が非常に高いと評価されます。どの分析手法でもスコアが0.8前後であり、精度は良いと判断されます。
■今後「こんなものを作ってみたい!」「こんな研究をしてみたい」と思うことがあれば教えてください。
今回の数値を予測する回帰に対して、今後はクラス分けする分類に関しての研究をしてみたいと思います。特に画像の分析に興味を持っていて、ハードウェアの勉強もしていこうと思います。
第84回情報処理学会全国大会中高生情報学研究コンテスト ポスター発表より
※大泉高校Techcamp の研究は、中高生研究賞奨励賞を受賞しました。