第85回情報処理学会全国大会 第5回中高生情報学研究コンテスト
チーム名:高々物理部_吹部
群馬県立高崎高校
寺田光里くん(2年)、高田悠希くん(2年)
(2023年3月取材)
本研究では、ニュースサイトの見出し語などから、特定の単語の前後の単語、つまり単語の使用される文脈の変遷を調べた。
例えば、ニュースにおける「支援」という語は2021年には「ヤングケアラー」などに関連して使われていたが、2022年度には「ウクライナ」と共に使われる、というようにその使用される文脈は変化し、昔の課題やトレンドは忘れられてしまっていた。また、「五輪」の周りで使われる単語は、2019年までと2020年以降で大きく変化しており、2020年以降では「不安」「危機」といった負のイメージの単語と共にニュースになっていた。
本研究では、時間による単語の文脈・イメージの変化の調査を行っており、従来の「単語の出現回数」や「全体での単語間の繋がり」のみではわからない、時期による特定単語の関連する語句の変化や、あるイベント・企業のイメージの変遷、忘れられてしまった課題などを調べることを可能とした。
※クリックすると拡大します。
■今回発表した研究を始めた理由や経緯を教えてください。
ニュースの記事を見ていて、同じ単語でも使われる時期の違いで文脈が変化しているのではないかと思ったことが第一のきっかけです。
調べたところ、同じ「支援」という単語でも 2019 年では「ヤングケアラー」という単語と一緒に使われやすかったのに対し、2022 年では「ウクライナ」という単語と一緒に使われやすくなっていました。つまり、同じ「支援」という単語であっても、使われる文脈が変化していて、その変化は社会の変化を示しているように思われました。
このように、特定単語の前後に出現する単語の変遷を調べることで、社会の変遷の観察や、それに伴い忘れられてしまった社会課題の発見につながる可能性があるのではないかと思い、この研究を始めました。
■今回の研究にかかった時間はどのくらいですか。
およそ、3か月程度です。
■今回の研究ではどんなことに苦労しましたか。
主に、2つあります。
1つ目は、コーパスの調達です。時間変化を追う研究であることから、ある程度時間的幅を持ったコーパスが必要でした。また、価値のある研究にするために大規模なコーパスが必要でした。
2つ目は、処理時間の長さです。新聞記事本文 22 年分を処理することもあり、処理時間が非常に長く、一度ミスをすると、再度実行するのに1時間以上かかってしまうということもありました。
■「ココは工夫した!」「ココを見てほしい」という点を教えてください。
20 年以上の単語間の共起度の変化をグラフ化した先行研究は、調べた限りなかったので、ぜひポスターに掲載されているグラフを見てほしいです。
■今後「こんなものを作ってみたい!」「こんな研究をしてみたい」と思うことがあれば教えてください。
この研究を発展させ、ある単語のイメージの変遷を追えるようにしたり、ある単語に対するとらえ方が、メディア間でどのように異なっているのかを数値化して示せるようにしたりしたいです。
また、この研究の手順をツール化することで、誰でも汎用的に使える手法にしていきたいです。(寺田光里くん)
本研究では、文字媒体のメディアで、単語が使われる文脈の変化を汎用的に追うことができる手法を示すことができました。
今後は、この手法の範囲を更に拡大し、SNSやコメント欄などの個人単位で発信を行う場における単語の文脈変化を調べて行きたいと思います。
更には、ツール化にも取り組み、誰もが広く簡単に単語の文脈変化を把握できるようにすることで、企業や政権のイメージ変化を調査するなど、様々な用途に応用できる研究としていきたいです。(高田悠希くん)
※高々物理部_吹部チームの発表は中高生研究賞奨励賞・初等中等教育委員会委員長賞を受賞しました。