サイトアイコン IoTNEWS

NTT、AIが2019年センター試験英語筆記科目で185点を獲得

NTT、AIが2019年センター試験英語筆記科目で185点を獲得

日本電信電話株式会社(以下、NTT)のコミュニケーション科学基礎研究所(以下、NTT CS研)は、機械翻訳や情報検索、対話処理などに応用可能なコンピュータによる自然言語処理、知識処理の基礎研究に取り組んでいる。

大学共同利用機関法人 情報・システム研究機構 国立情報学研究所(以下、NII)は、1980年以降細分化されたAI分野を再統合することで新たな地平を切り拓くことを目的に「ロボットは東大に入れるか(以下、東ロボ)」プロジェクトを中心となって発足した。

具体的には、センター試験や東京大学の第2次学力試験を用いて、人間が実際に解く問題をAIがどこまで解けるのかを明らかにすべく研究活動を進めている。この中で、英語問題は、自然言語処理、知識処理の統合的な問題を多く含んでおり、NTT CS研では、「東ロボ」プロジェクトを自然言語処理、知識処理の基礎研究を進めるベンチマークと捉え、センター試験に含まれる多様な英語問題に対する自動解答に関する知見を積み重ねてきた。

一方、近年深層学習に基づく文書読解技術が急速に進展している。XLNet(※1)は、大規模テキストによる事前学習を行ったベースモデルに、問題の性質に合わせた転移学習(※2)を施すことで、異なる種類の問題を比較的少量のデータから効率的に解くことを可能にしていえう。しかし、学習に利用できるデータが大きく不足している問題や、解答に辞書的な情報が不可欠な問題では、十分な精度で解答することが困難だった。

今回、XLNetでは解答が困難であった、不要文除去・段落タイトル付与・発音問題で、NTT CS研を中心とした東ロボ英語チームの独自技術を適用し、2019年センター試験の英語筆記本試験で、185点(200点満点、適用前154点)、偏差値64.1(独自技術適用前57.0)を達成した。また、同じ技術を過去3年間のセンター本試験・追試験に対して適用した結果も、偏差値60以上を達成したと発表した。

技術のポイントは以下の通り。

これらの英語問題における技術的な前進は、岡山県立大学 菊井玄一郎教授、秋田県立大学 堂坂浩二教授、大阪工業大学 平博順准教授、電気通信大学 南泰浩教授、工学院大学 大和淳司教授らとNTT CS研との共同研究によるものだ。

これまでの研究を通して様々な課題が明らかになった。例えば、生活資料(チラシや広告)などの複数の情報からなる文書の理解や、グラフや表の読解、会話の流れの理解については、未だ安定した自動解答は実現できていない。今後、このような、言語以外の情報や実世界の常識的知識が強く関わるタイプの問題に対応するため、関連する基礎研究の推進とその統合を進める。

さらに、東ロボの取り組みを通じて、文脈を理解し常識・専門知識の双方を備えた対話や質問応答を実現して、様々なサービスに展開するとした。

※1 深層学習による文書表現技術の一種。極めて大規模なテキストデータを用いた単語の並び情報をもとに文書の的確な表現を獲得できる。対象とする課題のデータが少量であっても、これらの表現をもとに学習を行うことで、数多くの自然言語処理の課題で最高レベルの性能が達成されている。
※2 あるデータで学習したモデルを他のデータでも利用可能とするような学習のこと。ドメイン適応やファインチューニングともいう。XLNetなど大規模なテキストデータから得られた文書表現のモデルをセンター試験などの特定の問題を解くために利用することは転移学習の好例である。

モバイルバージョンを終了