日本経済新聞 関連サイト

OK
[ liberal arts-大学生の常識 ]

「東ロボくん」がぶつかった
ロングテールの壁

新井紀子 authored by 新井紀子国立情報学研究所教授
「東ロボくん」がぶつかったロングテールの壁
撮影協力:東京理科大学

 めったにお目にかからない事例が全体のかなりの割合を占めている状態を棒グラフにすると、長い尾のように見える。

 こうした現象は「ロングテール」と呼ばれ、物販ではよくある。米アマゾン・ドット・コムでは、売り上げの過半を1年に数点しか売れないような商品が占める。実は大学入試の問題を人工知能(AI)に解かせようとしたときに直面するのもロングテール現象だ。

 大人に「大学入試にはどんな問題が出たか」と聞くと、たいていが「暗記と計算」と答える。科目を指定して、「英語ではどんな問題が出たか」と聞くと、「発音と文法問題」「和文英訳と英文和訳」と答えたりする。

 だが、数学のセンター入試において単純な計算問題は全体の1割程度しかない。英語において発音と文法問題が占める割合も同じぐらいだ。

 AIプロジェクト「ロボットは東大に入れるか」を2011年に始めた後、1年かけて過去20年のセンター入試と旧帝大の個別学力試験(2次試験)を分析した。その結果、「これは何の問題」と分類できるような問題群は、どんなに多く見積もっても全体の半数にとどまることがわかった。

 もう少し具体的に説明しよう。あるリスニングの問題。母と息子の会話が流れる。父親のためにバースデーケーキを手作りしているらしい。息子がたずねる。「ブルーベリーはクリームの上に置いたほうがいいかな、それともクリームとクリームの間に置いたほうがいいかな」

 東ロボは完全に音声認識できた。しかし、そこで問われたのは「この会話の結果としてできあがったケーキはどれか。次の4枚のイラストから選びなさい」である。これはリスニングの問題ではない。リスニングをし、文書の意味とイラストの内容を理解し、そこから常識推論をして判断する――という複合問題なのである。

 デコレーションケーキの問題は一度出たら、たぶん二度と出ない。翌年には、ダンスパーティーへの誘い方が、翌々年にはハンバーガー店での注文の仕方が問われた。

 英語では、航空チケットや博物館の入場料金表のような、広い意味での表の読解も求められる。航空チケットの読み方をAIに覚えさせても、料金表には対応できない。そして、航空チケットがテストに登場するのは一度だけだ。

 このように多様な「状況」が無尽蔵にあるのが人間の社会なのだ。状況が比較的限られる数学や、試験で問うことができる確実な事実に限りのある日本史や世界史とは異なり、英語や国語、物理といった科目では、いくらでも自然に状況を生み出すことができる。

 こうした科目では、パターンで解ける問題は限りがあり、ビッグデータによる統計的手法に頼らざるをえない。では、どれだけのデータが必要になるか。

 今年、東ロボの英語チームは次のような見解を示した。語順整序や文法の穴埋め問題のような「一文を正しくする」問題の正答率を9割程度に上げるために、AIが学習に要したのは約500億文であった。会話文を完成させるような複文問題で9割程度の正答率を達成するには、少なくとも500億の会話のパターンが必要だろう。

 しかし、そのようなデータは存在しないし、自動的に収集できる見込みもない。人手に頼って作成するにはざっと500兆円かかる計算になる。

 これがAIと呼ばれるソフトウエアが抱えている根本的な課題である。このことを再認識するために、私は5年間、このプロジェクトを率いてきた。東ロボが示した可能性と限界が、日本の企業がAI投資を検討する上での客観的データとして活用されることを心から願っている。

あらい・のりこ 一橋大学法学部卒、米イリノイ大学大学院数学科修了。理学博士。2006年より国立情報学研究所教授。「ロボットは東大に入れるか」プロジェクトディレクターを兼務。

[日経産業新聞2016年12月8日付、日経電子版から転載]

「日経College Cafe」のお勧め記事はこちら>>