外国語というものはなぜこんなに難しいのか…。
ただ“単語を覚える”だけではないからなのか、習得にはかなりの努力が必要となる。
例えば英語でgetという動詞はなんと訳すだろうか? …その通り、「得る」だ。
しかし、周りにある言葉によって、“get“はさまざまに意味合いは変わってくる。例えば「get into」は、“~の中に入る“などと訳す。など、と書いたのは、場合によってはさらに違う訳し方をするからだ。“~に就く“や“~の頭の中に入る“などニュアンスは際限なく異なっている。
さじを投げたくなる気持ちもわかろうというものだ。
だが、近い未来にAIがあなたの言語学習を助けてくれるようになるかもしれない。
効率的に学ぶことができれば、少なからず苦手意識は払しょくできるだろう。
そんな研究が進んでいるという。
英語の読解支援を行うことで
英語長文に触れるハードルを下げる
静岡理工科大学情報学部コンピュータシステム学科の江原遥講師は、自身の外国語学習の経験をもとに”こんなものがあったらいいのに”を具現化しようと、語学学習支援の研究を行っている。語学学習支援は、Googleの予測変換や自動翻訳・自動要約などを生み出した”自然言語処理”というジャンルの研究の一部である。AI(人工知能)の一分野でもある”自然言語処理”は、人間が使う自然言語をコンピュータに処理させる技術の総称で、微分積分・線形代数の知識を駆使してAI(人工知能)に”言語を覚えさせる”ことが目的だ。
江原講師が作り出した”語義注釈システム”は、既存の”POP辞書”(https://popjisyo.com/)と呼ばれるシステムを進化させたものだ。”POP辞書”とは、閲覧中のWEBページでわからない単語があった場合、単語にマウスポインタを重ねる、もしくはクリックすることで、ポップアップで日本語訳が表示されるシステム(下図1)である。
そのシステムをより便利にした”語義注釈システム”は、英語学習者が文書中の語を知っているかどうかを判定し、知らない単語に自動的に訳付けし、その”訳語を文章中に埋め込んでしまおう”というものだ。
この仕組みも非常に面白い。まずWEBの閲覧者はわからない単語に行き当たった場合はその単語をクリックする。するとその単語に訳語が表示され、さらに”ユーザが知らない単語”としてログに記録され、蓄積されてゆく(下図2)。
蓄積されたログから閲覧者のクリックパターンを解析し、まだクリックされていないほかの単語に関しても、AIが既知or未知を類推して訳語の表示をしてくれるのだ。この仕組みは未来的ではないか。すでに覚えてしまった単語に関してはクリックで削除もできるので、読解がスムーズに進むだけでなく、単語を覚えることもできるというわけだ。
自然言語処理モデルBERTの登場で
”語学学習支援”の精度を高める試みを
江原講師が次に考えているのが、より専門的な学びを必要とする語学学習者向けのシステムの構築だ。
実務に役立つレベル(研究職やビジネスの専門分野)で使える外国語を習得しなくてはならない場合、それぞれの専門分野に詳しい教師でなくては教えられない言い回しや語感があるのではないだろうか。
2018年10月にGoogleによって発表された、自然言語処理モデル”BERT”は、江原講師のインスピレーションを刺激したのかもしれない。WEB上に無数に転がるテキストから事前学習する”BERT”は、”文脈”を正確に読むという、以前までのモデルにない特徴を持ってリリースされた。これは誤解を恐れずに簡単に言うなら「”BERT”が【単語の使われ方の違い】を理解した」ということだ。
「同じ単語でも、前後の文脈で意味は異なってきます。これは専門分野では特に多くなってきます。例えばperiodは期間・終止符・句点と訳しますが、波動や振動などの”周期”という意味合いもあります。”BERT”を用いた私の手法では、この単語の集合が空間上に点で示されており、意味合い的に近いものは近くに、遠いものは遠くに配置されています」と江原講師は言う。
話を元に戻すと、そんな自然言語処理モデル”BERT”のおかげで単語同士のつながりがより高い精度で表現できるようになった。そこで江原講師は”ユーザが任意の単語の用法を理解しているかどうか?”を判別し、その結果を蓄積して解析…まだ理解されていない用法をあぶりだすような仕組みを考えている。
まずは”BERT”に均衡コーパス(任意の言語のテキストや発話を平均的に集めてデータベース化した資料)を読み込ませる。これによって768次元(!!)という空間にすべての単語が配置されることになる。この多次元のつながりを2次元に変換して、わかりやすい分布図として可視化するのだ(言葉にすると簡単だがその方法は複雑なものであることは言うまでもない)。
そんなデータを利用して「この単語のこの用法はまだ知らないのか」と判断した単語の使い方について「じゃあこれも知らないんじゃないの?」というおススメ例題を作ってくれるようなサービスも考えられそうだ。人の短期記憶の忘却曲線を考慮して出題のタイミングを調整することもできるかもしれない。
また、これを先の”語義注釈システム”と合わせても面白いことができるように思える。
ユーザが文章を読む→未知の単語をクリックする→未知の単語を含む文章をデータとしてストックし、類似の文章を出題する問題集を自動編集…そんなことだってできそうだ。それは教師がオーダーメイドであなたのために問題集を作ってくれているようなものだろう。
「私がやっていることは、直接何か目に見えるモノを作ることだけではないと思っています。自然言語処理分野では、仕組みづくりや考え方を構築することがとても大切ですから」…確かに江原講師は語学学習支援のシステムを研究している。しかし、それを作る際の基準や仕組みがもっと別の新しいサービスを生み出す可能性を作ることの方がより大切なのだろう。
日進月歩の自然言語処理分野の研究のおかげで、
AIで語学学習の苦労が半減するのもそんな遠い未来ではないのかもしれない。
the 研究者
静岡理工科大学
江原遥 講師
世の中の重要な情報はほとんどテキスト(自然言語)の形で蓄積されている。当研究室では、そんな自然言語をコンピュータで扱う「自然言語処理」を研究しており、かな漢字変換・自動翻訳・自動要約などがその分野の一部である。特に語学学習支援など言語に関わる作業を効率的にする研究を行っている。