膨大な対訳データがなくても
2019年10月29日の日経に、米フェイスブックやスパインのバスク大学が、膨大な対訳データがなくても、自動翻訳ができる技術が注目されているという記事がありました。
- 英語とフランス語で翻訳するサイトが公開
- 従来のAI翻訳は、大量の対訳データが必要。AIが訳した文章を正しい訳と比較して、どこが違っているのかをAIが学ぶ(訳の法則性を習得)
- 今回の技術は、対訳ではなく、約3000万個の膨大な文章データを別々の言語で学ぶ
- 対訳データ10万対より、翻訳の精度が高い
- 各言語の文を学ぶだけで翻訳する
- 単語を、数値に置き換えて訳し方を学ぶ。数値に単語の意味が表現されている
- 例えば、「男」と「Man」は近い数字であるとAIが学ぶ
- 法律や医療など専門用語は対訳データが得にくいので、この手法が有効
また、検索すると、この2つの方式について、2017年11月30日のGIGAZINEに説明がありました。
逆翻訳を利用してAIをバイリンガルにする新しい翻訳技術が開発中 - GIGAZINE
- 新技術では対訳データで、「あなたの推測は正しい」と教えることなく、AIが独自の辞書を作りあげる
- 多くの言語には類似点が存在する(「イス」と「テーブル」は一緒にでるなど)
- このような共起性をもとにマッピング。翻訳のための辞書をつくる
- 逆翻訳とノイズ除去を使用(※記事には技術的な説明がありました)
- 文章構造のより深いところまでを学べる仕組み
- 1つの言語を、別の言語に変える前に一度抽象的な表現にするという仕組み
コメント
技術のことは、十分には分かりませんでしたが、機械翻訳が出した答えを、従来のAI翻訳では膨大な対訳データで補正しているところを、今回の技術では対訳データではなく言語を一旦抽象的なレベルに表現してから、別の言語でその抽象的な内容にするのだと理解しました。(理解がちがっていたら、すみません)
日本語から、例えば、アフリカの知らない言語に翻訳するときに、一回、英語を経由するようなものかとも思いましたが、概念のレベルで表現するということなのかもしれません。
記事を読んでもわからなかったのは、今回の辞書というものが、単語レベルの話なのか、文の構造・意味のようなものなのかは良く分かりませんでした。
また、GIGAZINEの記事に、新しい技術の特徴が、逆翻訳やノイズ除去とあったのですが、従来のAI翻訳でもやっているのではないかと思いました。
技術的な説明を、新聞記事や雑誌記事で理解するのは、難しいなと思いました。分かる人には分かるのでしょうが。
双方の記事に、従来の対訳データと組み合わせると良いともありましたので、そうなるのだと思います。
特に、スラング、医療用語、法律用語など、専門的な用語は、対訳データが得にくいため、それを補うすることができるようです。
日本語を読む時間と英語を読む時間を比較すると、1.5~2倍程度の時間がかかります。それが、機械翻訳なら一瞬で翻訳してくれるので、この点は、便利だなと思います。
いつかは、言語を意識せずに、仕事ができる時代が来るのだと思います。自分が仕事をする、あと10年ほどの間に、どれだけ進化するのか期待しています。