Nishinyの商標・ブランド日記

商標・ブランドの情報です。弁理士の西野吉徳のブログです。

対訳のいらないAI翻訳

膨大な対訳データがなくても

2019年10月29日の日経に、米フェイスブックやスパインのバスク大学が、膨大な対訳データがなくても、自動翻訳ができる技術が注目されているという記事がありました。

www.nikkei.com

  • 英語とフランス語で翻訳するサイトが公開
  • 従来のAI翻訳は、大量の対訳データが必要。AIが訳した文章を正しい訳と比較して、どこが違っているのかをAIが学ぶ(訳の法則性を習得)
  • 今回の技術は、対訳ではなく、約3000万個の膨大な文章データを別々の言語で学ぶ
  • 対訳データ10万対より、翻訳の精度が高い
  • 各言語の文を学ぶだけで翻訳する
  • 単語を、数値に置き換えて訳し方を学ぶ。数値に単語の意味が表現されている
  • 例えば、「男」と「Man」は近い数字であるとAIが学ぶ
  • 法律や医療など専門用語は対訳データが得にくいので、この手法が有効

 

また、検索すると、この2つの方式について、2017年11月30日のGIGAZINEに説明がありました。

逆翻訳を利用してAIをバイリンガルにする新しい翻訳技術が開発中 - GIGAZINE

  • 新技術では対訳データで、「あなたの推測は正しい」と教えることなく、AIが独自の辞書を作りあげる
  • 多くの言語には類似点が存在する(「イス」と「テーブル」は一緒にでるなど)
  • このような共起性をもとにマッピング。翻訳のための辞書をつくる
  • 逆翻訳とノイズ除去を使用(※記事には技術的な説明がありました)
  • 文章構造のより深いところまでを学べる仕組み
  • 1つの言語を、別の言語に変える前に一度抽象的な表現にするという仕組み

 

コメント

技術のことは、十分には分かりませんでしたが、機械翻訳が出した答えを、従来のAI翻訳では膨大な対訳データで補正しているところを、今回の技術では対訳データではなく言語を一旦抽象的なレベルに表現してから、別の言語でその抽象的な内容にするのだと理解しました。(理解がちがっていたら、すみません)

 

日本語から、例えば、アフリカの知らない言語に翻訳するときに、一回、英語を経由するようなものかとも思いましたが、概念のレベルで表現するということなのかもしれません。

 

記事を読んでもわからなかったのは、今回の辞書というものが、単語レベルの話なのか、文の構造・意味のようなものなのかは良く分かりませんでした。

また、GIGAZINEの記事に、新しい技術の特徴が、逆翻訳やノイズ除去とあったのですが、従来のAI翻訳でもやっているのではないかと思いました。

技術的な説明を、新聞記事や雑誌記事で理解するのは、難しいなと思いました。分かる人には分かるのでしょうが。

 

双方の記事に、従来の対訳データと組み合わせると良いともありましたので、そうなるのだと思います。

特に、スラング、医療用語、法律用語など、専門的な用語は、対訳データが得にくいため、それを補うすることができるようです。

 

日本語を読む時間と英語を読む時間を比較すると、1.5~2倍程度の時間がかかります。それが、機械翻訳なら一瞬で翻訳してくれるので、この点は、便利だなと思います。

いつかは、言語を意識せずに、仕事ができる時代が来るのだと思います。自分が仕事をする、あと10年ほどの間に、どれだけ進化するのか期待しています。