ロスト・イン・トランスレーション:Google翻訳、ヨルバ語などのアフリカの言語に苦戦

ウィキメディア・ユーザグループ・ナイジェリア、2018年10月、ウィキメディア・コモンズより転載 CC.BY.2.0

インターネットの黎明期から、コミュケーションの手段として、英語は「世界共通」言語としてネット上の会話を牛耳ってきた。WebTech3(原文ママ)によれば、2020年2月現在、ウェブサイトの過半数は英語で作成されている。

しかし、より多くの人々がオンラインで異なる言語を使用するため、言語のデジタル革命が起こった。つまり、ボタンをクリックするだけで、英語翻訳されたコンテンツにすぐにアクセスできるようになったのである。

近年、多くのテック企業が、ネット上にある英語以外の単語を詳細に記録することに精力を注いできた。その結果、多くの言語にデジタル化の道が開けた。例を挙げれば、GoogleYoruba NamesMasakhane MTALCなどの既存・スタートアップ企業が、英語以外の言語にテクノロジーを導入しようと奮闘してきた。

Googleは、新しい言語の追加を4年間休止していたが、2020年2月下旬、キニャルワンダ(ルワンダ)語、ウイグル語、タタール語、トルクメン語、オリヤー語の5言語をGoogle翻訳に新たに追加すると発表した

オンラインテキストを読んで頭をかかえる男性。Oladimeji Ajegbile撮影。Pexelsのオープンソース素材から転載。

しかしながら、翻訳オプションをクリックして表示された英訳がまあまあのレベルだったり、最悪の場合、全く意味が通じないものだったりしたことはないだろうか?

こういった類の言語翻訳とアクセスには、多くの論争が起こり、難しさが浮き彫りになっている。

ツイッターは、Google翻訳を活用することで、ヨルバ語のツイートを英語に可能な限り翻訳できるようになっている。そして多くの場合、その翻訳が全く意味不明ということはなく、単語のいくつかは正しく翻訳されている。

こういった問題が起こる原因は、テック企業が通常、英訳に使う言語データをインターネット上のサイトから収集していることにある。このデータは一部の言語では機能するだろうが、ナイジェリアの2つの主要言語であるヨルバ語やイボ語では課題がある。これらの単語では、声調(トーン)を示すアクセント記号が不十分または不正確な場合、正確に翻訳できない。

新たに5つの言語を追加するのに、Googleはなぜ4年かかったのかと聞かれて、同社の広報担当は次のように説明した

 Google Translate learns from existing translations found on the web, and when languages don’t have an abundance of web content, it’s been difficult for our system to support them effectively. … However, due to recent advances in our machine learning technology, and active involvement from our Google Translate Community members, we’ve been able to add support for these languages.

Google翻訳は、ウェブ上に既にある対訳データから学習しています。ウェブコンテンツが十分にない言語の場合、当社のシステムでは実用に耐える翻訳を提供することが難しかったのです。(中略)しかし最近、当社の機械学習技術が進歩し、さらにGoogle翻訳コミュニティ・メンバーが積極的に参加したので、こういった言語の翻訳を追加することが可能になりました。

さらに、これらの言語を話す人のほとんどは、正しくつづることが苦手である。その結果正しい翻訳ができない。その結果、これらのエラーが「スペルミス」とマーク付けできないため、正しく翻訳することができない。

機械翻訳では、いくつかの単語、特に文化的に微妙に意味が異なる単語を誤訳することがある。たとえば、ヨルバ語の「ayaba」と「obabìnrin」という単語は、文化的文脈において異なる意味を持つ。ほとんどの機械翻訳は、両方の単語を「queen」と翻訳する。しかし、伝統的・文化的観点からいうと、「ayaba」と「obabìnrin」の意味は異なることに注意する必要がある。「Ọbabìnrin」は英語で「queen」、「ayaba」は「wife of the king」を意味する。

これらの翻訳の複雑さにもかかわらず、テクノロジーはデジタル空間におけるアフリカ言語の進歩を助け、新しい訳語の作成に拍車をかけてきた。アフリカ言語は、スマートフォンやタブレットなどの新しいガジェットの出現とともに進化し、これらの新しい技術ツールや概念をもとに新しい造語が誕生した。つまり、このようなプロセスが、アフリカ言語の使用法と機能を発展させたのである。

新しいテクノロジーの出現により、多くのアフリカ言語の語彙はより複雑化した。たとえば、ヨルバ語には、erọamúlétutù(「エアコン」)、erọÌbánisọ̀rọ̀(「電話」)、erọÌlọta(「グラインダー」)など、テクノロジーに影響された単語がいくつかある。そして、同様に、イボ語にはekwènti(「電話」)やugbọ̀àlà(「乗り物」)などの単語がある。両語圏では、それらにはその機能に基づいた名前が付けられている。

ヨルバ語の放送や広告に関する講座では、学生たちは、ほとんどの人がテレビのことをerọamóhùnmáwòránと呼んでいると教えられる。しかし、この新語についてはいろいろ質問や意見が出てくる。機能に基づいて名前を付けるなら、ビデオカメラやレコーダーも「erọ amóhùnmáwòrán」と呼ぶことができると主張する学生もいる。

テクノロジーの分野でこのような言語学的課題が出てくることは、言語にとっては健全なことである。これに刺激されて、言語とテクノロジー双方の発展に役立つ議論が真剣になされるからだ。

CNNによると、Googleは2019年に、「アフリカの言語データをより正確にキャプチャするGoogle翻訳の機能」向上に取り組むために、ガーナの首都アクラに最初のAI研究センターを開設した。CNNの報告によると、アフリカでGoogleのAI研究を統括する研究科学者ムスタファ・シセ(Moustapha Cisse)氏は、「2,000以上の方言を持つアフリカ大陸は、さらに良い翻訳サービスの恩恵を受けて当然である」と信じている。

Mozillaとドイツ連邦経済開発協力省(BMZ)は最近、アフリカの言語を対象とした音声技術の開発に共同で取り組むことを発表した。このような取り組みによって、アフリカの言語の研究分野では、将来ますます多くの成果が期待できる。

コメントする

Authors, please ログイン »

コメントのシェア・ガイドライン

  • Twitterやfacebookなどにログインし、アイコンを押して投稿すると、コメントをシェアできます. コメントはすべて管理者が内容の確認を行います. 同じコメントを複数回投稿すると、スパムと認識されることがあります.
  • 他の方には敬意を持って接してください。. 差別発言、猥褻用語、個人攻撃を含んだコメントは投稿できません。.