- Global Voices 日本語 - https://jp.globalvoices.org -

インドのオリヤー語、Googleとマイクロソフトの翻訳サービスが始まる

カテゴリー: 南アジア, インド, テクノロジー, 市民メディア, 言語, ライジング・ヴォイセズ
Collage of Odia Book Covers. Image via Flickr by Erin Mclaughlin. From the Flickr set Odia Book Covers. CC BY 2.0. [1]

オリヤー語の本、表紙コラージュ。エリン・マクラフリンによるFlickrのスクリーンショット。同氏のFlickrアルバム「Odia Book Covers」から。 CC-BY 2.0 [2].

今年、オープンソース・コミュニティ(訳注)の取り組みに先駆けて、Google [3]マイクロソフト [4]が自社の機械翻訳エンジンの対応言語にインドのオリヤー語 [5]を加えた。Google翻訳は2月、マイクロソフトはさらに最近の8月13日のことである。

(訳注:開発したシステムのソースプログラムを公開し、改変も含めて自由に利用できるようにすることを目指している)

オリヤー語 [5]はインド・オリッサ州 [6]の公用語、同ジャールカンド州 [7]の第二公用語である。オリヤー語を母語とする人は約3千5百万人、第二言語とする人は約4百万人いる。1,500年以上の文学的伝統があるかなどの所定の要件に基づいて、インド政府はオリヤー語を同国の古典語 [8]に指定している。

しかしながら、デジタルの世界でオリヤー語の存在感は薄い [9]。たとえば、オリヤー語テキストの最大級の書庫となっているオリヤー語ウィキペディアは、2011年に9年間の休眠 [10]から復活したものの、現在でも15,858記事 [11]しか掲載していない。対して、オリヤー語とほぼ同じ数の話者がいるマラヤーラム語では、ウィキペディアに7万記事 [12]が掲載されている。オリヤー語コンテンツは画像もしくはPDFの形式で相当以前からオンラインで利用可能になっていた。一例を挙げれば、オリッサ州発行の雑誌ウッカル・プラサンガ(Utkal Prasanga) [13]は今でも画像とそれにリンクしたPDFファイルの構成で編集・発行されている。オリヤー語の文字コード体系としてUnicodeが採用 [14]されたのが遅かったため、検索可能なコンテンツは少ない。

機械翻訳を利用すれば、コンテンツの検索や利用がその言語が分からない人でも容易にできるようになる。そのため、機械翻訳はデジタルの世界で言語の存在感を高める強力な原動力となっている。

Microsoft Translatorアプリ [15]、Office、Translator for Bing [16]、さらにAzure Cognitive Services Translatorなどのマイクロソフトが運用しているクラウドサービスは、すべてオリヤー語からの翻訳をサポートする予定である。Microsoft TranslatorとGoogle翻訳(Web上 [17]でもアプリとして [18]も利用可能)を用いれば、入力エリアに原文を直接貼り付けて翻訳することができる。

さらに、これらのプラットフォームは、テキスト文書やウェブサイトの翻訳、チャットのリアルタイム翻訳もサポートしている。Google翻訳モバイルアプリは、追加機能として、オフラインでの翻訳、手書き文字の認識、カメラ機能を利用したテキストの翻訳 [19]音声コマンドによる通訳モードへの切り替え [20]などもサポートしている。「タップして翻訳」 [21]という機能を使うと、どのアプリを使っていても、アプリの中でタイプしたテキストを直接翻訳することができる。また、対応している言語のテキストであれば、Googleの音声合成を使って、どのような発音か聞くこともできる。

オリヤー語が翻訳サービスに加わったことは、オリッサ州政府から歓迎された。オリッサ州主席大臣の公式ツイートである。

マイクロソフトが、オリヤー語をMicrosoft Translatorの対応言語に加えた。インドでよく使われる言語としては12番目だ。オリヤー語で世界の情報にアクセスしやすくなるし、異なる言葉を話す人同士のコミュニケーションが進むだろう。

オリッサ州政府の電子情報技術局(The Electronics and Information Technology Department)も反応を示した。

世界中で膨大な数の人々に使われているGoogle翻訳が、オリヤー語を対応言語に加えた。母国語でのデジタルリテラシーを向上させる大きな一歩となる。ほかの言語を話す無数の人々がオリヤー語をずっと身近に感じるようになるだろう。

機械翻訳とは

機械翻訳は、テキストや会話を原文言語から訳文言語へ翻訳するために用いられる。Googleは翻訳処理に、ニューラル機械翻訳 [33](英語サイト)と呼ばれる計算システムを採用している。この計算システムは、大量の(原文から訳文への [34])対訳からなるデータセットを用いたニューラルネットワーク [35]と呼ばれる機械学習手法を使っている。

オリヤー語に対応したことで、Google翻訳とMicrosoft Translatorは双方とも、現在、インドの11言語をサポートしている。合計すると、Google翻訳は世界の109の言語を、Microsoft Translator73の言語をサポートしている。

一方で、オープンソース・コミュニティの取り組みでは、オリヤー語の機械翻訳で成功したプロジェクトは、いまだ現れていない。

オープンソース・コミュニティが主導するプロジェクトが少なくとも一つ進行中である。MTEnglish2Odiaプロジェクト [36]では、オリヤー語ウィキペディア [37]などの既存の文書データや、ツイッター [38]上で出資を募っているクラウドファンディング [39]を利用して対訳を集め、機械翻訳エンジンに学習をさせている。

加えて、機械翻訳エンジンの構築に役立つ研究成果 [40]情報源 [41]が、上記以外の組織から提供されている。

機械翻訳の政治学

Google翻訳やMicrosoft Translatorに用いられている技術には、社会的、法的、倫理的、権利的に複雑な面がある。

機械翻訳プラットフォームは、多言語のニュースを素早くキャッチしたいジャーナリスト、多言語の情報源から学びたい学生など、多くの人に大変役に立つ。

同様に音声合成がサポートされていれば、障がい者、特に視力障がい者にとって、情報を手に入れ共有することが一層容易になる。

教育、報道、娯楽産業も、短時間で大量のコンテンツを翻訳するGoogle翻訳の潜在力から得るものは大きい。

他方で、機械翻訳は間違った情報を拡散する場合があり、音声合成機能は相手の言葉を使って人を食い物にしようとする詐欺師を助長する面がある。

世界には確認されているだけで6,000以上の言語 [42]があるが、確立した文字体系を持っているのはほんの一部である。これらが、Google翻訳やMicrosoft Translatorなどの機械翻訳プロジェクトの対象になる言語である。

営利企業が自社のシステムをどの言語に対応させるか判断する際、インターネットを利用している話者数のみならず、その言語のオンラインコンテンツがどの程度利用できるかが、重要な判断材料となる。より多くの言語に対応できれば、対象顧客を狙ったコンテンツをより多く配信できるようになる。その結果、広告 [43]から得られる利益も増えるのだ。

加えて、Google翻訳といったプロジェクトでは権利の帰属と報酬といった倫理上の問題がある。プロジェクトがボランティアを組織化 [44]し、(技術者がツールを継続的に改善するのに役立てるため)既存の翻訳をレビューさせている。

Googleはクラウド翻訳サービス [45]など商業サービスを行っている営利企業である。にもかかわらず、個人のボランティアも、機械翻訳の学習に用いられた多数の公開データソースも、何の権利も報酬も得ていない。

機械学習や人工知能の改良のために、個人的な会話のデータを用いることは、プライバシーの観点からも議論の余地がある。もっともGoogleは、個人が特定されないようデータを加工する方法 [46]を検討している。

費用がネックとなって、コンテンツを多言語で制作することが難しいインドのような国では、Google翻訳やMicrosoft Translatorのような製品やサービスによって、同国のコンテンツの経済事情に変革がもたらされる可能性がある。現在インドの23の言語 [47]に対応しているウィキペディアや、ボランティアに大きく依存しているオンラインの多言語児童文学プラットフォームStoryWeaver [48]などのプロジェクトも変わっていくであろう。

インドにある多くの言語が急速に消滅しつつあり [49]、識字率が低い、デジタル情報へのアクセスが困難といった問題もある。したがって、スムーズなコミュニケーションを確保するためには、音声・映像技術の一層の革新が欠かせない。機械翻訳は言語の消滅を防ぐ現実的なツールとなる可能性がある。しかし、インドにおいては、まだやるべきことが多い。

免責事項:著者は、オリヤー語ウィキペディア [50]2011年からボランティアとして関わり、MTEnglish2Odiaプロジェクト [36]に初期の段階から関わっている。

校正: Mitsuko Yasutake [51]