2014年2月18日火曜日

多言語対応の問題

kshara です。今日の私の Mynd "Discover" タイムラインに現れた、英語記事と日本語記事。日本語の方は英語のオリジナル記事を元にした報道。

実は Mynd 内部のアルゴリズム自体は、本質的に言語に非依存です。つまり、日本語の記事でも、英語の記事でも、フランス語の記事でもOKです。

さらに、上の私の例のように、ユーザが日本語と英語の記事の両方を読む場合でも、一応は大丈夫です。とは言え、収集しているソースはほとんど日本語のものですし、アルゴリズムは日本語に最適化されていますから、推薦の精度は落ちます。

主な理由は、まず英語の記事が日本語の記事に比べて圧倒的に少ないことです。このため、十分細かく記事を分類できない、英単語のキーワードが強く解釈され過ぎてしまう、推薦対象の記事のヴァリエーションが十分でない、などなど、色々な問題が生じます。

他の国へのサーヴィス展開は現段階では楽しい夢に過ぎませんが、技術的には大して困難ではない、と(私は)思っています。しかし、多言語が混じっている環境は、かなり難しい。今のところ、どうすれば一言語だけの場合と同レベルでサーヴィス提供できるのか、良く分かりません。


このエントリーをはてなブックマークに追加