『自然言語処理の基本と技術』〜NLPの概説本〜(3)
書籍情報
内容情報
自然言語処理の概要が分かりやすく説明されているので,この分野について体系的に知ることができる.
各トピックについて推薦図書やツールなどが示されているので,既にNLPに関して軽い知識を持っている人にも一読の価値がある.
4章 機械翻訳
- 機械翻訳は、自然言語の文を入力とし、違う言語の文に翻訳した文を出力する技術
- 語彙選択の問題:元言語文の中の単語をどのように目的言語文の単語に置き換えるか
- 並べ替えの問題:翻訳された単語をどのように正しく目的言語の順番に並べ換えるか
- フレーズベース機械翻訳
- 階層的フレーズベース翻訳
- フレーズに、単純な単語列だけでなく、穴空きフレーズを用いる
- フレーズベースに比べて多くの計算資源を必要とするが、短距離の並べ替えの精度を大きく向上させる
- string-to-tree翻訳
- 目的言語の構造情報を利用
- フレーズに、穴あきフレーズを用いるが、目的言語においてその穴の果たす文法的な役割が合わせて記される
- 出力された文の文法的な整合性が保証される利点がある一方で、翻訳ルールの構築が必要になるため目的言語側に構文解析器が必要という問題点がある
- tree-to-string翻訳
- tree-to-tree翻訳
- 目的言語と原言語両方の構造情報を利用
- 翻訳精度の人手による評価
- 伝統的な方法は、流暢性と妥当性を1~5の値をつけて評価
- 流暢性:訳文が目的言語の文として自然か
- 妥当性:原言語の文の情報をどれだけ正しく出力文から読み取れるか
- 相対評価:ある訳が他の訳と比較して良いかを聞き、各システムの出力がより良いとされた割合を計算
- 翻訳精度の自動評価
- BLEUスコア:翻訳システムの出力と対訳データ中の目的言語側正解文(参照訳)を比較し、その差が小さければ小さいほど精度が高いと判定
- RIBESスコア:並べ替えの誤りにも対処できる評価手法
- 統計的機械翻訳
- 日英より語順や文法が似ている言語対では、統計的機械翻訳システムの方がルールベース翻訳システムよりも優れている
- 対訳データ
- 収集時は、データが最終的に訳したい用語や文体を上手くカバーしていることが必要
- どの文がどの文に対応しているかは、両言語における文の長さの一致・不一致、対訳辞書を用いた単語の一致・不一致などの情報を利用して判断
- 翻訳システム
- 現状
- 並べ替えの少ない言語間ではフレーズベース翻訳が優勢。高速かつ高精度な翻訳結果を実現
- 並べ替えの多い言語間での機械翻訳は苦手
- 大規模な対訳データの利用により、より頑健な単語の対応づけや確率の推定が可能
- 構造情報を用いない翻訳方式では高精度な並べ替えが実現できない