rohaniのブログ

ゆるっと自然言語処理奴。ときどき工作系バイト。

『自然言語処理の基本と技術』〜NLPの概説本〜(3)

書籍情報

自然言語処理の基本と技術

  • 【タイトル】自然言語処理の基本と技術
  • 【著者名】グラム・ニュービック,萩原正人,奥野陽,小町守
  • 【出版社名】翔泳社
  • 【出版年】2016

内容情報

自然言語処理の概要が分かりやすく説明されているので,この分野について体系的に知ることができる.
各トピックについて推薦図書やツールなどが示されているので,既にNLPに関して軽い知識を持っている人にも一読の価値がある.

4章 機械翻訳

  • 機械翻訳は、自然言語の文を入力とし、違う言語の文に翻訳した文を出力する技術
    • 語彙選択の問題:元言語文の中の単語をどのように目的言語文の単語に置き換えるか
    • 並べ替えの問題:翻訳された単語をどのように正しく目的言語の順番に並べ換えるか
  • フレーズベース機械翻訳
    • 翻訳モデル・並べ替えモデル・言語モデルを組み合わせて翻訳
    • 翻訳モデル:フレーズを翻訳モデルとして覚えておくと、語彙選択の精度が向上し、並べ換え問題が減る
    • 並べ替えモデル:どのフレーズが言語間で頻繁に並べられるのか、どのフレーズが原言語でも目的言語でも同等の並びになるかを記述する
    • 言語モデル:出力文の流暢性を保証する
    • デコーダ:訳文生成器/翻訳器
    • 翻訳候補の数と翻訳スピードはトレードオフの関係。最適化が必要
    • 文の構造を全く考慮しないので単語の並べ替えに比較的弱い
  • 階層的フレーズベース翻訳
    • フレーズに、単純な単語列だけでなく、穴空きフレーズを用いる
    • フレーズベースに比べて多くの計算資源を必要とするが、短距離の並べ替えの精度を大きく向上させる
  • string-to-tree翻訳
    • 目的言語の構造情報を利用
    • フレーズに、穴あきフレーズを用いるが、目的言語においてその穴の果たす文法的な役割が合わせて記される
    • 出力された文の文法的な整合性が保証される利点がある一方で、翻訳ルールの構築が必要になるため目的言語側に構文解析器が必要という問題点がある
  • tree-to-string翻訳
    • 原言語の構造情報を利用
    • まず構文解析を行い、その構文木上の簡単な規則に基づいて並べ替えを行う
    • 構文解析結果と合致する訳しか生成されないので、原言語分の構文解析が正しければ構文解析結果に基づく訳を生成できる可能性が高くなる利点がある
    • 訳出の過程で考慮する訳文候補の数は他の手法に比べて少なくなり、訳文生成の時間が早いので、長距離の並べ替えなどに取り組む余裕があるという利点もある
    • 他の手法に比べて構文解析の精度への依存度が高いのが欠点
  • tree-to-tree翻訳
    • 目的言語と原言語両方の構造情報を利用
  • 翻訳精度の人手による評価
    • 伝統的な方法は、流暢性と妥当性を1~5の値をつけて評価
    • 流暢性:訳文が目的言語の文として自然か
    • 妥当性:原言語の文の情報をどれだけ正しく出力文から読み取れるか
    • 相対評価:ある訳が他の訳と比較して良いかを聞き、各システムの出力がより良いとされた割合を計算
  • 翻訳精度の自動評価
    • BLEUスコア:翻訳システムの出力と対訳データ中の目的言語側正解文(参照訳)を比較し、その差が小さければ小さいほど精度が高いと判定
    • RIBESスコア:並べ替えの誤りにも対処できる評価手法
  • 統計的機械翻訳
    • 日英より語順や文法が似ている言語対では、統計的機械翻訳システムの方がルールベース翻訳システムよりも優れている
  • 対訳データ
    • 収集時は、データが最終的に訳したい用語や文体を上手くカバーしていることが必要
    • どの文がどの文に対応しているかは、両言語における文の長さの一致・不一致、対訳辞書を用いた単語の一致・不一致などの情報を利用して判断
  • 翻訳システム
    • 単語分割(トークン化)
    • 単語の対応づけ(アライメント):IBMモデル:共起頻度を全て確率的に扱う
    • 翻訳ルール抽出:単語の対応を利用し、構文情報を使った翻訳では構文騎乗の情報にも配慮しながらルールを抽出する
    • ルールの信頼性を、そのルールの頻度などで評価しスコアを計算
    • 統計的機械翻訳では、各訳文候補に対して言語モデル、翻訳モデル、並べ替えモデルなど、様々なモデルが個別スコアを付与し、これを足し合わせることで翻訳候補全体のスコアを算出(重み調整により各モデルの相対的な調整が可能)
  • 現状
    • 並べ替えの少ない言語間ではフレーズベース翻訳が優勢。高速かつ高精度な翻訳結果を実現
    • 並べ替えの多い言語間での機械翻訳は苦手
    • 大規模な対訳データの利用により、より頑健な単語の対応づけや確率の推定が可能
    • 構造情報を用いない翻訳方式では高精度な並べ替えが実現できない