『自然言語処理の基本と技術』〜NLPの概説本〜(2)
書籍情報
内容情報
自然言語処理の概要が分かりやすく説明されているので,この分野について体系的に知ることができる.
各トピックについて推薦図書やツールなどが示されているので,既にNLPに関して軽い知識を持っている人にも一読の価値がある.
3章 日本語入力と自然言語処理
日本語入力は,様々な技術的障壁を乗り越えることで実現されます.
- 日本語入力の難しさは,10万字以上の漢字が存ること,単語の区切りが明確でないことから来る
- かな漢字変換は日本語入力において大きなタスクであり,同音異義語の選択と文節区切りの推定という2つの課題がある
- 以前は辞書を用いた単語単体での漢字変換が行われていたが,現在は文単位での変換が行われている
- 連文節変換:文節の区切りを自動的に定めて変換する.同音異義語の選択に前後の単語を文脈として利用する
- 連文節変換を行うためには膨大な変換候補を検索する必要があり,そのための効率的なデータ構造が用いられる
- トライ:1つの接点に1つの文字が対応する木構造.共通接頭辞検索ができる
- 連文節変換を行うためには膨大な変換候補の中から最適解を効率的に求める必要がある
- ビタビアルゴリズム:辞書引き結果をラティス構造で格納し,変換候補に含まれる連接スコアの合計が最大となる候補を見つける
- 変換候補の順位付けには統計的言語モデルが利用される
- 単語ユニグラムモデル:単語の出現頻度順.単語同士のつながりやすさを考慮できない
- 品詞Ngramモデル:品詞の繋がりやすさの知識を用いて単語同士のつながりやすさを推測.表層系の情報が使われない
- 単語Ngramモデル:単語Ngramの出現頻度順.
- 現在のかな漢字変換は,入力されたひらがな以外の情報(周辺文脈)をきちんと考慮しきれていないという課題がある
- 予測変換(入力中の単語を保管する機能・確定後に続く単語を予測する機能)はそれなりにうまくいってる