NLP
Open JTalk をMacbook proで試してみたのでメモ。 Open JTalkとは 日本語テキストを入力すると音声データを出力する、オープンソースのHiddenMarkovModelのテキスト音声合成システム open-jtalk.sp.nitech.ac.jp 手順 こちらの記事「macでコードから音声を喋…
以前の記事で、JuliusをmakeコマンドでコンパイルしたらHomebrewが動かなくなった事件について書いた。 rohani.hatenablog.com その後、JuliusはRaspberryPiで使って満足していたのだけれど、先日思い立ってbrew installも試してみたら、ちゃんとインストー…
ちょっと前の話なので記憶が薄れてしまっているのだけれど、メモを見つけたのでここにメモしておく。 Juliusをmakeコマンドでコンパイルしたら、brew installができなくなった brew install時に出るエラーや brew doctorのメッセージには、直接的に解決に導…
「喋っている会話の中で言われた名前の回数をカウントするものがほしい。」 「おー面白そ」 ってことで作りました。 要件 自然発話による会話を音声認識し、発話中の対象固有名詞をリアルタイムに検出する 対象固有名詞の回数をカウントし、コマンドライン出…
書籍情報 【タイトル】自然言語処理の基本と技術 【著者名】グラム・ニュービック,萩原正人,奥野陽,小町守 【出版社名】翔泳社 【出版年】2016 内容情報 自然言語処理の概要が分かりやすく説明されているので,この分野について体系的に知ることができる…
書籍情報 【タイトル】自然言語処理の基本と技術 【著者名】グラム・ニュービック,萩原正人,奥野陽,小町守 【出版社名】翔泳社 【出版年】2016 内容情報 自然言語処理の概要が分かりやすく説明されているので,この分野について体系的に知ることができる…
書籍情報 【タイトル】自然言語処理の基本と技術 【著者名】グラム・ニュービック,萩原正人,奥野陽,小町守 【出版社名】翔泳社 【出版年】2016 内容情報 自然言語処理の概要が分かりやすく説明されているので,この分野について体系的に知ることができる…
用途 正規表現を用いて検索や置換を行うとき。 (私の場合、大量のデータに一括で置換処理を施したいときは、linuxコマンドsedを使うことが多い。 少量のデータに一括で置換処理を施したいときは、経過が観やすいvimの:%sを使うことが多い。) インポート im…
輪講で紹介するにあたって、整理のためにまとめた。せっかくなのでシェア。 0. 出典 P18-1184, author = "Ma Jing and Gao Wei and Wong Kam-Fai", title = "Rumor Detection on Twitter with Tree-structured Recursive Neural Networks", booktitle = "Pro…
Twitterは一部言語で280文字までの投稿を許したが、PythonのTwitter API ラッパー "Tweepy" は141文字以上の投稿にデフォルトでは対応していない。 Tweet updates — Twitter Developers 長い投稿を取ってくるためにはREST API のリクエストのエンドポイント…
輪講で紹介する論文について理解を深めるために、落合さんフォーマットにまとめた。 折角なのでシェア。間違ってたら教えて下さると助かります。 0. 出典 Liu, Ting, Yiming Cui, Qingyu Yin, Weinan Zhang, Shijin Wang and Guoping Hu. “Generating and Ex…
前回の記事で、啞が消え、アがアにされてしまうという問題が発生した。 それに対し、前回の記事では「nkfの問題かな?」と予想していた。 そこで今回は、nkfによる変更を行わずに中身を見てみることにする。 test.txtはUTF-8で書かれているので、UTF-8の符号…
テキストファイルをバイナリでみる方法 hexdump というUNIXコマンドを使うと16進数でみることができる。 また、 nkf というUNIXコマンドを使うと文字コードを変換できる。 これらを使って、任意のテキストファイルの内容を「普通に」「JISコードで符号化して…
輪講でも度々登場するBPE(Sennrich, 2016)を勉強のために書いてみた。 論文に乗っている Algorithm 1 Learn BPE operations そのまま。→ import re, collections def get_stats(vocab): pairs = collections.defaultdict(int) for word, freq in vocab.items…