rohaniのブログ

ゆるっと自然言語処理奴。ときどき工作系バイト。

NLP

オープンソースの音声合成システム Open JTalk をHomebrewで導入して喋らせてみた

Open JTalk をMacbook proで試してみたのでメモ。 Open JTalkとは 日本語テキストを入力すると音声データを出力する、オープンソースのHiddenMarkovModelのテキスト音声合成システム open-jtalk.sp.nitech.ac.jp 手順 こちらの記事「macでコードから音声を喋…

JuliusをHomebrewでインストールしなおしてみた

以前の記事で、JuliusをmakeコマンドでコンパイルしたらHomebrewが動かなくなった事件について書いた。 rohani.hatenablog.com その後、JuliusはRaspberryPiで使って満足していたのだけれど、先日思い立ってbrew installも試してみたら、ちゃんとインストー…

JuliusをmakeしたらHomebrewが動かなくなったので、アンインストールした

ちょっと前の話なので記憶が薄れてしまっているのだけれど、メモを見つけたのでここにメモしておく。 Juliusをmakeコマンドでコンパイルしたら、brew installができなくなった brew install時に出るエラーや brew doctorのメッセージには、直接的に解決に導…

Raspberry Pi 3b+ と Julius で単語カウンターを作った

「喋っている会話の中で言われた名前の回数をカウントするものがほしい。」 「おー面白そ」 ってことで作りました。 要件 自然発話による会話を音声認識し、発話中の対象固有名詞をリアルタイムに検出する 対象固有名詞の回数をカウントし、コマンドライン出…

『自然言語処理の基本と技術』〜NLPの概説本〜(3)

書籍情報 【タイトル】自然言語処理の基本と技術 【著者名】グラム・ニュービック,萩原正人,奥野陽,小町守 【出版社名】翔泳社 【出版年】2016 内容情報 自然言語処理の概要が分かりやすく説明されているので,この分野について体系的に知ることができる…

『自然言語処理の基本と技術』〜NLPの概説本〜(2)

書籍情報 【タイトル】自然言語処理の基本と技術 【著者名】グラム・ニュービック,萩原正人,奥野陽,小町守 【出版社名】翔泳社 【出版年】2016 内容情報 自然言語処理の概要が分かりやすく説明されているので,この分野について体系的に知ることができる…

『自然言語処理の基本と技術』〜NLPの概説本〜(1)

書籍情報 【タイトル】自然言語処理の基本と技術 【著者名】グラム・ニュービック,萩原正人,奥野陽,小町守 【出版社名】翔泳社 【出版年】2016 内容情報 自然言語処理の概要が分かりやすく説明されているので,この分野について体系的に知ることができる…

re 〜正規表現を用いて検索・置換〜

用途 正規表現を用いて検索や置換を行うとき。 (私の場合、大量のデータに一括で置換処理を施したいときは、linuxコマンドsedを使うことが多い。 少量のデータに一括で置換処理を施したいときは、経過が観やすいvimの:%sを使うことが多い。) インポート im…

Rumor Detection on Twitter with Tree-structured Recursive Neural Networks

輪講で紹介するにあたって、整理のためにまとめた。せっかくなのでシェア。 0. 出典 P18-1184, author = "Ma Jing and Gao Wei and Wong Kam-Fai", title = "Rumor Detection on Twitter with Tree-structured Recursive Neural Networks", booktitle = "Pro…

Tweepyで140文字より長いツイートを取ってくる

Twitterは一部言語で280文字までの投稿を許したが、PythonのTwitter API ラッパー "Tweepy" は141文字以上の投稿にデフォルトでは対応していない。 Tweet updates — Twitter Developers 長い投稿を取ってくるためにはREST API のリクエストのエンドポイント…

Generating and Exploiting Large-scale Pseudo Training Data for Zero Pronoun Resolution.

輪講で紹介する論文について理解を深めるために、落合さんフォーマットにまとめた。 折角なのでシェア。間違ってたら教えて下さると助かります。 0. 出典 Liu, Ting, Yiming Cui, Qingyu Yin, Weinan Zhang, Shijin Wang and Guoping Hu. “Generating and Ex…

啞とアが符号化できなかった問題についてもうちょっと深掘りしてみた(UTF-8)

NLP

前回の記事で、啞が消え、アがアにされてしまうという問題が発生した。 それに対し、前回の記事では「nkfの問題かな?」と予想していた。 そこで今回は、nkfによる変更を行わずに中身を見てみることにする。 test.txtはUTF-8で書かれているので、UTF-8の符号…

授業で文字コード(JIS, Shift-JIS, EUC)の話を聞いたけど、さっぱりイメージできなかったので実際に見てみた

テキストファイルをバイナリでみる方法 hexdump というUNIXコマンドを使うと16進数でみることができる。 また、 nkf というUNIXコマンドを使うと文字コードを変換できる。 これらを使って、任意のテキストファイルの内容を「普通に」「JISコードで符号化して…

サブワード分割手法 BPE(Sennrich, 2016) をPythonで実装してみた

輪講でも度々登場するBPE(Sennrich, 2016)を勉強のために書いてみた。 論文に乗っている Algorithm 1 Learn BPE operations そのまま。→ import re, collections def get_stats(vocab): pairs = collections.defaultdict(int) for word, freq in vocab.items…