2018-06-01から1ヶ月間の記事一覧
Twitterは一部言語で280文字までの投稿を許したが、PythonのTwitter API ラッパー "Tweepy" は141文字以上の投稿にデフォルトでは対応していない。 Tweet updates — Twitter Developers 長い投稿を取ってくるためにはREST API のリクエストのエンドポイント…
Mathjaxを埋め込む基本方法 [tex: texの数式] 特殊ケース 前の記事を投稿するにあたって引っかかったことをまとめる。 下付き文字列を複数含む式を表示したい 通常:[tex: a_{str}+b_{str}] → [tex: a{str}+b{str}] 修正法:[tex: a\_{str}+b\_{str}] → ギリ…
輪講で紹介する論文について理解を深めるために、落合さんフォーマットにまとめた。 折角なのでシェア。間違ってたら教えて下さると助かります。 0. 出典 Liu, Ting, Yiming Cui, Qingyu Yin, Weinan Zhang, Shijin Wang and Guoping Hu. “Generating and Ex…
数ヶ月前、MacBookAirを一度工場出荷時に戻した。 自分のPCの使い方が安定してきて、いままでのスタイルの開発環境やディレクトリ構造やらが煩わしくなってきたから。 その時の手順メモを纏めておく。 環境 MacBookAir (2013) Intel Core i5 MacOS High Sier…
前回の記事で、啞が消え、アがアにされてしまうという問題が発生した。 それに対し、前回の記事では「nkfの問題かな?」と予想していた。 そこで今回は、nkfによる変更を行わずに中身を見てみることにする。 test.txtはUTF-8で書かれているので、UTF-8の符号…
テキストファイルをバイナリでみる方法 hexdump というUNIXコマンドを使うと16進数でみることができる。 また、 nkf というUNIXコマンドを使うと文字コードを変換できる。 これらを使って、任意のテキストファイルの内容を「普通に」「JISコードで符号化して…
系列長の違う複数の特徴系列(振れ幅 1〜200くらい)を、ミニバッチ化するために纏める時、 面倒に思って、データ全体を通して同じ系列長でパディング処理を施して纏めた。 そうしたら順方向RNN(many2oneで次の層に隠れ層を渡す)がうまく学習できなくなっ…
背景 Twitter API には一定時間内に叩ける制限回数があるので,Tweetを収集し続けたいときなどは,あと何回叩けるのかを把握しておきたい. しかしデフォルトのツイート検索関数api.search()(Return type: list of SearchResult objects)はその情報を含ん…
輪講でも度々登場するBPE(Sennrich, 2016)を勉強のために書いてみた。 論文に乗っている Algorithm 1 Learn BPE operations そのまま。→ import re, collections def get_stats(vocab): pairs = collections.defaultdict(int) for word, freq in vocab.items…
まさにこちらの記事の通り。 githubで本名が暴露してしまった件 MacをクリーンインストールしたのでGitも初期化されているという事を失念し、やらかしてしまった。 紹介通り、漢字フルネームでリポジトリに表示される。 リポジトリの削除は、リポジトリの画…
インターンの時にとったメモをいま見返したら、結構重要そうなことが書いてあったので、ここにまとめておく。 研究のサイクル 高専でも卒研をしておいて今更だけれど,(初めてまともに)研究のサイクルを教わった. サーベイ 手法提案 実装 実験 評価 → 2へ…