rohaniのブログ

ゆるっと自然言語処理奴。ときどき工作系バイト。

メモ

空白を改行に置換したいときはperl -pe 's/:/\n/g'が早い

結論:perl -pe 's/:/\n/g' $ perl -pe 's/:/\n/g' FILE 早かった。 参考:改行に置換するためのワンライナー集(tr/sed/perl) · DQNEO起業日記 失敗 Macでsedを使ってファイル内の全ての空白を改行コードにしようとしたら、出来なかった。 $ sed 's/ /\n/g' …

vimで改行への置換を行うには\r、改行を置換するには\nを用いるのは何故か

疑問 自分の環境では、vimで改行への置換を行うには\r、改行を置換するには\nを用いる必要がある。何故か。 結論 自分はmacの言葉で命令していて、ファイルはunixの言葉で記述されていたから。 改行への置換に\rを用いる理由 改行コードは機種依存であり、自…

「できないことがあるのは責めない。けどそれを放置するのは違う。情けないと思わないのか」と叱られた

過去に教えられたり、自分で失敗したことがなければ、「できない」に出会うのは当たり前のことだ。 だから「できない」に出会っても、そのことで落ち込んだり傷ついたりするのは不必要。 よくやっちゃうけど。 でも、「できない」に出会った時に、やり過ごし…

Information visualizationの講義を受けたので用語をまとめる

多変量データの関係性(相関)の可視化 多重座標系を用いたプロット seaborn.pairplotにあたる Gridded Arrangement グリッド型データの配置を変換して描画領域をまとめる 平行座標を用いたプロット XY平面のY軸にあたる部分が特徴の数だけある。データの類…

人工知能学会の特集『患者と医師が使う言葉の違い〜闘病記の医学的な応用に向けて〜』を読んだ

患者と医師が使う言葉の違い〜闘病記の医学的な応用に向けて〜 荒牧 英治,増川 佐知子,宮部 真衣,森田 瑞樹,Eiji Aramaki,Sachiko Maskawa,Mai Miyabe,Mizuki Morita 患者と医師が使う言葉の違い : 闘病記の医学的な応用に向けて(<特集>パーソナルデータに基…

小型ドローン『Tello』とAlexaを連携させてTelloを音声で操ってみる

「へいバイト!ドローンとアレクサを連携させて」 「ラジャー。TelloとAlexaの連携を完了しました。」 なんてね 笑 Tello Controller (Alexaスキル) github.com Alexa スキルアワード 2018 決勝戦に進出されたTello-controllerスキル。 やってみたメモ 上記…

MESH体験コーナーを担当してみて,子どもの振る舞いに思いを馳せる

子どものための科学展に出張してきた 豊橋市視聴覚教育センターにて開催された『子どものための科学展』に,スタッフバイトとして参加してきた. ものづくり体験コーナーでは,3Dプリンタの動く様子を観察できたり,レーザー加工機で作られた立体パズルで遊…

mutableなオブジェクトとimmutableなオブジェクト

前回の記事で、下記のコードと def add_hoge(str): str += 'hoge' str = 'hello ' add_hoge(str) print(str) #> 'hello ' #'hello hoge'にはならない 下記のコード def append_hoge(lst): lst.append('hoge') lst = ['hello'] append_hoge(lst) print(lst) #…

操作なのか、値を返すのか

リスト末尾に要素を追加して返す関数を書こうと思った。 (実際にはもう少し複雑なことをしていたのだけれど)以下のような間違いをした。 def append_hoge(lst): return lst.append('hoge') lst = ['Hello'] print(append_hoge(lst)) #> None 気持ち的には…

『プロフェッショナルの条件(P・F・ドラッカー)』知識労働者について

読んだ本 プロフェッショナルの条件――いかに成果をあげ、成長するか (はじめて読むドラッカー (自己実現編))作者: P・F.ドラッカー,Peter F. Drucker,上田惇生出版社/メーカー: ダイヤモンド社発売日: 2000/07/01メディア: 単行本購入: 88人 クリック: 689回…

処理が終わったらSlackで通知してくれるようにしてみた

学習に長時間かかるので、経過報告やら異常/正常終了報告をして頂けると嬉しいなぁと思い、 とりあえずPythonでSlackAPIを叩いてdirect messageをするスクリプトを書いてみた。 概ね、参考ページを見ればできる。 任意の<TEXT>を任意の<USER ID>に宛ててdirect messageする</user></text>…

ファイル操作系bashコマンドの勉強

Linuxテキスト編集コマンドのすべて を参考に、bashコマンドのおさらいをした。 利用頻度高そうなものをメモしておく。 tail -f file.log ログファイルの監視を続けたい時、末尾を表示し続けられる cut -d, -f 1 file.txt csvファイルのある列を抜き出せる c…

データの観察と前処理について読んだのでまとめる(3)

教材にするKernel COMPREHENSIVE DATA EXPLORATION WITH PYTHON Pedro Marcelino - February 2017 データからターゲットを取り出す前の段階、すなわち「データをよく見る」段階について解説している。 ノート 4.Basic cleaning Outliers の処理 Outliers(外…

インターン選考のwebテストをtrackにて受験

trackというサービスでwebテストを受けた。 応募先はデータ分析系の短期インターン。 よく見る選択形式の問題だけでなく、 オンラインエディタ&実行環境&テスターによるプログラミングスキルの採点もできるようになっていた。 初めて使う際は戸惑うことも…

データの観察と前処理について読んだのでまとめる(2)

教材にするKernel COMPREHENSIVE DATA EXPLORATION WITH PYTHON Pedro Marcelino - February 2017 データからターゲットを取り出す前の段階、すなわち「データをよく見る」段階について解説している。 ノート 1.問題を理解する データ分析チェックシートなる…

データの観察と前処理について読んだのでまとめる(1)

教材にするKernel COMPREHENSIVE DATA EXPLORATION WITH PYTHON Pedro Marcelino - February 2017 データからターゲットを取り出す前の段階、すなわち「データをよく見る」段階について解説している。 ノート このKernelの流れ、ひいてはデータ観察の流れ 問…

与えるデータを変更したら原因不明確なエラーが吐かれた

なんだか原因がはっきりしないエラーが吐き出される。 しかも、実行するごとにエラーコードが変わってる気がするのだが、なんだろこれ。 ...という事態に見舞われた。 結果として、原因は入力データ数がミニバッチ数で割り切れない数だったので、あるひとつ…

Tweepyで140文字より長いツイートを取ってくる

Twitterは一部言語で280文字までの投稿を許したが、PythonのTwitter API ラッパー "Tweepy" は141文字以上の投稿にデフォルトでは対応していない。 Tweet updates — Twitter Developers 長い投稿を取ってくるためにはREST API のリクエストのエンドポイント…

はてなブログのMarkdown記事中にMathjaxでtex数式を埋め込むときの特殊ケース

Mathjaxを埋め込む基本方法 [tex: texの数式] 特殊ケース 前の記事を投稿するにあたって引っかかったことをまとめる。 下付き文字列を複数含む式を表示したい 通常:[tex: a_{str}+b_{str}] → [tex: a{str}+b{str}] 修正法:[tex: a\_{str}+b\_{str}] → ギリ…

Tweepy使いがHTTPヘッダも見たいときのソース修正手順

背景 Twitter API には一定時間内に叩ける制限回数があるので,Tweetを収集し続けたいときなどは,あと何回叩けるのかを把握しておきたい. しかしデフォルトのツイート検索関数api.search()(Return type: list of SearchResult objects)はその情報を含ん…

サブワード分割手法 BPE(Sennrich, 2016) をPythonで実装してみた

輪講でも度々登場するBPE(Sennrich, 2016)を勉強のために書いてみた。 論文に乗っている Algorithm 1 Learn BPE operations そのまま。→ import re, collections def get_stats(vocab): pairs = collections.defaultdict(int) for word, freq in vocab.items…

Gitの初期設定をせずにGitHubにpushすると本名が暴露されてしまうはなし

まさにこちらの記事の通り。 githubで本名が暴露してしまった件 MacをクリーンインストールしたのでGitも初期化されているという事を失念し、やらかしてしまった。 紹介通り、漢字フルネームでリポジトリに表示される。 リポジトリの削除は、リポジトリの画…