次元の海で溺れる

Rとデータ解析と統計手法たちとわたし

【独学用】データ分析・統計・機械学習・自然言語処理関連で読んだ本まとめ2014

ううう
ずっとニコニコしてなきゃいけない仕事は慣れなくて疲れた、、

さて

ここ2年(特にここ1年)で独学用に読んだ本について
ざざっとまとめてみようかなと。

有名どこばっかりな気がしなくもない、、、

本人情報

・文系卒
・4年間統計分析系の授業を取ってた
・しかしなぜか専門研究は統計ではない(死ぬほど使ったけど)
・R周りの実装周りは独学が中心(よってコード技術に難あり)
機械学習周りはほぼ100%独学

(1)統計基礎周り

・みんなだいすきみどりぼん


様々なブログで挙げられている通り、
私もとてもとても好きな本です。

例)文系がゼロから統計を勉強するときに最初の1年で読むべき本 - StatsBeginner: 初学者の統計学習ノート

著者の先生が在籍されてる大学の生徒だったので
授業に潜ろう潜ろうと思いつつ願い叶わず。。。

何よりも登場する図表がかなり分かりやすく、
なおかつその図表のRでの実装コードが書いてあって、
勉強する際に実際に手を動かせるのがでかいです。

分布周りの説明や数式も日本語で言い換えられている箇所が多くて
目から鱗。
MCMCの章はあとでまた復習しないとまずい、、


こういう説明が出来るようになりたいないつか。

・統計との出会いのきっかけ

初歩からの統計学 (数理情報科学シリーズ)

初歩からの統計学 (数理情報科学シリーズ)

トウケイッテナニソレオイシイノ?

ってなってた18歳の頃の教科書です。
教科書っぽいし教科書でした。(授業で)

今でも基本を見返したい時たまーに読んだりしてます。
分布周りとかね。特にね。

銀座のデータサイエンティスト様

手を動かしながら学ぶ ビジネスに活かすデータマイニング

手を動かしながら学ぶ ビジネスに活かすデータマイニング

有名な方ですね、、
元々ブログの読者でしたが最近著書も買いました。
H2OのRパッケージ{h2o}でお手軽にDeep Learningを実践してみる(1):まずは決定境界を描く - 銀座で働くデータサイエンティストのブログ

統計の基礎カテゴリに入れるべきところなのか?
っていうジャンルではあるのですが、

統計利用の基礎というかR実装の基礎というか
機械学習の基礎というか、、

データサイエンティストって言葉はあんまり好きじゃないですが、
ちょうどあれこれ次元の呪いにかかってた時期に買ったので
かゆいところに手が届くというか、
「そういうことが知りたかったんだよ!」的なことが
書かれていて好きでした。

「△△な構造のデータセットがあって、〇〇が知りたい」
         ↓
「こういう手法があるよ、Rで××したらいけるよ!」

みたいな。こういう本増えて欲しいんですけどどうなんですかね、、
ニッチ需要なんですかね、、

(2)自然言語処理

バイブル。聖書。神様。

言語処理のための機械学習入門 (自然言語処理シリーズ)

言語処理のための機械学習入門 (自然言語処理シリーズ)

私のバイブル。
いつも鞄に入ってて隙あらばやってます。
(論文時期は泣きながら読んでた。)

テキスト処理に特化した統計処理だったり、
分類器の考え方の本、って感じでしょうか。

なおかつ数式の説明がひっじょーに丁寧で勉強になります。
本当に頭が下がります。

特にベイズ関連の説明なんてもう、、、

グラフ理論のお供に

ネットワーク分析 (Rで学ぶデータサイエンス 8)

ネットワーク分析 (Rで学ぶデータサイエンス 8)

大好き「Rで学ぶデータサイエンス」シリーズです。
というか金明哲さんの本は総じて分かりやすい上にRの実装についても
触れられているというありがたさ。

ネットワーク分析やらグラフ理論に関する本は
なっかなかピンと来るものが無くて、
しかし論文にどうしても使いたくてやっと見つけた本です。
本当に本当にお世話になりました、、、

各中心性指標にはどのような特徴があるか?をきちんと把握しておかないと、
いい解釈も出来ないよねって思います。

(3)機械学習

機械学習は基本的に先に挙げたバイブル「自然言語処理シリーズ」内で
説明されてるものも多いので、
「はじパタ」より前に先でそっちで理論をしっかりやろうかなということで

Rの実装についてのみ補足資料として1冊購入

パターン認識 (Rで学ぶデータサイエンス 5)

パターン認識 (Rで学ぶデータサイエンス 5)

またそのシリーズかよって感じですが。
何はともあれ

・・・重い!!!

3つくらいの意味で重い。
でも色んなパターンのデータで色んな分類器や手法が載っているので
ささーって読むだけでも楽しい。
「こんなん出来るようになりたい!」みたいな。

→「自然言語処理シリーズでSVM周りの理論固め」
→「Rで学ぶ~シリーズでRの実装をやってみる」
→なんか似たような別のデータでテーマ決めてやってみよう!

みたいな、勉強の仕方をしてます。

ランダムフォレストについての記述が無いんですよね~
いい本無いかな~

(4)数学関連

文系・理系とかいう区分けはハイパーナンセンスだと思ってる
数学好き文系ですが

Rでの実装前に理論周りをきっちりやろうとすると、
やっぱり数ⅢCの壁に阻まれる瞬間があって。

やってもやっても期間空くと忘れたりするし・・・

統計的データ解析入門 線形代数

統計的データ解析入門 線形代数

頭の体操をかねてベクトル・線形代数周りは復習してます。
シンプルな説明だけど1単元見開き2ページだからとっつきやすい。

あと何よりもこのシリーズ表紙が好き。
技術系の本こんな感じの表紙になってくれないかなあ

(5)読み物関連

データサイエンティスト養成読本 R活用編 【ビジネスデータ分析の現場で役立つ知識が満載! 】 (Software Design plus)

データサイエンティスト養成読本 R活用編 【ビジネスデータ分析の現場で役立つ知識が満載! 】 (Software Design plus)

データサイエンティストって言葉は好きじゃないけど
Rは好き。大好き。

問題解決のためのデータ分析

問題解決のためのデータ分析

ゴリゴリRとかなんかで統計処理をかけるべきか、
シンプルにExcelとかでやっちゃった方が他者に取って分かりやすいのか、

そういう線引きみたいなものを考えたいと思って買ったのが上の本です。

R大好き勢だけど
Excelで出来ることは別にExcelでやっていい時もあるじゃんって
思う派です。

Excelでデータ触るの親の仇かのように嫌う人居るけど、、
統計処理以外はExcelで触ってもいいじゃんそういうソフトだし、、
遅いけどさあ、、

Rもたまに死ぬほど遅いしさあ、、


Rグラフィックスクックブック ―ggplot2によるグラフ作成のレシピ集

Rグラフィックスクックブック ―ggplot2によるグラフ作成のレシピ集

何も言うまい、、勉強中です
可視化ってセンスめっちゃ問われない、、?って思うこのごろ。


他にも何冊かあるけどいったんこんなもんで区切り、、、

欲しい本とか気になる本について
別途まとめたいです
(忘れないうちに)