2015-03-05

【独学用購入検討】機械学習・統計・データ分析周りで気になる本まとめ2015

統計

先日は
独学用に実際買ったり勉強したりしたものリストをまとめたので
↓

<a href="http://wafdata.hatenablog.com/entry/2015/03/03/220515">【独学用】データ分析・統計・機械学習・自然言語処理関連で読んだ本まとめ2014 - 次元の海で溺れる</a>

今日は、気になってるけどまだ買えていないものや
今後勉強したいもの、
自らのレベル不足故にまだ勉強始められていないもの、、（小声）

etc

についてざざっと備忘録的にまとめたいというか
どっかにまとめないと忘れそうでこわい

参考ブログ各種

色んな方の書評とか読みつつ、
本屋で実際に手に取りつつ、
自分の好みもありつつ。
欲しい本を決めてます

今年中に勉強したいもの

最優先でやるもの

サンプルサイズの決め方 (統計ライブラリー)

作者: 永田靖
出版社/メーカー: 朝倉書店
発売日: 2003/09/28
メディア: 単行本（ソフトカバー）
購入: 20人クリック: 277回
この商品を含むブログ (14件) を見る

こないだ紀伊国屋で泣く泣く購入を諦めたこちら。
（750円しか持ってなくて）

サンプルサイズ決める時の妥当性って結局なんなのよ。

って今年1月くらいに騒いでいた私なので。

色んな人にそれとなく聞いたら
曖昧に流されたり「経験則、、？」って言われたりした。えええ。

はじぱた

はじめてのパターン認識

作者: 平井有三
出版社/メーカー: 森北出版
発売日: 2012/07/31
メディア: 単行本（ソフトカバー）
購入: 1人クリック: 7回
この商品を含むブログ (2件) を見る

とある人にもう「諦めて買えよ」、って言われたので
諦めて買おうかどうしようか。

My聖書こと高村さんの自然言語処理シリーズだけじゃ、、
やっぱり勉強量足りないですかね、、世のみなさん、、？

続編が出たと聞いて。

心理統計学の基礎―統合的理解のために (有斐閣アルマ)

作者: 南風原朝和
出版社/メーカー: 有斐閣
発売日: 2002/06
メディア: 単行本
購入: 9人クリック: 89回
この商品を含むブログ (23件) を見る

続・心理統計学の基礎--統合的理解を広げ深める (有斐閣アルマ)

作者: 南風原朝和
出版社/メーカー: 有斐閣
発売日: 2014/12/13
メディア: 単行本（ソフトカバー）
この商品を含むブログ (2件) を見る

有名本ですが図書館で借りた程度で
持ってなかったので。

続編が出たらしいですね！！

こないだ札幌で勉強会があったみたいですが、
すっかり出遅れて、後日Youtubeでしんみりと見ました、、
超超超行きたかった、、、

冬頃心の余裕があったら

時系列

経済・ファイナンスデータの計量時系列分析 (統計ライブラリー)

作者: 沖本竜義
出版社/メーカー: 朝倉書店
発売日: 2010/02/01
メディア: 単行本
購入: 4人クリック: 101回
この商品を含むブログ (5件) を見る

通読済だけど
いま手元に無い＆時系列復習したい。

Rで頑張るかPythonに手を出すか問題

入門機械学習

作者: Drew Conway,John Myles White,萩原正人,奥野陽,水野貴明,木下哲也
出版社/メーカー: オライリージャパン
発売日: 2012/12/22
メディア: 大型本
購入: 2人クリック: 41回
この商品を含むブログ (11件) を見る

入門ソーシャルデータ第2版 ―ソーシャルウェブのデータマイニング

作者: Matthew A. Russell,佐藤敏紀(監訳),瀬戸口光宏(監訳),原川浩一(監訳),長尾高弘
出版社/メーカー: オライリージャパン
発売日: 2014/06/21
メディア: 大型本
この商品を含むブログ (2件) を見る

オライリー分厚くて持ち歩けないので、
買うのは先になりそうですが、そのうちね、、

Pythonはいつかやらなきゃいけないと思って
環境構築だけしてある。

本当はとてもとてもやりたいけどまだレベルが追い付いていないもの

何も言うまい。

パターン認識と機械学習上

作者: C.M.ビショップ,元田浩,栗田多喜夫,樋口知之,松本裕治,村田昇
出版社/メーカー: 丸善出版
発売日: 2012/04/05
メディア: 単行本（ソフトカバー）
購入: 6人クリック: 33回
この商品を含むブログ (16件) を見る

パターン認識と機械学習下 (ベイズ理論による統計的予測)

作者: C.M.ビショップ,元田浩,栗田多喜夫,樋口知之,松本裕治,村田昇
出版社/メーカー: 丸善出版
発売日: 2012/02/29
メディア: 単行本
購入: 6人クリック: 14回
この商品を含むブログを見る

黄色い本というよりビショップ本って呼ぶ派。

上巻を読む私「ほ～♪（鼻歌）」
下巻を読む私「･･･ちょっと待って･･･ちょっと･･･」

ってなったのでまだ修行が足りない。

代わりに今年はこれ↓読んどきますね

PRMLガール―文芸部のマネージャーが「パターン認識と機械学習」を

作者: 中谷秀洋
出版社/メーカー: 暗黒通信団
発売日: 2013/09
メディア: 単行本
この商品を含むブログ (3件) を見る

ああ･･･Rガールになりたかったのに
気付いたら20代だよ神様

確率論

確率論周りはどーしてもやりたくて、
しかしまだ高村本のような聖書に出会えず。

さらにその前にそびえ立つルベーグ積分。

ただ初めて統計と出会ったあの日、
私の目の前には
「コロモゴロフの定理を絵でかきます」
って静かに語るお方がいらっしゃったし、

神スライドと崇めているHayamizu momokoさんの
slideshareでも確率やベイズ周りが名文だし、

知り合いに敬虔なベイジアンが居るし、
（名言：「ベイジアンは宗教」）

何がそこまで人を夢中にさせるのか
気になってしょうがないです確率論。

よい本があったら教えて頂きたい。
ポンコツながらもルベーグ積分がんばるので。

こうやって見たら
まだまだ今年も勉強することたくさんあるなー

ちゃんとコードを書くのも今年の目標です。

2015-03-03

【独学用】データ分析・統計・機械学習・自然言語処理関連で読んだ本まとめ2014

データ分析機械学習統計

ううう
ずっとニコニコしてなきゃいけない仕事は慣れなくて疲れた、、

さて

ここ2年（特にここ1年）で独学用に読んだ本について
ざざっとまとめてみようかなと。

有名どこばっかりな気がしなくもない、、、

本人情報

・文系卒
・4年間統計分析系の授業を取ってた
・しかしなぜか専門研究は統計ではない（死ぬほど使ったけど）
・R周りの実装周りは独学が中心（よってコード技術に難あり）
・機械学習周りはほぼ100%独学

(1)統計基礎周り

・みんなだいすきみどりぼん

データ解析のための統計モデリング入門――一般化線形モデル・階層ベイズモデル・MCMC (確率と情報の科学)

作者: 久保拓弥
出版社/メーカー: 岩波書店
発売日: 2012/05/19
メディア: 単行本
購入: 16人クリック: 163回
この商品を含むブログ (21件) を見る

様々なブログで挙げられている通り、
私もとてもとても好きな本です。

例）文系がゼロから統計を勉強するときに最初の１年で読むべき本 - StatsBeginner: 初学者の統計学習ノート

著者の先生が在籍されてる大学の生徒だったので
授業に潜ろう潜ろうと思いつつ願い叶わず。。。

何よりも登場する図表がかなり分かりやすく、
なおかつその図表のRでの実装コードが書いてあって、
勉強する際に実際に手を動かせるのがでかいです。

分布周りの説明や数式も日本語で言い換えられている箇所が多くて
目から鱗。
MCMCの章はあとでまた復習しないとまずい、、

こういう説明が出来るようになりたいないつか。

・統計との出会いのきっかけ

初歩からの統計学 (数理情報科学シリーズ)

作者: 馬場裕
出版社/メーカー: 牧野書店
発売日: 1994/09
メディア: 単行本
この商品を含むブログを見る

トウケイッテナニソレオイシイノ？

ってなってた18歳の頃の教科書です。
教科書っぽいし教科書でした。（授業で）

今でも基本を見返したい時たまーに読んだりしてます。
分布周りとかね。特にね。

銀座のデータサイエンティスト様

手を動かしながら学ぶビジネスに活かすデータマイニング

作者: 尾崎隆
出版社/メーカー: 技術評論社
発売日: 2014/08/22
メディア: 単行本（ソフトカバー）
この商品を含むブログ (6件) を見る

有名な方ですね、、
元々ブログの読者でしたが最近著書も買いました。
・H2OのRパッケージ{h2o}でお手軽にDeep Learningを実践してみる(1)：まずは決定境界を描く - 銀座で働くデータサイエンティストのブログ

統計の基礎カテゴリに入れるべきところなのか？
っていうジャンルではあるのですが、

統計利用の基礎というかR実装の基礎というか
機械学習の基礎というか、、

データサイエンティストって言葉はあんまり好きじゃないですが、
ちょうどあれこれ次元の呪いにかかってた時期に買ったので
かゆいところに手が届くというか、
「そういうことが知りたかったんだよ！」的なことが
書かれていて好きでした。

「△△な構造のデータセットがあって、〇〇が知りたい」
　　　　　　　　　↓
「こういう手法があるよ、Rで××したらいけるよ！」

みたいな。こういう本増えて欲しいんですけどどうなんですかね、、
ニッチ需要なんですかね、、

(2)自然言語処理

バイブル。聖書。神様。

言語処理のための機械学習入門 (自然言語処理シリーズ)

作者: 高村大也,奥村学
出版社/メーカー: コロナ社
発売日: 2010/07
メディア: 単行本
購入: 13人クリック: 235回
この商品を含むブログ (40件) を見る

私のバイブル。
いつも鞄に入ってて隙あらばやってます。
（論文時期は泣きながら読んでた。）

テキスト処理に特化した統計処理だったり、
分類器の考え方の本、って感じでしょうか。

なおかつ数式の説明がひっじょーに丁寧で勉強になります。
本当に頭が下がります。

特にベイズ関連の説明なんてもう、、、

グラフ理論のお供に

ネットワーク分析 (Rで学ぶデータサイエンス 8)

作者: 鈴木努,金明哲
出版社/メーカー: 共立出版
発売日: 2009/09/25
メディア: 単行本
購入: 5人クリック: 62回
この商品を含むブログ (9件) を見る

大好き「Rで学ぶデータサイエンス」シリーズです。
というか金明哲さんの本は総じて分かりやすい上にRの実装についても
触れられているというありがたさ。

ネットワーク分析やらグラフ理論に関する本は
なっかなかピンと来るものが無くて、
しかし論文にどうしても使いたくてやっと見つけた本です。
本当に本当にお世話になりました、、、

各中心性指標にはどのような特徴があるか？をきちんと把握しておかないと、
いい解釈も出来ないよねって思います。

(3)機械学習

機械学習は基本的に先に挙げたバイブル「自然言語処理シリーズ」内で
説明されてるものも多いので、
「はじパタ」より前に先でそっちで理論をしっかりやろうかなということで

Rの実装についてのみ補足資料として1冊購入

パターン認識 (Rで学ぶデータサイエンス 5)

作者: 金森敬文,竹之内高志,村田昇,金明哲
出版社/メーカー: 共立出版
発売日: 2009/10/23
メディア: 単行本
購入: 5人クリック: 61回
この商品を含むブログ (10件) を見る

またそのシリーズかよって感じですが。
何はともあれ

･･･重い！！！

３つくらいの意味で重い。
でも色んなパターンのデータで色んな分類器や手法が載っているので
ささーって読むだけでも楽しい。
「こんなん出来るようになりたい！」みたいな。

→「自然言語処理シリーズでSVM周りの理論固め」
→「Rで学ぶ～シリーズでRの実装をやってみる」
→なんか似たような別のデータでテーマ決めてやってみよう！

みたいな、勉強の仕方をしてます。

ランダムフォレストについての記述が無いんですよね～
いい本無いかな～

(4)数学関連

文系・理系とかいう区分けはハイパーナンセンスだと思ってる
数学好き文系ですが

Rでの実装前に理論周りをきっちりやろうとすると、
やっぱり数ⅢCの壁に阻まれる瞬間があって。

やってもやっても期間空くと忘れたりするし･･･

統計的データ解析入門線形代数

作者: 岩崎学,吉田清隆
出版社/メーカー: 東京図書
発売日: 2006/05
メディア: 単行本
この商品を含むブログを見る

頭の体操をかねてベクトル・線形代数周りは復習してます。
シンプルな説明だけど1単元見開き2ページだからとっつきやすい。

あと何よりもこのシリーズ表紙が好き。
技術系の本こんな感じの表紙になってくれないかなあ

(5)読み物関連

データサイエンティスト養成読本 R活用編【ビジネスデータ分析の現場で役立つ知識が満載! 】 (Software Design plus)

作者: 酒巻隆治,里洋平,市川太祐,福島真太朗,安部晃生,和田計也,久本空海,西薗良太
出版社/メーカー: 技術評論社
発売日: 2014/12/12
メディア: 大型本
この商品を含むブログ (2件) を見る

データサイエンティストって言葉は好きじゃないけど
Rは好き。大好き。

問題解決のためのデータ分析

作者: 齋藤健太
出版社/メーカー: クロスメディア・パブリッシング(インプレス)
発売日: 2013/09/13
メディア: 単行本（ソフトカバー）
この商品を含むブログを見る

ゴリゴリRとかなんかで統計処理をかけるべきか、
シンプルにExcelとかでやっちゃった方が他者に取って分かりやすいのか、

そういう線引きみたいなものを考えたいと思って買ったのが上の本です。

R大好き勢だけど
Excelで出来ることは別にExcelでやっていい時もあるじゃんって
思う派です。

Excelでデータ触るの親の仇かのように嫌う人居るけど、、
統計処理以外はExcelで触ってもいいじゃんそういうソフトだし、、
遅いけどさあ、、

Rもたまに死ぬほど遅いしさあ、、

Rグラフィックスクックブック ―ggplot2によるグラフ作成のレシピ集

作者: Winston Chang,石井弓美子,河内崇,瀬戸山雅人,古畠敦
出版社/メーカー: オライリージャパン
発売日: 2013/11/30
メディア: 大型本
この商品を含むブログ (2件) を見る

何も言うまい、、勉強中です
可視化ってセンスめっちゃ問われない、、？って思うこのごろ。

他にも何冊かあるけどいったんこんなもんで区切り、、、

欲しい本とか気になる本について
別途まとめたいです
（忘れないうちに）

2015-03-01

地震発生データと都道府県地価データをRであれこれして知見を得る(1)

データ分析統計 R

最近機械学習に勉強ばっかりしてたところ

ふと

やっぱたまには原点に返って何かしてみることも重要だよ

というもう一人の自分からの声が聞こえたので、おもむろにデータから作ってみることに。

テーマ作ってデータ集めて
なんかするのは大変久々な気がする。やっぱ原点に返るのは（略）

主題

「地震発生回数が増大すると、翌年の地価に影響ってあんのかな？」
　　　→特に震度のでかさよ。

データをつくる

地震発生に関するデータはここから
地震情報 - Yahoo!天気・災害

都道府県別の地価データに関してはここの【表】2から
平成26年都道府県地価調査

それぞれお借りしました。

地価データは.xlsで取ってこれたのでまあいいとして、、、
問題は地震に関するデータ処理です。

f:id:WAFkw:20150301012051p:plain

うええ、、要前処理感、、、

RでWEBスクレイピングしたかったのですが苦手なので、
とりあえず昔作ったマクロでごそっと抜いてきました。

地価データが2013年、2014年のものなので
地震データはまず2013年のものを使うことにして、

行った前処理は以下です。

①震源地を国内に限定
②震源地を「都道府県」単位に加工
　　※湾の位置に無知すぎて死ぬほど時間かかった泣きそう。
　　※具体的には「浦河沖→北海道」とかのパターンを大量に作って
　　　機械的にやった感じですin Excel。
　　※このへんの処理はRでやったりexcelでやったり日頃はいろいろですが、、、
③これらをごそっと！ピボットテーブル！！！！
　　※反省はしてます。おかげで楽でした。
④地価データは遷移を見たいので2013年と2014年の差分を取りました。
④地価データと地震データをマージ

出来たデータがこちらです。

> data=read.table("clipboard",header=TRUE)
> data
       住宅地 商業地 工業地 総回数 震度１ 震度２ 震度３ 震度４ 震度５弱 震度５強 震度6弱
北海道      0    500  -5000    157     97     39     17      3        0        1       0
青森     -600  -1300   -600     32     18      8      5      1        0        0       0
岩手     -200      0   -400    121     83     23     10      5        0        0       0
宮城      900   6600    400    301    180     90     25      4        1        1       0
秋田     -600  -1400   -600     31     21      9      1      0        0        0       0
山形     -200   -700   -300     10      9      0      1      0        0        0       0
福島     1100    300    100    286    165     81     30      8        0        2       0
茨城     1400    500  -1700    317    182     97     24     10        4        0       0
栃木     -600  -2700   -400    131     79     39      9      3        0        1       0
群馬     -500  -1000  -1200     11      6      3      1      1        0        0       0
埼玉     1400   3300    200     10      7      2      1      0        0        0       0
千葉      800   4100   1300    138     90     33      9      6        0        0       0
東京     7300  67700   8500     37     25     10      2      0        0        0       0
神奈川   1900  21200   1300      9      7      2      0      0        0        0       0
新潟     -400  -1600   -300     36     19     15      1      1        0        0       0
富山      100    600   -200      2      1      1      0      0        0        0       0
石川     -200    700   -500      8      4      3      0      1        0        0       0
福井     -800  -1400   -100     10      8      2      0      0        0        0       0
山梨     -600  -1600  -1400      8      6      1      1      0        0        0       0
長野     -500  -1400   -600     57     34     17      6      0        0        0       0
岐阜     -500    400   -100     14      8      5      1      0        0        0       0
静岡     -500   -200   -800     20     12      6      0      2        0        0       0
愛知      400  31200  -1000      9      5      4      0      0        0        0       0
三重     -500   -300   -500      7      6      1      0      0        0        0       0
滋賀      100   1600      0      4      2      1      1      0        0        0       0
京都      300   8700   -200     13     10      3      0      0        0        0       0
大阪     -300  81400   -600     12      8      1      3      0        0        0       0
兵庫      700   4300   -900     24     15      6      2      0        0        0       1
奈良        0    300    300      7      4      2      1      0        0        0       0
和歌山   -800  -1700  -1400     54     32     14      4      3        0        0       0
鳥取     -700  -2100   -600      3      3      0      0      0        0        0       0
島根     -600  -1200   -400     10      9      1      0      0        0        0       0
岡山     -200    300   -100      2      2      0      0      0        0        0       0
広島     3900  18900  -2300     14      8      6      0      0        0        0       0
山口     -500  -1900  -1400      4      3      1      0      0        0        0       0
徳島     -700  -2400   -400     12      8      4      0      0        0        0       0
香川     -800  -1800   -800     14      8      6      0      0        0        0       0
愛媛     -900  -2500   -800     11      6      4      1      0        0        0       0
高知     -700  -2300   -600      7      4      3      0      0        0        0       0
福岡      200   3900    100      8      8      0      0      0        0        0       0
佐賀     -400  -1000   -200      5      3      2      0      0        0        0       0
長崎     -400   -600   -500     16     14      1      0      1        0        0       0
熊本      900   -700   -200     31     25      6      0      0        0        0       0
大分     -400  -1100   -500      7      6      1      0      0        0        0       0
宮崎     -200   -700   -300     31     21      6      4      0        0        0       0
鹿児島   -600  -1500  -5600     61     41     14      5      1        0        0       0
沖縄     1100   2400  -7300     75     56     10      7      2        0        0       0

2300件くらいあったのに、、こんなに少なくなってしまって、、、

ちなみに、東京都には伊豆諸島周辺の地震情報が含まれてしまい、
地価との関連から考えると伊豆諸島と東京一緒くたにするのは
どうもなーという感じだったので、
「東京島」というくくりにしていったん外出しにしてます。

何はともあれまず可視化

最近ggplot2の勉強してるけどなんかこう、、むずかしい

library(ggplot2)

#色のセッティング
cOrange="#f39800"
cLightBlue="#0068b7"
cGreen="#009944"

#住宅地×工業地の地価を眺める
data.plot=ggplot(data=data, aes(x=ID, y=data$"住宅地")) 
data.plot=data.plot+geom_point(size=3,colour=cOrange)
data.plot=data.plot+geom_point(data=data,aes(x=ID,y=data$"工業地"),colour=cLightBlue,size=3)
data.plot+ylab("前年比地価変動額")

#住宅地×商業地の地価を眺める
data.plot2=ggplot(data=data, aes(x=ID, y=data$"住宅地")) 
data.plot2=data.plot2+geom_point(size=3,colour=cOrange)
data.plot2=data.plot2+geom_point(data=data,aes(x=ID,y=data$"商業地"),colour=cGreen,size=3)
data.plot2+ylab("前年比地価変動額")

自信無さ過ぎてレイヤー重ねるごとにステップ確認してるから糞コードすぎて見たくない、見えない。
なんでプロット重ねたりなんてしたんだろう、、、

とりあえず住宅地の地価変動を基準に、「住宅地と工業地」「住宅地と商業地」で２つ、
都道府県別に並べて作っています。

凡例つけようが無い作り方をしてしまったので

住宅地：オレンジっぽいやつ
工業地：青っぽいやつ
商業地：緑っぽいやつ

f:id:WAFkw:20150301025915p:plain f:id:WAFkw:20150301025925p:plain

チイサクテミエネエ！！！

何はともあれ。

地震によってほんのりとでも地価に影響するとすれば。
住宅地の地価が一番影響受けやすいんじゃないのかなーというなんとなくな仮説を持っています。

住宅地（オレンジ）と比べると
工業地（青）が一部マイナス方向に触れたりしていて
商業地（緑）は住宅地と同じ動きをしつつも振れ幅がでかい感じ。特に東京近郊。

外れ値にしちゃいたくなるような状況ですが
データ数も元々少ないしあえて見て見ぬふりをします。

今考えたらggmapがあるんだから
地図上にマッピングした方が見やすいよねえ、、後でやろう、、、

マルチコ対応

さっそく重回帰、、、と思ったら、
なんにも考えてなかったマルチコ対応。

とりあえずVIF値を見てみる

>library(DAAG)
>model=lm(y1~x0+x1+x2+x3+x4+x5.1+x5.2+x6,data=data)
> vif(model)
        x0         x1         x2         x3         x4       x5.1       x5.2         x6 
320920.000 110940.000  27791.000   2680.700    296.440     20.644     12.705      2.148

X0:地震総回数
x1～x6：各震度の発生回数

･･･うん、ばかだった。そりゃあx0とその他を同時にぶちこんじゃだめだった

ちなみにこのVIF値、
「10以上はアウトって言われてるけど10以下だったら大丈夫なんて保証は無いからな」
ってよくやり玉にあがるくらいなので、今回みたいなアホケースはさておき、
マルチコ問題は根が深いなあっていつも思う。

念のため散布図行列で俯瞰してみる

f:id:WAFkw:20150301210201p:plain

なんか震度1×震度2もふんわりと怪しくない？
余震とか絡めたら複雑なんだろうなあ、、そっちの分野の方に殴られてしかるべき感じ。

#x0を除外してやり直し
> model=lm(y1~x1+x2+x3+x4+x5.1+x5.2+x6,data=data)
> vif(model)
     x1      x2      x3      x4    x5.1    x5.2      x6 
58.8270 54.9970 30.1050  5.9521  6.5606  7.8988  1.0148 

#看過出来ないので震度3以上の発生分布のみを考える
> vif(model2)
     x3      x4    x5.1    x5.2      x6 
11.4120  4.9629  2.7962  5.0712  1.0136 

#やっぱ同じ震源で地震が頻発しまくる、みたいなのはよくありそう
#とりあえずこれで重回帰


#住宅地地価変動～震度3+震度4+震度5弱+震度5強+震度6弱

> summary(model2)

Call:
lm(formula = y1 ~ x3 + x4 + x5.1 + x5.2 + x6, data = data)

Residuals:
    Min      1Q  Median      3Q     Max 
-1010.2  -675.2  -398.7    59.1  7120.0 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)
(Intercept)    40.29     256.86   0.157    0.876
x3             69.86     103.55   0.675    0.504
x4           -111.41     214.60  -0.519    0.606
x5.1          184.66     594.70   0.311    0.758
x5.2         -392.03    1277.90  -0.307    0.761
x6            519.98    1468.71   0.354    0.725

Residual standard error: 1443 on 41 degrees of freedom
Multiple R-squared:  0.04124,	Adjusted R-squared:  -0.07568 
F-statistic: 0.3528 on 5 and 41 DF,  p-value: 0.8775

すがすがしいほどに棄却されなかった。笑

なんか頑張ってどうにかなる感じじゃない。
震度4以上でもだめだったのでまあ、、
そもそもデータ数が増えればどんどんマルチコしていくタイプの
データな気がしてきた、今更。

仮説設定自体に問題があったというアレ。

諦めきれず総回数で単回帰もやってみた

> model4=lm(y1~x0,data=data)
> summary(model4)

Call:
lm(formula = y1 ~ x0, data = data)

Residuals:
    Min      1Q  Median      3Q     Max 
-1043.2  -668.3  -430.0   153.5  7170.1 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)
(Intercept)    6.650    236.417   0.028    0.978
x0             3.332      2.650   1.257    0.215

Residual standard error: 1383 on 45 degrees of freedom
Multiple R-squared:  0.03394,	Adjusted R-squared:  0.01247 
F-statistic: 1.581 on 1 and 45 DF,  p-value: 0.2151

ふふ。だめだこりゃ。

他にも色々やってみたかったけど

単年度での地価変動に地震発生回数が影響を及ぼすかは
今回範囲では妄言に過ぎないといえそうです

久々に重回帰やったらポンコツな出来だった反省。

せっかくデータは取ったから地図上で可視化とかやろうかなあ

なーんかおもしろいひらめきないかなー

3月3日・うまくいかなかったモデルを可視化してみる

結局そもそも検討違いなモデル組をした気がする今回のテーマですが、
せっかくなので作った重回帰モデルを可視化。反省会かねて。

> par(mfrow=c(2,2)) #４つの図を並べる
> plot(model2)

f:id:WAFkw:20150303001229p:plain

うへえ、、、

左上：残差VSフィット値
　　　なんかやっぱまとまり無いなあというか、そもそも震度1，2のデータが大量、かつ
　　　震度3以上のデータが貧弱というデータ構造なのが分かりやすいというか、、、

右上：残差の正規
　　　直線状にplotが並べば正規分布に従ってる･･･て解釈をいつもしてるんですが、
　　　今回どうなんですかね。正規分布ですかね。

左下：残差変動状況
　　　フィット値plotとの感想が同じです。データ構造がなんか

右下：残差と影響力（クック距離）
　　　点線のクック距離が0.5を超えると影響力大きいよねーみたいな解釈なんですが、
　　　震度5,6らへんになってくるとそもそも発生回数自体が少ないので、
　　　それに伴って一件あたりの影響力がでかくなるのは当然よね！っていう。
　　　しかしこういうラインを描くクック距離初めて見た気がしなくもないです

以上。

そこらへんにあるデータをなんとなく引っ張ってきて始めた今回ですが
地価はともかくとして
地震って取扱い難しいね、、、どう扱っていいやらおっかなびっくり。

なんかまた閃いたらやる。

時系列で見るとか･･･
震度5以上の発生回数推移で考えるとか、、
地価の上下だけにわけてSVMとか、、、

まあ、、いろいろ。

2015-02-28

「パターン認識と機械学習入門」という神のスライドについて

データ分析機械学習統計

このスライドと出会ったのは論文に煮詰まっていた時のことです。
世はクリスマスイブとかいう聖夜のことでした。

64個からの変数選択と凶悪なマルチコ処理に追われて、何かを見失い、
ロジット･･･線形判別･･･あとなんだ、SVMか･･･？
そもそも機械学習ってなんだっけ？とか根本的な事を言い出した21時。

出会ったスライドがこれ。

パターン認識と機械学習入門 from Momoko Hayamizu

Hayamizu momokoさんのslideshareです。

読み終わってちょっと泣いた。ほんとに。

やれることがどんどん増えたら、いいことばかりあるような気がしていて、
気づいたら何も捨てられなくなって、情報に溺れて、
白鳥とあひるの違いすら分からなくなって、

「そもそも白鳥とあひるって何が違うの？？？」

的なことを言い出していたクリスマスの私は

やっと目が覚めて、
Rをやり始めた時の気持ちを少し思い出して
ちょっと泣いて、
速攻で帰って、速攻で寝た。

がむしゃらに突き進んでたらいつか幸せの青い鳥が見つかって
そうしたら自分の選択を自分で認めてあげられるかもしれないみたいな
そんなスタバのなんちゃらフラペチーノみたいな甘い妄想を
私は当時のモデルにぶちこんでいて。

でも自分の選択した道が正しいかどうかなんて

「結局主観的確率じゃない？」

って言われたら

「ですよね」

ってならざるをえないわけです

そもそも自らの生きざまモデル製作に賭けるみたいな
そんな身の削り方はどうなのよ！
あほか！！！

と今なら笑い話にもなります。が、そのぐらい当時の私には
のっぴきならない事態でした。

セイキブンプ？なんのこと？
だった4年前にもせんせいはおっしゃっていたじゃないか、

「真のモデルは求められないから迂回して近似させて
推定するんだよ」

って。

今でも人生とは、、はて？
ってなった時はこのスライドを読みます。

んでもって

私がデータ解析やらRやら統計やらを趣味として細々続けているのは

社会貢献が！とか
技術的革新が！とか
データの持つ無限の可能性が！とか

そんな高尚なことではちっともなくって

「本当のことなんて誰にもわかんねぇよって思えるから
少し気が楽になる」

とかいうあまりにも唯我独尊な目的によるものです。

2015-02-27

はてなブログにslideshareを埋め込みたいひと、そうそれがわたし

いままで趣味でだらーっとRを書き、データを加工し、
スライドを作り、統計モデルを書き、
それを世に出すこともなくフォルダに保存して満足すること2年。

もうちょっとうまくなりたいなーとか
ちょっとおもしろいことできたきがするーとか
べんきょうかいにでたいーとか
Tokyo.Rいいなーとか
Sapporo.Rいいなーとか

小さい願望が調子に乗ってむくむくむくむくしてきたので
せめてなんか世に出したいなあと思ってたら

はてなさんRコードがベタ書き出来るっていうじゃない。
slideshareとか埋め込めるっていうじゃない。

やってみた

data=read.table("clipboard",header=TRUE)

･･･
･･････おおおおお

↓こんなんをベタ書きしたのみ

>.|r|
data=read.table("clipboard",header=TRUE)
.||.<.

（適宜ピリオドを入れてます）

いいじゃん、いいじゃん便利じゃん！！！
しょっぱなのRですよーって宣言部分は、「r」の小文字表記じゃないとだめなんですね

この勢いでslideshareも埋め込んでみる。

①まずslideshareへアクセス
②私が神と崇めている方のスライドを探し出し
③スライド下部ハートマークとかあるらへんの「＜＞」の部分をクリック
④するとshare用画面が開くので、中段のEmbed欄からHTMLをおもむろにコピー（Ctrl+C）
⑤はてなブログ編集画面にて、欲望の赴くままにベタ貼り（Ctrl＋V）

パターン認識と機械学習入門 from Momoko Hayamizu

･･･
････！！！！

できた････

何もしてない、ワタシマダナニモシテナイノニ

いいのか、いくら私がゆとり世代だからといって、HTMLをぬるっとコピーして
ぬるっと貼り付けるだけで埋め込めてしまうこんな便利な世の中でいいのか･･･？

はてなに慣れたらこの過程のスクショでも貼ろう、、
何もしてなさすぎるから、、