「統計学が最強の学問である[実践編]」西内啓
2016/06/21公開 更新本のソムリエ [PR]
Tweet
【私の評価】★★★☆☆(78点)
要約と感想レビュー
統計学を活用したのは、PRホールのお客さまにアンケートを取ろうとしたときのことです。最初はすべての人にアンケートを取ろうかと思いましたが、全員に取る必要はないでしょう。では、何人に取れば良いのか?
考えているうちに、テレビの視聴率の調査会社はそれほど大きなサンプルを持っていないという記事を見たことがあったような記憶がありましたので調べてみることにしたのです。そうすると統計の考え方で、サンプル数を決めることができると知ったのです。
・なぜ標準誤差が標準偏差をデータの件数のルートで割った値になるのか・・・次の調査でどれぐらいの標準誤差にするためにどれぐらいのデータの件数(すなわちサンプルサイズ)が必要か」という見積もりを行うことができる(p107)
例えば、テレビの視聴率は、600世帯のデータから計算しています。(当時)統計的には、95%信頼区間は、視聴率10%±2.4%、視聴率20%±3.3%となります。この程度の精度で良いならば、年間600とすれば、1日2つのアンケートで良いということになります。ただ、時期や天気によってPRホールの客層が変わるので、もう少しサンプルを増やしたいですね。
・「平均値が4千円で標準誤差(SE)が100円」という結果が出たのだとすれば、平均値±2SEの範囲を考え、「だいたい3800円~4200円という範囲」と考えるのである・・平均値の95%信頼区間と呼ぶ(p110)
昔、受けた通信教育「現代統計実務講座」を思い出しました。当時は、水処理の性能データの分析でt検定を活用していたものの、知識がまったくないため、教育を受けたのです。もう少し、統計学が一般的になるといいですね。
西内さん、良い本をありがとうございました。
この本で私が共感した名言
・混乱するところ・・・「元の分布は正規分布ではないが、その平均値は正規分布に従う」(p65)
・「元のデータのバラつき方とその代表としての平均値」という考え方と、「元のデータのばらつき方とは関係ない、平均値自体のバラつき方」という考え方を区別する(p66)
・データ数が大きい状況のための手法であるz検定をたった20件のデータに対して適用することは適切でない・・・(p145)
・せいぜい数十件程度のデータがあるときに、そこに偶然のバラつきとは考えにくい意味のある差が生じていたのかどうかを考えるために、t分布とそれを使ったt検定を考案した・・・とりあえずt検定を選んでおくのが基本(p144)
・z検定とt検定の基本的な考え方は共通しており、どちらも「平均値の差」が「平均値の差の標準偏差」の何倍になるのか、という値が確率的にどれほどあり得ないかを示すp値を求める(p145)
・どのセルにもできれば10、最低でも5以上の数字が入る場合はz検定を行って問題ない、というのが慣例的な目安である(p150)
▼引用は下記の書籍からです。
ダイヤモンド社
売り上げランキング: 11,519
【私の評価】★★★☆☆(78点)
目次
序 章 ビジネスと統計学を繋ぐために
第1章 統計学の実践は基本の見直しから始まる ――「平均」と「割合」の本質
第2章 統計学が「最強」であるもう1つの理由 ――標準誤差と仮説検定
第3章 洞察の王道となる手法群 ――重回帰分析とロジスティック回帰
第4章 データの背後にある「何か」 ――因子分析とクラスター分析
終 章 統計手法のまとめと使用の手順
数学的補足
著者経歴
西内啓(にしうち ひろむ)・・・統計家。1981年、兵庫県生まれ。東京大学医学部卒。東京大学大学院医学系研究科助教、大学病院医療情報ネットワーク研究センター副センター長、ハーバードがん研究センター客員研究員を経て、現在は、分析サービスを提供する株式会社データビークル取締役
読んでいただきありがとうございました!
コメントする