・「統計」≒データ と考えられているが・・・。
・ 統計学:学問の分野で、西洋で17世紀ころにおこり、19世紀終わり頃から20世紀始めにかけ確立。日本へは明治以降に輸入(江戸時代に「統計」のことばなし)。
・ 英語で statistics ←「国家」のstateから。
- 国家状態(人口,生産,租税,兵役)の総括。「統」+「計」の意味。
・ 統計学とは?
- 数や数学を使うが数学の一分野ではない。
- むしろ社会科の一部という側面もあり(社会、経済、政治の算術 => 政策)。
- 環境データ(例:CO2 データ)は,自然科学の一部も。
- 論理と説得の術;「論より証拠」<= 統計学は科学(サイエンス)
・ 統計学の定義
- 集団の中の規則性・法則性
例;タバコと肺ガンの因果関係
・ 統計の方法
- 統計を読む 集める・作成する 表示する 計算する 分析する 解釈する 発表する
- 全数調査とサンプル調査
全数調査の典型:国勢調査(5年,予算約500億)
サンプル調査は;
母集団 ⇒ サンプル(標本)
〔1億2000万人〕 〔3000人〕
ここで,ランダム・サンプリング(無作為抽出)を用いる。
=> いわば「サイコロ式」に「台帳」から選ぶ。
質問紙(いわゆる「アンケート」)による調査実施(社会調査)
郵送、面接、留め置き法etc.
- 最近のサンプル調査:電話調査(普及しないと「偏り」が危険/現在も若干)
・ 統計データの扱い方(最も基礎は「個票」)=> 重要なのは分析法
- 「表」によって:もとの情報。
- 「図」によって:視覚的でわかり易い。ただし,主観的な点も。
- 「統計量」によって:詳しい分析のスタート点。
・「表」の例
- 度数分布表
・「図」の例
- ヒストグラム(度数分布表を図にしたもの)
- 散布図(相関を表す)
・ データの種類
- 横断面データ ex.県別自民党得票率
- 時系列データ ex.各年百貨店売上高
・ 代表値
- 最頻値
- 中央値(中位数)
- 平均値
・ ちらばり
- 平均偏差
- 分散
- 標準偏差
- 偏差値の考え方
・ 相関の考え方 ex. 身長と座高、資本金と従業員数
- 相関関係(正の相関,負の相関)
- 相関係数の計算
- 相関関係の見方と考え方のいろいろ
・ 回帰分析の考え方 ex. 年齢と血圧
- 回帰方程式と回帰直線
- 回帰係数の計算
- 重回帰
記述(・・・となっている)から統計的推測(・・・と判断・結論される)へ。
- 数理統計学(検定、推定etc.)。確率論を利用
ex. 成長率の0.07%差は「有意」か?
現代は、コンピュータ・シミュレーションの時代:
POS(Point of Sales)データの大幅活用など。