統計学まとめ


1. はじめに

・「統計」≒データ と考えられているが・・・。

・ 統計学:学問の分野で、西洋で17世紀ころにおこり、19世紀終わり頃から20世紀始めにかけ確立。日本へは明治以降に輸入(江戸時代に「統計」のことばなし)。

  ・ 英語で statistics ←「国家」のstateから。
   - 国家状態(人口,生産,租税,兵役)の総括。「統」+「計」の意味。

  ・ 統計学とは?
   - 数や数学を使うが数学の一分野ではない。
   - むしろ社会科の一部という側面もあり(社会、経済、政治の算術 => 政策)。
   - 環境データ(例:CO2 データ)は,自然科学の一部も。
   - 論理と説得の術;「論より証拠」<= 統計学は科学(サイエンス)

  ・ 統計学の定義
   - 集団の中の規則性・法則性
       例;タバコと肺ガンの因果関係

  ・ 統計の方法
   - 統計を読む 集める・作成する 表示する 計算する 分析する 解釈する 発表する
   - 全数調査とサンプル調査
       全数調査の典型:国勢調査(5年,予算約500億)
       サンプル調査は;
         母集団    ⇒  サンプル(標本)
       〔1億2000万人〕    〔3000人〕
       ここで,ランダム・サンプリング(無作為抽出)を用いる。
         => いわば「サイコロ式」に「台帳」から選ぶ。
       質問紙(いわゆる「アンケート」)による調査実施(社会調査)
         郵送、面接、留め置き法etc.
   - 最近のサンプル調査:電話調査(普及しないと「偏り」が危険/現在も若干)

2. 統計分析の準備

  ・ 統計データの扱い方(最も基礎は「個票」)=> 重要なのは分析法
   - 「表」によって:もとの情報。
   - 「図」によって:視覚的でわかり易い。ただし,主観的な点も。
   - 「統計量」によって:詳しい分析のスタート点。

  ・「表」の例
   - 度数分布表

  ・「図」の例
   - ヒストグラム(度数分布表を図にしたもの)
   - 散布図(相関を表す)

  ・ データの種類
   - 横断面データ  ex.県別自民党得票率
   - 時系列データ  ex.各年百貨店売上高

3. 統計分析

  ・ 代表値
   - 最頻値
   - 中央値(中位数)
   - 平均値

  ・ ちらばり
   - 平均偏差
   - 分散
   - 標準偏差
   - 偏差値の考え方

  ・ 相関の考え方  ex. 身長と座高、資本金と従業員数
   - 相関関係(正の相関,負の相関)
   - 相関係数の計算
   - 相関関係の見方と考え方のいろいろ

  ・ 回帰分析の考え方 ex. 年齢と血圧
   - 回帰方程式と回帰直線
   - 回帰係数の計算
   - 重回帰

4. 現代の統計学

   記述(・・・となっている)から統計的推測(・・・と判断・結論される)へ。
   - 数理統計学(検定、推定etc.)。確率論を利用
      ex. 成長率の0.07%差は「有意」か?
   現代は、コンピュータ・シミュレーションの時代:
      POS(Point of Sales)データの大幅活用など。

5. ホームページ => http://www.qmss.ne.jp/databank