統計学まとめ


1. はじめに

・「統計」≒データ と考えられているが・・・。

・ 統計学:学問の分野で、西洋で17世紀ころにおこり、19世紀終わり頃から20世紀始めにかけ確立。日本へは明治以降に輸入(江戸時代に「統計」のことばなし)。

  ・ 英語で statistics ←「国家」のstateから。
   − 国家状態(人口,生産,租税,兵役)の総括。「統」+「計」の意味。

  ・ 統計学とは?
   − 数や数学を使うが数学の一分野ではない。
   − むしろ社会科の一部という側面もあり(社会、経済、政治の算術 => 政策)。
   − 環境データ(例:CO2 データ)は,自然科学の一部も。
   − 論理と説得の術;「論より証拠」<= 統計学は科学(サイエンス)

  ・ 統計学の定義
   − 集団の中の規則性・法則性
       例;タバコと肺ガンの因果関係

  ・ 統計の方法
   − 統計を読む 集める・作成する 表示する 計算する 分析する 解釈する 発表する
   − 全数調査とサンプル調査
       全数調査の典型:国勢調査(5年,予算約500億)
       サンプル調査は;
         母集団    ⇒  サンプル(標本)
       〔1億2000万人〕    〔3000人〕
       ここで,ランダム・サンプリング(無作為抽出)を用いる。
         => いわば「サイコロ式」に「台帳」から選ぶ。
       質問紙(いわゆる「アンケート」)による調査実施(社会調査)
         郵送、面接、留め置き法etc.
   − 最近のサンプル調査:電話調査(普及しないと「偏り」が危険/現在も若干)

2. 統計分析の準備

  ・ 統計データの扱い方(最も基礎は「個票」)=> 重要なのは分析法
   − 「表」によって:もとの情報。
   − 「図」によって:視覚的でわかり易い。ただし,主観的な点も。
   − 「統計量」によって:詳しい分析のスタート点。

  ・「表」の例
   − 度数分布表

  ・「図」の例
   − ヒストグラム(度数分布表を図にしたもの)
   − 散布図(相関を表す)

  ・ データの種類
   − 横断面データ  ex.県別自民党得票率
   − 時系列データ  ex.各年百貨店売上高

3. 統計分析

  ・ 代表値
   − 最頻値
   − 中央値(中位数)
   − 平均値

  ・ ちらばり
   − 平均偏差
   − 分散
   − 標準偏差
   − 偏差値の考え方

  ・ 相関の考え方  ex. 身長と座高、資本金と従業員数
   − 相関関係(正の相関,負の相関)
   − 相関係数の計算
   − 相関関係の見方と考え方のいろいろ

  ・ 回帰分析の考え方 ex. 年齢と血圧
   − 回帰方程式と回帰直線
   − 回帰係数の計算
   − 重回帰

4. 現代の統計学

   記述(・・・となっている)から統計的推測(・・・と判断・結論される)へ。
   − 数理統計学(検定、推定etc.)。確率論を利用
      ex. 成長率の0.07%差は「有意」か?
   現代は、コンピュータ・シミュレーションの時代:
      POS(Point of Sales)データの大幅活用など。

5. ホームページ => http://www.qmss.ne.jp/databank