逐問解説


まず、もしよければ『実践としての統計学』を読んで下さい。

(1) 平均 => 説明(回答例)

 これを知らない人はいないでしょう。簡単な数値例があるとよいが、テキストの「ます」データを使ってもよい。実際データを使っている人もいた(例:1 本の木から成るみかんの房の数、英語の点数、理科年表からの地点気温、小学生の身長、etc.)。テキストの他のデータ例もよい。エクセルで計算も実地演習としてはいい。

(2) 分散 => 説明(回答例)

 分散の理解が統計理解の出発点。「ちらばり」「ばらつき」を表わすことの理 解が重要。n で割ってもよいが、n−1 で割る定義が一般的。データ例は(1)の平均と同一のものがよい。なお、データの個数はあまり小さくしないこと。2, 3 個程度では「ばらつき」の意味自体が不明確になる。
 分散の計算あたりから手計算は大変になるが、あくまで手でやっている人には敬意を表したい。それはそれで意味がある。

(3) 標準偏差 => 説明(回答例)

 平方根(√)をとると、測定の次元に戻ることを理解しておく。それがメリット。式で書くと複雑に見えるが、この程度なら複雑な式を読む練習としてよい。

(4) 標準誤差 => 説明(回答例)

 あまり聞き慣れないでしょうが、理論としては大切。標準偏差 s と区別。√n で割る。「データ全体で云う替わりに平均単独でいうための信頼性」をきちんと理解していたか。「工場における加工程度の評価で使われる」との答もあり。
 以上(1)〜(4)で一次元の話は終り。

(5) 積率相関係数 => 説明(回答例)

 ここから 2 次元の話。まず、定義いいですか。一度に覚えようとすると、わずらわしくてギブアップとなる。これも式読みの練習。(i) まず分子を覚える。これは簡単。(ii) 次に、分母を覚える。これも簡単。この順序がよい。次に、「−1 と 1 の間にある」としっかりと確認する。もし余裕があれば、なぜこれで関係がはかれるかをチェックしておくとよい。
 相関係数は点の直線への集中のパターンである。「点のパターン」であって、直線の傾きをあらわすと誤解している人は誤り。そういう意味では直線は入れないほうがよく、丸型とか楕円形で点の大まかなパターンを示す方が、考え方として正しい。図示する場合、r = +1, −1 のような(一直線の)極端なケースを例として採用している人がいたが、ほとんどすべての場合、直線には完全にのらないから、例としては良くない。このあたりから統計の理解が試されてくる。また図示例の点の個数も 10 個は欲しい。2, 3 個ではほとんど無意味。
 データとして「インクジェットのロータの回転数と膜厚」というすごいデータ例もあり感心しました。(三重県 YA 氏)

(6) スピアマンの順位相関係数 => 説明(回答例)

 これは「スピアマン」という人が提案した、「順位」(ランク)に対して計算される「(積率)相関係数」で、その意味ではすごく新しいというものではなく、そういう使い方もある、というケース。ギリシャ文字「ロー」ρ を使うのも一種の取り決め。ということは、よく用いられるということ。「花の嗜好データ」は気に入った人が多いようで、「ドクダミ」を加えた例、A さん、B さんの「好きな果物」の例、「好きな TV 番組」の例などあった。なお、通常の量データを順位に直したものでもよいことに注意。
 計算式は、定義直接よりは、(3,7) によるのが普通(ミスプリあり)。値(答え)はもちろん等しい。

(7) 自己相関係数 => 説明(回答例)

 相関整数シリーズとしてラストの出題。時系列データ(時間的データ)での相関係数で、ここまで来ると、少し本格的。山と山、谷と谷(周期現象)山と谷の関係もこの一つ。次に、定義を書いてください。ふつうの(積率)相関係数とやや異なっているが、計算してみるとわかるように、2 つの値はあまり違わない。初心者(および中級者)は気にしなくてよいが、書きなさいといわれれば、正しく写すことで当面はいいでしょう。
 さすがにデータ例は自分のとはいかず、テキストの心臓病の例を使っている人が多い。テキストの二酸化炭素 CO2 データの計算結果もあった。ここから時系列がもう一題続く。

(8) 移動平均法 => 説明(回答例)

 「トレンド値」を求めるため、つまり、時系列のガタガタをならしてだいたいの上り方、下り方の傾向を知るための方法であること。3 期、5 期、7 期などで理解する。式でも書けるようにしておく、というよりは式を見ておくこと。あと、偶数期 2, 4, 6 ・・・期移動平均がポイント。1/2 ずつ両端へ割りふる点が重要。
 百貨店の売上高の例などを出している人がいたが好ましい。テキストのデータをホームページから切り取って自ら計算し、結果を提出した本格的な人もいた。とにかく時系列は自分でやってパターンを見るのが上達の道。理論だけでは苦しくなる。
 もっとも、移動平均の欠点を挙げた人もいた(データ少なくなる、因果律の乱れなど)。よく勉強している。

(9) 回帰係数と切片 => 説明(回答例)

 実際に回帰直線を引いて見るところまでやりましたか? 最もオーソドックスな所で、うまくできて当たり前。皆さんそれぞれ工夫してうまく書いています。例えば、気温とアイスクリームの売上、足のサイズと身長、プリンタ回転数と膜厚など、例のとり方がユニークでそれぞれ面白い。

(10) オッズとオッズ比 => 説明(回答例)

 「オッズ」は妙な響きのある言葉だが、定義を見るとなかなか面白い役に立つ概念である。たばこと生死の関係(テキスト)、など医学の例、色の好みと性別など、2×2 のクロス表の例で計算してみると良い。いずれも、極めてわかり易く、これ位わかり易い概念も他にないだろう。どんなときオッズ比=1となるか、自分で例を作ってみてください。
 ここから (11), (12) とカテゴリカル(分類された)、質的データの統計分析法が 3 つ。

(11) 当てはめの適合度のカイ二乗統計量 => 説明(回答例)

 あまりにもよく知られているメンデルの法則やさいころの例など典型。解説はしません。なお、「カイ」の字に注意。「エックス」ではない。テキストを読んでいないと誤解されるので、正しく書くことを勧めます。

(12) 独立性のカイ二乗統計量 => 説明(回答例)

 理由はわからないが、意外とできが悪い一問。よく用いられるのにこれでは困るので、できなかった人には復習を勧めます。できている人は医学の例(ガンの転移と型)、工学の例(作業組別と欠点)、社会科学の例(性別と内閣支持)など面白い例あり。やはりよく使われている。また、「カイ二乗分布表」の見方いいですか?

(13) t 統計量 => 説明(回答例)

 次問とともに最頻出の統計的方法。要するに、平均に対する有意性検定。
 解答例は、おおむね「・・・は規定どおり」というタイプの例がおおい。これから、実例で方法を理解するのが一番。理論の勉強としても比較的わかり易いところだから、式などの理解の練習にも絶好。また「t 分布表」の見方も学ぶこと。

(14) 2 標本 t 統計量 => 説明(回答例)

 前問よりもこちらの方がよく応用され、「t 統計量」というとこちらを指すことが多い。平均が同じか、異なるかの有意性の問い。要するに「比較」である。どんな仮説を検定しているか、書けますか? また、計算式いいですか? この 2 つができたら計算例だがこれはこのあたりから筆算はやや大変。テキストの例(ラットの投薬実験)が多かったが、工学で 2 製品の力学的強度の比較例、ヘモグロビン濃度の対照実験の例などを計算しているのも御苦労。なお、分散の比較が前提なのも常識なので注意。

(15) ロジット・モデル => 説明(回答例)

 量から質(なるか、ならないか)の予測として非常によく用いられる。刺激の強さ→反応の有無というのが典型。プロビット・モデルも似たモデル。しかしロジットの方がその「わけ」がわかり易い。つまり、回帰ではダメな理由、θ/(1-θ) を考える理由、log {θ/(1-θ)}(ロジット)を考える理由、・・・と順々に考えてゆく。これから θ=・・・のように変形できますか?(ミスプリ注意) 大丈夫ですか? あとグラフ(シグモイド)の気持ちの良い形に注目。データ点(x)も打つこと。