この項目は、良書であるマンガで分かる統計学[回帰分析編]について、
「より実践的」を目指し補足するものです。
以前も書きましたが、この図書は回帰分析を数学の一ジャンルとして紹介しており、
残念ながら(書面の関係も有るのでしょうが)、実践的な側面が前面に出ていません。
ストーリーのシチュエーションから、「どのような場面で有益か」は理解できますが、
ではその様なシチュエーションに遭遇したときに、この本を読んだ人が
「では、回帰分析を使ってみよう!」
と思うかと言えば、残念ながらそんな事はないでしょう。というのも、
計算プロセスが煩雑である回帰分析の分析プロセスと、得られる効用を比較したとき、
分析に係る労力は明らかに効用を下回っていると予想されてしまうからです。
数学を学ぶ人、または数学者は回帰分析を行う事自体が目的だからいいのでしょうが、
我々のような社会人にとっては、回帰分析はツールでなくてはなりません。
ツールは、万人が使いこなせてこそ意味があるものではないでしょうか。
幸いな事に、回帰分析を簡単に実践できる環境を、我々でも手に入れる事が可能になりました。
その環境とは、エクセルです。おそらく、このサイトを見れる人全てが、あの複雑怪奇に見える
回帰分析を、さらりとやってのけることができます。こんな事、僕が大学生んときには想像
できませんでしたが、世の中の進歩というのは、本当に凄いものですね。
※正確に言うと、当時からエクセルにはその機能が備わっていましたが、
そんなことを教えてくれる人は大学にはいなかった…日本の大学は本当にダメですね
では、早速ですが、エクセルを使っての分析方法を紹介して行きたいと思います。
最初に、下記の手順をふみ、分析の準備をします。そんなに難しい事では有りません。
・エクセルを起動。「ツール」→「アドイン」→分析ツールを選択→OK
これで、統計分析を簡単に行えるツールがエクセルに組み込まれました。
ついでに、ソルバーなんかも放り込んでおきましょう。統計ツールとソルバーは、
エクセルに秘められた強力オプションの筆頭格です。
<「分析ツール」導入のスクリーンショット>
では、早速分析をしてみましょう。正直なところ、逆関数だの自然対数などは、
この時点では意識する必要は有りません。大切なのは、
・yという事象は、xという事象に影響されていかもしれないにゃー
と直感で想像する事です。式で言うと、y=ax+b(+е)と表現されます。
aとbは、それが「どの程度」影響しているか、という事ですね。
ちなみに、aは方程式の傾きですから、「影響度の変動度合い」をあらわしており、
bは切片ですから、「所与の影響度」を表しているといえましょう。
※(+e)の部分は、エラー…つまり、誤差です。統計学は完全ではないため、
分析結果が0%、100%以外の場合は必ずこの項が存在します。
本書では省略されており、「ぐらい」という概念で表現されていますが、
一応意識するようにしてください。
なお、ここでは重回帰からの解説となりますが、手法で回帰との相違はありません。
傾きが複数になるか、一つになるか、だけの差です。
では始めましょう。、本当に、x(たち)がyに影響を与えているのでしょうか?
それは、現段階では誰にも分かりません。それも分析するのが、回帰分析です。
しかし、、まず初めに大切なのは、「常識」という極めて当たり前の感覚です。
xを取捨選択するにあたり、なんでも要因を引っ張ってくるのは、愚の骨頂です。
「xはyに影響を与えていそうだ」
という感覚が、重要!仮定を置くのは勝手ですし、分析するのも勝手ですが、
「近所の小学校の出欠状況(=x)が、ノルンのアイスティーの注文数(=y)に影響」
という仮定を置いたとしても、んな項目間に関連が無さそうなのは、常識で分かります。
本書では、気温とアイスティーという関係を当たり前のように取り上げていますが、
この常識みたいな関係を掴む・把握する事が大切なのです。
常識というのは、意外と大切な感覚ですから、日頃から磨かなくてはなりませんね。
まぁ、それは日々の研鑽に勤めるとして、分析です。
まずは、本書のお二人がやっているように、グラフをつくりましょう。
手で書くのもいいですが、これこそエクセルの得意中の得意ですので、任せましょう。
・「グラフウイザード」アイコンをクリック→「散布図」→一番上の形式を選択
→xがx軸に、yがy軸に来るようにグラフを作成
<「グラフ」作成方法のスクリーンショット>
<「グラフ」結果のスクリーンショット・その1>
これで散布図が出来ました。なんとなく相関性がありそうなのが分かりますね。
自分の常識レベルに納得しつつ、今度はこれを数字で立証してみましょう。
これには、「相関」を使います。
・「ツール」→「分析ツール」→「相関」
入力範囲で、ごそっと数値を選びます。一番上にラベルがあり、そこも範囲に選択した場合は、
「先頭行をラベルとして使用」もクリックしておきましょう。
<「相関」操作のスクリーンショット・その1>
<「相関」操作のスクリーンショット・その2>
<「相関」表示のスクリーンショット>
これで、別シートにxとyの相関が表示されました。
売上げとその他の関係は、極めて1(or−1)に近い数値、かなり関係は高そう。
これぐらいの数字が出れば、回帰分析のやりがいもありそう、といえましょう。
なお、ここで0.5であれば、うーん…と迷ってください。捨てるも拾うも貴方次第です。
こういうところで、また常識を働かせます。0.3ぐらいなら捨てましょう。
ちなみに、本書では説明していませんが、マイナスの場合は負の相関といい、
数字が反対方向に動く現象を言います。要するに、好き好き大好き!ってアピールすると、
向こうもどんどんこっちを好きになっていく場合と、ウザくて嫌いになっていく場合、
両方あるってことですね。
さて、つぎは、いよいよ回帰分析です。
・「ツール」→「分析ツール」→「回帰分析」
入力範囲で、yに相当する数値群を「入力Y範囲」、x相当を「入力X範囲」で指定。
デフォルトで有意水準は95%になっていますが、お好みで変更しましょう。
一番上にラベルがあり、そこも範囲に選択した場合の対応は、相関のときと同様です。
<「回帰分析」操作のスクリーンショット・その1>
<「回帰分析」操作のスクリーンショット・その2>
OKを押すと、もう計算結果がでました!なんと簡単なんでしょうか、ビックリです。
本書と同じ手順を踏みながら、計算を意識することなくここまで出来るのです。
文明ってすごいですねぇ。
では、表の見方を解説します。
※表は、自分で作ってみてください。そのほうが勉強になりますので
一番上の「回帰統計」に重決定R2(および補正R2)が出ていますので、
まずはモデルの妥当性が一目で分かります。本書のモデルはなかなかですね。
次の分散分析表ですが、ここで注目するのは右端の「有意F」。
必要に迫られたら分散なども見ますが、僕の感覚で言うと、実務では2年間で
1度も他の数字を使った事がありません。その程度の数値と思ってください。
最後に、傾きと切片、つまり、数式で言うとaとb、の部分が表になっています。
aは「X値」の「係数」、bは切片の「係数」です。とりあえず右端までジャンプし、
上限xx%、下限xx%(xxは有意水準)に表示される数字が、信頼区間となります。
要するに、「係数」を中心として「上限」と「下限」の間に、95%ありうるだろう
数値が入る、ということですね。表の中央に、「t」「P値」の数字がありますが、
これはとりあえず無視してください。後で、使うときに解説します。
これで、回帰分析の式が判明しました!
さて、回帰を走らせたら、このモデルの有効性を確認します。
これは、本書にあるように、帰無仮説を用いての検定を行うことになります。
が。「帰無仮説」「検定」だの、無理矢理和訳したような言葉は無視するに限ります。
大切なのは、どのようにモデルの有効性を検証するか理解する事ではないでしょうか。
最初に、中央・分散分析表の右端、「有意F」をみましょう。
0.05より極めて小さい数字が表示されていると思います。これで「OK」です。
有意水準を設定し、1からそれを引いた数以下ならOK、そう解釈してください。
…何がどうOKなんだ、と思いますか?では、ワケを解説しましょう。
最初、有意水準を95%と設定し、95%=0.95なのは分かると思います。
帰無仮説を立てたとき、帰無仮説を採用するのを、この95%とした訳です。
ですから、この95%以内に入っていなければ、帰無仮説を棄却する事になります。
この場合は、入っていない事が「有意F」の数字から分かりますので、帰無仮説棄却、
対立仮説(=自分の持っている仮説)の正当性が実証がされた訳です。
重回帰の場合には、各傾きに付いても、正当性の確認をします。
※もっと直感的に解説しましょう。これは正しい解説では有りませんが、概念的に。
検定は、自分の仮説を極めて厳しい立場に追い込み、それでも成立するんだよ、
と解説できる状態を証明します。まず、検定を0%からスタートさせて、5%を
超えなければ自分の仮説が正しく、それ以上の数値になってしまったらアウト、
帰無仮説を採用し、モデル全てを「無に帰す」必要があるのです。ここでは、
5%を超えてないので、モデルを無に帰す必要がない、という事ですね。
では、各傾きの正当性も確認してしまいましょう。これも帰無仮説を用いますが、
いままでと比べて特段意識する必要はありません。やることは有意Fのときと同じです。
傾きの検証には、一番下の表の「P値」「t(検定)」のいずれかを利用します。
どちらでも同じ結果になりますが、「有意F」と同じ様に考えられるP値をまず見ます。
0.05以下ですね?OKです。あとは、有意Fの解説と同じです。
(普通の回帰分析では、有意Fと傾きのP値が一致しているはずですよ)
では、「t」とは何なのでしょうか。これは、先ほどのP値なりの数字が、
正規分布において集合の中央から、どれだけの距離の所にあるかを表した数字です。
正規分布では、集合の95%が収まる距離は左右に1.96ですから、±1.96以上であれば、
その数字は集合の5%の方に属する事が分かります。ちなみに、tはP値へ以下の式で
変換可能です…=TDIST(t値,自由度,2)
これで、回帰/重回帰分析は終了です!
あとは、この式を使って任意の数を代入し、結果の予想を行うのみとなります。
なんて分かりやすい!たったこれだけのことで、あの本一冊分のことが出来るわけです。
うーん、使わないともったいない、ぐらいに思えてきませんか?