波は、起きる原因によって分類することも可能である。風によって起きる波を風浪と呼ぶ。船舶などが航行することによって後方につくる波は引き波と呼ばれ、そうして波をつくりだすことは「造波(ぞうは)」という。地震によって起きる波は津波と呼ばれる(この津波という日本語は世界に広がり英語などでも tsunami と呼ばれている)。このように波ができる原因はいくつもあるが、最も一般的な原因は風である。
多方向からの波が合成されてできるピラミッド状の波を三角波と言う。
⇧ 衝撃なんですけど...
波って、風で作られてたんですね。サーファーの人たちが波を待ってるというのは、すなわち風を待っていると言っても過言ではないということになるってことなんですかね、どうもボクです。
というわけで、「統計学」や「仮説検定」についてです。
レッツトライ~。
統計学って?
Wikipediaさんによりますと、
⇧ ということらしい。
「統計」はというと、
⇧ ってな感じで「現象」を「数量データ」で表現するってことですかね。
様々な分野で引っ張りだこらしいんですが、「統計学」は
統計学は記述統計学(descriptive statistics)と推計統計学(inferential statistics、推測統計学とも)に分類できる。記述統計学はデータの特徴を記述する学問であり、推計統計学は標本から母集団を推計する学問である。
⇧ ってな感じで、大きく分けて
に分類できるらしいですと。
ただ、
こうして推計統計学は精緻な数学理論となった反面、応用には必ずしも適していないとの批判が常にあった。
これに呼応して、在来の客観確率を前提に置く統計学に対し、それまでごく少数によって提唱されていたにすぎなかった主観確率を中心に据えたベイズ統計学が1954年にレオナルド・サベージの『統計学の基礎』によって復活した。
ベイズの定理に依拠する主観確率の考え方は母集団の前提を必要とせず不完全情報環境下での計算や原因の確率を語るなど、およそ在来統計学とは正反対の立場に立つため、その当時在来統計学派はベイズ統計学派のことを『ベイジアン』と名付けて激しく対立した。
しかし主観確率には、新たに取得した情報によって確率を更新する機能が内包され、この点が大きな応用の道を開いた。今や統計学では世界的にベイズ統計学が主流となり、先端的応用分野ではもっぱらベイズ統計学が駆使されている。
⇧ ってな感じで「ベイズ統計学」ってのが主流になってる?ってことみたいらしいのですが、「統計学」の分類でいうと第三の勢力ってことになるのかね?
推計統計学と確率論と確率分布と
引き続き、Wikipediaさんの情報によりますと、
推計統計学ではデータ(標本)が母集団からランダムに取り出されるという前提に立っている。すなわち母集団を構成する要素はそれぞれ"出やすさ"をもっており、それに従ってランダムに取り出されるという立場である。"出やすさ"はまさしく(古典的な)確率であり、母集団はある確率分布に従っていると数学的に表現できる。
⇧ ってな感じで、「推計統計学」には「確率分布」の存在ありというわけで、
「確率分布」はというと、
確率分布(かくりつぶんぷ、英: probability distribution)は、確率変数に対して、各々の値をとる確率を表したものである。日本工業規格では、「確率変数がある値となる確率,又はある集合に属する確率を与える関数」と定義している。
⇧ って感じで「確率変数」の値によって決まる「確率」を表したものですと。確率を与える関数ってことみたいですかね。
「確率分布」の分類としては、
⇧ っていう形になるみたい。
「確率変数」には大きく分けて「離散型確率変数」と「連続型確率変数」があるようで、
⇧ 上記サイト様がまとめてくださってます。
仮説検定って?
Wikipediaさんによりますと、
仮説検定(かせつけんてい、英: hypothesis testing)あるいは統計的仮説検定(statistical hypothesis testing)とは、母集団分布の母数に関する仮説を標本から検証する統計学的方法のひとつ。日本工業規格では、仮説(statistical hypothesis)を「母数又は確率分布についての宣言。帰無仮説と対立仮説がある。」と定義している。
検定(statistical test)を「帰無仮説を棄却し対立仮説を支持するか,又は帰無仮説を棄却しないかを観測値に基づいて決めるための統計的手続き。その手続きは,帰無仮説が成立しているにもかかわらず棄却する確率がα以下になるように決められる。このαを有意水準という。」と定義している。
⇧ ってな感じで、「母集団分布の母数に関する仮説を標本から検証する」ってあるので「推計統計学」の手法の1つってことですかね。
⇧ ってあるけど、「頻度主義」と「ベイズ主義」がどっちも同じWikipediaの内容にリンクされてるので違いがよく分からん...
「仮説検定」の手順ってのが、
- 仮説の設定
- 帰無仮説
- 対立仮説
- 統計量(検定統計量)の算出
- 統計量(検定統計量)の確率分布
- 危険域 (critical region) の設定
- 危険率(有意水準あるいは検定のサイズともいい、ふつうαと表す)
- 棄却域
- 両側検定 or 片側検定
- 判定
ってな感じになってますと。
超ザックリ捉えると、「推計統計学」において、仮説がどれぐらい信頼できるかどうかってのをデータから検証するってことみたいね。
母集団と標本と
で、「統計」をするにあたっては「データ」が必要になってくるわけで、「データ」の量は多いに越したことはないんだけども、当然のことながら、時間もお金も限られてるので、ある程度の「データ」量での妥協が必要ですと。
なので、たいていの場合は、「母集団」ではなく「サンプル(標本)」を「データ」とせざるを得ないことが多いらしい。
「母集団」ってのは、
統計学における母集団(ぼしゅうだん、英: population)とは、調査対象となる数値、属性等の源泉となる集合全体を言う。統計学の目的の一つは、観測データの標本から母集団の性質を明らかにすることである。
⇧ って感じで、
「サンプル(標本)」っていうのは、
⇧ って感じですと。
「母集団」と「サンプル(標本)」の関係は、
⇧ 上記サイト様の図がイメージしやすいかと。
例えば、日本での「国勢調査(2015年度)」なんかだと、
- 母集団:総国民数(およそ1億人)
- 標本:127,094,745人
って感じで、「サンプル(標本)」を利用してますと。
データ量と検定統計量と確率分布の関係
「母集団」は無理そうだから「サンプル(標本)」で推測するしかないってのは分かったんだけど、ここで気になるのは、「データ量」と「検定統計量」と「確率分布」の関係よね。
「検定統計量」は、
⇧ って言ってるように、「標本データから計算」ってなってるんで「データ量」が関係してそうよね。
「データ量」としては、
ってな感じで、断然「サンプル(標本)」のほうが少なくなるんだけれどもね。
これって「確率分布」には影響しないのか?
⇧ 上記サイト様によりますと、やはり、と言いますか、「データ量」が影響してそうね。
「確率分布」に影響するってことは、「仮説検定」では「検定統計量」を算出してから「確率分布」が作られるんだから、「検定統計量」も当然のことながら「データ量」の影響を受けるってことっぽい気がしますかね。
検定統計量と検定手法
で「検定統計量」ってのは、
具体的には、データの種類および何を検定したいかによって、用いる検定統計量を選ぶ必要がある。よく用いられる検定統計量には、Z、t、χ2(カイ二乗)、F、U があり、それぞれの名を冠した検定法に用いられる。
⇧ ってな感じで、「データの種類および何を検定したいか」で「検定統計量」が異なってくるそうですと。
と言うよりも、「検定統計量」によって異なる「検定法」が用意されてるみたいね。
「仮説検定」の説明によると、
母集団の分布として正規分布を、あるいは比較する2群間の等分散(標準偏差が等しい)を仮定する(母数=パラメータを仮定する)検定法をパラメトリック(Parametric)、それらを仮定せず一般の分布に適用できる検定法をノンパラメトリック(Non-parametric)な検定と呼ぶ。具体的な方法の例を挙げる。
ノンパラメトリックな検定手法
- サイン検定(符号検定)
- Wilcoxon検定(順位付符号和検定)
- Mann-WhitneyのU検定
- カイ二乗検定
- フィッシャーの直接確率検定
⇧ ってな感じで種類が様々なんだけど、大きく分けて
2つの「検定手法」のグループがあるようですかね。
で、「パラメトリック検定」と「ノンパラメトリック検定」の違いって?
パラメトリック検定とは,母集団の分布がある特定の分布に従うことがわかっているデータに対して行う検定法のこと.統計量Tを計算するためにはその統計量が従う分布が明らかになっている必要があり,そのためにはデータ (確率変数) が従う分布も明らかになっている必要がある.この場合は統計量Tの計算には, や 等のパラメーターが用いられる.パラメトリック検定には,t検定,ダネット検定,チューキー・クレーマー検定等の検定がある.
ノンパラメトリック検定では,パラメトリック検定で行うような母数 (パラメーター) に対する一切の前提を仮定しない.その代わりに,全データまたは各水準等における各データの大小の順位,すなわち順序尺度を利用する.ノンパラメトリック検定は,得られたデータ数が少なく,データが従う分布を仮定することが困難であり,パラメトリック検定を利用することが不適切であると判断される際に利用される.ノンパラメトリック検定には,ウィルコクソンの順位和検定,ウィルコクソンの符号順位検定,クラスカル・ウォリス検定,スティール・ドゥワス検定等の検定がある.
⇧ という感じみたいです。
「検定統計量」を算出する際に「母数(パラメーター)」が使えそうであれば、「パラメトリック検定」を、そうでないならば「ノンパラメトリック検定」を使う感じですかね。
「母数(パラメーター)」ってのは
⇧ ってことらしく、
⇧ ってあるんで、「確率論」も「統計学」も「母数(パラメーター)」の定義は変わらんって言ってるんで、「分布」の形を決定づけてる要因ってことですかね。
「分布」によって「母数(パラメーター)」の数とかも違ってきますと。
何をもって検定手法を決めたら良いのか?
まぁ、「仮説検定」において「検定手法」がいろいろあるってことは分かったんだけども、どれ選んだら良いのよ?
ここで、「中心極限定理」ってのが参考になってきますと。
中心極限定理は標本平均と母平均との誤差を論ずるものである。多くの場合、母集団の分布がどんな分布であっても、その誤差は標本の大きさを大きくしたとき近似的に正規分布に従う。
⇧ ってあるように、『「標本平均」と「母平均」の「誤差」というのは、「標本」を大きくしたとき近似的に「正規分布」に従います、「母集団」の分布がどんな形であってもね、ただし「標本」に「分散」が存在してない場合は保証できないよん』ってことをいっているわけです。
なので、分析するべき対象の「データ」を手にしたら、まずは「データ」ついての「ヒストグラム」を確認するのが良いらしいです。
何故かというと、
ヒストグラム(英語: histogram)とは、縦軸に度数、横軸に階級をとった統計グラフの一種で、データの分布状況を視覚的に認識するために主に統計学や数学、画像処理等で用いられる。柱状図、柱状グラフ、度数分布図ともいう。
⇧「標本」の「ヒストグラム」を確認することで、「標本」に「分散」が存在するかとかについても分かるので。
あとは「標本」がどんな「分布」かってのも分かりますかね。
逆に、「母集団」に対して、従いそうな「分布」が見出せそうにないのなら「ノンパラメトリック検定」から「検定手法」を選んでいく感じになるってことですかね?
で、「標本」の「分布」や「どんな問題を解決したいか」などから、「母集団」がどんな「分布」に従いそうかが仮定できそうであれば「パラメトリック検定」を使う方向になるかと。
自分のケースでは、「ポアソン分布」に従うんじゃないかということで、「パラメトリック検定」を使う方針が定まったんだけど、じゃあ「パラメトリック検定」の中のどれを使えば?
hitorimarketing.net
どっちのタスクも母標準偏差が未知ですので基本的には検定で問題ないと思いますが
⇧ 上記サイト様によりますと、「t検定」が無難ってことなんですかね。
なんか、
結論から言えば、z検定とt検定との違いは以下のようになります。
・z検定は、母集団の分散(母分散)が分かっているときに使う
・t検定は、母集団の分散(母分散)が分かっていないときに使う
これだけの違いです!
しかし、ちょっと待ってください。
・z検定は、母集団の分散(母分散)が分かっているときに使う…?
先ほど、「仮説検定」の定義は「母集団分布の母数に関する仮説を標本から検証する統計学的方法のひとつ」とありましたよね。検定により母集団に関する仮説を検証したいのに、母集団の分散がすでに分かっていることってあるのでしょうか?
そうなのです…実際はほとんどありません。つまり、z検定を使うのは稀なケースとなるため、一般的によく使われてよく聞くのがt検定となるわけです。
⇧ ということみたいで、「パラメトリック検定」では「t検定」がよく使われるってことですかね。
t検定って?
で、「t検定」とは?
t検定(ティーけんてい)とは、帰無仮説が正しいと仮定した場合に、統計量がt分布に従うことを利用する統計学的検定法の総称である。母集団が正規分布に従うと仮定するパラメトリック検定法であり、t分布が直接、もとの平均や標準偏差にはよらない(ただし自由度による)ことを利用している。
⇧ ってな感じで、2つの「標本」についての「平均」に着目した「検定手法」ですと。
なので、「母数(パラメーター)」で「平均」 を表してるものが存在する「分布」である必要があるってことかと。
t検定による検定統計量はどう算出する?
引き続き、Wikipediaさんによると、
一群のt検定
母集団の平均値μが特定の値である μ0と等しいかどうかの帰無仮説を検定する際に使用する。
は標本平均でありsは 標本の標準偏差である。標本サイズはnであり、t検定における自由度はn − 1である。
⇧ ってな感じになるようです。
で、 の値は、『2組の「標本」についての「平均」』ってことになると思うんだけども(Wikipediaの説明で『2組の標本について平均に有意差があるかどうかの検定』ってなってるので)、この値には『帰無仮説』で決めている値を代入するので、「t検定」による「検定統計量」である「t値」が求まるということです。
ただ、「t検定」は、
⇧ 「一群」「二群」って2つあるみたいね。
「一群」「二群」ってあるけども、何が違うのか?
Wikipediaの『2組の標本について平均に有意差があるかどうかの検定』って言葉に合わせるならば、「一群」「二群」ともに「2組の標本」を使うってことだから、
- 一群
独立した2標本の各値の差の平均値を検証する - 二群
独立した2標本の各々で平均値を出し、比較して検証する
ってことですかね。
「一群」は「平均値」が1つ、「二群」は「平均値」が2つってことですかね。
有意水準と棄却域とt値とP値と
で、「t値」が求まったら、「t値」を判定するわけですが、 判定に関わってくるのが、
って感じらしいのですが、それぞれ確認していきますか。
■有意水準
有意水準α (0<α<1) は、どの程度の正確さをもって帰無仮説を棄却するかを表す定数である。有意水準αの仮説検定は、の時にを棄却する。このとき、「統計量はα水準で有意である」という。有意水準αは仮説が正しいにも関わらず仮説検定で棄却してしまう確率(第一種の誤りを犯す確率)に等しい。日本工業規格では、「第1種の誤りの確率の上限値。」と定義している。
有意水準の値としては、0.05 (= 5%) を用いるのが一般的であるが、そのとり方は学問・調査・研究対象によっても違いがあり、社会科学などでは0.1(10%)を用いる場合もあり、厳密さが求められる自然科学では0.01(1%)などを用いる場合もある。また、データ表示に当たっては有意性に段階をつけて複数の有意水準を同時に用いることもあり、たとえば0.05水準で有意ならば * 、0.01水準と0.001水準に対してはそれぞれ ** 、 *** と表示する。
⇧「帰無仮説」を「棄却」するかどうかの基準って言ってますな。
「第一種の過誤」に等しいと。
第一種過誤(だいいっしゅかご、英: Type I error)または偽陽性(ぎようせい、英: False positive)と第二種過誤(だいにしゅかご、英: Type II error)または偽陰性(ぎいんせい、英: False negative)は、仮説検定において過誤を表す用語である。第一種過誤をα過誤(α error)やあわてものの誤り、第二種過誤をβ過誤(β error)やぼんやりものの誤りとも呼ぶ。なお「過誤」とは、誤差によって二項分類などの分類を間違うことを意味する。
⇧ ってなっており、
⇧「混同行列(Confusion Matrix)」みたいな感じの表で現せるっぽい。
■棄却域
日本工業規格では、critical region を棄却域と訳し、「帰無仮説が棄却される検定統計量の値の集合」と定義している。また、備考には「棄却域の限界値を棄却限界値 (critical value) という」と説明している。
⇧「信頼区間」は「有意水準」から求めることができて、「棄却域」は「信頼区間」じゃない部分ってことですかね。
■P値
In null hypothesis significance testing, the p-value is the probability of obtaining test results at least as extreme as the results actually observed, under the assumption that the null hypothesis is correct. A very small p-value means that such an extreme observed outcome would be very unlikely under the null hypothesis. Reporting p-values of statistical tests is common practice in academic publications of many quantitative fields. Since the precise meaning of p-value is hard to grasp, misuse is widespread and has been a major topic in metascience.
⇧「帰無仮説」が正しいかどうかを判断するための指標の1つってことかと。
「Since the precise meaning of p-value is hard to grasp, misuse is widespread」って言うんなら、ちゃんと説明して欲しい...
「null hypothesis」ってのが、「帰無仮説」ってことらしい。
The p-value is used in the context of null hypothesis testing in order to quantify the idea of statistical significance of evidence, the evidence being the observed value of the chosen statistic . Null hypothesis testing is a reductio ad absurdum argument adapted to statistics. In essence, a claim is assumed valid if its counterclaim is highly implausible.
⇧「帰無仮説」が「統計的に有意」かを「定量化」したものが「P値(p-value)」ということかと。
「帰無仮説」は、
In inferential statistics, the null hypothesis (often denoted H0,) is a default hypothesis that a quantity to be measured is zero (null). Typically, the quantity to be measured is the difference between two situations, for instance to try to determine if there is a positive proof that an effect has occurred or that samples derive from different batches.
https://en.wikipedia.org/wiki/Exclusion_of_the_null_hypothesis
The null hypothesis is effectively stating that a quantity (of interest) being larger or equal to zero AND smaller or equal to zero. If either requirement can be positively overturned, the null hypothesis is "excluded from the realm of possibilities".
https://en.wikipedia.org/wiki/Exclusion_of_the_null_hypothesis
⇧ って説明なんだけど、分かり辛い...
で「P値(p-value)」の説明に戻ると、
Consider an observed test-statistic from unknown distribution . Then the p-value is what the prior probability would be of observing a test-statistic value at least as "extreme" as if null hypothesis were true. That is:
- for a one-sided right-tail test,
- for a one-sided left-tail test,
- for a two-sided test,
If the p-value is very small, then the statistical significance is thought to be very large: under the hypothesis under consideration, something very unlikely has occurred.
⇧ 「t検定」の「検定統計量」を 、「t分布」を 、「P値(p-value)」を 、「帰無仮説」を とすると、「帰無仮説」が真である「P値(p-value)」は上記のようになりますと。
イメージ的には、
⇧ 上記サイト様がイメージしやすいかと。
つまり「P値(p-value)」ってのは、「検定統計量」(今回は「検定手法」として「t検定」を想定してるので「検定統計量」は「t値」)によって変わり得る値であると。
Wikipediaの説明でも、
In a formal significance test, the null hypothesis is rejected if, under the null hypothesis, the probability of such an extreme value (as extreme, or even more extreme) as that which was actually observed is less than or equal to a small, fixed pre-defined threshold value , which is referred to as the level of significance. Unlike the p-value, the level is not derived from any observational data and does not depend on the underlying hypothesis; the value of is instead set by the researcher before examining the data. By convention, is commonly set to 0.05, though lower alpha levels are sometimes used.
⇧「有意水準」は人間が勝手に決めるものである一方、
The p-value is a function of the chosen test statistic and is therefore a random variable in itself. If the null hypothesis fixes the probability distribution of precisely, and if that distribution is continuous, then when the null-hypothesis is true, the p-value is uniformly distributed between 0 and 1, and observing it to take on a value very close to 0 is thought to discredit the hypothesis. Thus, the p-value is not fixed. If the same test is repeated independently with fresh data (always with the same probability distribution), one will find different p-values at every repetition.
⇧「P値(p-value)」は選択した「検定統計量」の関数であるから固定されてないんだと。
なので、「標本(サンプル)」が変われば、「P値(p-value)」も変わり得ると。
最終的には、「P値(p-value)」と「有意水準」を比較して「帰無仮説」が「棄却」できるかどうかを判断していく感じらしいのかと思いきや、
今回は全く同じ結果が得られてもその判断がサンプルサイズによって異なるということをシミュレーションで確認し、p値だけを見てその他の物事(今回で言えばサンプルサイズ)について注意を払わないと、一貫した結論が得られないしその後どうすれば良いのかの指針も立たない、ということを示す。
とりあえずテストしたり手元にあるデータに対して仮説検定を適用してp値だけで判断を下すということが、危なっかしいということがわかると思う。今回の記事では扱わないが、仮説検定においてはp値の他に検出力、効果量、そして今回扱ったサンプルサイズなど、いくつかの量を検討したうえでのテスト計画が必要になってくる。
⇧ 上記サイト様によりますと、「検出力」「効果量」「サンプルサイズ」「信頼区間」なども影響してくるそうです。
というのも、
⇧ というような関係があるからですかね。
ちなみに、
ところで,真の効果量(標本誤差を含まない)が例えば
この対立仮説
⇧ とあるように、「帰無仮説」の「分布」と「対立仮説」の「分布」を表現することで、「効果量」「検出力」がどこの部分を示してるのか分かるようです。
⇧「片側検定」の場合は上図がイメージしやすいかと。
まぁ、考えないといけないことはいろいろありますと。
「R」を使った「t検定」のコーディング例なんかは、
返された結果のt 値は1.6057で、p 値 (p-value) は0.1214 である。これは、前節で取り上げた例の結果と一致している。前節の例ではこの標本データの平均と分散を用いていることに気づいて欲しい。p 値が有意水準0.05より大きいので仮説「既知の母数 (170.7) = 標本の母平均」が採択される。
⇧ 上記サイト様が参考になるかと。
仮説検定の注意点
「仮説検定」は、文字通り仮説を設定をして検定する手法で、その仮説として
- 帰無仮説
- 対立仮説
の2つを設定して、「帰無仮説」を満たしているかどうかに着目するってことなのですが、
一般的にいって,ある仮説を反証するのは簡単である。その仮説と矛盾する証拠を,ひとつ挙げるだけでよいからだ。しかし,ある仮説を確認する方向の証拠を挙げるのは,なかなか難しい。
“広末涼子問題”について考えよう。
もし,謎の女性が,ドコモの携帯を持っていたら,どうなっていただろうか。4つのステップを順に追ってみよう。
Step 1. まず,あの女性は広末涼子である,と仮定する。
Step 2. さて,携帯に着目すると,あの女性はドコモの携帯を持っていた。
Step 3. もし彼女が広末涼子ならば,上のような事柄は... 起きても不思議ではない。
Step 4. だから ... ?
このように,Step 4.では,謎の女性が広末涼子だとも,そうでないとも主張できない。
⇧ とあるように、「帰無仮説」が「棄却」されない場合は、歯切れが悪い結論にならざるを得ないので、実際の実務で「仮説検定」の結果を報告をする際などは、ニュアンスに注意が必要という事ですかね。
「仮説検定」の目的は、あくまで「起こってる事象が偶然なのかそうじゃないのか」を統計的に結論付けることであって、「仮説検定」の結果で判明したことが「ビジネス的に重要なのかそうじゃないのか」は、経営責任者などが判断していく感じですかね。
いつもながら、モヤモヤ感が半端ない...
今回はこのへんで。