二項定理（binomial theorem）とランダムフォレスト（random forest）の関係って？

f:id:ts0818:20210109160913j:plain

10世紀初頭における最初の勅撰和歌集である『古今和歌集』の「読人知らず」の和歌を初出としている。世界の国歌の中で、作詞者が最も古いといわれている。当初は「祝福を受ける人の寿命」を歌ったものだが、転じて「天皇の治世」を奉祝する歌。

国歌としては、1869年（明治2年）、軍楽隊教官だったイギリス人ジョン・ウィリアム・フェントンが日本に国歌がないのを残念に思い、練習生を介して作曲を申し出たことを始まりとしている。1880年（明治13年）、法律では定められなかったが、事実上の国歌として礼式曲「君が代」が採用された。そのテーマは皇統の永続性とされる。

君が代 - Wikipedia

⇧ 国歌誕生秘話じゃないけども、欧米の影響だったんですな、世界の国家で作詞者が最も古いってのも驚きだけど、込められた意味合いが「祝福を受ける人の寿命」を歌ってたんですな。

そんなこんなで、今回は「機械学習」とかですかね。

レッツトライ～。

二項定理（binomial theorem）って？

遥かかなたの記憶になりますが、高校の数学で習った公式ですね。

Wikipediaさんに聞いてみた。

初等代数学における二項定理（にこうていり、英: binomial theorem）または二項展開 (binomial expansion) は二項式の冪の代数的な展開を記述するものである。定理によれば、冪 $(x + y) n$ は $a x b y c$ の形の項の和に展開できる。ただし、冪指数 $b, c$ は $b + c = n$ を満たす非負整数で、各項の係数 $a$ は $n$ と $b$ に依存して決まる特定の正整数である。

二項定理 - Wikipedia

例えば

(x+y)^{2}=x^{2}+2xy+y^{2},

(x+y)^{3}=x^{3}+3x^{2}y+3xy^{2}+y^{3},

(x+y)^{4}=x^{4}+4x^{3}y+6x^{2}y^{2}+4xy^{3}+y^{4}.

$a x b y c$ の項の係数 $a$ は二項係数 ${\tbinom {n}{b}}(={\tbinom {n}{c}})$ とも呼ばれる。

二項定理 - Wikipedia

⇧ ってな感じで、「二項定理（binomial theorem）」が分かれば、二項式の公式が導けますと。

これら係数を $n$ および $b$ を動かして並べることでパスカルの三角形を描くことができる。これらの数は組合せ論においても現れ、 ${\tbinom {n}{b}}$ は $n$ -元集合から $b$ 個の相異なる元を選ぶ組合せの総数を与える。

二項定理 - Wikipedia

⇧ ってな感じで、組合せの考え方が重要になってきますと。

そんな「二項定理（binomial theorem）」ですが、

二項定理【高校数学】式と証明＃１

⇧ 上記の動画がめちゃくちゃ分かりやすいです。

ちなみに「多項定理（multinomial theorem）」は、

数学における多項定理（たこうていり、英: multinomial theorem）は二項定理における二項式を多項式に対して一般化するもので、多項和 (multinomial) の冪を和の各項からなる積和へ展開する方法を記述するものである。

多項定理 - Wikipedia

⇧「二項定理（binomial theorem）」を応用する感じになるようですね。

www.geisya.or.jp

⇧ 式については、上記サイト様を参考にさせていただくと、

■二項定理（binomial theorem）

$(x_1 + x_2)^n = {}_n \mathrm{ C }_0{x_1}^n + {}_n \mathrm{ C }_1{x_1}^{n-1}{x_2} + {}_n \mathrm{ C }_2{x_1}^{n-2}{x_2} + \ldots \\ + {}_n \mathrm{ C }_k{x_1}^{n-k}{x_2}^k + \ldots + {}_n \mathrm{ C }_{n-1}{x_1}{x_2}^{n-1} + {}_n \mathrm{ C }_{n}{x_2}^n \\ (x_1 + x_2)^n = \displaystyle \sum_{k=0}^n {}_n \mathrm{ C }_k{x_1}^{n-k}{x_2}^k$

■多項定理（multinomial theorem）

$(x_1 + x_2 + \ldots + x_m)^n = \displaystyle \sum_{k_1 + k_2 + \ldots + k_m = n}^n \frac{ n! }{ {k_1!}{k_2!}{\ldots}{k_m!} }{x_1}^{k_1}{x_2}^{k_2}\ldots{x_m}^{k_m}$

って感じになるみたい。

ランダムフォレスト（random forest）って？

Wikipediaさんによりますと、機械学習のアルゴリズムのひとつみたいですね。

ランダムフォレスト（英 : random forest, randomized trees）は、2001年に Leo Breiman によって提案された機械学習のアルゴリズムであり、分類、回帰、クラスタリングに用いられる。

ランダムフォレスト - Wikipedia

決定木を弱学習器とするアンサンブル学習アルゴリズムであり、この名称は、ランダムサンプリングされたトレーニングデータによって学習した多数の決定木を使用することによる。ランダムフォレストをさらに多層にしたアルゴリズムにディープ・フォレストがある。対象によっては、同じくアンサンブル学習を用いるブースティングよりも有効とされる。

ランダムフォレスト - Wikipedia

⇧ ってな感じで、「決定木」ってものが関係してきますと。

「決定木」って？

決定木（けっていぎ、英 : decision tree）は、（リスクマネジメントなどの）決定理論の分野において決定を行うためのグラフであり、計画を立案して目標に到達するのに用いられる。決定木は、意志決定を助けることを目的として作られる。決定木は木構造の特別な形である。

決定木 - Wikipedia

⇧ はい、「木構造」が基本形らしいですと。英語だと「decision tree」と呼ばれますと。

というわけで、「木構造」はと言うと、

木構造（きこうぞう）とは、グラフ理論の木の構造をしたデータ構造のこと。

木構造 (データ構造) - Wikipedia

f:id:ts0818:20210108181302p:plain

木構造 (データ構造) - Wikipedia

⇧ ってな感じで、一番上を起点（root）として分岐していくデータ構造ですと。

2021年1月12日（火）追記：↓ ここから

「決定木」は大きく分けて、

回帰木（Regression Tree）
- 「回帰問題」を扱う場合の決定木のこと
  「目的変数」が連続数値などの場合に利用される
分類木（Classification Tree）
- 「分類問題」を扱う場合の決定木のこと
  「目的変数」がラベル、フラグなどの場合に利用される

の2つに分かれるようです。

qiita.com

⇧ 上記サイト様が分かりやすいです。

2021年1月12日（火）追記：↑ ここまで

で、「ランダムフォレスト（random forest）」って？

英語版のWikipediaによりますと、

f:id:ts0818:20210108203753p:plain

https://en.wikipedia.org/wiki/Random_forest

⇧ ってな感じで、複数の「決定木（decision tree）」で処理された結果の中から「多数決（Majority-Voting）」で最終的な結果を決めるってアルゴリズムということですと。

何故、複数の「決定木（decision tree）」を経由させて判定するのか？

「教師あり学習」の「機械学習」では、「オーバーフィッティング」、日本語だと「過学習」と呼ばれる現象に悩まされることが多いのだそうですが、それを抑制するためなんだそうな。

Random forests or random decision forests are an ensemble learning method for classification, regression and other tasks that operate by constructing a multitude of decision trees at training time and outputting the class that is the mode of the classes (classification) or mean/average prediction (regression) of the individual trees.

https://en.wikipedia.org/wiki/Random_forest

Random decision forests correct for decision trees' habit of overfitting to their training set. Random forests generally outperform decision trees, but their accuracy is lower than gradient boosted trees. However, data characteristics can affect their performance.

https://en.wikipedia.org/wiki/Random_forest

⇧ ってな感じで、単独の「決定木（decision tree）」だと「訓練用データ（trainig set）」に「オーバーフィッティング（overfitting）」してしまいがちなんですと。

え？

過剰とは言え、「訓練用データ（training set）」でちゃんと結果出してるんだから文句ないんじゃないの？って思うじゃない？

ここが、落とし穴というね。

つまり、特化し過ぎてるってことは、「汎用性」がないとも言えるわけですと。

「機械学習」の目的っていうのは、あくまで「未知のデータ」入力に対して結果を出す必要があるのであって、「訓練用データ（training set）」入力に対して100点の結果を出したとしても、「未知のデータ」入力に対して50点の結果しか出せなかったら全く意味は無いんですと。

なので、

訓練用データ（training set）
機械学習のモデルを学習させるための入力データ
テストデータ
機械学習のモデルの性能を評価するための入力データ
未知のデータ
本番の入力データ

のいずれのデータにおいても、同等の結果が得られるようにする必要があるんですと。

このあたりの匙加減はデリケートな部分のようで、

masamunetogetoge.com

与えられた訓練データを再現する力の事を表現力と呼びます。使うモデルの表現力が高すぎると、データの些細な挙動までモデルが学習してしまい、未知のデータの予測が難しくなります。
データに含まれる誤差の部分を無視する力を汎化性能と呼びます。汎化性能が大きすぎると、データの構造の大事な部分も無視してしまい、鈍感なモデルとなります。

汎化性能とは？過学習との関係を解説します | マサムネの部屋