応用数学 - ラビット・チャレンジ レポート
応用数学
第1章:線形代数
スカラーとベクトルの違い
スカラー
- 普通の数
- 四則演算が可能
- ベクトルの係数になれる
ベクトル
- 「大きさ」と「向き」を持つ
- スカラーのセットで表せる
行列
- スカラーを表にしたもの
- ベクトルを並べたもの
- ベクトル変換に使える
連立方程式との関係
連立方程式は行基本変形で解ける。
- i行目をc倍する
- s行目にt行目のc倍を加える
- p行目とq行目を入れ替える
行列を使った表記ができ、行基本変形は行列の変形と言える。
逆行列
\(A\)に対して右からかけても左からかけても単位行列\(I\)になる行列\(A^{-1}\)をAの逆行列という。
$$AA^{-1}=A^{-1}A=I$$
- 逆行列は掃き出し法で計算することができる。
- 行列式がゼロとなる行列は逆行列が存在しない。
固有値と固有ベクトル
以下のような式が成り立つようなベクトル\(\vec{x}\)とλがある。このとき\(\vec{x}\)と係数λをベクトル行列\(A\)に対する固有値、固有ベクトルという。 $$A\vec{x} = λ\vec{x}$$
固有値分解
ある実数を正方形に並べて作られた行列\(A\)が固有値\(λ_1\), \(λ_2\)…とそれに相当する固有ベクトル\(\vec{v}_1\), \(\vec{v}_2\)を持っているとする。
\begin{align} Λ=\begin{pmatrix} \lambda_1 & & \ & \lambda_2 & \ & & \ddots \ \end{pmatrix} \end{align}
\begin{align} V=\begin{pmatrix} \vec{v}_1 & \vec{v}_2 & \ldots \end{pmatrix} \end{align}
それらの関係は以下となり、行列の累乗の計算が容易になる。 $$AV=VΛ$$ $$A=VΛV^{-1}$$
特異値分解
正方行列以外も固有値分解みたいなことができる。
$$M\vec{v}=σ\vec{u}$$ $$M^⊤\vec{u}=σ\vec{v}$$
このような特殊な単位ベクトルがあるならば特異値分解ができる。 $$M = USV^\top$$
特異値の求め方
-
\(MV = US\) -> \(M = USV^{\top}\)
-
\(M^{\top}U = VS^{\top}\) -> \(M^{\top} = VS^{\top}U^{\top}\) これらの積は
-
\(MM^{\top} = USV^{\top}VS^{\top}U^{\top} = USS^{\top}U^{\top}\)
\(MM^{\top}\)は正方行列になっている。\(SS^{\top}\)は固有値に見える。 \(MM^{\top}\)を固有値分解すれば、その左特異ベクトルと特異値の2乗が求められる。
第2章:確率・統計
集合
- 集合は要素の集まりとして中括弧で書く。\(S = {a, b, c, d, e, f, g }\)
- 要素aが集合Sに含まれるとき、\(a \in S\)と書く。
- \(M = {a, d, f}\)のとき、\(M \subset S\)と書く。
和集合と共通部分
- 和集合: \(A \cup B\)
- 共通部分: \(A \cap B\)
絶対補と相対補
- 絶対補: \(U \backslash A = \overline{A}\)
- 相対補: \(B \backslash A\)
確率
2種類の確率がある。
- 頻度確率(客観確率)
- 発生する頻度
- ベイズ確率(主観確率)
- 信念の度合い
確率の定義
$$\displaystyle P(A) = \frac{n(A)}{n(U)} = \frac{事象Aが起こる数}{すべての事象の数}$$
$$P(\overline{A}) = 1 - P(A)$$
条件付き確率
ある事象Bが与えらえれた下で、Aとなる確率
$$\displaystyle P(A|B) = \frac{P(A \cap B)}{P(B)} = \frac{n(A \cap B)}{n(B)} $$
独立な事象の同時確率
AとBの事象が独立な場合、同時確立は以下となる。
$$P(A \cap B) = P(A)P(B|A) = P(A)P(B)$$
和集合の確率
$$P(A \cup B) = P(A) + P(B) - P(A \cap B)$$
((P(A \cap B)\)の部分は、2回数えてしまった共通部分を引いている。
ベイズ則
$$P(A)P(B|A) = P(A)P(B|A)$$
第3章:情報理論
記述統計と推測統計
- 記述統計: 集団の性質を要約し記述する
- 推測統計: 集団から一部を取り出し、元の集団(母集団)の性質を推測する
確率変数と確率分布
| 事象 | 裏が0枚 表が4枚 | 裏が1枚 表が3枚 | 裏が2枚 表が2枚 | 裏が3枚 表が1枚 | 裏が4枚 表が0枚 |
|---|---|---|---|---|---|
| 確率変数 (裏が0、表が1と対応させた和とした) | 4 | 3 | 2 | 1 | 0 |
| 事象が発生した回数 | 75 | 300 | 450 | 300 | 75 |
| 事象と対応する確率 | 1/16 | 4/16 | 6/16 | 4/16 | 1/16 |
期待値
その分布における、確率変数の「ありえそう」な値
離散値の場合
$$\displaystyle \sum_{k=1}^{n}P(X = x_k)f(X = x_k)$$
連続値の場合
$$\displaystyle \int P(X = x)f(X = x)dx$$
分散と共分散
分散
- データの散らばり具合
- データの各々の値が、期待値からどれだけずれているのかを平均したもの
$$分散Var(f) \ = E\left( (f_{(X=x)} - E_{(f)})^2 \right) \ = E\left( f^2_{(X=x)} \right) - \left(E_{(f)}\right)^2 \ $$
共分散
- 2つのデータ系列の傾向の違い
- 正の値を取れば似た傾向
- 負の値を取れば逆の傾向
- 0を取れば関係性に乏しい
$$共分散Cov(f, g) \ = E \left( \left( f_{(X=x)} - E(f) \right) \left( g_{(Y=y)} - E(g) \right) \right) \ = E(fg) - E(f)E(g) $$
分散と標準偏差
分散は2乗してるので元のデータと単位が変わってしまう。ルートをとれば元の単位に戻る。
$$ σ = \sqrt {Var(f)} \ = \sqrt { E\left( (f_{(X=x)} - E_{(f)})^2 \right) }$$
さまざまな確率分布
ベルヌーイ分布
コイントスのイメージ。表と裏の出る割合が等しくなくても使える。
$$P(x|μ) = μ^x(1-μ)^{1-x}$$
xは0(裏)か1(表)として、表が出る確率μ=1/3としたら、裏が出る確率はx=0として計算できる。
マルチヌーイ(カテゴリカル)分布
サイコロを転がすイメージ。名前だけ覚えておこう。
二項分布
ベルヌーイ分布の多試行版。
$$\displaystyle P(x|λ, n) \ = \frac{n!}{x!(n-x)!}λ^x(1-λ)^{n-x} $$
ガウス分布
釣鐘型の連続分布。真の分布がわからなくてもサンプルが多ければ正規分布に従う。
推定
母集団を特徴づける母数(パラメーター:平均など)を統計学的に推測すること。
- 点推定: 平均値など1つの値に推定すること。
- 区間推定: 平均値などが存在する範囲(区間)を推定すること
推定量と推定値
- 推定量(estimator): パラメーターを推定するために利用する数値の計算方法や計算式のこと。推定関数。
- 推定値(estimate): 実際に行った結果から計算した値。
真の値を\(θ\)とすると推定量または推定値は\(̂\hatθ\)のように表す
標本平均
母集団から取り出した標本の平均値。点推定の代表的なもの。
- 一致性: サンプル数が大きくなれば、母集団の値に近づく
- 不偏性: サンプル数がいくらであっても、その期待値は母集団の値と同様。\(E(\hatθ) = θ\)
標本分散
$$\displaystyle \hatσ^2= \frac{1}{n}\sum_{i=1}^n(x_i-\overline x)^2$$
不偏分散
標本分散の補正。
標本分散は、一致性は満たすが、不偏性を満たさない。たくさんのデータのばらつき具合と小数のデータのばらつき具合だと、小数の方がばらつく。そのため補正する。
$$\displaystyle s^2 = \frac{n}{n-1} \times \frac{1}{n}\sum_{i=1}^n(x_i-\overline x)^2 = \frac{1}{n-1}\sum_{i=1}^n(x_i-\overline x)^2 $$
情報科学
情報の変化は比率で捉えている。ΔW
自己情報量
- 対数の底が2のとき、単位はビット(bit)
- 対数の底がeのとき、単位は(nat)
$$I(x) = - \log(P(x)) = \log(W(x))$$
シャノンエントロピー
自己情報量の期待値。
$$H(x) = E(I(x)) \ = -E(\log(P(x)) \ = -\sum(P(x)\log(P(x)) $$
カルバック・ライブラー ダイバージェンス
同じ事象・確率変数における異なる確率分布P,Qの違いを表す。 \(D_{KL}(P||Q)\)はPからみたときのQはどれくらい情報が違うのかという情報利得。
$$D_{KL}(P||Q) \ = E_{x〜P}\left[\log{\frac{P(x)}{Q(x)}}\right] \ = E_{x〜P}\left( \log(P(x)) - \log(Q(x)) \right) = E_{x〜P}\left( I(Q(x) - I(P(x)\right) \ $$
交差エントロピー
カルバック・ライブラー ダイバージェンスの一部を取り出したもの