概要
情報技術の基礎として理解しておきたい応用数学のうち、統計分析、相関と因果、数値計算、グラフ理論、待ち行列理論を整理する。
応用数学は、データ分析、性能評価、ネットワーク構造の理解など、情報処理の多くの分野につながる。
公式を暗記するだけでなく、「何を分析したいのか」「どの指標で判断するのか」を意識すると理解しやすい。
この記事で扱うこと
- 正規分布、相関分析、回帰分析などの基本的な意味。
- 相関関係、因果関係、疑似相関の違い。
- スカラ、ベクトル、行列、テンソルの次元の違い。
- グラフ理論で使うノード、エッジ、木構造の考え方。
- 待ち行列理論で平均到着率、平均サービス率、利用率をどう読むか。
理解しておきたい要点
| 分野 | 整理する内容 |
|---|---|
| 統計分析 | 分布、相関係数、分析手法の名称と用途。 |
| 相関と因果 | 相関があることと原因であることを混同しない判断。 |
| 数値計算 | スカラ、ベクトル、行列、テンソルの分類。 |
| グラフ理論 | 無向グラフ、有向グラフ、木構造などの特徴。 |
| 待ち行列 | 利用率や平均待ち時間の式の意味。 |
統計分析
-
正規分布
最も一般的な確率分布で身長、座高など身近な分布に多く見られる。
その分布表現は、以下の確率密度関数として定義される。平均値:\(μ\) 、標準偏差:\(σ\) と置くと
\[ f(x) = \displaystyle \frac{1}{\sqrt{2\pi \sigma^2}} \exp \left(-\frac{(x - \mu)^2} {2\sigma^2} \right) \]この標準偏差 \(σ\) の分布比率は以下の通り。
- \(\pm 1σ\) で \(68%\)
- \(\pm 2σ\) で \(95%\)
- \(\pm 3σ\) で \(99.7%\)
以下、統計分析の種類。
-
回帰分析
関数モデルを使用した分析で変数が \(1\) つなら単回帰分析、複数なら重回帰分析という。 -
主成分分析
変数が多い場合、より少ない指標や合成変数に要約する分析手法。 -
因子分析
観測結果に影響する潜在要因(因子)を分析する手法。 -
相関分析
二つの変数(データ分布)がどの程度直線的(比例関係)にあるかを数値化して分析する手法。この数値を相関係数という。
→ データ分布が右上がりの直線に近い程 \(1\) に近づく。
→ データ分布が右下がりの直線に近い程 \(-1\) に近づく。
→ データ分布が無相関である程 \(0\) に近づく。
相関関係と因果関係
-
相関関係
二つの事象が互いに関連している関係のこと。 -
因果関係
二つの事象の一方が原因となって別の事象が発生していること。
→ 相関関係にあるほど相関係数 \(=1\) となる。
そして、二つの事象のどちらに原因があり、どちらが結果であるか因果関係を求めるためには、ランダム化比較実験などの別途検証が必要。 -
疑似相関
一見相関関係または、因果関係が認められる事象でも、直接的な関連性がなく結果のみ相関していること。例 : 子供の体重が重い程、算数ができるという相関関係の場合
→ 体重が重くなった原因に「年齢が上がる = 学年が上がる」という相関関係が隠れているため、体重と算数の出来に直接的な関連はなくこの場合、疑似相関となる。
数値計算
-
スカラ
\(0\) 次元で表現できるデータ。
→ 決まった数値を表し、固定の数値データのこと。 -
ベクトル
\(1\) 次元で表現できるデータ。
→ \(1\) 次元配列等の一列で表現できるデータのこと。 -
行列
\(2\) 次元で表現できるデータ。
→ \(2\) 次元配列等の縦、横など二種類の軸(行列)があるデータのこと。 -
テンソル
\(3\) 次元で表現できるデータ。
→ \(3\) 次元配列の縦、横、高さなど三種類の軸があるデータのこと。
グラフ理論
-
グラフ理論
ノード(接点、頂点)とエッジ(枝、辺)の集合から構成されるデータ構造についての理論。 -
グラフの方向性
有向グラフは、ノード \(A\) → ノード \(B\) のように一方のみに方向性を持つ。
無向グラフは、ノード \(A\) ↔ ノード \(B\) のように双方向に方向性を持つ。 -
木構造
木構造(単に木とも呼ばれる)は、閉路(閉じたノード)を持たないグラフ構造でルート(根)、ノード(枝)、リーフ(葉)から構成される。
待ち行列理論
-
待ち行列理論
列に並ぶ平均時間を統計学的な計算で求めるための理論。
→ 以下、\(3\) 要素が列に並ぶ時の待ち時間に影響を与え、待ち行列のモデルとなる。- 到着率:来客頻度。
- サービス時間:対応時間。
- 窓口数:\(1\) 列あたりの窓口数。
- 到着率:来客頻度。
-
\(M/M/1\) モデル
以下、\(3\) つの変動を取るときの待ち行列モデルのこと。- 到着率:来客頻度が一定(\(D\))ではなくランダム(\(M\))。(ポアソン分布)
- サービス時間:対応時間が一定(\(D\))ではなくランダム(\(M\))。(指数分布)
- 窓口数:窓口数が \(1\) つ。(一定(\(D\)))
- 到着率:来客頻度が一定(\(D\))ではなくランダム(\(M\))。(ポアソン分布)
待ち時間の計算
-
\(M/M/1\) モデルの平均待ち時間
\(M/M/1\) モデルの場合に限定すると、平均待ち時間は、次の式で表現できる。平均待ち時間:\(s1\)
平均サービス時間:\(s2\)
利用率:\(ρ\) と置くと\[ s1 = \frac{ρ}{1 - ρ} \times s2\hspace{5mm}・・・(*) \]※ 利用率\(ρ\)は、平均サービス時間/平均到着間隔で表現できる。
また、平均応答時間は、平均待ち時間(\(s1\) モデル)と平均サービス時間(\(s2\) モデル)を合わせた時間となり、上記(*4)より、次の式で表現できる。
→ 平均応答時間 \(= s1+ s2\)
\(\displaystyle = \frac{ρ}{1 - ρ} \times s2 + s2\)
\(\displaystyle = ( \frac{ρ}{1 - ρ} + 1 ) s2\)
\(\displaystyle = \frac{1}{1 - ρ} \times s2\)
違いを整理する
| 比較する項目 | 整理するポイント |
|---|---|
| 相関関係と因果関係 | 相関係数が高くても、原因と結果が直接つながるとは限らない。 |
| 単回帰分析と重回帰分析 | 説明変数が1つなら単回帰、複数なら重回帰。 |
| ベクトルと行列 | 1方向に並ぶデータがベクトル、行と列を持つデータが行列。 |
| グラフと木 | 木は閉路を持たないグラフの一種。 |
| 利用率と待ち時間 | 利用率が1に近づくほど待ち時間が急激に増えやすい。 |
実務とのつながり
-
統計分析
ログ分析、売上予測、品質管理などでデータの傾向をつかむために使う。 -
相関と因果
データ分析結果を業務判断に使うとき、見かけの相関に注意する必要がある。 -
グラフ理論
ネットワーク経路、依存関係、木構造データの理解につながる。 -
待ち行列理論
サーバー負荷、窓口処理、キューイングの性能評価に使える。
まとめ
- 応用数学では、統計・グラフ・待ち行列など、情報処理を支える数学的な見方を整理する。
- 相関と因果は別物であり、疑似相関を見抜く視点が重要となる。
- グラフ理論はネットワークや木構造の理解に、待ち行列理論は性能評価に役立つ。
参考文献
- 瀬戸 美月(\(2020\))『徹底攻略 応用情報技術者教科書』株式会社インプレス