sigma-se

概要

情報技術の基礎として理解しておきたい応用数学のうち、統計分析、相関と因果、数値計算、グラフ理論、待ち行列理論を整理する。

応用数学は、データ分析、性能評価、ネットワーク構造の理解など、情報処理の多くの分野につながる。
公式を暗記するだけでなく、「何を分析したいのか」「どの指標で判断するのか」を意識すると理解しやすい。

この記事で扱うこと

正規分布、相関分析、回帰分析などの基本的な意味。
相関関係、因果関係、疑似相関の違い。
スカラ、ベクトル、行列、テンソルの次元の違い。
グラフ理論で使うノード、エッジ、木構造の考え方。
待ち行列理論で平均到着率、平均サービス率、利用率をどう読むか。

理解しておきたい要点

分野	整理する内容
統計分析	分布、相関係数、分析手法の名称と用途。
相関と因果	相関があることと原因であることを混同しない判断。
数値計算	スカラ、ベクトル、行列、テンソルの分類。
グラフ理論	無向グラフ、有向グラフ、木構造などの特徴。
待ち行列	利用率や平均待ち時間の式の意味。

統計分析

正規分布
最も一般的な確率分布で身長、座高など身近な分布に多く見られる。
その分布表現は、以下の確率密度関数として定義される。

平均値：\(μ\) 、標準偏差：\(σ\) と置くと

\[ f(x) = \displaystyle \frac{1}{\sqrt{2\pi \sigma^2}} \exp \left(-\frac{(x - \mu)^2} {2\sigma^2} \right) \]

この標準偏差 \(σ\) の分布比率は以下の通り。
- \(\pm 1σ\) で \(68%\)
- \(\pm 2σ\) で \(95%\)
- \(\pm 3σ\) で \(99.7%\)
以下、統計分析の種類。
回帰分析
関数モデルを使用した分析で変数が \(1\) つなら単回帰分析、複数なら重回帰分析という。
主成分分析
変数が多い場合、より少ない指標や合成変数に要約する分析手法。
因子分析
観測結果に影響する潜在要因（因子）を分析する手法。
相関分析
二つの変数（データ分布）がどの程度直線的（比例関係）にあるかを数値化して分析する手法。

この数値を相関係数という。
→ データ分布が右上がりの直線に近い程 \(1\) に近づく。
→ データ分布が右下がりの直線に近い程 \(-1\) に近づく。
→ データ分布が無相関である程 \(0\) に近づく。

相関関係と因果関係

相関関係
二つの事象が互いに関連している関係のこと。
因果関係
二つの事象の一方が原因となって別の事象が発生していること。
→ 相関関係にあるほど相関係数 \(=1\) となる。
そして、二つの事象のどちらに原因があり、どちらが結果であるか因果関係を求めるためには、ランダム化比較実験などの別途検証が必要。
疑似相関
一見相関関係または、因果関係が認められる事象でも、直接的な関連性がなく結果のみ相関していること。

例 : 子供の体重が重い程、算数ができるという相関関係の場合
→ 体重が重くなった原因に「年齢が上がる = 学年が上がる」という相関関係が隠れているため、体重と算数の出来に直接的な関連はなくこの場合、疑似相関となる。

数値計算

スカラ
\(0\) 次元で表現できるデータ。
→ 決まった数値を表し、固定の数値データのこと。
ベクトル
\(1\) 次元で表現できるデータ。
→ \(1\) 次元配列等の一列で表現できるデータのこと。
行列
\(2\) 次元で表現できるデータ。
→ \(2\) 次元配列等の縦、横など二種類の軸（行列）があるデータのこと。
テンソル
\(3\) 次元で表現できるデータ。
→ \(3\) 次元配列の縦、横、高さなど三種類の軸があるデータのこと。

グラフ理論

グラフ理論
ノード（接点、頂点）とエッジ（枝、辺）の集合から構成されるデータ構造についての理論。
グラフの方向性
有向グラフは、ノード \(A\) → ノード \(B\) のように一方のみに方向性を持つ。
無向グラフは、ノード \(A\) ↔ ノード \(B\) のように双方向に方向性を持つ。
木構造
木構造（単に木とも呼ばれる）は、閉路（閉じたノード）を持たないグラフ構造でルート（根）、ノード（枝）、リーフ（葉）から構成される。

待ち行列理論

待ち行列理論
列に並ぶ平均時間を統計学的な計算で求めるための理論。
→ 以下、\(3\) 要素が列に並ぶ時の待ち時間に影響を与え、待ち行列のモデルとなる。
- 到着率：来客頻度。
- サービス時間：対応時間。
- 窓口数：\(1\) 列あたりの窓口数。
\(M/M/1\) モデル
以下、\(3\) つの変動を取るときの待ち行列モデルのこと。
- 到着率：来客頻度が一定（\(D\)）ではなくランダム（\(M\)）。（ポアソン分布）
- サービス時間：対応時間が一定（\(D\)）ではなくランダム（\(M\)）。（指数分布）
- 窓口数：窓口数が \(1\) つ。（一定（\(D\)））

待ち時間の計算

\(M/M/1\) モデルの平均待ち時間
\(M/M/1\) モデルの場合に限定すると、平均待ち時間は、次の式で表現できる。

平均待ち時間：\(s1\)
平均サービス時間：\(s2\)
利用率：\(ρ\) と置くと

\[ s1 = \frac{ρ}{1 - ρ} \times s2\hspace{5mm}･･･（＊） \]

※ 利用率\(ρ\)は、平均サービス時間／平均到着間隔で表現できる。

また、平均応答時間は、平均待ち時間（\(s1\) モデル）と平均サービス時間（\(s2\) モデル）を合わせた時間となり、上記（＊4）より、次の式で表現できる。
→ 平均応答時間 \(= s1+ s2\)
\(\displaystyle = \frac{ρ}{1 - ρ} \times s2 + s2\)
\(\displaystyle = ( \frac{ρ}{1 - ρ} + 1 ) s2\)
\(\displaystyle = \frac{1}{1 - ρ} \times s2\)

違いを整理する

比較する項目	整理するポイント
相関関係と因果関係	相関係数が高くても、原因と結果が直接つながるとは限らない。
単回帰分析と重回帰分析	説明変数が1つなら単回帰、複数なら重回帰。
ベクトルと行列	1方向に並ぶデータがベクトル、行と列を持つデータが行列。
グラフと木	木は閉路を持たないグラフの一種。
利用率と待ち時間	利用率が1に近づくほど待ち時間が急激に増えやすい。

実務とのつながり

統計分析
ログ分析、売上予測、品質管理などでデータの傾向をつかむために使う。
相関と因果
データ分析結果を業務判断に使うとき、見かけの相関に注意する必要がある。
グラフ理論
ネットワーク経路、依存関係、木構造データの理解につながる。
待ち行列理論
サーバー負荷、窓口処理、キューイングの性能評価に使える。

まとめ

応用数学では、統計・グラフ・待ち行列など、情報処理を支える数学的な見方を整理する。
相関と因果は別物であり、疑似相関を見抜く視点が重要となる。
グラフ理論はネットワークや木構造の理解に、待ち行列理論は性能評価に役立つ。

参考文献

瀬戸美月（\(2020\)）『徹底攻略応用情報技術者教科書』株式会社インプレス

SIGMA-SE Tech Blog

SIGMA-SE Tech Blog

応用情報技術 - 基礎：2/21 応用数学（統計分析・グラフ理論・待ち行列）

概要

この記事で扱うこと

理解しておきたい要点

統計分析

相関関係と因果関係

数値計算

グラフ理論

待ち行列理論

待ち時間の計算

違いを整理する

実務とのつながり

まとめ

参考文献