SIGMA-SE Tech Blog

SIGMA-SE Tech Blog


当サイトは、過去に運営していた別ドメイン(unisia-se.com)から sigma-se.com へ移行した技術ブログです。
旧サイトの記事をもとに、内容の精査・加筆・最新化を行い再構成しています。
正確で実用的な情報提供を目的としています。

応用情報技術 - 基礎:2/21 応用数学(統計分析・グラフ理論・待ち行列)

概要

情報技術の基礎として理解しておきたい応用数学のうち、統計分析、相関と因果、数値計算、グラフ理論、待ち行列理論を整理する。

応用数学は、データ分析、性能評価、ネットワーク構造の理解など、情報処理の多くの分野につながる。
公式を暗記するだけでなく、「何を分析したいのか」「どの指標で判断するのか」を意識すると理解しやすい。

この記事で扱うこと

  • 正規分布、相関分析、回帰分析などの基本的な意味。
  • 相関関係、因果関係、疑似相関の違い。
  • スカラ、ベクトル、行列、テンソルの次元の違い。
  • グラフ理論で使うノード、エッジ、木構造の考え方。
  • 待ち行列理論で平均到着率、平均サービス率、利用率をどう読むか。

理解しておきたい要点

分野 整理する内容
統計分析 分布、相関係数、分析手法の名称と用途。
相関と因果 相関があることと原因であることを混同しない判断。
数値計算 スカラ、ベクトル、行列、テンソルの分類。
グラフ理論 無向グラフ、有向グラフ、木構造などの特徴。
待ち行列 利用率や平均待ち時間の式の意味。

統計分析

  • 正規分布
    最も一般的な確率分布で身長、座高など身近な分布に多く見られる。
    その分布表現は、以下の確率密度関数として定義される。

    平均値:\(μ\) 、標準偏差:\(σ\) と置くと

    \[ f(x) = \displaystyle \frac{1}{\sqrt{2\pi \sigma^2}} \exp \left(-\frac{(x - \mu)^2} {2\sigma^2} \right) \]

    この標準偏差 \(σ\) の分布比率は以下の通り。

    • \(\pm 1σ\) で \(68%\)
    • \(\pm 2σ\) で \(95%\)
    • \(\pm 3σ\) で \(99.7%\)

    以下、統計分析の種類。

  • 回帰分析
    関数モデルを使用した分析で変数が \(1\) つなら単回帰分析、複数なら重回帰分析という。

  • 主成分分析
    変数が多い場合、より少ない指標や合成変数に要約する分析手法。

  • 因子分析
    観測結果に影響する潜在要因(因子)を分析する手法。

  • 相関分析
    二つの変数(データ分布)がどの程度直線的(比例関係)にあるかを数値化して分析する手法。

    この数値を相関係数という。
    → データ分布が右上がりの直線に近い程 \(1\) に近づく。
    → データ分布が右下がりの直線に近い程 \(-1\) に近づく。
    → データ分布が無相関である程 \(0\) に近づく。

相関関係と因果関係

  • 相関関係
    二つの事象が互いに関連している関係のこと。

  • 因果関係
    二つの事象の一方が原因となって別の事象が発生していること。
    相関関係にあるほど相関係数 \(=1\) となる。
    そして、二つの事象のどちらに原因があり、どちらが結果であるか因果関係を求めるためには、ランダム化比較実験などの別途検証が必要。

  • 疑似相関
    一見相関関係または、因果関係が認められる事象でも、直接的な関連性がなく結果のみ相関していること。

    例 : 子供の体重が重い程、算数ができるという相関関係の場合
    体重が重くなった原因に「年齢が上がる = 学年が上がる」という相関関係が隠れているため、体重と算数の出来に直接的な関連はなくこの場合、疑似相関となる。

数値計算

  • スカラ
    \(0\) 次元で表現できるデータ。
    → 決まった数値を表し、固定の数値データのこと。

  • ベクトル
    \(1\) 次元で表現できるデータ。
    → \(1\) 次元配列等の一列で表現できるデータのこと。

  • 行列
    \(2\) 次元で表現できるデータ。
    → \(2\) 次元配列等の縦、横など二種類の軸(行列)があるデータのこと。

  • テンソル
    \(3\) 次元で表現できるデータ。
    → \(3\) 次元配列の縦、横、高さなど三種類の軸があるデータのこと。

グラフ理論

  • グラフ理論
    ノード(接点、頂点)エッジ(枝、辺)の集合から構成されるデータ構造についての理論。

  • グラフの方向性
    有向グラフは、ノード \(A\) → ノード \(B\) のように一方のみに方向性を持つ。
    無向グラフは、ノード \(A\) ↔ ノード \(B\) のように双方向に方向性を持つ。

  • 木構造
    木構造(単に木とも呼ばれる)は、閉路(閉じたノード)を持たないグラフ構造でルート(根)ノード(枝)リーフ(葉)から構成される。

待ち行列理論

  • 待ち行列理論
    列に並ぶ平均時間を統計学的な計算で求めるための理論。
    → 以下、\(3\) 要素が列に並ぶ時の待ち時間に影響を与え、待ち行列のモデルとなる。

    • 到着率:来客頻度。
    • サービス時間:対応時間。
    • 窓口数:\(1\) 列あたりの窓口数。
  • \(M/M/1\) モデル
    以下、\(3\) つの変動を取るときの待ち行列モデルのこと。

    • 到着率:来客頻度が一定(\(D\))ではなくランダム(\(M\))。(ポアソン分布
    • サービス時間:対応時間が一定(\(D\))ではなくランダム(\(M\))。(指数分布
    • 窓口数:窓口数が \(1\) つ。(一定(\(D\)))

待ち時間の計算

  • \(M/M/1\) モデルの平均待ち時間
    \(M/M/1\) モデルの場合に限定すると、平均待ち時間は、次の式で表現できる。

    平均待ち時間:\(s1\)
    平均サービス時間:\(s2\)
    利用率:\(ρ\) と置くと

    \[ s1 = \frac{ρ}{1 - ρ} \times s2\hspace{5mm}・・・(*) \]

    ※ 利用率\(ρ\)は、平均サービス時間/平均到着間隔で表現できる。

    また、平均応答時間は、平均待ち時間(\(s1\) モデル)と平均サービス時間(\(s2\) モデル)を合わせた時間となり、上記(*4)より、次の式で表現できる。
    → 平均応答時間 \(= s1+ s2\)
    \(\displaystyle = \frac{ρ}{1 - ρ} \times s2 + s2\)
    \(\displaystyle = ( \frac{ρ}{1 - ρ} + 1 ) s2\)
    \(\displaystyle = \frac{1}{1 - ρ} \times s2\)

違いを整理する

比較する項目 整理するポイント
相関関係と因果関係 相関係数が高くても、原因と結果が直接つながるとは限らない。
単回帰分析と重回帰分析 説明変数が1つなら単回帰、複数なら重回帰。
ベクトルと行列 1方向に並ぶデータがベクトル、行と列を持つデータが行列。
グラフと木 木は閉路を持たないグラフの一種。
利用率と待ち時間 利用率が1に近づくほど待ち時間が急激に増えやすい。

実務とのつながり

  • 統計分析
    ログ分析、売上予測、品質管理などでデータの傾向をつかむために使う。

  • 相関と因果
    データ分析結果を業務判断に使うとき、見かけの相関に注意する必要がある。

  • グラフ理論
    ネットワーク経路、依存関係、木構造データの理解につながる。

  • 待ち行列理論
    サーバー負荷、窓口処理、キューイングの性能評価に使える。

まとめ

  • 応用数学では、統計・グラフ・待ち行列など、情報処理を支える数学的な見方を整理する。
  • 相関と因果は別物であり、疑似相関を見抜く視点が重要となる。
  • グラフ理論はネットワークや木構造の理解に、待ち行列理論は性能評価に役立つ。

参考文献

  • 瀬戸 美月(\(2020\))『徹底攻略 応用情報技術者教科書』株式会社インプレス


Copyright SIGMA-SE All Rights Reserved.
s-hama@sigma-se.jp