重回帰分析は、複数の説明変数から目的変数を予測する統計手法です。単回帰の自然な拡張であり、現実のデータ分析で広く用いられています。
重回帰モデル
個の説明変数 に対して、重回帰モデルは
と表されます。行列表記では
です。ここで は の計画行列(第 1 列はすべて 1)、 です。
最小二乗推定
残差平方和 を最小化すると、正規方程式
が得られます。 が正則ならば
となります。これが最小二乗推定量です。
決定係数と自由度調整済み決定係数
決定係数は単回帰と同様に
で定義されます。ただし説明変数を増やすと は必ず増加するため、変数の数が異なるモデルの比較には自由度調整済み決定係数
を用います。
回帰係数の検定と信頼区間
各回帰係数 について : を検定できます。検定統計量
は自由度 の t 分布に従います。この検定は「他の変数を固定したとき、 が に有意な影響を与えるか」を判断するものです。
回帰の有意性の検定
モデル全体の有意性は F 検定で評価します。: (すべての説明変数が無関係)に対して
は帰無仮説のもとで自由度 の F 分布に従います。
多重共線性
説明変数間に強い相関があると、推定が不安定になる多重共線性の問題が生じます。分散拡大係数(VIF)などで診断し、必要に応じて変数選択や正則化を行います。