KJR020 KJR020's Blog

VIFとは

経緯

製造業におけるデータ分析関連のカンファレンスで発表を聞いていた。
VIFってなんだっけ?と思った。
多重共線性を評価する文脈で使われていたが、 具体的な計算方法が思い出せなかったので、まとめる

VIFについて調べた

Variance Inflation Factorの略。 最小二乗回帰において、多重共線性の影響を定量化する指標。
具体的には、どうやって定量化しているか? 推定された回帰係数の分散(推定値の標準偏差)がどれだけ多重共線性の影響で増大したかを図る
説明変数ごとに、評価する値になる

$$VIF_i = frac{1}{1-R_i^2}$$

一般的には10以下が多重共線性がないと、判断する目安らしいが根拠は不明。

相関係数との違い、多重共線性を評価するのにVIFを用いる理由

相関係数は2変数だけの相関を見ていないため、多重共線性を評価するには不十分。
VIFでは、すべての変数を計算に用いるため、全変数間の相関を考慮できる。ということらしい。

どうやら多重共線性を判定する際には、相関係数では不適切であり、代わりに分散拡大要因(Variance Inflation Factor: VIF)を用いて判定することが推奨されているそうです。ではなぜ相関係数では不適切なのでしょうか。 それは、相関係数が2変数間の関係だけしか見ていないからです。 多変量解析の分析なら、多変量の相関で考えるべきなので、2変数間の関係しかみれない相関係数だと、不十分なのです。 それに対してVIFは全ての変数を使って計算していますので、多変数間の相関も考慮してくれます。

また、正確に基準が定まっているわけではないようですが、VIFの値が を超えると多重共線性を認めていると言えるそうです。 ただVIFが10というのも、かなり甘めの基準であるようです。 本来多変量解析は説明変数(独立変数)同士が全く相関していない状態であることが望ましいようです。

参考

分散拡大係数 - Wikipedia
分散拡大係数 - Wikipedia favicon ja.wikipedia.org
重回帰分析における多重共線性について - Qiita
IPFactory Advent Calender 2022 24日目の記事です。 重回帰分析 重回帰分析とは機械学習モデルを作成する際の説明変数(特徴量)が二つ以上存在する回帰分析を意味します。 また、説明変数が一つである回帰分析を単回帰分析と呼びます。 多重...
重回帰分析における多重共線性について - Qiita favicon qiita.com
重回帰分析における多重共線性について - Qiita
Esc
キーワードを入力して検索