今回の記事では解析の正当性を示す交差検証について解説したいと思います。
交差検証 (Cross Validation) とは
wikipedeiaには、「統計学において標本データを分割し、その一部をまず解析して、残る部分でその解析のテストを行い、解析自身の妥当性の検証・確認に当てる手法」と書いてます。
分かりやすく言うと次の項目に沿って、データ分析手法の「良さ」を評価する方法のことです。
①データセットをk個に分割する。
②分割したデータの1つをテストデータ、それ以外を学習データにして分析手法を評価します。
③2で評価したテストデータとは異なるデータをテストデータにして、それ以外を学習データにして分析手法を評価します。
④他のデータに対して、2,3を行う。
⑤全ての評価値の平均を算出して、それを評価値とする。
統計学のおいて、検定とは「とある仮説に対して、それが正しいのか否かを統計学的に検証する」という意味です。それに対して、検証は、機械学習の性能を検証という意味で使われます。ややこしいで混同しないようにしましょう。
なぜ、交差検証するのか
一番の理由は、汎化性が高いからです。つまり、未知のデータに対して有効に学習、評価できるということです。
例えば、評価制度95%のモデルを作っても、本当に未知のデータに対しても95%の精度を出すことが可能かはわかりません。
こういうときに、交差検証すると正確な評価制度がわかるのです。
デメリット
交差検証を行うと、計算コストが高くなります。
なので、検証対象によっては、予算やマシンスペックから行わない場合も多いです。