多重比較の罠:検定のやりすぎが「偽りの発見」を生む

概論

あるトレーダーが、過去のデータで驚異的なパフォーマンスを示すトレーディング戦略を発見したとします。p値は0.05を下回り、t値は2.0を超える。一見すると、これは本物の「エッジ」のように思えます。しかし、もし彼がこの戦略を見つけるまでに、1000種類の異なる戦略を試行錯誤していたとしたら、どうでしょうか。その「発見」の価値は、根本から揺らいでしまいます。

これこそが、バックテストにおける最も深刻な統計的罠の一つ、多重比較の罠(Multiple Comparisons Problem)です。

多重比較の罠とは、統計的な検定を同じデータセットに対して何度も繰り返すことで、本来は何の因果関係もないにも関わらず、偶然によって「統計的に有意」な結果が出てしまう確率が劇的に高まってしまうという現象を指します。

統計的有意性の一般的な基準である「p値0.05未満」は、「もし本当は効果がないとしたら、このような結果が偶然で観測される確率は5%である」ことを意味します。これは、1回の検定であれば、偶然を本物のシグナルと誤認するリスク(第一種の過誤)を5%に抑える、という合理的な基準です。

しかし、もし全く効果のない20種類の戦略を検定すれば、そのうち少なくとも1つが「偶然」によってp値0.05を下回る確率は、約64%にも跳ね上がります。1000回も試行すれば、確率的に約50個の「偽りの発見」が生まれてしまうのです。

金融市場におけるこの問題は、古くは「データスヌーピング(データの盗み見)」として知られ、ローとマッキンレーによる1990年の研究などで、その危険性が指摘されてきました [1]。バックテストという行為そのものが、無数の戦略仮説をデータにぶつける試行錯誤のプロセスであるため、この罠に陥る危険性と常に隣り合わせなのです。ファーマとフレンチによる有名な3ファクターモデルのような、ごく一握りの頑健な発見の裏には、発表されることのなかった無数の失敗した検定が存在すると考えられます [2]。


長短の解説、利益例・損失例の紹介

短所、弱み、リスクについて:「偽りの発見」が生まれるメカニズム(損失事例)

多重比較の罠を理解しないままバックテストを繰り返すことは、存在しないはずの「聖杯」を探し求める行為であり、最終的には現実の市場で手痛い損失を被る運命にあります。

「ファクター動物園」の誕生

この罠がもたらした最も象徴的な帰結が、これまでの記事でも触れてきた「ファクター動物園」です。

キャンベル・ハーヴェイ、ヤン・リュー、ヒュー・ズーによる2016年の研究は、金融研究の世界で発見された数百もの「ファクター」の多くが、この多重比較の罠によって生まれた「偽りの発見」である可能性が高いと結論付けました [3]。数千人の研究者が、何十年にもわたって様々な指標をテストし続けた結果、本来はノイズであるはずの多数の偶然のパターンが、「統計的に有意な」アノマリーとして報告されてしまったのです。

科学全体の「再現性の危機」

この問題は、金融の世界に限定されたものではありません。医学、心理学、社会学など、統計を用いるあらゆる科学分野で、同様の問題が「再現性の危機」として深刻に受け止められています。

著名な医学研究者であるジョン・イオアニディスが2005年に発表した衝撃的な論文「なぜ発表された研究結果のほとんどは偽りなのか」は、多重比較の罠を含む様々なバイアスの影響を考慮すると、多くの科学的な発見が、統計的には真実である可能性よりも偽りである可能性の方が高いと論じました [4]。

長所、強み、有用な点について:偶然と本物を見分けるための規律

この罠は非常に強力ですが、研究者たちは、その罠を乗り越え、偶然の中から本物のシグナルを見つけ出すための、より厳格な規律と手法を開発してきました。これらの手法を理解することこそが、投資家が自らを守るための「強み」となります。

統計的有意性の基準の厳格化

最も直接的な解決策は、統計的有意性のハードルそのものを高くすることです。ハーヴェイらは、金融研究の分野では、伝統的な「t値2.0以上」という基準はもはや甘すぎると指摘し、過去に行われた膨大な数のテストを考慮に入れると、新しいファクターが本物であると主張するためには、少なくとも「t値3.0以上」という、より厳格な基準を満たすべきだと提案しています [3]。

データスヌーピングの調整検定(Reality Check)

より高度な解決策として、データマイニング(データスヌーピング)の影響を統計的に調整する専門的な検定手法も開発されています。

ハルバート・ホワイトが2000年に提唱した「リアリティ・チェック」は、その代表例です [5]。これは、多数の取引ルールを試した中から最も成績が良かったルールを選び出した、という「選択のプロセス」そのものを考慮に入れた上で、その最優秀ルールのパフォーマンスが、本当に偶然を超えたものなのかを検定する枠組みです。

ベイジアン的アプローチ

伝統的な仮説検定の枠組みそのものから脱却し、ベイズ統計学のアプローチを用いることも、一つの解決策となり得ます。パストールとスタンバーによる2000年の研究のように、ベイズ的アプローチでは、新しいモデル(ファクター)が、既存のモデルと比べて、データをどれだけより良く説明できるかという「確率」を評価します [6]。これにより、「有意か、否か」という二元論的な判断ではなく、より柔軟で、直感的なモデル評価が可能になります。

非対称性と摩擦の視点から

なぜ、これほどまでに統計学的に明白な「罠」に、多くの研究者やトレーダーが陥ってしまうのでしょうか。その本質を、当メディアの根幹をなす「非対称性と摩擦」の観点から解き明かすことができます。


Asymmetry:発見の「非対称性」

多重比較の罠の根源には、仮説の「生成」と「検証」の間に存在する、極端な非対称性があります。

現代のコンピュータを使えば、何万、何百万という数のトレーディング戦略(仮説)を機械的に生成し、バックテストを行うことは、比較的容易です。仮説の生成コストは、限りなくゼロに近いと言えます。

一方で、その中から見つかった一つの「有望な」戦略が、本当に本物かどうかを厳密に検証するプロセスは、極めて困難で、コストがかかります。アウト・オブ・サンプル検証や、統計的妥当性の深い吟味には、膨大な時間と専門知識が必要です。

この「仮説生成の容易さ」と「仮説検証の困難さ」という圧倒的な非対称性が、質の低い、偶然の産物である可能性が高い「偽りの発見」を大量に生み出す土壌となっているのです。

さらに、結果の報告においても非対称性が存在します。「エッジを発見した」というポジティブな結果は公表されやすいのに対し、「何も見つからなかった」というネガティブな結果は、ほとんど世に出ることがありません。この「出版バイアス」が、私たちの目に映る世界を、実際よりも遥かに「エッジに満ちた」世界であるかのように見せかけてしまうのです [4]。


Friction:「知の探求」と「利益の探求」という動機の摩擦

手数料やスプレッドのような基本的な摩擦に加え、多重比較の罠という問題には、人間の動機や制度に根差した、より根深い「摩擦」が存在します。

「発見」を求めるインセンティブという摩擦

学術研究者も、ファンド開発者も、そして個人トレーダーも、本質的に「新しい発見」を求める強いインセンティブに晒されています。研究者は、新しいアノマリーを発見すれば、著名な学術誌に論文を掲載できるかもしれません。開発者は、優れたバックテスト結果を持つ新しい商品を開発すれば、多くの資金を集めることができるでしょう。

この「何かを見つけなければならない」という強いプレッシャーが、統計的な規律を緩め、pハッキングやデータマイニングへと研究者を駆り立てる、強力な摩擦として機能します。ハーヴェイらが提案するような厳格な基準を適用すれば、ほとんどの「発見」は消え去ってしまいます [3]。規律を守ることは、短期的には何も生み出さないという「無」の苦痛を伴うのです。

厳密さの「コスト」という摩擦

多重比較の罠を回避するための手法は、存在します。しかし、ホワイトの「リアリティ・チェック」[5]に代表されるような厳格な統計的検定は、非常に複雑で、実行するには高度な専門知識と計算資源を要求します。

この「厳密さを担保するためのコスト」が、物理的・知的な摩擦となり、多くの人々が、より簡易で、しかし不正確な検証手法に留まらせる原因となります。統計的な規律を遵守するためのコストが高すぎるため、多くの人々は、その規律を破る誘惑に屈してしまうのです。この摩擦がある限り、「ファクター動物園」の門は開かれ続けるでしょう。


総括

・多重比較の罠とは、検定を繰り返すことで、本来は無関係なデータから、偶然によって「統計的に有意」な結果(偽りの発見)を得てしまうリスクのことです。

・この罠は、金融研究において「データマイニング」や「pハッキング」として知られ、「ファクター動物園」と呼ばれる数百ものアノマリーが生まれる主要な原因となりました [3]。

・この問題は金融に限らず、科学の多くの分野で「再現性の危機」として認識されており、発表された研究結果の多くが偽りである可能性さえ指摘されています [4]。

・対策としては、統計的有意性の基準を引き上げる(t値>3.0など)[3]、あるいは、データマイニングの影響を調整する専門的な検定手法(ホワイトのリアリティ・チェックなど)[5]を用いるといった、より厳格な規律が求められます。


用語集

多重比較の罠 (Multiple Comparisons Problem) 同じデータに対して多数の仮説検定を繰り返すと、たとえ意味のある関係がなくても、確率的に「統計的に有意」な結果が出てしまうという統計学的な問題。

データマイニング (Data Mining) 大量のデータを分析し、本来は意味のない偶然の相関関係を、意味のある規則性であるかのように見つけ出してしまうこと。

pハッキング (p-hacking) 統計的な分析において、研究者が自分に都合の良い結果(統計的に有意な結果)が得られるまで、データの分析方法を様々に試行錯誤すること。データマイニングの一種。

p値 (p-value) 統計的仮説検定において、「もし帰無仮説が真実であるとしたら、観測された結果か、それ以上に極端な結果が、偶然によって生じる確率」。

t値 (t-statistic) 平均値などが、その標準誤差と比べて、どれだけゼロ(または他の比較値)から離れているかを示す統計量。一般に絶対値が2.0を超えると「統計的に有意」と見なされることが多い。

統計的有意性 (Statistical Significance) 観測された結果が、単なる偶然によって生じたとは考えにくい、と判断されること。一般にp値が0.05未満の場合を指す。

帰無仮説 (Null Hypothesis) 検定の対象となる、「効果がない」「差がない」といった内容の仮説。この仮説を棄却することが、統計的な効果を示すことの目標となる。

ファクター動物園 (Factor Zoo) 数百種類ものファクター(アノマリー)が学術研究で報告され、どれが本物でどれが偽物か分からない混沌とした状況を揶揄した言葉。

再現性の危機 (Replication Crisis) 科学研究において、過去に報告された研究結果が、第三者による追試で再現できないという問題が多発している状況。

バックテスト (Backtest) ある投資戦略が、過去の市場データを用いてシミュレーションした場合に、どのようなパフォーマンスを示したかを検証すること。


参考文献一覧

[1] Lo, A. W., & MacKinlay, A. C. (1990). Data-snooping biases in tests of financial asset pricing models. The Review of Financial Studies, 3(3), 431-467.
https://doi.org/10.1093/rfs/3.3.431

[2] Fama, E. F., & French, K. R. (1993). Common risk factors in the returns on stocks and bonds. Journal of Financial Economics, 33(1), 3-56.
https://doi.org/10.1016/0304-405X(93)90023-5

[3] Harvey, C. R., Liu, Y., & Zhu, H. (2016). …and the Cross-Section of Expected Returns. The Review of Financial Studies, 29(1), 5-68.
https://doi.org/10.1093/rfs/hhv059

[4] Ioannidis, J. P. A. (2005). Why most published research findings are false. PLoS Medicine, 2(8), e124.
https://doi.org/10.1371/journal.pmed.1004085

[5] White, H. (2000). A reality check for data snooping. Econometrica, 68(5), 1097-1126.
https://doi.org/10.1111/1468-0262.00152

[6] Pástor, Ľ., & Stambaugh, R. F. (2000). Comparing asset pricing models: An investment perspective. Journal of Financial Economics, 56(3), 335–381.
https://doi.org/10.1016/S0304-405X(00)00044-1

【免責事項】

本サイト/本記事は、著者個人の見解、経験、学習・研究内容に基づいた情報提供を目的としています。特定の銘柄や投資手法の推奨を目的としたものではなく、また、金融商品取引法に基づく投資助言サービスではありません。

投資には元本割れを含む様々なリスクがあります。価格変動、金利変動、為替変動、発行者の信用状況などにより、損失が生じる可能性があります。

本サイト/本記事で提供される情報を利用した投資判断や取引によって生じたいかなる損害についても、筆者および運営者は一切の責任を負いません。

投資に関する最終的な決定は、ご自身の判断と責任において行って(あるいは行わないで)ください。

コメント

タイトルとURLをコピーしました