カーブフィッティングの罠──「イケてるバックテスト」に破産させられないためにできること

トレード界には、歴史検証データで完璧な成績を示し、「聖杯」に見える戦略があります。でも、それをリアルマネーで試した瞬間、戦略は音を立てて崩れ、残高が溶けていく…そんな悲劇の原因が、「カーブフィッティング」です。「過剰適合」とも呼ばれます。

今回は、この罠がなぜ起きるのかを丁寧に解説し、さらにデータのトリックを見破る研究や、回避するための実践方法まで丁寧にご紹介します。


カーブフィッティングとは何か?

カーブフィッティングとは、一言で言えば「過去のデータに対して、戦略のパラメータを過剰に最適化(チューニング)してしまうこと」です。

市場の価格データには、本質的なトレンドやパターンといった「シグナル」と、再現性のない偶発的な値動きである「ノイズ」が混在しています。

  • 有効な戦略(堅固なモデル)は、「シグナル」を捉えようとします。
  • カーブフィットした戦略(過剰適合したモデル)は、「シグナル」だけでなく「ノイズ」にまで完璧にフィットしてしまいます。

この「ノイズにまで適合したモデル」は、そのノイズが発生した過去のデータ上では、驚くほど正確に機能します。しかし、未来の市場では過去と全く同じノイズは二度と発生しないため、このモデルは未知のデータに対して全くの無力となり、損失を垂れ流すだけの「ガラクタ」と化すのです。


学術的研究が暴く「バックテスト過剰適合」の危険性

この問題は、個々のトレーダーの失敗談に留まりません。金融経済学、特に計量ファイナンスの分野で、深刻な問題として長年研究されています。
現代のトレーダーは、強力なPCとバックテストソフトウェアを使い、何千、何万通りものパラメータの組み合わせを短期間でテストできます。例えば、移動平均クロスオーバー戦略で、短期と長期の期間を1日から200日まで1日刻みで組み合わせれば、それだけで2万通り(200 × 199 / 2)のテストが可能です。
この行為を「データスヌーピング」と呼びます。

マルコス・ロペス・デ・プラドの警告

この分野の世界的権威であるマルコス・ロペス・デ・プラド(Marcos López de Prado)は、その著作『Advances in Financial Machine Learning』などで、この問題に警鐘を鳴らしています。

彼の主張の核心は、”大量のテストを行えば、たとえ完全にランダムなデータが相手でも、偶然によって素晴らしいパフォーマンスを示す戦略が必ず見つかってしまう“という統計的な事実です。

これを彼は「バックテストの過剰適合」と呼び、多くのヘッジファンドや個人投資家が発見したと信じている「エッジ」の大部分は、この過剰適合の産物である可能性が高いと指摘しています。

この過剰適合のリスクを定量的に評価するため、彼は「デフレーテッド・シャープレシオ」という概念を提唱しました。これは、バックテストで得られたシャープレシオを、「試行回数」「データの独立性」「市場のノイズの多さ」といった要因を考慮して数学的に「割り引く(deflate)」指標です。ロペス・デ・プラドのシミュレーションによれば、

見かけ上のシャープレシオが2.5を超えるような優れた戦略であっても、それが数千回のテストから選ばれたものであった場合、デフレーテッド・シャープレシオはほぼゼロにまで低下する

ことが示されています。これは、我々がバックテストで目にする見事な右肩上がり損益推移も、統計的な幻影に過ぎない可能性を冷徹に突きつけています。

デビッド・ベイリーの批判

同様に、この分野の研究者であるデビッド・ベイリー(David H. Bailey)らも、論文「The Probability of Backtest Overfitting」などで、この問題を厳しく批判しています。

彼らは、金融市場におけるリターンの発見は、製薬業界における新薬の発見プロセスと同様に、厳格な統計的規律の下で行われるべきだと主張します。何千もの化合物(パラメータ)を試して偶然「効いた」ものを新薬として発表することが許されないのと同様に、何千ものバックテストから偶然生まれた「聖杯」を本物のエッジとして喧伝することは、「金融における疑似科学」であり、知的な欺瞞であると断じています。


カーブフィッティングを回避するための実践的アプローチ

では、トレーダーはこの深刻な罠をどうすれば回避できるのでしょうか。以下に、学術界とプロの実践者の間でコンセンサスとなっている、いくつかの基本的なアプローチを挙げます。

アウト・オブ・サンプル(OOS)テスト

これは最も基本的かつ重要な手法です。保有する全データを、「イン・サンプル(In-Sample)」「アウト・オブ・サンプル(Out-of-Sample)」の2つに分割します。

  • イン・サンプル期間: 戦略のパラメータを最適化(チューニング)するために使用します。
  • アウト・オブ・サンプル期間: 最適化が完了した後、その戦略が未知のデータに対して本当に機能するのかを検証するために、一度だけ使用します。この期間のデータは、最適化のプロセスでは決して使用してはいけません。

イン・サンプルで完璧な成績を収めた戦略が、アウト・オブ・サンプルで無残な結果に終わることは日常茶飯事です。このテストをパスしない戦略は、カーブフィットしている可能性が極めて高いと判断できます。

ウォーク・フォワード分析

これはOOSテストをより発展させた、ロバストな検証手法です。データを固定的に分割するのではなく、時間軸に沿って「学習期間」と「テスト期間」のウィンドウをスライドさせながら、繰り返しテストを行います。これにより、戦略が特定の市場環境だけでなく、様々な期間において安定して機能するかどうかを評価できます。

パラメータの数を制限する(オッカムの剃刀)

「オッカムの剃刀」という哲学の原則(”ある事柄を説明するためには、必要以上に多くの仮定を用いるべきではない”)は、戦略構築にも当てはまることを示唆しまています。定量的リスク管理の専門家であるマルコス・ロペス・デ・プラドは、著作の中でバックテストの過剰適合について繰り返し警告しており、”パラメータの数が多く複雑なモデルほど、未知のデータに対して脆くなる”ことを指摘しています。パラメータが多ければ多いほど、モデルは複雑になり、カーブフィットするリスクは指数関数的に増大します。パラメータが2つや3つのシンプルな戦略が、10個のパラメータを持つ複雑な戦略よりも、より長い期間で機能し続ける可能性が高いでしょう。

理論的根拠を持つ

なぜその戦略が機能するのか?その背景に、経済学的、あるいは行動ファイナンス的な合理的な説明はつくのか? 例えば、前回分析したVIX戦略には「遅延裁定」という理論的背景がありました。単にチャート上のパターンを追いかけるのではなく、市場の構造や人間の心理といった、より普遍的な原理に基づいた戦略は、カーブフィットのリスクが相対的に低いと言えます。

あなたの戦略は大丈夫?危険信号を察知するチェックリスト

  1. パラメータの崖はないか?:主要なパラメータ(例:移動平均の期間)を±5%程度ずらすだけで、パフォーマンスが急落しないか。理想的な戦略は、パラメータの変化に対して成績がなだらかに変化します。
  2. 成績は集中していないか?:利益の大部分が、特定の数回の取引や、特定の相場局面(例:金融危機)だけで生み出されていないか。このような戦略は、再現性が極めて低いと言えます。
  3. 選択バイアスはないか?:複数の指標を試した結果、「最も成績が良かったもの」だけを採用していないか。例えばVIX戦略の論文で、時価総額(ME)では高いリターンが出たが、他の指標ではそれほどでもなかったように、指標選択に成績が強く依存する場合、その選択自体がバイアスである可能性があります。
  4. コストは無視されていないか?:ブローカーの実勢手数料、スリッページ、貸株料などを考慮しても、なおプラスの期待値が残るか。
  5. データは健全か?:未来の情報を参照してしまう「ルックアヘッドバイアス」はないか。上場廃止になった銘柄のデータは含まれているか(生存者バイアス)。配当や株式分割は正しく調整されているか。

過剰適合を防ぐための技術的規律まとめ

  1. 研究プロトコルの厳守: まず仮説を立て、戦略の仕様を固定します。その後、学習期間(イン・サンプル)でパラメータを決定し、そのパラメータを使って未知の検証期間(アウト・オブ・サンプル)で評価するという手順を一度だけ行います。この規律が基本です。
  2. ウォークフォワード検証: 期間を前に転がしながら「学習→直後の未知期間で評価」を繰り返し、戦略の安定性を検証します。
  3. パラメータの節約(オッカムの剃刀): 「ある事柄を説明するためには、必要以上に多くの仮定を用いるべきではない」という原則に従い、戦略のルールやパラメータの数を極力少なくします。シンプルなルールほど、将来にわたって機能する可能性が高まります。
  4. 理論的根拠を持つ: なぜその戦略が機能するのか、その背景に経済学的・行動ファイナンス的な合理的な説明はつくか。普遍的な原理に基づいた戦略は、カーブフィットのリスクが相対的に低いと言えます。
  5. 多重検定の罠を意識する: 自分がどれだけの数の戦略やパラメータを試したかを常に意識します。多数の試行から偶然生まれた「当たり」を本物のエッジと誤認しないために、ロペス・デ・プラドのデフレーテッド・シャープレシオのような、より保守的な評価指標を用いる視点が必要です。

結論:「美しいバックテスト」への健全な懐疑主義

カーブフィッティングは単なる技術的な失敗ではありません。もっと主観的かつ感情的な、「過去は未来を映す鏡である」という誤った信仰が生み出す罠です。

トレーダーがバックテストで見るべきところは、右肩上がりの美しいエクイティカーブではなく、その戦略が①どれだけシンプルか②どれだけ多くの異なる市場環境(アウト・オブ・サンプル)で生き残っているか③その背後に説得力のあるロジックが存在するかです。

バックテストは証明の終わりではなく、懐疑的な検証の始まりに過ぎません。この事実を肝に銘じることこそが、95%の敗者から抜け出し、本物のエッジを追求するための第一歩となるのです。

参考文献一覧

Bailey, D. H., & López de Prado, M. (2014). The deflated Sharpe ratio: Correcting for selection bias, backtest overfitting, and non-normality. The Journal of Portfolio Management, 40(5), 94–107.
https://doi.org/10.3905/jpm.2014.40.5.094

Bailey, D. H., Borwein, J. M., López de Prado, M., & Zhu, Q. J. (2017). The probability of backtest overfitting. Journal of Computational Finance, 20(4), 39–69.
https://doi.org/10.21314/JCF.2016.322

Bailey, D. H., & López de Prado, M. (2021). How “backtest overfitting” in finance leads to false discoveries. Significance, 18(6), 10–15.
https://doi.org/10.1111/1740-9713.01588

Bailey, D. H., Borwein, J. M., López de Prado, M., & Zhu, Q. J. (2014). Pseudo-mathematics and financial charlatanism: The effects of backtest overfitting on out-of-sample performance. Notices of the American Mathematical Society, 61(5), 458–471.
https://doi.org/10.1090/noti1105

López de Prado, M. (2018). Advances in financial machine learning. Wiley.
本文献は書籍ですが、レビュー記事があります。
https://doi.org/10.1007/s11408-019-00341-4

【免責事項】

本サイト/本記事は、著者個人の見解、経験、学習・研究内容に基づいた情報提供を目的としています。特定の銘柄や投資手法の推奨を目的としたものではなく、また、金融商品取引法に基づく投資助言サービスではありません。

投資には元本割れを含む様々なリスクがあります。価格変動、金利変動、為替変動、発行者の信用状況などにより、損失が生じる可能性があります。

本サイト/本記事で提供される情報を利用した投資判断や取引によって生じたいかなる損害についても、筆者および運営者は一切の責任を負いません。

投資に関する最終的な決定は、ご自身の判断と責任において行って(あるいは行わないで)ください。

コメント

タイトルとURLをコピーしました