概論
あるトレーディング戦略をバックテストした結果、素晴らしいパフォーマンスが示されたとします。年率リターンは高く、シャープレシオも良好。しかし、その輝かしい結果は、本当に戦略が持つ「エッジ(優位性)」によるものなのでしょうか。それとも、単なる「幸運な偶然」が重なっただけなのでしょうか。この、トレーダーにとって最も根源的で重要な問いに、統計学的な角度から答えようとするツールがt値(t-statistic)とp値(p-value)です。
これらは、統計的仮説検定という枠組みで用いられます。まず、私たちは「この戦略には、真のエッジ(アルファ)など存在しない(アルファ=0である)」という、検証したい事柄とは逆の帰無仮説(Null Hypothesis)を立てます。そして、バックテストの結果が、この帰無仮説が正しいとした場合に、どれほど「珍しい」出来事なのかを評価します。
- t値:これは、バックテストで得られた平均リターン(やアルファ)が、その標準誤差(リターンのばらつきの大きさ)と比べて、どれだけゼロから離れているかを示す「シグナル対ノイズ比」のようなものです。t値の絶対値が大きいほど、その結果が単なるノイズ(偶然のばらつき)である可能性は低いと考えられます。このt検定の基礎は、ウィリアム・シーリー・ゴセット(筆名:スチューデント)による1908年の独創的な論文に遡ります [1]。
- p値:これは、「もし帰無仮説が真実である(=真のエッジはゼロである)としたら、今回観測された結果、あるいはそれ以上に極端な結果が、偶然によって生じる確率」を示します。p値が非常に小さい(例えば、0.05未満)ならば、「これは偶然と考えるには、あまりにも珍しい出来事だ。したがって、帰無仮説は誤っている可能性が高い」と判断し、帰無仮説を棄却します。
この統計的な枠組みを、ファンドマネージャーのパフォーマンス評価に初めて本格的に導入したのが、マイケル・ジェンセンによる1968年の研究です [2]。彼は、ファンドが稼いだアルファのt値を計算することで、そのアルファが統計的に有意なものか、すなわちスキルによるものかを客観的に評価する道筋を示しました。
長所・短所の解説、利益例・損失例の紹介
長所、強み、有用な点について:偶然を排除するための科学的規律
客観的な判断基準の提供
t値とp値がもたらす最大の恩恵は、投資戦略の評価に客観的で科学的な規律をもたらす点です。バックテストの結果を前にして、「これは良さそうだ」といった主観的な印象で判断するのではなく、「この結果が偶然である確率は5%未満である」といった、定量的な根拠に基づいて意思決定を行うための共通言語を提供します。
ファーマとフレンチが1993年に3ファクターモデルを提唱した際も、彼らはサイズ(SMB)とバリュー(HML)ファクターのリターンが、統計的に有意にゼロを上回ることをt値を用いて示し、それらが偶然の産物ではないことを主張しました [3]。
統計的信頼度の定量化
これらの指標は、単に「白か黒か」を判定するだけでなく、その結果に対する統計的な信頼度を定量化します。t値が2.1の戦略と、5.0の戦略では、どちらも「統計的に有意」かもしれませんが、後者の方が圧倒的に偶然である可能性が低い、より頑健な結果であることを示します。この信頼度のレベルを把握することは、その戦略にどれだけの資金を投じるかといった、リスク管理の判断において極めて重要です。
短所、弱み、リスクについて:誤解と誤用がもたらす「偽りの発見」
t値とp値は、正しく使えば強力なツールですが、その定義の難解さから、金融の世界では深刻な誤解と誤用が蔓延しており、しばしば投資家を誤った結論へと導きます。
p値の誤解:「p値が0.05」の意味
最もよくある誤解は、「p値が0.05である」ことを、「帰無仮説が正しい(=エッジがない)確率が5%である」と解釈してしまうことです。これは全くの間違いです。
アメリカ統計協会(ASA)が2016年に発表した異例の声明でも警告されているように、p値が0.05であることの正しい解釈は、「もしエッジが本当に存在しないなら、このような結果が偶然で観測される確率は5%である」というものです [4]。この微妙ですが決定的な違いを理解していないと、p値が示す証拠の強さを過大評価してしまう危険性があります。
多重比較の罠とデータマイニング(損失事例)
p値とt値の誤用がもたらす最も壊滅的な結果が、多重比較の罠、すなわちデータマイニングです。
統計的に、「全く意味のないランダムな戦略」を100個テストすれば、そのうち約5個は、確率的にp値が0.05を下回り、「統計的に有意」な結果を示してしまいます。キャンベル・ハーヴェイらの2016年の研究は、金融研究の世界で数百もの「ファクター」が発見された背景には、この多重比較の罠があると痛烈に批判しました [5]。研究者たちが、有意な結果が出るまで何千、何万という戦略を試行錯誤(データマイニング)した結果、本来はノイズであるはずの「偽りの発見」が大量に生み出されてしまったのです。
統計的有意性と経済的有意性の混同
ある戦略のアルファが、統計的に有意であること(p値が低いこと)と、その戦略が経済的に有意である(実際に儲かる)ことは、全く別の問題です。
ハルバート・ホワイトが2000年に提唱した「リアリティ・チェック」のような、より高度な統計的検定は、データマイニングによって見つけ出された戦略が、取引コストなどを考慮した上で、本当に現実に利益をもたらすのかを検証する必要性を説いています [6]。非常に小さなアルファでも、データ期間が長ければ統計的には有意になることがありますが、取引コストを考慮すれば、全く意味のない戦略である可能性もあるのです。
非対称性と摩擦の視点から
なぜ、p値やt値といった客観的なはずの統計ツールが、これほどまでに誤解や誤用を生み、時には投資家を欺く結果に繋がるのでしょうか。その本質を、当メディアの根幹をなす「非対称性」と「摩擦」の観点から解き明かすことができます。
Asymmetry:仮説検定の「非対称性」
統計的仮説検定という枠組みそのものが、構造的な「非対称性」の上に成り立っています。
仮説検定は、「エッジが存在する」ことを積極的に証明するプロセスではありません。むしろその逆で、まず「エッジは存在しない(帰無仮説)」という保守的な立場から出発し、その仮説が到底成り立たないほどの、極めて強力な反証がデータから得られた場合にのみ、それを棄却するという手続きを取ります。
この立証責任の非対称性は、科学的な発見の信頼性を高めるための、重要な安全装置です。しかし、この非対称性はしばしば誤解されます。例えば、p値が0.10となり、「統計的に有意ではない」という結果が出たとします。これは、「エッジが存在しないことが証明された」という意味では決してなく、単に「エッジが存在しないという仮説を棄却できるほどの、強い証拠は得られなかった」ということを意味するに過ぎません。
また、ハーヴェイらの研究が示唆するように、学術界で発表されるt値の分布は、2.0の周辺に不自然に集中するという非対称性を示しています [5]。これは、多くの研究者が「有意な」結果を求めてデータを分析しすぎた結果、バイアスのかかった結果だけが世に出ていることを示唆しています。
Friction:「pハッキング」と「出版バイアス」という情報の摩擦
手数料やスプレッドのような基本的な摩擦に加え、統計的検定という概念には、人間の行動や制度に根差した、より厄介な「摩擦」がまとわりついています。
データマイニング(pハッキング)という情報の摩擦
バックテストを行う者が直面する最大の誘惑が、データマイニング(pハッキング)です。これは、統計的に有意な結果(低いp値)が出るまで、無意識的あるいは意図的に、様々な分析手法やデータ期間を試行錯誤してしまう行為を指します。
この行為は、本来はノイズしか含まれていないはずのデータから、見かけ上の「シグナル」を無理やり抽出しようとするものです。この「シグナルを探し求める」という行為自体が、統計的検定の信頼性を汚染する深刻な情報の摩擦となります。ホワイトの研究が示すように、このようなデータマイニングによって得られた結果は、アウト・オブ・サンプル(未知のデータ)では通用しない、偽りの発見である可能性が極めて高いのです [6]。
出版バイアスという制度的摩擦
データマイニングの問題をさらに深刻化させているのが、学術界や金融メディアに存在する「出版バイアス」という制度的な摩擦です。「エッジを発見した」という華々しい研究は論文として出版されやすい一方で、「エッジは存在しなかった」という地味な研究は、ほとんど世に出ることがありません。
その結果、私たちが目にするのは、何百もの失敗した研究の骸の上に立つ、偶然成功した一握りの「生存者」だけ、ということになります。この制度的な摩擦が、統計的に有意なはずの結果が、実際には再現性を持たないという「再現性の危機」を生み出す温床となっているのです。
総括
・t値とp値は、ある投資戦略のバックテスト結果が、本物のエッジによるものか、単なる偶然かを判断するための、統計的仮説検定で用いられるツールです。
・t値は結果の信頼性(シグナル対ノイズ比)を、p値は結果が偶然である確率を示し、客観的な判断基準を提供します [1, 2]。
・しかし、p値はしばしば誤解され、「p値が0.05=エッジがない確率が5%」といった誤った解釈が蔓延しています [4]。
・最大の弱点は、多数の戦略をテストすると偶然によっても有意な結果が出てしまう「多重比較の罠」です。データマイニングによって、本来はノイズであるはずの「偽りの発見」が大量に生み出されています [5]。
・したがって、統計的な有意性は、エッジの存在を示唆する一つの手がかりに過ぎず、その結果が経済的に合理的か、そしてデータマイニングの罠に陥っていないかを、常に批判的に吟味する必要があります。
用語集
p値 (p-value) 統計的仮説検定において、「もし帰無仮説が真実であるとしたら、観測された結果か、それ以上に極端な結果が、偶然によって生じる確率」。
t値 (t-statistic) 平均値などが、その標準誤差と比べて、どれだけゼロ(または他の比較値)から離れているかを示す統計量。一般に絶対値が2.0を超えると「統計的に有意」と見なされることが多い。
統計的仮説検定 (Statistical Hypothesis Testing) データに基づいて、ある仮説(帰無仮説)が正しいと見なせるか、それとも棄却すべきかを、確率的な基準で判断する手続き。
帰無仮説 (Null Hypothesis) 検定の対象となる、「効果がない」「差がない」といった内容の仮説。この仮説を棄却することが、統計的な効果を示すことの目標となる。
統計的有意性 (Statistical Significance) 観測された結果が、単なる偶然によって生じたとは考えにくい、と判断されること。一般にp値が0.05未満の場合を指す。
アルファ (Alpha) 市場や他のファクターの動きでは説明できない、その資産固有の超過リターン。仮説検定における「真のエッジ」の候補。
標準誤差 (Standard Error) 平均値などの推定値が、統計的にどれくらいの誤差を含んでいるかを示す指標。t値の計算で分母として用いられる。
データマイニング (Data Mining) 大量のデータを分析し、本来は意味のない偶然の相関関係を、意味のある規則性であるかのように見つけ出してしまうこと。
多重比較の罠 (Multiple Comparisons Problem) 同じデータに対して多数の仮説検定を繰り返すと、たとえ意味のある関係がなくても、確率的に「統計的に有意」な結果が出てしまうという統計学的な問題。
バックテスト (Backtest) ある投資戦略が、過去の市場データを用いてシミュレーションした場合に、どのようなパフォーマンスを示したかを検証すること。
参考文献一覧
[1] Student. (1908). The probable error of a mean. Biometrika, 6(1), 1-25.
https://doi.org/10.2307/2331554
[2] Jensen, M. C. (1968). The Performance of Mutual Funds in the Period 1945-1964. The Journal of Finance, 23(2), 389-416.
https://doi.org/10.1111/j.1540-6261.1968.tb00815.x
[3] Fama, E. F., & French, K. R. (1993). Common risk factors in the returns on stocks and bonds. Journal of Financial Economics, 33(1), 3-56.
https://doi.org/10.1016/0304-405X(93)90023-5
[4] Wasserstein, R. L., & Lazar, N. A. (2016). The ASA’s statement on p-values: context, process, and purpose. The American Statistician, 70(2), 129-133.
https://doi.org/10.1080/00031305.2016.1154108
[5] Harvey, C. R., Liu, Y., & Zhu, H. (2016). …and the Cross-Section of Expected Returns. The Review of Financial Studies, 29(1), 5-68.
https://doi.org/10.1093/rfs/hhv059
[6] White, H. (2000). A reality check for data snooping. Econometrica, 68(5), 1097-1126.
https://doi.org/10.1111/1468-0262.00152
本サイト/本記事は、著者個人の見解、経験、学習・研究内容に基づいた情報提供を目的としています。特定の銘柄や投資手法の推奨を目的としたものではなく、また、金融商品取引法に基づく投資助言サービスではありません。
投資には元本割れを含む様々なリスクがあります。価格変動、金利変動、為替変動、発行者の信用状況などにより、損失が生じる可能性があります。
本サイト/本記事で提供される情報を利用した投資判断や取引によって生じたいかなる損害についても、筆者および運営者は一切の責任を負いません。
投資に関する最終的な決定は、ご自身の判断と責任において行って(あるいは行わないで)ください。
コメント