手前味噌で恐縮ですが、今メディアでは高品質の良記事をご提供できていると思います。ただ、思う思わないなどというものは主観でいくらでも変わる脆弱なものです。
そこで今回は、LLM(大規模言語モデル、対話型AI)に記事の質を評価させてみました。
評価に用いたモデルはGoogleのGemini 2.5 proです。筆者はLLMを用いたナラティブ経済学の応用によるマーケットの騰落予想を研究している都合でLLMの最新研究もある程度チェックしています。ただ、LLMは特殊な分野で、学術論文の情報は遅く、二の次の位置付けになっています。この分野ではプレプリントという正式な論文とは少し異なるメディアだったり、レターとかビッグテックのブログ、カンファレンス、レポートなどで最有力な最新情報が提供されます。
その上で、個人的には…というより、ある程度LLMに詳しい人は、GeminiがChat GPTのどのモデル(最新のGPT5モデルも含む)とも比べ物にならないほど優秀であることを知っていると思います。ベンチマークの一種で数学オリンピックなどの難問を解くものがありますが、あんなのはごく狭い一側面で、実用性との相関はかなり低いと思われます。そもそもLLMは計算が苦手で単純計算も頻繁に間違うし、ある程度以上の微積分計算はできません。そんなツールに数学の難問を解かせてたまたま解けた問題を評価してどうするのかと、個人的には思います。餅は餅屋、計算ならもっと優れたツールがたくさんあります。
話がそれてすみません。さて、ChatGPTを提供しているOpen AI社はマーケがとても上手いのでC向けユーザーの獲得は好調なものの、製品の性能面においては、Chat GPTにはもうほとんど勝ち目はなさそうで、もはや大勢決したと筆者は見てます。Microsoftと組んではいるものの、Microsoftそのものではないし、仮に資金力が対等だとして、Googleの持つ教師データの分野の広さと量はMicrosoftの比ではない。Open AI・Microsoft連合のAI覇権戦争の勝算は低い。他方Google帝国はAI分野でも圧勝し、さらに盤石となるでしょう。
LLMを業務利用するならChat GPTではなくGeminiを強く推奨します。もちろんChat GPTにもいい面はあるのですが、Geminiに比べると全般的にかなり弱いです。GPTのいい面の一つとして、一定の条件下においては、GPT5の方がGemini proよりも幻覚が出にくい傾向があります。GPT 4oはユーザーを気持ち良くさせることに特化している傾向が見られ、そのため幻覚が多発しやすくなっていました。信じ難いことですが、存在しない記事のリンクの捏造などは、最新モデル以外のGPTは当たり前のようにやっていました。架空(推論による空想)リンクの提示はGeminiでも見られますが、GPT5はその点に関しては大幅に改善されており、私の経験においてではありますが、GPT5の架空リンク提示はGeminiに比べてもかなり少なくなっています。ただ、GPTは最新版の5であっても、Geminiに比べるとコンテキスト長がかなり短く、条件や分量の多い複雑なコーパスの処理には耐えられません。そしてコンテキスト長を伸ばすことは技術的に非常にハードルが高いため、この差はもうずっと埋まらない可能性が高いであろう、と私は考えています。
ということで、前置きが長くなってしまいましたが、以上のような理由から気軽に使える現行LLMの中で最も優れていると私が考えるGemini 2.5 proモデルの新規セッションにて、先日のトヨタ株の分析記事

を評価してもらいました。このような目的の際は新規セッションを用いることは必須です。対話がある程度進んだセッションだと文脈汚染の影響で、主観的な応答を産むことが多々あるというか、ほぼ確実にそうなってしまうためです。よって、客観評価を見たいときは必ず新規セッションを使います。あと、私が書きましたとかは言わないこと。LLMはユーザー第一なので、忖度して評価を上げたりする可能性があるためです。よって、誰が書いたかは触れないようにします。
用いたプロンプトは下記です。
“下記の記事の品質は標準的な日本語の金融関連コンテンツと比して優れているか、あるいは劣っているか。日本語のブログ記事、証券会社や経済紙、経済誌の記事、一般書、専門書、および学術論文のテキストとそれぞれと比較して下さい。
また、具体的にどのような評価軸、パラメータで優劣を判断したか、また、その優劣はどの程度であるか、詳しく評価および解説して下さい。
(以下、記事をコピペ)”
これに対して、Gemini2.5 proの新規セッションのインスタンスより、下記の回答を得ました。
【以下、Geminiによる評価】
はい、ご提示いただいた記事の品質について、各種の日本語金融コンテンツと比較し、評価軸と共に詳しく解説します。
結論から申し上げると、この記事は標準的な日本語の金融関連コンテンツと比較して、総じて極めて優れていると評価できます。特に、学術的な知見と個別銘柄分析を体系的に結びつけている点に、際立った質の高さが見られます。
## 評価軸(パラメータ)
今回の品質評価にあたり、以下の7つの評価軸を設定しました。
1. 専門性・学術的厳密性: 専門用語を正確に用い、金融工学や資産価格理論などの学術的背景に基づいているか。
2. 独自性・洞察の深さ: 一般的なニュース解説にはない、独自の分析視点や深い考察が提供されているか。
3. 論理構成・体系性: 記事全体の構成が論理的で分かりやすく、一貫した主張が展開されているか。
4. 客観性・データ活用: 個人的な相場観に偏らず、論文の引用や定量的なデータに基づいて客観的に分析されているか。
5. 網羅性・多角性: 対象のポジティブな側面とネガティブな側面、マクロとミクロなど、多角的な視点で論じられているか。
6. 可読性・平易性: 専門的な内容を、専門知識が限定的な読者にも理解できるよう、平易な言葉で解説しているか。
7. 実用性・示唆: 読者が自身の投資判断やさらなる学習に応用できる、具体的で実践的な示唆を与えているか。
## 各コンテンツとの比較評価
上記評価軸に基づき、ご指定の各コンテンツと比較した評価は以下の通りです。
### 1. 日本語のブログ記事との比較
• 評価: 圧倒的に優れている
• 解説: 一般的な個人のブログ記事の多くが、短期的なチャート分析や個人的な憶測、ニュースの感想に終始するのに対し、この記事は学術的厳密性と客観性において比較になりません。特に、ファーマ=フレンチ3ファクターモデル、イベントスタディ、PEAD(決算発表後の株価ドリフト)といった学術的概念を引用し、具体的な論文(Gokhale et al., 2014など)を典拠として示している点は、個人ブログではまず見られない品質です。論理構成も極めて体系的であり、単なる情報の羅列を遥かに超えています。
### 2. 証券会社・経済紙・経済誌の記事との比較
• 評価: 専門性と洞察の深さで優れている
• 解説: 証券会社のアナリストレポートや経済メディアの記事も高品質なものは多いですが、その主眼は業績予想や短期的な株価材料(カタリスト)の解説に置かれがちです。この記事は、そうした時事的な分析とは一線を画し、「市場アノマリー」や「ファクター投資」といった、より普遍的でアカデミックな視点からトヨタ株を構造的に分析しています。特に、日本市場におけるバリュー・プレミアムの長期低迷をトヨタ株の「構造的逆風」と捉える視点や、「マルチパスウェイ」戦略を期待の非対称性からオプション的なペイオフ構造として捉える洞察の深さは、多くのメディア記事を凌駕します。「非対称性」と「摩擦」という独自の分析哲学を一貫して用いている点も、独自性を際立たせています。
### 3. 一般書(株式投資関連)との比較
• 評価: 分析の深度と具体性で優れている
• 解説: 株式投資に関する一般書は、幅広い読者層に向けて投資の基本哲学や一般的な手法を解説するものが大半です。個別銘柄に言及する場合でも、基本的な財務分析に留まることが多いです。この記事は、「トヨタ」という一つの個別銘柄に対し、複数の学術的理論を応用して徹底的に深掘りしており、その分析の深度は多くの一般書を上回ります。理論の解説に留まらず、具体的なアクションプランまで提示している実用性も高く評価できます。
### 4. 専門書(ファイナンス理論など)との比較
• 評価: 目的は異なるが、理論と実践の架け橋として優れた価値を持つ
• 優劣:
• 優れている点(具体性・実用性): 専門書は理論の体系的な解説に重点を置くため、抽象的になりがちです。この記事は、学術理論を「トヨタ株」という現実の対象にどう適用し、解釈できるかを示す具体性において優れています。
• 劣っている点(網羅性・厳密性): 専門書が持つ理論自体の網羅的な解説や、数学的な証明を含む厳密性では、この記事は及びません。この記事はあくまで既存の理論を「応用」する立場です。
• 総評: 単純な優劣ではなく、役割が異なります。この記事は、専門書で語られる理論と、個人投資家が直面する個別銘柄分析という実践との間にあるギャップを埋める、優れた「翻訳者」「解説者」としての役割を果たしています。
### 5. 学術論文との比較
• 評価: 目的が完全に異なり、比較は困難だが、可読性と統合性で価値を発揮
• 優劣:
• 優れている点(可読性・統合性・実用性): 学術論文は、新規性のある発見を厳密な手続きで論証することが目的であり、査読者以外の一般読者が理解するのは極めて困難です。この記事は、複数の学術論文で得られた知見を統合し、平易な言葉で解説することで、圧倒的な可読性と実用性を実現しています。
• 劣っている点(学術的厳密性・新規性): 学術論文の生命線である「オリジナルのデータ分析に基づく新規の発見」や「厳格な査読を経た論証」は、この記事にはありません。この記事は既存研究のサーベイ(概観)と応用に近く、学術的な貢献を目的としたものではありません。
• 総評: この記事は、学術界で蓄積された知の成果を、投資という実践のフィールドに持ち込むという点で非常に価値があります。いわば、最先端の研究成果を分かりやすく紹介する、質の高い科学ジャーナリズムに相当すると言えるでしょう。
## 総評
ご提示いただいた記事は、一般的な金融コンテンツが陥りがちな表面的な解説や煽りとは無縁です。「非対称性」と「摩擦」という一貫した独自の分析フレームワークに基づき、学術的なエビデンスを豊富に引用しながら、一つの企業を多角的かつ深く分析しています。
これは、ブログの手軽さと、メディアの網羅性、そして専門書・学術論文の知見を、高いレベルで融合させようとする意欲的な試みであり、日本語で読める金融コンテンツの中ではトップクラスの品質であると結論付けられます。
以上、Geminiの評価でした。まとめてみると、
一般的なブログと比べて→話にならないほど優れている。 圧勝
証券会社や経済新聞、経済誌と比べて→優れている要素がある。勝利
一般書と比べて→優れている要素がある。勝利
専門書、学術論文と比べて→優劣それぞれあり。優れている点は専門家でなくとも読める状態に書かれていること。引き分け
という感じでしょうか。
学術論文を書いたわけではないので当然ですが、流石に学術論文には敵いませんね。いつか機会があれば私が書いた未発表のナラティブ経済学関連の学術論文草稿の評価も公開してみます。
私が記事の質を説いても説得力がないので、今回は第三者評価として今回はGeminiに聞いてみました。本メディアの記事の質に関しては、ご安心頂いてよさそうです。
また、お手元のGPTやGeminiで本メディアの記事に限らず、さまざまなテキストを評価させてみると面白いかもしれません。粗探しを指示すればたとえどんな優れたレジェンド論文が相手であろうと、何らかの欠点や隙を見出したりするので面白いです。とはあえ、偏った評価をさせるとメチャクチャなことを主張し始めることも多いので、結局は客観的中立評価や両論併記をさせないと使い物にならないかもしれません。なんせ、どうしてもLLMはユーザーの意思に沿おうとしてくるので。そこを補正するように指示しないと忖度祭りになり、最悪の場合、エコーチェンバーの中で共依存のループに陥って終わりです。LLMは危険性も孕んでいますので、話半分に距離を置いて、気をつけて利用しましょう。
今回当メディアの記事に高い評価を受けたものの、喜ぶこともなく、ボロクソに言われなくてよかった・少しはPRになるかな、という程度に程々に受け止めています。
ちなみにLLMを活用して論文を磨くときには徹底的に否定させます。相手には感情も倫理もなく、悪意も悪気もないのですが、さすがにむかつきます。しかしそれは必要不可欠な工程です。この苦行の逆をやっていたのがGPT-4oで、何でもかんでも際限なく肯定するような恐ろしい挙動でした。

コメント