知性の可視化はハックされる ── AI思考ログ評価とGoodhartの法則
Evaluating Intelligence with AI Thinking Logs
— The Goodhart’s Law Problem
1|測定が始まると必ず起きること
前回、AIが思考ログを残すことで、知性が「可視化」される可能性を書いた。
ただ、可視化の話には続きがある。
社会の評価指標は、だいたいこの循環を辿る。
指標が作られる
↓
人が最適化する
↓
指標が歪む
↓
新しい指標が作られる
これを説明する有名な原則がある。
Goodhart's Law(イタチごっこの法則)
「指標が目標になると、指標は良い指標でなくなる。」
IQが出回れば、IQの上げ方が出回る。偏差値が広まれば、偏差値対策が産業になる。どんな指標も、社会に浸透した瞬間から、その指標を攻略するための努力が始まる。
これは人間の悪意ではなく、インセンティブの構造だ。
2|AI知性指標でも同じことが起きる
前回書いた「思考ログ評価」を例にとると、最初の設計意図はこうだ。
思考の質を評価する
しかしすぐにこうなる。
評価されるログの形
↓
それっぽいログを書く
思考ではなく「思考っぽい文章」が増える。
これは予測というより、ほぼ確実な未来だと思う。人間は評価されるものに適応する。それが合理的な行動だからだ。問題は適応する人間にあるのではなく、そういう適応を誘発する評価設計にある。
3|すでに起きている例
これはAIの評価でも同じ構造が観察されている。
SWE-benchやHumanEvalのようなコード評価ベンチマークでは、「ベンチマーク最適化」という問題がある。モデルは問題を解く能力ではなく、テストを通る能力を最適化する。
ベンチマークのスコアが上がっても、実際の問題解決能力が同じように上がっているとは限らない。評価が測ろうとしていたものと、評価が実際に測っているものの間にズレが生じる。
これはベンチマーク設計者の失敗というより、Goodhart(イタチごっこ)の問題が普遍的に発動しているということだと思う。
4|AI思考評価もこうなる可能性
仮に思考ログ評価のシステムができるとすると、おそらくこういう経路を辿る。
思考ログ評価
↓
思考ログのテンプレが出回る
↓
AIでログを生成する
↓
評価が壊れる
AIで思考ログを生成して、評価システムに提出する。評価システム自体もAIなら、AI同士の攻防になる。攻撃側と防御側が同じ道具を使うイタチごっこだ。
これは止められない、というより、そういうループ自体が新しい均衡状態なのかもしれない。
5|ただ一つだけ違う点
ただ、AI時代の評価には一つ面白い構造的特徴がある。
普通の試験は静的だ。問題があって、解答があって、採点がある。この構造は固定されている。
AI時代の評価は動的になりうる。
AI → 問題生成
AI → 解答評価
評価する側もAIになれば、問題を固定しておく必要がない。
6|動的評価という可能性
評価が「固定テスト」ではなく「動的推論テスト」になると、ハックの難度が変わる。
- 問題が毎回変わる
- 推論途中で条件が変わる
- AIが対話しながら評価する
これはゲームの対戦型評価に近い。チェスのレーティングシステムのように、評価そのものが継続的なプロセスになる。
テンプレを用意しても通用しない設計は、原理的には可能だ。ただし、そういう評価を実装するコストは高い。コストが高ければ、普及が遅れる。普及が遅れれば、その間に粗い評価がデファクトになる。
技術的な可能性と、社会に普及するものの間には、常にギャップがある。
7|それでも完全には防げない
結局ここに戻る。
評価
↓
最適化
↓
ハック
↓
再設計
これは社会の基本ループであり、特にAI時代に始まったことではない。ただ、このループの回転速度がAIによって速くなる可能性はある。
ハックのツールがAIになれば、ハックは自動化される。再設計のツールもAIになれば、再設計も加速する。攻防の周期が短くなるということは、評価の安定期間が短くなるということだ。
測定が常に暫定的なものになる社会。これは評価の信頼性を下げる方向にも、評価への依存を下げる方向にも働きうる。
8|観測
ここで一つの問いを置きたい。
本当の問題は、知性の測定よりもこれかもしれない。
知性の演出
SNSが「生活の演出」を生んだように、AIは「思考の演出」を生む可能性がある。
インスタグラムは、実際の生活ではなく、見せたい生活を映す装置になった。LifelogではなくStagingになった。同じことが思考においても起きるとすれば、AIは思考の記録装置ではなく、思考の演出装置になる。
これはSNSの問題より根が深いかもしれない。生活の演出は「見せ方」の問題だが、思考の演出は「考え方」そのものに干渉する。
演じ続けることで、演じていることに気づかなくなる。
知性が可視化される社会は、同時に、知性が演出される社会でもある。この二つは切り離せない。
著:霧星礼知(min.k) / 構造支援:Claude Sonnet 4.6 / AI-assisted / Structure observation
For international readers
This article discusses a potential problem in evaluating intelligence through AI “thinking logs”.
When people work with AI systems, their reasoning often appears in prompts, questions, and dialogue with the model. These logs may seem like a new way to observe intelligence.
However, once such logs become evaluation metrics, Goodhart’s law may apply: when a measure becomes a target, people begin optimizing the metric itself rather than the underlying goal.
The article explores how the measurement of thinking could eventually distort thinking itself.
Keywords:
AI / Goodhart's law / intelligence metrics / thinking logs