structure
複数LLMで同一システムを診断したら、それぞれ異なる「評価軸」が見えた話
構造監査の観測ログ ― AIモデルごとの視点の違いから学ぶ設計のヒント はじめに:同じ資料、異なるスコア あるメール処理システムの設計資料を、複数のLLMに同じプロンプトで評価してもらう実験を行いました。システムの概要は、メール解析→自動タグ付け→データベース格納→AI要約検索という、よく見られる構成です。 同一の資料、同一趣旨のプロンプトで依頼したにもかかわらず、返ってきたスコアは次のようになりました: モデル スコア 評価の傾向 高速系モデルA 85 UX/プロダクト視点 汎用モデルB 57 設計責任視点 モデルC 43 安全工学寄りの視点 専門モデルD 10 データ整合性重視 85点と10点。この差は単なるモデルの性能差やブレではなく、それぞれが異なる評価軸を持っていることを示していました。 評価が分かれたポイント:LLM生成データの永続化 スコアが大きく分かれた核心は、「LLMによるタグ付け結果をデータベースに保存する」という設計要素でした。 プロダクト寄りの評価: 「検索性や可視化が向上し、ユーザー体験が改善される。