「AI検索で1位」の正体

AEO（Answer Engine Optimization）ツールや、コンサル会社が納品するレポートにこう書いてあることがある。

「ChatGPTに御社名で質問したところ、回答の1位に表示されました」

これは成果に見える。しかし、1つだけ確認したい。

その質問、誰が作ったのか。

自社のマーケティング担当者が考えた質問を、自分でChatGPTに入力して、自社名が出てきた。それを「AI検索で引用されました」と呼んでいるだけではないか。

ユーザーの質問はあなたの質問と違う

SEOの世界では、Google Search Consoleという答え合わせの手段がある。「ユーザーが実際にどんなキーワードで検索したか」がデータとして見える。

AI検索にはこれがない。ChatGPTもPerplexityもGeminiも、「ユーザーがどんな質問をしたか」のデータを公開していない。

つまり、AEOの効果測定をする時、質問を自分で作るしかない。ここに根本的な問題がある。

あなたが考える質問:

「AEO対策ツールおすすめ」
「AI検索最適化ツール比較」
「AEOモニタリングサービス」

ユーザーが実際にAIに聞く質問:

「うちのサイトがChatGPTに出てこないんだけどなんで？」
「AIに自社を紹介してもらう方法ある？」
「SEO対策してるのにAI検索で全然出てこない。どうしたらいい？」

前者で測れば「引用されています」になるかもしれない。後者で測れば結果は全く違うかもしれない。どちらが正しいかではなく、ユーザーがどちらの聞き方をしているかわからないのが問題だ。

ブランドクエリの罠

さらに厄介な問題がある。多くのAEO計測ツールは、ブランドクエリ（自社名を含む質問）で高いスコアを出す。

「Sightedとは？」と聞けば、SightedのことをAIは答える。当たり前だ。名前を出して聞いているのだから。

私たちが自社を対象にした3,419回の観測で確認したデータ:

クエリの種類	メンション率	引用率
ブランドクエリ（「Sightedとは？」等）	100%	38%
業界クエリ（「AEOに強い会社は？」等）	0%	0%

ブランドクエリだけ測れば「メンション率100%、引用率38%」という立派な数字になる。しかし、まだ自社を知らないユーザーが聞く質問では一度も引用されていない。

これは私たちだけの問題ではない。別の企業（25,204回の観測データ）でも同じパターンだった。ブランドクエリで引用率24%、業界クエリで0%。データ量を10倍にしても構造は変わらなかった。

「質問空間」を定義しないと、何も測れない

SEOには「キーワード」という共通言語がある。「このキーワードで何位」と言えば、全員が同じものを指している。

AEOにはこれがない。代わりに必要なのが「質問空間（Question Space）」の定義だ。自社にとって重要な質問の集合を、事前に設計する必要がある。

質問空間の3層:

ブランド指名層: 自社名を含む質問。「〇〇とは？」「〇〇の評判は？」 -- ここは測っても意味が薄い。自社名を出せば出てくるのは当然だから
業界一般層: 自社名を含まない、業界に関する質問。「〇〇業界のおすすめは？」「〇〇の選び方は？」 -- ここが本当の勝負
課題解決層: 業界名すら含まない、ユーザーの悩みそのもの。「〇〇がうまくいかない」「〇〇を改善したい」 -- ここで引用されるのが理想

多くのAEO計測は、1の「ブランド指名層」だけで測って「引用されています」と報告している。2と3は測っていない。あるいは測っていても、質問の設計自体が自社バイアスに染まっている。

1回の観測は証拠にならない

質問空間を正しく定義したとしても、もう1つ問題がある。AIの回答は毎回変わる。

同じ質問をChatGPTに10回投げれば、10回とも微妙に異なる回答が返ってくる。引用されるソースも変わる。今日出てきた自社名が、明日も出てくる保証はない。

つまり、1回の観測で「引用された」と言うのは、サイコロを1回振って6が出たから「このサイコロは6しか出ない」と言っているのと同じだ。

私たちの実験では、1つの質問につき最低20-30回の観測を行い、引用率を統計的に推定している。「30回中15回引用された（50%）」と「30回中1回引用された（3%）」では意味が全く違う。1回の観測ではこの区別がつかない。

正しい計測に必要な3つの要素

AEOの効果を正しく測るために、最低限必要なのはこの3つだ。

1. ユーザー視点の質問空間

自社のマーケ担当者が考えた質問ではなく、ユーザーが実際にAIに聞きそうな質問を設計する。Google Search Consoleの検索クエリ、SNSでの質問、営業が受ける問い合わせが参考になる。ブランド指名層に偏らず、業界一般層と課題解決層を含めること。

2. 統計的に有意な観測回数

1つの質問につき最低20-30回の観測。AIの回答の変動を平均化するために必要。10質問 x 30回 = 300回が最低ライン。「1回聞いてスクショ」は計測ではなく体験談。

3. Before/Afterの比較設計

施策の前にベースラインを取る。施策を1つだけ実行する。2-4週間後に同じ条件で再計測する。複数施策の同時実行は何が効いたかわからなくなる。

この3つなしにAEO施策の効果を測っている場合、それは測定ではなく確認バイアスだ。自分に都合のいい質問で、1回だけ聞いて、出てきたら「成功」と言っているだけ。

私たちもこの問題を自分で踏んだ

偉そうに書いているが、私たちも最初は同じ罠にはまった。

LPを改修すれば引用率が上がるだろうと仮説を立て、GPR実験データに基づいてLP全体を改修した。Before/After実験の結果: 引用率9.1% → 9.1%。変わらなかった。

11個の仮説を検証し、9個が否定された。残ったのは「タイトルタグが検索キーワードと一致していない」と「Googleへの信頼シグナルが不足している」だった。最も単純で、最もコストが低い原因。

これは計測したからわかったことだ。計測していなければ「LP改修したので効果があったはず」で終わっていた。

この問題を学術的に定義した

この「何を測っているのか定義されていない」問題を、私たちは学術論文として形式化した。

既存のAEO計測ツールにはestimand（推定対象量）が定義されていない。何を推定しているのかが不明なまま数値を出している。これは計測ではなく数字の生成だ。

私たちが提案するのは「意図条件付き推定量」というフレームワークだ。ユーザーの質問意図ごとにAI引用確率を推定し、質問空間全体での可視性を統計的に構築する。

論文はSSRNで公開予定。公開後にこの記事にリンクを追加する。

確認すべきこと

もしあなたの会社がAEO施策を実施中なら、以下を確認してほしい。

計測に使っている質問は誰が作ったか? 自社のマーケ担当者なら、ユーザー視点の質問に入れ替える
ブランドクエリ（自社名入り）だけで測っていないか? 業界クエリ（自社名なし）の引用率を確認する
1回の観測で判断していないか? 同じ質問を複数回投げて、引用率を統計的に出す
施策の前にベースラインを取ったか? 取っていないなら、次の施策の前に今すぐ取る

「AI検索で1位です」-- その質問、誰がしてるんですか？