「AI検索で1位です」-- その質問、誰がしてるんですか?
AEO計測の盲点: 自分で考えた質問で自社を測っても意味がない。ユーザーが実際にAIに聞く質問で測らなければ、引用されているかどうかすらわからない。
「AI検索で1位」の正体
AEO(Answer Engine Optimization)ツールや、コンサル会社が納品するレポートにこう書いてあることがある。
「ChatGPTに御社名で質問したところ、回答の1位に表示されました」
これは成果に見える。しかし、1つだけ確認したい。
その質問、誰が作ったのか。
自社のマーケティング担当者が考えた質問を、自分でChatGPTに入力して、自社名が出てきた。それを「AI検索で引用されました」と呼んでいるだけではないか。
ユーザーの質問はあなたの質問と違う
SEOの世界では、Google Search Consoleという答え合わせの手段がある。「ユーザーが実際にどんなキーワードで検索したか」がデータとして見える。
AI検索にはこれがない。ChatGPTもPerplexityもGeminiも、「ユーザーがどんな質問をしたか」のデータを公開していない。
つまり、AEOの効果測定をする時、質問を自分で作るしかない。ここに根本的な問題がある。
あなたが考える質問:
- 「AEO対策ツール おすすめ」
- 「AI検索 最適化 ツール 比較」
- 「AEOモニタリング サービス」
ユーザーが実際にAIに聞く質問:
- 「うちのサイトがChatGPTに出てこないんだけどなんで?」
- 「AIに自社を紹介してもらう方法ある?」
- 「SEO対策してるのにAI検索で全然出てこない。どうしたらいい?」
前者で測れば「引用されています」になるかもしれない。後者で測れば結果は全く違うかもしれない。どちらが正しいかではなく、ユーザーがどちらの聞き方をしているかわからないのが問題だ。
ブランドクエリの罠
さらに厄介な問題がある。多くのAEO計測ツールは、ブランドクエリ(自社名を含む質問)で高いスコアを出す。
「Sightedとは?」と聞けば、SightedのことをAIは答える。当たり前だ。名前を出して聞いているのだから。
私たちが自社を対象にした3,419回の観測で確認したデータ:
| クエリの種類 | メンション率 | 引用率 |
|---|---|---|
| ブランドクエリ(「Sightedとは?」等) | 100% | 38% |
| 業界クエリ(「AEOに強い会社は?」等) | 0% | 0% |
ブランドクエリだけ測れば「メンション率100%、引用率38%」という立派な数字になる。しかし、まだ自社を知らないユーザーが聞く質問では一度も引用されていない。
これは私たちだけの問題ではない。別の企業(25,204回の観測データ)でも同じパターンだった。ブランドクエリで引用率24%、業界クエリで0%。データ量を10倍にしても構造は変わらなかった。
「質問空間」を定義しないと、何も測れない
SEOには「キーワード」という共通言語がある。「このキーワードで何位」と言えば、全員が同じものを指している。
AEOにはこれがない。代わりに必要なのが「質問空間(Question Space)」の定義だ。自社にとって重要な質問の集合を、事前に設計する必要がある。
質問空間の3層:
- ブランド指名層: 自社名を含む質問。「〇〇とは?」「〇〇の評判は?」 -- ここは測っても意味が薄い。自社名を出せば出てくるのは当然だから
- 業界一般層: 自社名を含まない、業界に関する質問。「〇〇業界のおすすめは?」「〇〇の選び方は?」 -- ここが本当の勝負
- 課題解決層: 業界名すら含まない、ユーザーの悩みそのもの。「〇〇がうまくいかない」「〇〇を改善したい」 -- ここで引用されるのが理想
多くのAEO計測は、1の「ブランド指名層」だけで測って「引用されています」と報告している。2と3は測っていない。あるいは測っていても、質問の設計自体が自社バイアスに染まっている。
1回の観測は証拠にならない
質問空間を正しく定義したとしても、もう1つ問題がある。AIの回答は毎回変わる。
同じ質問をChatGPTに10回投げれば、10回とも微妙に異なる回答が返ってくる。引用されるソースも変わる。今日出てきた自社名が、明日も出てくる保証はない。
つまり、1回の観測で「引用された」と言うのは、サイコロを1回振って6が出たから「このサイコロは6しか出ない」と言っているのと同じだ。
私たちの実験では、1つの質問につき最低20-30回の観測を行い、引用率を統計的に推定している。「30回中15回引用された(50%)」と「30回中1回引用された(3%)」では意味が全く違う。1回の観測ではこの区別がつかない。
正しい計測に必要な3つの要素
AEOの効果を正しく測るために、最低限必要なのはこの3つだ。
1. ユーザー視点の質問空間
自社のマーケ担当者が考えた質問ではなく、ユーザーが実際にAIに聞きそうな質問を設計する。Google Search Consoleの検索クエリ、SNSでの質問、営業が受ける問い合わせが参考になる。ブランド指名層に偏らず、業界一般層と課題解決層を含めること。
2. 統計的に有意な観測回数
1つの質問につき最低20-30回の観測。AIの回答の変動を平均化するために必要。10質問 x 30回 = 300回が最低ライン。「1回聞いてスクショ」は計測ではなく体験談。
3. Before/Afterの比較設計
施策の前にベースラインを取る。施策を1つだけ実行する。2-4週間後に同じ条件で再計測する。複数施策の同時実行は何が効いたかわからなくなる。
この3つなしにAEO施策の効果を測っている場合、それは測定ではなく確認バイアスだ。自分に都合のいい質問で、1回だけ聞いて、出てきたら「成功」と言っているだけ。
私たちもこの問題を自分で踏んだ
偉そうに書いているが、私たちも最初は同じ罠にはまった。
LPを改修すれば引用率が上がるだろうと仮説を立て、GPR実験データに基づいてLP全体を改修した。Before/After実験の結果: 引用率9.1% → 9.1%。変わらなかった。
11個の仮説を検証し、9個が否定された。残ったのは「タイトルタグが検索キーワードと一致していない」と「Googleへの信頼シグナルが不足している」だった。最も単純で、最もコストが低い原因。
これは計測したからわかったことだ。計測していなければ「LP改修したので効果があったはず」で終わっていた。
この問題を学術的に定義した
この「何を測っているのか定義されていない」問題を、私たちは学術論文として形式化した。
既存のAEO計測ツールにはestimand(推定対象量)が定義されていない。何を推定しているのかが不明なまま数値を出している。これは計測ではなく数字の生成だ。
私たちが提案するのは「意図条件付き推定量」というフレームワークだ。ユーザーの質問意図ごとにAI引用確率を推定し、質問空間全体での可視性を統計的に構築する。
論文はSSRNで公開予定。公開後にこの記事にリンクを追加する。
確認すべきこと
もしあなたの会社がAEO施策を実施中なら、以下を確認してほしい。
- 計測に使っている質問は誰が作ったか? 自社のマーケ担当者なら、ユーザー視点の質問に入れ替える
- ブランドクエリ(自社名入り)だけで測っていないか? 業界クエリ(自社名なし)の引用率を確認する
- 1回の観測で判断していないか? 同じ質問を複数回投げて、引用率を統計的に出す
- 施策の前にベースラインを取ったか? 取っていないなら、次の施策の前に今すぐ取る