ナレッジハブに戻る
戦略・ポジショニングmeasurementガイド初級

AEO施策、効果測定してますか? — 施策100個やっても測れなければ意味がない

AEO・GEO施策の効果測定が業界全体で欠落している構造的問題を指摘し、統計的に有意な計測に必要な3要素を実験データとともに解説する。

AEO効果測定AI検索計測設計実験データ

この記事は誰のためか

AEO対策を始めた、あるいはこれから始めようとしている人へ。

コンサル会社から「構造化データを入れましょう」「E-E-A-Tを高めましょう」「FAQ Schemaを追加しましょう」と提案を受けた。言われた通りに施策を実行した。

で、効果はどうだったのか。何で測ったのか。

この質問に答えられないなら、この記事を読む価値がある。


業界の不都合な現実

AEO(Answer Engine Optimization)やGEO(Generative Engine Optimization)の記事は爆発的に増えている。施策のTipsは山ほど出てくる。

だが、こんな記事を見たことがあるだろうか:

  • 「構造化データを追加した結果、AI引用率がX%からY%に変化した」
  • 「E-E-AT改善施策のBefore/Afterデータ。統計的有意差あり」
  • 「10社に同じ施策を実施し、効果があったのは3社。残り7社では変化なし」

ほぼ見たことがないはず。

なぜか。答えは単純で、測っていないからだ。

「ChatGPTに聞いてみた」は計測ではない

よくある"効果測定"はこうだ:

  1. ChatGPTを開く
  2. 「〇〇のおすすめ企業は?」と聞く
  3. 自社名が出てきたらスクリーンショットを撮る
  4. 「AI検索で引用されました!」と報告する

これは計測ではない。体験談だ。

なぜか。同じ質問を10回聞いてみればわかる。回答は毎回変わる。今日出てきた社名が明日も出てくる保証はない。1回の観測で「引用された」と言うのは、サイコロを1回振って6が出たから「このサイコロは6しか出ない」と言っているのと同じだ。

施策を売る側にとって、計測されないほうが都合がいい

厳しい言い方をする。

AEO施策を提案する側——コンサル会社、SEOツールベンダー、マーケティングエージェンシー——にとって、効果測定が曖昧なままのほうがビジネスは回る。「施策を実行しました」が納品物であり、「効果がありました」を証明する義務がなければ、どんな施策でも提案できる。

これはAEO業界に限った話ではない。SEOでも広告でも、計測が曖昧な領域ほどバズワードが増え、施策の数が膨張する。

あなたの会社の予算が、測定不能な施策に流れていないか。


なぜAEOの効果測定は難しいのか

SEOの効果測定はそれなりに確立されている。Google Search Consoleで検索順位・CTR・表示回数が見える。GA4でオーガニック流入とコンバージョンが追える。

AEOにはこれがない。理由は3つある。

1. AI検索の回答は確率的に変動する

同じ質問をChatGPTに投げても、毎回微妙に異なる回答が返ってくる。引用されるソースも変わる。これはLLMの性質上避けられない。

つまり1回の観測に意味がない。統計的に有意な回数を繰り返さないと、「引用されている」とも「引用されていない」とも言えない。

私たちがSightedの自社計測で行った実験では、109個の質問を各30回、合計3,270回観測した。その結果わかったのは:

  • 同じ質問でも、引用されるソースは観測ごとに変わる
  • ある質問で30回中5回引用された(引用率17%)ソースは、「引用されている」と言えるのか?
  • 質問の聞き方を少し変えるだけで、引用パターンが大きく変わる

1回聞いてスクリーンショットを撮る方式では、この変動を捉えられない。

2. 「何を質問するか」が定義されていない

SEOでは「キーワード」という共通言語がある。「AEO対策」で1位を取る、という目標は明確だ。

AEOで対応するのは**「質問空間」**——AIに投げられる質問の集合——だが、この定義が難しい。

  • 「AEOに強い会社は?」
  • 「AI検索の対策ができるツールは?」
  • 「AIに自社を引用してもらう方法は?」

これらは全部違う質問だが、同じ意図を持つ。どの質問で測定するかによって結果が変わる。

質問空間を定義せずに「うちはAIに引用されてます」と言うのは、キーワードを定義せずに「うちはSEOが強い」と言うのと同じだ。

3. Before/Afterの比較対照実験が設計されていない

施策の効果を測るには、施策を打つ前と後を比較する必要がある。さらに厳密に言えば、施策以外の条件を揃えないといけない。

だが現実には:

  • 施策を打つ前のベースラインデータがない(そもそも測ってなかった)
  • 複数の施策を同時に実行して、何が効いたかわからない
  • AI側のモデル更新やアルゴリズム変更を考慮していない

私たちの実験では、LPの文言改修前後で同じ33質問×同じ観測回数で比較した。結果はAI引用率9.1% → 9.1%。変わらなかった。

これは「施策が無意味だった」という知見であり、計測したからこそわかったことだ。測っていなければ「改修したので効果があったはず」で終わっていた。


効果測定に最低限必要な3つの要素

AEO施策の効果を測るために、最低限これだけは必要だ。

1. 質問空間の定義

自社にとって重要な質問を洗い出す。

  • ブランド指名系: 「〇〇(社名)とは?」「〇〇の評判は?」
  • 業界一般系: 「〇〇業界のおすすめ企業は?」「〇〇の選び方は?」
  • 課題解決系: 「〇〇の方法は?」「〇〇を改善するには?」

全部を網羅する必要はない。まず10-30個の代表的な質問を定義する。 SEOでいう「コアキーワードの選定」に相当する。

2. 統計的に有意な観測回数

1つの質問につき最低でも20-30回の観測が必要。理由は:

  • LLMの回答変動を平均化するため
  • 「30回中15回引用された(50%)」と「30回中2回引用された(7%)」は意味が全く違う
  • 1回の観測では偶然の引用と安定した引用の区別がつかない

10質問 × 30回 = 300回の観測。これが最低ラインだと考えている。

3. Before/Afterの比較設計

施策を打つ前にベースラインを取る。

  1. 施策前に質問空間を定義し、全質問を観測する(ベースライン)
  2. 施策を1つだけ実行する(変数を1つに絞る)
  3. 2-4週間後に同じ質問空間を同じ条件で観測する(比較)
  4. ベースラインとの差分を見る

複数の施策を同時にやらない。 何が効いたかわからなくなる。


私たちが実際に学んだこと

Sightedは自社をケーススタディとして、この計測プロセスを実際に回した。恥ずかしい結果も含めて共有する。

業界クエリでの引用率: 0%

「AEOに強い会社は?」「AI検索の対策ができるツールは?」といった業界クエリで、Sightedは一度も引用されなかった。90問×3-5回の観測で、業界クエリでの引用率は0%。

ブランド指名(「Sightedとは?」)ではメンション率100%・引用率38%。つまり名前を出せば認識されるが、名前を出さないと存在しないのと同じだった。

LP改修は効果なし

「LPの文言を改善すれば引用されるようになるはず」という仮説を立て、GPR実験データに基づいてLP全体を改修した。

Before/After実験の結果: 引用率9.1% → 9.1%。完全に同じ。

LPの文言を変えても、AIの引用判断には影響しないことがわかった。

11個の仮説を検証し、9個を否定

「コンテンツ量が足りない」「ドメインオーソリティが低い」「被リンクが足りない」「外部プラットフォームに記事を出すべき」——これらの仮説をデータで1つずつ検証した。

結果、9個の仮説が否定された。最終的に残ったのは:

  • タイトルタグが検索キーワードと一致していない(最も単純で、最も修正コストが低い原因)
  • Googleへの信頼シグナルが不足している(著者情報・外部リンク・構造化データ)

11個のうち9個が「違った」。これは計測したからこそわかったことであり、計測していなければ11個全部を同時にやって「なんとなく改善した気がする」で終わっていたはずだ。


まとめ: 施策の前に計測設計

AEO施策をやるなと言っているのではない。順番が逆だと言っている。

  1. まず質問空間を定義する
  2. ベースラインを計測する
  3. 施策を1つ実行する
  4. 同じ条件で再計測する
  5. 差分を見る

この5ステップなしにAEO施策を実行するのは、体重計に乗らずにダイエットを始めるのと同じだ。

「施策を100個やりました」ではなく「この施策で引用率がX%からY%に変化しました」と言える状態を目指すべきだ。計測できないものは改善できない。

関連用語