Патент (Yahoo) описывает метод определения связи между разными поисковыми запросами. Если два запроса возвращают схожий набор органических результатов (URL), система считает их семантически связанными. Этот механизм используется для показа релевантной рекламы по связанным запросам и оценки стоимости ключевых слов, а также критически важен для понимания интента пользователя в органическом поиске.
Описание
Какую задачу решает
Патент решает проблему идентификации взаимосвязи между различными поисковыми запросами. В контексте рекламы это позволяет поисковой системе ассоциировать запросы, на которые рекламодатели не сделали ставок (unvalued/unbidded terms), с запросами, имеющими коммерческую ценность (valued/bidded terms). Это улучшает монетизацию за счет показа релевантной рекламы по более широкому спектру запросов и помогает понять семантическую близость и интент различных формулировок.
Что запатентовано
Запатентована система и метод определения схожести (similarity) между двумя разными поисковыми терминами путем сравнения их соответствующих органических результатов поиска (SERP Overlap). Если наборы URL, ранжирующихся по двум разным запросам, существенно пересекаются, система считает эти термины тесно связанными. На основе этой связи и степени схожести система может переносить коммерческую ценность с одного термина на другой.
Как это работает
Ключевой механизм основан на анализе пересечения результатов поиска:
- Генерация SERP: Система генерирует топовые органические результаты (набор URL) для первого запроса и для второго запроса.
- Сравнение: Система сравнивает эти два набора URL, используя различные метрики, такие как Intersection over Union (пересечение над объединением) или TFIDF.
- Взвешивание: При сравнении URL могут взвешиваться на основе их позиции в выдаче или по поведенческим метрикам, таким как Click-through rates (CTR).
- Ассоциация и Оценка: Если степень схожести превышает порог, термины ассоциируются. Вычисляется Similarity Function, которая определяет степень их близости и используется для расчета стоимости неоцененного термина.
Актуальность для SEO
Высокая. Понимание взаимосвязей между запросами и определение интента пользователя (Intent Matching) являются фундаментальными задачами современных поисковых систем, использующих модели типа BERT и MUM. Техника использования пересечения SERP (SERP Overlap) для определения семантической схожести является стандартной практикой в информационном поиске и критически важной для SEO-анализа.
Важность для SEO
Патент имеет значительное влияние на SEO (85/100). Хотя его основное применение описано в контексте монетизации и рекламы (PPC), описанный механизм определения схожести запросов через анализ органической выдачи является критически важным для органического SEO. Он объясняет, как поисковые системы кластеризуют ключевые слова, понимают синонимы и определяют интент пользователя за пределами точного совпадения текста запроса.
Детальный разбор
Термины и определения
- Bidded Term (Valued Search Term) (Оцененный термин)
- Поисковый запрос, на который рекламодатели сделали ставки в системе контекстной рекламы. Имеет известную коммерческую ценность.
- Unbidded Term (Unvalued Search Term) (Неоцененный термин)
- Поисковый запрос, на который рекламодатели не сделали ставок. Цель системы — связать его с оцененным термином.
- Similarity Function (Функция схожести)
- Метрика или функция, определяющая степень взаимосвязи между двумя поисковыми терминами. Рассчитывается на основе сравнения их результатов поиска.
- SERP Overlap (Пересечение SERP)
- Неформальный термин, описывающий основной механизм патента: сравнение наборов URL в результатах поиска по разным запросам для определения их схожести.
- Intersection over Union (Пересечение над объединением)
- Один из методов расчета схожести: размер пересечения двух наборов результатов, деленный на размер их объединения.
- TFIDF (Term Frequency Inverse Document Frequency)
- Статистический метод, упомянутый в патенте как для ранжирования результатов в SERP, так и для сравнения наборов результатов между собой.
- Click-through rates (CTR) (Показатель кликабельности)
- Поведенческая метрика, используемая для взвешивания важности URL при сравнении результатов поиска.
- Latent Semantic Indexing (LSI) / Probabilistic Latent Semantic Analysis (PLSA)
- Методы обработки информации, упомянутые для оптимизации размера наборов результатов и сравнения контента документов.
Ключевые утверждения (Анализ Claims)
Claim 1 (Независимый пункт): Описывает основной метод ассоциации неоцененного ключевого слова с оцененным в контексте управления спонсируемыми листингами.
- Система выбирает первый набор результатов поиска для неоцененного (unbidded) ключевого слова.
- Система выбирает второй набор результатов поиска для оцененного (bidded) ключевого слова.
- Процессор сравнивает первый набор со вторым.
- Процессор ассоциирует неоцененное слово с оцененным на основе этого сравнения.
- Система присваивает первую денежную стоимость неоцененному слову на основе второй денежной стоимости оцененного слова.
Claim 6, 7, 8, 9 (Зависимые): Детализируют процесс сравнения.
- Сравнение включает сравнение URL (Claim 6, 7).
- Для эффективности каждому результату (URL) может быть присвоен идентификатор (например, хэш), и сравнение производится по этим идентификаторам (Claim 8).
- Идентификаторы могут быть проиндексированы для быстрого поиска (Claim 9).
Claim 12, 13 (Зависимые): Определяют методы сравнения.
- Сравнение наборов результатов использует статистический метод (Claim 12).
- Конкретно упоминается метод TFIDF (Claim 13).
Claim 14, 15, 16 (Зависимые): Вводят концепцию взвешивания при сравнении.
- Система ранжирует результаты поиска в наборах (Claim 14).
- Ассоциация ключевых слов основывается на этом ранжировании (Claim 15).
- Ранжирование может основываться на показателях кликабельности (click-through rates) (Claim 16).
Где и как применяется
Изобретение затрагивает несколько этапов поиска, используя данные индекса для понимания запросов и влияния на финальную выдачу (в контексте рекламы).
INDEXING – Индексирование и извлечение признаков
На этом этапе собираются данные, необходимые для работы алгоритма: органический индекс (какие URL ранжируются по каким запросам) и, возможно, поведенческие данные (CTR для пар запрос-URL). Также могут рассчитываться идентификаторы или хэши для URL.
QUNDERSTANDING – Понимание Запросов
Это основная область применения механизма определения схожести. Система анализирует взаимосвязи между запросами для лучшего понимания их интента и семантики. Рассчитанная Similarity Function позволяет системе понять, что два разных текста запроса ведут к одному и тому же результату.
METASEARCH / RERANKING (Контекст Рекламы)
В патенте описано применение результатов ассоциации на финальном этапе для доставки рекламы. Когда пользователь вводит unbidded term, система использует ассоциацию, чтобы найти соответствующий bidded term и показать связанную с ним рекламу.
Входные данные:
- Два поисковых запроса (один bidded, один unbidded).
- Органический индекс (для генерации SERP).
- Данные о ставках (для определения стоимости).
- Потенциально, данные CTR для URL в результатах поиска.
Выходные данные:
- Оценка схожести (Similarity Score) между запросами.
- Ассоциация между неоцененным и оцененным терминами.
- Расчетная денежная стоимость для неоцененного термина.
На что влияет
- Специфические запросы: Наибольшее влияние оказывается на понимание длиннохвостых (long-tail) запросов путем их связи с более общими (head terms) или синонимичными запросами, имеющими устоявшуюся выдачу.
- Кластеризация интентов: Влияет на то, как поисковая система группирует запросы с разным написанием, но одинаковым намерением пользователя.
Когда применяется
- Триггеры активации: В контексте патента, алгоритм активируется, когда необходимо определить релевантную рекламу для запроса, не имеющего прямых ставок (unbidded term), или когда система офлайн рассчитывает взаимосвязи и стоимость ключевых слов.
- Условия применения в органическом поиске (Интерпретация): Механизм сравнения схожести выдачи постоянно используется для понимания запросов, кластеризации ключевых слов и уточнения интента пользователя.
Пошаговый алгоритм
Процесс А: Ассоциация запросов (SERP Overlap Analysis)
- Идентификация Терминов: Определение набора топовых оцененных терминов (N) и целевого неоцененного термина (kU).
- Генерация SERP для kU: Получение топовых L органических URL для неоцененного термина kU.
- Генерация SERP для Оцененных Терминов: Получение топовых M органических URL для каждого из N оцененных терминов.
- Подготовка к Сравнению: Присвоение весов каждому URL в наборах. Веса могут быть основаны на позиции в выдаче (ранге), CTR, или рассчитаны с использованием TFIDF. Для эффективности URL могут быть заменены идентификаторами или хэшами.
- Сравнение Наборов (SERP Overlap): Сравнение набора URL для kU с набором URL для каждого оцененного термина.
- Расчет Схожести: Вычисление Similarity Score для каждой пары. Методы расчета включают:
- Intersection over Union.
- Взвешенное сравнение с использованием TFIDF или векторных расстояний.
- Определение Наиболее Похожих Терминов: Идентификация оцененных терминов с наивысшими показателями схожести с kU.
- Ассоциация: Установление связи между kU и наиболее похожими оцененными терминами.
Процесс Б: Монетизация и Корректировка
- Расчет Стоимости: Определение денежной стоимости kU на основе ставок ассоциированных оцененных терминов и рассчитанной Similarity Function.
- Сбор Обратной Связи: Мониторинг того, как рекламодатели реагируют на предложенную стоимость (частота ставок, размер ставок, CTR, доход).
- Корректировка: Пересчет Similarity Function (например, с помощью регрессионного анализа) на основе полученных данных и корректировка стоимости kU.
Какие данные и как использует
Данные на входе
Патент фокусируется на анализе структуры выдачи и поведенческих данных для определения схожести.
- Технические факторы: URL. URL используются как основа для сравнения. Если два запроса возвращают одинаковые URL, запросы считаются похожими.
- Поведенческие факторы: Click-through rates (CTR). Патент явно указывает на использование CTR для взвешивания важности URL в результатах поиска. URL с более высоким CTR имеют больший вес при определении схожести.
- Системные данные: Органический индекс (для генерации SERP) и данные системы ставок (Bidding data).
Какие метрики используются и как они считаются
- Similarity Function (Функция схожести): Основная метрика, определяющая связь между терминами.
- Методы расчета схожести:
- Intersection over Union: |SetA ∩ SetB| / |SetA ∪ SetB|.
- TFIDF: Используется для оценки важности URL в наборе результатов. Может применяться для расчета векторного расстояния между наборами.
- Весовые коэффициенты: Применяются к URL при сравнении. Могут быть:
- Линейные или логарифмические: Основаны на позиции URL в выдаче (например, позиция 1 = 10 баллов, позиция 2 = 9 баллов).
- Поведенческие: Основаны на фактических CTR для данного URL по данному запросу.
- Статистические методы: Регрессионный анализ упоминается для анализа обратной связи и корректировки функции схожести.
Выводы
- Схожесть запросов определяется схожестью результатов (SERP Overlap): Это ключевой вывод. Поисковая система считает два разных запроса семантически связанными, если они приводят к схожему набору органических результатов. Текст запроса вторичен по отношению к результатам, которые он генерирует.
- Интент выводится из SERP: Намерение пользователя определяется не только анализом слов в запросе, но и анализом того, какие документы система считает релевантными для этого и похожих запросов.
- Поведенческие факторы влияют на семантику: CTR используется как вес при определении схожести. Если пользователи часто кликают на определенный URL по двум разным запросам, это усиливает связь между этими запросами в глазах поисковой системы.
- Коммерческая ценность передается через схожесть: Система может автоматически оценивать коммерческий потенциал новых или редких запросов, связывая их с уже известными коммерческими запросами через Similarity Function.
- Важность комплексного анализа SERP: Для SEO-специалистов это подчеркивает необходимость анализа всей выдачи, а не только отдельных позиций, для понимания того, как поисковая система интерпретирует кластер запросов.
Практика
Best practices (это мы делаем)
- Кластеризация на основе SERP Overlap: При сборе семантического ядра используйте анализ пересечения SERP (вручную или с помощью инструментов) для кластеризации ключевых слов. Запросы с высокой степенью пересечения выдачи должны обрабатываться на одной странице, так как они имеют одинаковый интент.
- Анализ интента через конкурентов: Изучайте, какие типы сайтов и страниц ранжируются по целевым и смежным запросам. Это (согласно патенту) и есть то, как поисковая система определяет связь между запросами. Ваша контент-стратегия должна соответствовать этому интенту.
- Оптимизация органического CTR: Работайте над повышением кликабельности сниппетов в органической выдаче. Патент подтверждает, что CTR может использоваться как вес для определения важности URL. Высокий CTR усиливает связь между вашим URL и целевым кластером запросов.
- Расширение охвата темы (Topical Authority): Создавая контент, который релевантен широкому спектру связанных запросов, вы увеличиваете вероятность пересечения вашего URL в разных SERP, что укрепляет семантические связи в глазах поисковой системы.
Worst practices (это делать не надо)
- Кластеризация только по тексту ключей: Группировка ключевых слов только на основе синонимов или общих слов без проверки SERP Overlap. Если выдача разная, то и интент разный, даже если слова похожи.
- Игнорирование изменений в SERP: Предполагать, что интент запроса статичен. Если состав URL в выдаче меняется, это означает, что поисковая система пересмотрела свое понимание этого запроса и его связь с другими запросами.
- Создание отдельных страниц под минимальные вариации запросов: Если SERP Overlap близок к 100% для двух запросов (например, с перестановкой слов), создание отдельных страниц приведет к каннибализации, так как система считает их идентичными по интенту.
Стратегическое значение
Этот патент подтверждает стратегический переход от буквального сопоставления ключевых слов к пониманию намерений пользователя (Intent Matching). Он предоставляет конкретный механизм, как это достигается: через анализ коллективного результата работы алгоритмов ранжирования. Для SEO это означает, что стратегия должна строиться от анализа SERP назад к контенту. Понимание того, почему определенный набор документов ранжируется, является ключом к пониманию того, как поисковая система интерпретирует запрос.
Практические примеры
Сценарий: Кластеризация ключевых слов для интернет-магазина
- Задача: Определить, нужны ли отдельные страницы для запросов А: «купить ноутбук для графического дизайна» и Б: «лучший ноутбук для Photoshop».
- Действие: SEO-специалист анализирует Топ-10 органических результатов для обоих запросов.
- Анализ (SERP Overlap):
- Случай 1: 8 из 10 результатов совпадают (например, обзоры и рейтинги). Intersection over Union высокий. Интент идентичен.
- Случай 2: Только 2 из 10 результатов совпадают. По запросу А преобладают страницы категорий магазинов, по запросу Б — информационные обзоры. Интент разный.
- Решение: В Случае 1 создается одна страница, оптимизированная под оба запроса. В Случае 2 создаются две разные страницы (коммерческая и информационная).
- Ожидаемый результат: Избежание каннибализации и точное попадание в интент, определенный поисковой системой через анализ схожести выдачи.
Вопросы и ответы
Как этот патент связан с современными алгоритмами типа BERT или MUM?
Современные модели (BERT, MUM) анализируют текст запроса и контент для глубокого понимания семантики. Однако описанный в патенте метод (анализ SERP Overlap) дополняет этот анализ, используя результаты работы алгоритмов ранжирования как подтверждение семантической связи. Если сложные модели ранжирования стабильно возвращают одинаковые документы по разным запросам, это является сильным сигналом их семантической идентичности, независимо от текстового анализа.
Что важнее для определения схожести: совпадение URL или совпадение доменов?
Патент говорит о сравнении результатов поиска, которые обычно представлены конкретными URL. Совпадение конкретных URL является более сильным сигналом идентичности интента, чем совпадение доменов. Разные страницы на одном авторитетном домене могут отвечать на разные интенты.
Как именно CTR влияет на определение схожести запросов согласно патенту?
CTR используется как весовой коэффициент для URL при сравнении двух наборов результатов. Если URL имеет высокий CTR по обоим запросам, его присутствие в обоих SERP имеет больший вес при расчете Similarity Function. Это означает, что поведение пользователей напрямую влияет на то, насколько связанными система считает эти два запроса.
Как использовать принципы этого патента в ежедневной работе SEO-специалиста?
Основное применение — это валидация семантического ядра и структуры сайта. Всегда проверяйте SERP Overlap при кластеризации запросов. Если вы сомневаетесь, объединять ли запросы на одной странице или разделять их, сравните выдачу. Высокое пересечение означает один интент и одну страницу; низкое пересечение — разные интенты и разные страницы.
Если я вижу, что по моим целевым запросам выдача сильно отличается, что это значит?
Это означает, что поисковая система видит разный интент в этих запросах, даже если они кажутся вам синонимами. В этом случае попытка ранжировать одну страницу по всем этим запросам будет неэффективной. Вам необходимо создать разные единицы контента, каждая из которых соответствует интенту, отраженному в соответствующей выдаче.
Патент упоминает TFIDF для сравнения SERP. Как это работает?
TFIDF может использоваться для оценки важности конкретного URL в контексте всех сравниваемых SERP. Если URL часто появляется в разных SERP (низкий IDF), он может иметь меньший вес как различительный признак. Если URL уникален и часто встречается в рамках одного SERP (высокий TF), он становится важным для характеристики этого запроса. Сравнение производится путем построения векторов TFIDF для каждого SERP и вычисления расстояния между ними.
Влияет ли персонализация выдачи на работу этого алгоритма?
Патент не обсуждает персонализацию. Однако можно предположить, что для расчета базовой схожести используются неперсонализированные результаты поиска, чтобы установить общую семантическую связь между запросами. Персонализация применяется на более поздних этапах ранжирования.
Может ли этот механизм связывать запросы на разных языках?
Теоретически, да, если оба запроса возвращают одинаковые URL (например, для названий брендов, моделей продуктов или международного контента). Однако на практике SERP для разных языков и регионов обычно сильно отличаются, поэтому прямое применение этого метода для кросс-языковой ассоциации ограничено.
Это патент Yahoo. Применяет ли Google аналогичные методы?
Да. Методы определения схожести запросов через анализ результатов поиска (SERP Overlap) и использование поведенческих данных (CTR) для взвешивания являются стандартными практиками в области информационного поиска (Information Retrieval). Хотя детали реализации Google могут отличаться, базовые принципы, описанные в этом патенте, универсальны и используются всеми крупными поисковыми системами.
Как быстро система реагирует на изменения в SERP при расчете схожести?
Это зависит от частоты обновления индекса и пересчета ассоциаций. Патент предполагает, что расчеты могут производиться как офлайн (для анализа больших массивов данных и расчета стоимости), так и в реальном времени (для доставки рекламы). Значительные изменения в выдаче (например, после апдейта алгоритма) приведут к пересмотру семантических связей между запросами.