Google использует систему для определения схожести между запросами путем объединения нескольких различных сигналов корреляции. Система комбинирует показатели, основанные на временных трендах (как часто запросы ищут одновременно в разных источниках) и показатели, основанные на контекстной близости (какие слова окружают термины запроса в веб-документах). Обученная модель объединяет эти сигналы для более точного понимания взаимосвязи запросов, что используется для автодополнения, расширения запросов и рекламы.
Описание
Какую задачу решает
Патент решает проблему ограничений систем, которые используют только один метод для измерения схожести запросов (например, только анализ логов или только анализ результатов выдачи). Разные методы выявляют разные типы взаимосвязей и имеют свои недостатки. Цель изобретения — повысить качество и надежность измерения семантической схожести запросов путем интеграции различных сигналов корреляции, что улучшает работу таких функций, как подсказки запросов (Query Suggestion), расширение запросов (Query Expansion) и подбор рекламы.
Что запатентовано
Запатентована система, которая определяет степень схожести между запросами путем объединения множества показателей корреляции (correlation scores), полученных из разных процессов. Ключевыми показателями являются Temporal Correlation Score (основанный на временных трендах в различных корпусах) и Distributional Similarity Score (основанный на анализе контекста и совместной встречаемости терминов). Эти показатели объединяются с помощью обученной модели (например, linear model) для вычисления итогового Combined Correlation Score.
Как это работает
Система работает путем агрегации и взвешивания различных сигналов схожести:
- Измерение корреляций: Для пары запросов вычисляются различные показатели схожести. Distributional Similarity анализирует, насколько похожи контексты (окружающие слова), в которых термины этих запросов встречаются в большом корпусе текстов. Temporal Similarity анализирует, коррелируют ли частоты этих запросов во времени в логах поиска или корпусах с временными метками (например, новостях, блогах).
- Комбинация сигналов: Полученные числовые показатели передаются в обученную модель (Trained Model, например, линейную или логистическую регрессию).
- Обучение модели: Модель предварительно обучается на данных, аннотированных людьми (human annotated goldstandard), где асессоры оценивают степень схожести пар запросов.
- Итоговая оценка: Модель вычисляет Combined Correlation Score, который используется для ранжирования потенциальных связанных запросов или подсказок.
Актуальность для SEO
Высокая. Понимание взаимосвязей между запросами и семантической близости является фундаментальной задачей для улучшения понимания намерений пользователя (Query Understanding). Методы, описанные в патенте, такие как использование дистрибутивной семантики (анализ контекста) и комбинация различных сигналов (мультимодальность) через машинное обучение, лежат в основе современных NLP-технологий Google.
Важность для SEO
Патент имеет высокое значение для SEO (8.5/10). Он раскрывает конкретные механизмы, которые Google использует для понимания того, какие запросы семантически или контекстуально связаны. Это напрямую влияет на то, как Google может расширять или переписывать запросы пользователя (Query Expansion) и какие подсказки предлагать. Понимание того, что схожесть определяется как контекстом (со-встречаемость слов), так и временными трендами, критически важно для построения семантического ядра и контент-стратегии.
Детальный разбор
Термины и определения
- Combined Correlation Score (Комбинированная оценка корреляции)
- Итоговый показатель, который количественно определяет общую корреляцию между двумя запросами. Вычисляется путем применения обученной модели к множеству отдельных оценок корреляции.
- Context Terms (Контекстные термины)
- Термины из корпуса, которые встречаются рядом с целевым термином запроса (например, в пределах заданного расстояния, такого как 3 слова). Используются для построения контекстного вектора.
- Context Vector (Контекстный вектор)
- Векторное представление термина запроса. Элементы вектора соответствуют терминам корпуса, а значения элементов — частоте совместной встречаемости (frequency value) с контекстными терминами.
- Corpus (Корпус)
- Большой структурированный набор текстов, используемый для анализа. Примеры: веб-документы, новостные статьи, блоги или логи запросов (search query log).
- Distributional Similarity Score (Оценка дистрибутивной схожести)
- Показатель схожести, основанный на сравнении частот терминов, которые совместно встречаются в тексте с терминами первого и второго запросов. Основан на гипотезе, что слова, встречающиеся в похожих контекстах, имеют схожее значение.
- Linear Model / Trained Model (Линейная модель / Обученная модель)
- Модель машинного обучения (например, логистическая регрессия, лог-линейная модель), обученная на аннотированных данных для оптимального взвешивания и объединения различных оценок корреляции.
- Query Vector (Вектор запроса)
- Векторное представление всего запроса. Генерируется путем объединения контекстных векторов отдельных терминов запроса, например, с использованием геометрического среднего (Geometric Mean).
- Temporal Correlation Score (Оценка временной корреляции)
- Показатель схожести, основанный на сравнении временных рядов (temporal series) встречаемости элементов запросов в корпусе (например, в логах запросов или в датированных документах, таких как новости).
Ключевые утверждения (Анализ Claims)
Claim 1 (Независимый пункт): Описывает специфический метод измерения схожести, основанный на временной корреляции между разными корпусами.
- Система получает первый и второй запросы.
- Определяется Temporal Correlation Score. Это делается путем сравнения временного ряда встречаемости первого запроса в первом корпусе (например, Новости) и временного ряда встречаемости второго запроса во втором, отличающемся корпусе (например, Блоги).
- Сравнение основано на документах, имеющих временные метки в одном и том же периоде.
- Вычисляется Similarity Score на основе этого Temporal Correlation Score, и второй запрос ранжируется.
Этот пункт фокусируется на сравнении временных трендов в разных типах контента как сигнале схожести.
Claim 2 (Зависимый от 1): Вводит комбинацию мер, что соответствует основной идее изобретения.
- Определяется Distributional Similarity Score между запросами, основанный на сравнении частот совместно встречающихся терминов (анализ контекста).
- Вычисление Similarity Score теперь включает предоставление как Distributional Similarity Score, так и Temporal Correlation Score (из Claim 1) в качестве входных данных для Trained Model.
Здесь система комбинирует кросс-корпусную временную схожесть и дистрибутивную схожесть с помощью обученной модели.
Claim 3 (Зависимый от 2): Детализирует расчет Distributional Similarity Score.
- Для каждого термина запроса выбираются Context Terms из корпуса на основе метрики расстояния.
- Для каждого термина генерируется Context Vector с частотами совместной встречаемости.
- Генерируется Query Vector для всего запроса путем объединения Context Vectors его терминов.
- Distributional Similarity Score определяется путем сравнения Query Vectors двух запросов.
Claim 5 (Зависимый от 2): Добавляет третий тип схожести.
- Определяется Query Correlation Score, основанный на сравнении временных рядов встречаемости обоих запросов в логе запросов (query log).
- Вычисление Similarity Score теперь включает использование Trained Model с тремя входами: Temporal Correlation Score (из Claim 1), Distributional Similarity Score (из Claim 2) и Query Correlation Score (из Claim 5).
Где и как применяется
Изобретение применяется преимущественно на этапе понимания запросов и влияет на ранжирование через механизмы расширения запросов.
QUNDERSTANDING – Понимание Запросов
Это основной этап применения патента. Система анализирует входной запрос и определяет связанные с ним запросы.
- Генерация подсказок: Используется для генерации подсказок (Query Suggestions, Autocomplete).
- Расширение запросов (Query Expansion): Система может использовать высоко схожие запросы для расширения исходного запроса синонимами или связанными концепциями для улучшения полноты поиска.
- Переписывание запросов (Query Reformulation): Система может заменить исходный запрос на схожий, если считает, что это улучшит результаты.
- Категоризация запросов.
INDEXING – Индексирование и извлечение признаков
На этом этапе происходит предварительная обработка данных. Анализируются большие корпусы текстов для вычисления Context Vectors для терминов (дистрибутивная схожесть) и обрабатываются временные данные.
Входные данные:
- Первый запрос (исходный) и множество вторых запросов (кандидаты).
- Данные корпусов (веб-документы, новости, блоги) для анализа контекста.
- Логи запросов (Search Query Logs) для анализа временных трендов.
- Обученная линейная модель (Trained Model).
Выходные данные:
- Combined Correlation Score для каждой пары запросов.
- Ранжированный список вторых запросов, отсортированный по их схожести с первым запросом.
На что влияет
- Все типы запросов и контента: Механизм является общим и применим к любым запросам для определения их взаимосвязи.
- Неоднозначные и короткие запросы: Особенно полезен для коротких или неоднозначных запросов, где контекст (Distributional Similarity) и временные тренды (Temporal Correlation) помогают понять намерение пользователя.
- Спонсируемый поиск (Реклама): Патент явно упоминает применение для помощи рекламодателям в подборе связанных ключевых слов и для расширенного широкого соответствия (Expanded Broad Match).
Когда применяется
Алгоритм применяется, когда системе необходимо определить связанные запросы. Это может происходить:
- В реальном времени при вводе запроса пользователем для генерации автодополнения.
- Во время обработки запроса для его возможного расширения или переписывания.
- Офлайн для анализа логов и построения карты взаимосвязей между запросами.
Пошаговый алгоритм
Процесс А: Вычисление Combined Correlation Score (Общий процесс)
- Получение входных данных: Система получает первый запрос и множество вторых запросов (кандидатов).
- Получение оценок корреляции: Для каждой пары запросов система получает множество Correlation Scores, вычисленных разными процессами (например, Temporal из разных корпусов, Temporal из логов, Distributional).
- Применение модели: Линейная модель применяется к полученным Correlation Scores.
- Вычисление комбинированной оценки: Определяется Combined Correlation Score для каждой пары.
- Ранжирование: Вторые запросы ранжируются в соответствии с их Combined Correlation Scores относительно первого запроса.
Процесс Б: Вычисление Distributional Similarity Score (Детальный подпроцесс)
- Инициализация: Для каждого запроса (Q1 и Q2) инициируется процесс анализа терминов.
- Анализ контекста термина: Для каждого термина в запросе (например, T1 в Q1):
- Выборка контекста: Из корпуса выбираются Context Terms, которые находятся на определенном расстоянии от T1 (например, в пределах 3 слов).
- Генерация контекстного вектора: Для T1 создается Context Vector, содержащий частоты совместной встречаемости с Context Terms.
- Генерация вектора запроса: Context Vectors всех терминов запроса Q1 объединяются для создания Query Vector (QV1). В качестве метода объединения особо выделяется геометрическое среднее (Geometric Mean) частот. Это помогает разрешать неоднозначность.
- Сравнение векторов: Distributional Similarity Score вычисляется путем сравнения QV1 и QV2 с использованием метрики схожести (например, косинусное сходство).
Процесс В: Обучение линейной модели (Офлайн)
- Подготовка данных: Используется набор данных с парами запросов, оцененными людьми (human annotated goldstandard).
- Извлечение признаков: Для пар из обучающего набора вычисляются различные Correlation Scores (признаки).
- Тренировка: Линейная модель обучается (например, логистической регрессией) для предсказания оценок, максимально близких к человеческим.
Какие данные и как использует
Данные на входе
- Контентные факторы (Корпуса текстов): Используются большие корпусы текстов (веб-документы, новости, блоги). Анализируется текст для определения совместной встречаемости слов и контекста (Context Terms) для расчета Distributional Similarity.
- Временные факторы: Используются датированные документы (новости, блоги) и логи запросов с временными метками для анализа временных рядов (temporal series) и трендов для расчета Temporal Correlation.
- Поведенческие факторы (Логи запросов): Логи поиска используются для анализа частоты запросов во времени. Также упоминается использование логов для идентификации фраз, заключенных в кавычки.
- Структурированные данные (Словари/Энциклопедии): В описании патента упоминается использование энциклопедий (например, Wikipedia) или словарей для идентификации устойчивых фраз (n-грамм) или сущностей.
Какие метрики используются и как они считаются
- Метрики схожести векторов: Для сравнения Query Vectors или временных рядов используются стандартные метрики: косинусное сходство (cosine similarity), скалярное произведение (dot-product), взаимная информация (mutual information), дивергенция Йенсена-Шеннона (Jensen Shannon divergence), коэффициент Дайса (dice coefficient).
- Geometric Mean (Геометрическое среднее): Используется для объединения Context Vectors терминов в единый Query Vector. Это аппроксимирует операцию «И» и является ключевым механизмом для разрешения неоднозначности (disambiguation).
- Метрики зависимости (Conditional Independence): Для идентификации устойчивых фраз (n-грамм) могут использоваться статистические тесты: tf-idf, взаимная информация, хи-квадрат (x2 test), t-тест Стьюдента (t-student test), поточечная взаимная информация (PMI).
- Алгоритмы машинного обучения: Linear model, logistic regression model, log-linear model используются для взвешивания и комбинирования оценок.
Выводы
- Мультимодальное понимание схожести: Google не полагается на один источник для определения связи между запросами. Система синтезирует данные из анализа текстов веб-документов (контекст), анализа поведения пользователей (логи запросов) и временных трендов в разных типах медиа (новости/блоги).
- Важность дистрибутивной семантики (Контекст определяет значение): Патент детально описывает, как строится понимание смысла запроса через анализ окружающего контекста его терминов в масштабе всего корпуса. Значение термина определяется словами, которые встречаются рядом с ним.
- Механизм разрешения неоднозначности (Geometric Mean): Использование геометрического среднего для объединения контекстных векторов является ключевым техническим решением. Оно позволяет эффективно разрешать неоднозначность, подчеркивая общий контекст между терминами запроса (например, «bank account» склоняется к финансам, отсекая контексты реки или авиации).
- Идентификация сущностей и фраз (N-grams): Система активно пытается идентифицировать устойчивые фразы и сущности (n-граммы) и обрабатывать их как единое целое, используя статистические методы (PMI, tf-idf) и внешние источники знаний (словари, энциклопедии).
- Обучение на основе человеческих оценок: Итоговое решение о схожести принимается моделью, обученной максимизировать совпадение с оценками асессоров, что подтверждает важность человеческого восприятия релевантности в алгоритмах Google.
Практика
Best practices (это мы делаем)
- Усиление контекста и совместной встречаемости (Co-occurrence): При создании контента необходимо насыщать текст релевантными терминами, которые часто встречаются вместе с целевыми ключевыми словами в авторитетных источниках. Это укрепляет Context Vector ваших терминов и помогает Google точно понять тематику и смысл контента (Distributional Similarity).
- Оптимизация под разрешение неоднозначности: Если вы работаете с терминами, имеющими несколько значений (например, «банк», «ключ»), убедитесь, что ваш контент содержит достаточное количество уточняющих слов. Механизм Geometric Mean будет использовать эти слова для приоритизации правильного контекста.
- Четкое определение сущностей и фраз (N-grams): Помогайте системе идентифицировать ключевые сущности и устойчивые фразы как единое целое. Используйте последовательную терминологию, микроразметку Schema.org и ссылайтесь на авторитетные источники (например, Wikipedia), которые система может использовать для валидации n-грамм.
- Анализ временных трендов (Temporal Correlation): Для контента, зависящего от свежести (QDF), важно понимать, какие концепции трендят одновременно в новостях, блогах и поиске. Создание контента, который связывает эти трендовые концепции, может улучшить видимость, так как система идентифицирует их как коррелирующие.
- Построение широкого семантического охвата: Поскольку система используется для Query Expansion, сайт с широким охватом темы и сильной контекстуальной базой имеет больше шансов ранжироваться по расширенным или переписанным запросам.
Worst practices (это делать не надо)
- Использование ключевых слов в неестественном контексте: Попытки манипулировать контекстом путем вставки ключевых слов там, где они не имеют смысла, будут неэффективны. Система анализирует контекст в масштабах всего корпуса, и неестественные сочетания будут иметь низкие частоты совместной встречаемости.
- Игнорирование связанных концепций и синонимов: Фокус только на узком наборе точных ключевых фраз игнорирует тот факт, что система активно ищет схожие запросы (синонимы, связанные термины) на основе Distributional Similarity.
- Keyword Stuffing: Перенасыщение текста ключевыми словами без создания богатого семантического контекста вокруг них затрудняет построение качественных Context Vectors и снижает Distributional Similarity с релевантными запросами.
Стратегическое значение
Этот патент подтверждает стратегический переход Google от буквального сопоставления ключевых слов к глубокому пониманию семантики через контекст и поведение пользователей. Он демонстрирует, что смысл запроса — это сложная конструкция, выведенная из того, как термины используются в языке (Distributional Similarity) и как они соотносятся с реальными событиями во времени (Temporal Correlation). Для SEO это означает, что стратегии должны фокусироваться на создании контента, который соответствует устоявшемуся контекстуальному употреблению терминов в авторитетных источниках и актуален текущим трендам.
Практические примеры
Сценарий 1: Разрешение неоднозначности (Disambiguation)
- Задача: Оптимизировать страницу под запрос «купить замок» (дверной механизм), а не «экскурсия в замок» (здание).
- Механизм патента: Система использует Geometric Mean для объединения Context Vectors слов «купить», «дверной» и «замок».
- Действия SEO-специалиста: Насытить текст контекстными словами, общими для этих терминов: «установка», «ключ», «цилиндр», «безопасность», «входная дверь». Исключить слова, связанные со зданиями («башня», «рыцарь», «средневековье»).
- Результат: Query Vector страницы будет сильно коррелировать с запросами о дверных механизмах и слабо коррелировать с запросами об экскурсиях.
Сценарий 2: Оптимизация под Query Expansion с учетом трендов
- Задача: Получить трафик по запросам, связанным с новым «Смартфоном X».
- Механизм патента (Temporal Correlation): Система видит, что в новостях и блогах одновременно всплеск упоминаний «Смартфон X» и «технология камеры Y».
- Механизм патента (Distributional Similarity): Система анализирует контекст использования этих терминов в свежих документах.
- Действия SEO-специалиста: Быстро создать детальный обзор, фокусирующийся на «технологии камеры Y» в «Смартфоне X», используя терминологию из авторитетных новостных источников.
- Результат: Система определяет высокую комбинированную схожесть между запросами «Смартфон X обзор» и «Смартфон X камера Y». Страница получает трафик по обоим запросам за счет механизмов Query Expansion или Query Suggestion.
Вопросы и ответы
Что такое Distributional Similarity и почему это важно для SEO?
Distributional Similarity (Дистрибутивная схожесть) основана на идее, что слова, встречающиеся в похожих контекстах, имеют схожее значение. Google анализирует миллиарды документов, чтобы увидеть, какие слова окружают ваши ключевые термины. Для SEO это критически важно, потому что это определяет, как Google понимает смысл вашего контента. Насыщение текста правильными контекстными словами (LSI, связанные сущности) помогает точно определить тематику и улучшить ранжирование по семантически связанным запросам.
Как используется геометрическое среднее (Geometric Mean) в этом патенте и зачем оно нужно?
Геометрическое среднее используется для объединения контекстных векторов отдельных слов запроса в единый вектор всего запроса (Query Vector). Оно действует как фильтр или мягкий оператор «И» (AND). Это ключевой механизм для разрешения неоднозначности: например, для запроса «bank account», оно усилит контекст, общий для «bank» и «account» (финансы), и ослабит контексты, присущие только «bank» (река, авиация). Это позволяет системе точнее понять смысл всего запроса.
Что такое Temporal Correlation Score и как он влияет на SEO?
Это показатель того, насколько два запроса схожи по времени их поиска или упоминания в разных источниках (логи, новости, блоги). Если два разных запроса имеют пики популярности в одни и те же периоды времени, система присвоит им высокий Temporal Correlation Score. Для SEO это означает, что создание контента, соответствующего актуальным трендам и событиям, может помочь связать ваш контент с трендовыми запросами.
Патент говорит о комбинации нескольких мер схожести. Какие именно меры комбинируются?
В наиболее полной форме (Claim 5) патент описывает комбинацию трех основных мер: 1) Distributional Similarity Score (схожесть контекстов в веб-документах), 2) Query Correlation Score (временная схожесть в логах запросов), и 3) Temporal Correlation Score (временная схожесть трендов в разных типах корпусов, например, в новостях и блогах). Они объединяются с помощью обученной модели.
Как этот патент влияет на подбор ключевых слов и семантическое ядро?
Он подчеркивает необходимость выходить за рамки традиционных синонимов и анализировать контекстуально и темпорально связанные термины. При подборе семантики нужно учитывать не только сами ключи, но и весь кластер сопутствующих слов (Context Terms), которые определяют их значение. Также стоит обращать внимание на поисковые подсказки и похожие запросы, так как они являются прямым результатом работы этой системы.
Используется ли этот механизм для Query Expansion (Расширения запросов)?
Да, патент явно указывает Query Expansion как одно из применений. Если система определяет, что другой запрос имеет высокий Combined Correlation Score с исходным запросом пользователя, она может автоматически расширить исходный запрос, чтобы включить результаты для схожего запроса. Это позволяет пользователям находить релевантную информацию, даже если они использовали не самую оптимальную формулировку.
Как система определяет устойчивые фразы или сущности (N-граммы) вроде «New York City»?
В описании патента указано, что система использует несколько методов для идентификации того, что несколько слов следует рассматривать как единое целое. Это включает статистические тесты на зависимость (например, PMI или tf-idf), проверку наличия фразы в словарях или энциклопедиях (например, Wikipedia), а также анализ того, часто ли пользователи заключают эту фразу в кавычки в логах поиска.
Откуда берутся данные для анализа контекста (Distributional Similarity)?
Данные берутся из большого корпуса текстов (Corpus). Патент упоминает использование сотен миллионов документов, проиндексированных в интернете, а также новостных статей и блогов. Это означает, что общее употребление слов в сети определяет их контекст и значение для Google.
Как обучается модель, комбинирующая эти показатели?
Модель (обычно линейная или логистическая регрессия) обучается на данных, размеченных людьми (human annotated goldstandard). Асессоры оценивают степень схожести пар запросов (например, по шкале от 1 до 5). Модель учится взвешивать входные сигналы (Temporal, Distributional scores) так, чтобы ее итоговая оценка максимально соответствовала оценкам людей.
Может ли система связать запросы, которые не содержат общих слов?
Да. Если два запроса имеют схожие временные паттерны (темпоральная схожесть) или если термины в этих запросах часто встречаются в схожих контекстах (дистрибутивная схожесть), система может определить их как связанные, даже если они не имеют буквального пересечения по словам. Например, «коронавирус симптомы» и «потеря обоняния причины» могут быть связаны через оба механизма.