Google анализирует исторические данные о том, как пользователи уточняют свои запросы. Система определяет семантическое значение каждого уточнения, анализируя контент возвращаемых документов. Уточнения с похожими результатами кластеризуются. Затем система выбирает лучший репрезентативный запрос из каждого кластера и ранжирует их, отдавая предпочтение наиболее частым и семантически согласованным группам, чтобы предложить пользователю концептуально различные варианты продолжения поиска.
Описание
Какую задачу решает
Патент решает проблему некачественной поисковой выдачи, возникающей из-за неоднозначных, слишком общих или слишком специфичных исходных запросов (Source Query). Когда пользователи вводят такие запросы (например, «bikes»), им часто приходится вручную уточнять их. Система стремится автоматизировать этот процесс, предлагая релевантные и концептуально различные варианты уточнений (Refinement Suggestions), чтобы помочь пользователю быстрее найти нужную информацию. Также решается проблема организации исторических данных об уточнениях, которые могут быть шумными и избыточными.
Что запатентовано
Запатентована система для генерации предложений по уточнению запросов (например, блока «Related Searches»). Она собирает исторические данные о том, как пользователи переформулируют исходные запросы (Refinement Data). Эти данные кластеризуются на основе семантической близости, которая определяется путем анализа результатов поиска по этим уточнениям (используя Term Vectors). Затем система идентифицирует наиболее репрезентативный запрос для каждого кластера и ранжирует эти предложения для показа пользователю.
Как это работает
Механизм работает в несколько этапов (преимущественно офлайн):
- Сбор данных: Система анализирует логи запросов и фиксирует последовательности: исходный запрос и последующий уточняющий запрос, введенный в течение определенного времени.
- Характеризация (Определение смысла): Для каждого уточняющего запроса определяется его семантика. Это делается путем выполнения поиска по этому запросу и анализа полученных документов. На основе терминов в этих документах создается Composite Term Vector.
- Кластеризация: Уточняющие запросы группируются на основе близости их Composite Term Vectors. Семантически близкие запросы (например, «мотоциклы» и «мотобайки») попадают в один кластер.
- Выбор представителя: Для каждого кластера выбирается один репрезентативный запрос. Это может быть самый частый запрос или запрос, ближайший к центру кластера (Centroid).
- Ранжирование и показ: Кластеры ранжируются на основе общей частотности входящих в них запросов и их семантической согласованности (Compactness). Репрезентативные запросы из топовых кластеров показываются пользователю.
Актуальность для SEO
Высокая. Предложение уточнений запросов является стандартной функцией Google Поиска. Методы семантического анализа и кластеризации интентов, описанные в патенте, остаются фундаментальными для понимания запросов. Кроме того, Claims (Формула изобретения) данного патента (продолжения более ранних заявок) сфокусированы на применении этих техник в голосовом поиске (audible search queries), что подчеркивает его актуальность для голосовых ассистентов.
Важность для SEO
Патент имеет высокое значение для SEO (8/10). Он раскрывает конкретные механизмы, с помощью которых Google определяет семантическое значение запросов и группирует их в концептуальные кластеры. Понимание того, что смысл запроса определяется его результатами (SERP), критически важно для исследования ключевых слов и стратегии контента. Это подчеркивает необходимость анализа SERP для понимания интента и создания контента, который соответствует семантическому вектору целевого кластера запросов.
Детальный разбор
Термины и определения
- Source Query (Исходный запрос)
- Первоначальный запрос, введенный пользователем.
- Refinement Query (Уточняющий запрос)
- Последующий запрос, введенный пользователем после исходного запроса в течение короткого времени.
- Term Vector (Вектор терминов)
- Математическое представление документа в многомерном пространстве, где каждое измерение соответствует термину, а значение — весу этого термина (например, на основе TF-IDF).
- Composite Term Vector (Композитный вектор терминов)
- Вектор, представляющий семантику уточняющего запроса. Генерируется путем агрегации (суммирования) нормализованных Term Vectors из топовых документов, найденных по этому запросу. Векторы документов могут масштабироваться в зависимости от их релевантности.
- Clustering (Кластеризация)
- Процесс группировки уточняющих запросов на основе близости их Composite Term Vectors. Используется для объединения семантически схожих запросов и обеспечения разнообразия предложений.
- Centroid (Центроид)
- Взвешенный центр кластера векторов. Используется для определения репрезентативного запроса и оценки компактности кластера.
- Compactness (Компактность/Согласованность кластера)
- Метрика, показывающая, насколько плотно сгруппированы запросы внутри кластера. Может измеряться как стандартное отклонение расстояний векторов запросов от Centroid. Используется при ранжировании кластеров; более компактные кластеры предпочтительнее.
- Representative Refinement Query (Репрезентативный уточняющий запрос)
- Один запрос, выбранный из кластера для представления всей группы пользователю.
- Audible Search Query (Голосовой поисковый запрос)
- Запрос, полученный через систему распознавания речи. Ключевой термин в Claims данного патента.
Ключевые утверждения (Анализ Claims)
ВАЖНОЕ ПРИМЕЧАНИЕ: Патент US10223439B1 является продолжением (continuation) более ранних заявок (начиная с 2004 года). Хотя общее описание (Description) охватывает широкие методы уточнения запросов, Формула изобретения (Claims) в этой конкретной публикации (2019 год) существенно сужена и фокусируется исключительно на контексте голосового поиска.
Claim 1 (Независимый пункт): Описывает метод обработки голосового поискового взаимодействия.
- Система получает звуковой (audible) поисковый запрос от системы распознавания голоса.
- Идентифицируется набор последующих запросов (уточнений), которые ранее вводились после этого звукового запроса.
- Для первого последующего запроса идентифицируется первое множество терминов в связанных с ним документах. Определяются веса терминов и генерируются term vectors для документов.
- Аналогичный процесс повторяется для второго последующего запроса.
- На основе идентифицированных множеств терминов (и сгенерированных векторов) система выбирает один из последующих запросов (первый или второй).
- Выбранный запрос предоставляется в качестве уточнения исходного звукового запроса через динамик (speaker).
Claim 3 (Зависимый от 2): Уточняет, что после нормализации векторов терминов (Claim 2) создается Composite Term Vector.
Claim 13 (Независимый пункт): Описывает систему генерации и предоставления голосовых уточнений с использованием кластеризации.
- Идентифицируются голосовые уточнения (audible subsequent search queries) для исходного голосового запроса.
- Анализируются Первый и Второй голосовые уточняющие запросы, генерируются их Term Vectors на основе связанных документов и весов терминов.
- На основе сгенерированных векторов Первый и Второй запросы распределяются по разным кластерам.
- Выбирается конкретный последующий запрос из одного из кластеров.
- При получении исходного голосового запроса система предоставляет выбранный запрос через динамик как уточнение.
Ядро изобретения — применение методов семантического анализа (через векторы терминов) и кластеризации для выбора и предложения уточнений в контексте обработки звуковых запросов и голосового вывода.
Где и как применяется
Изобретение применяется в основном на этапе понимания запросов, используя данные, полученные на этапах индексирования и ранжирования.
INDEXING – Индексирование и извлечение признаков
Система использует индекс документов для анализа их содержимого. На этом этапе могут предварительно вычисляться веса терминов (например, TF-IDF), которые затем используются для генерации Term Vectors.
QUNDERSTANDING – Понимание Запросов (Основное применение, Офлайн)
Это основной этап применения патента. Система выполняет офлайн-анализ логов запросов (Query Log) для сбора Refinement Data. Процессы характеризации, кластеризации и ранжирования уточнений выполняются для того, чтобы понять взаимосвязи между запросами и подготовить предложения.
RANKING – Ранжирование
Этап ранжирования используется как источник данных для характеризации. Система выполняет поиск по уточняющим запросам и использует результаты ранжирования (список документов и их оценки релевантности) для создания Composite Term Vectors. Релевантность документа влияет на его вклад в композитный вектор.
METASEARCH / RERANKING (Онлайн)
Когда пользователь вводит запрос, система может быстро предоставить заранее рассчитанные уточнения (в блоке Related Searches или через голосовой интерфейс).
Входные данные:
- Логи поисковых запросов (исторические данные о последовательностях запросов).
- Индекс документов и их содержимое.
- Результаты ранжирования (SERP) и оценки релевантности для уточняющих запросов.
- (Опционально) Данные о языке и регионе пользователя.
Выходные данные:
- Отранжированный список репрезентативных уточняющих запросов для данного исходного запроса.
На что влияет
- Специфические запросы: Наибольшее влияние оказывается на широкие и неоднозначные запросы (например, «jaguar», «apple», «bikes»), где намерение пользователя неясно и требуется уточнение для выбора одной из возможных интерпретаций.
- Типы контента и Ниши: Влияет на все типы контента и ниши, помогая пользователям навигировать от общих тем к конкретным аспектам.
- Голосовой поиск: Согласно Claims патента US10223439B1, система специфически применяется к обработке звуковых запросов (audible search query), что указывает на ее важность в экосистеме голосового поиска и ассистентов.
Когда применяется
- Условия работы: Алгоритм генерации уточнений обычно выполняется офлайн в виде периодической обработки логов запросов.
- Триггеры активации (Сбор данных): Когда пользователь вводит уточняющий запрос в течение предопределенного лимита времени после исходного запроса (в описании упоминается пример в две минуты).
- Пороговые значения: Применяются на разных этапах: порог частотности для включения запроса в анализ; порог для остановки кластеризации (когда кластеры становятся слишком непохожими); порог веса термина для включения в вектор.
Пошаговый алгоритм
Процесс генерации предложений по уточнению запросов (Офлайн):
Этап 1: Сбор данных об уточнениях (Refinement Data Collection)
- Анализ логов запросов для выявления пар (Исходный запрос -> Уточняющий запрос), введенных одним пользователем в течение заданного времени.
- Подсчет частотности (Count) для каждой пары. Данные могут сегментироваться по языку/региону.
- Фильтрация данных: удаление низкочастотных уточнений или ограничение Топ-N.
Этап 2: Характеризация данных (Characterization)
- Выполнение поиска по каждому уточняющему запросу и получение Топ-N результатов (документов).
- Генерация Term Vector для каждого документа. Это основано на терминах в документе с весами (упоминается TF-IDF).
- Нормализация векторов терминов (например, L2 norm).
- Генерация Composite Term Vector для запроса путем суммирования векторов документов. При суммировании векторы документов масштабируются (взвешиваются) на основе релевантности документа или его позиции в выдаче.
- Сжатие вектора путем удаления терминов с низким весом.
Этап 3: Кластеризация (Clustering)
- Группировка уточняющих запросов на основе расстояния (например, Евклидова расстояния) между их Composite Term Vectors. Упоминается иерархическая агломеративная кластеризация.
- Остановка кластеризации при достижении порога несхожести.
Этап 4: Выбор репрезентативного запроса (Representative Selection)
- Вычисление центроида (Centroid) для каждого кластера (взвешенный центр векторов).
- Выбор одного запроса из кластера. Варианты:
- Запрос с максимальной частотностью (Count).
- Запрос, ближайший к Centroid. Может использоваться формула: Score = Count / Расстояние до Centroid.
Этап 5: Ранжирование и Фильтрация (Ranking and Scoring)
- Вычисление оценки кластера (Cluster Score). Варианты:
- Суммарная частотность всех запросов в кластере.
- Суммарная частотность / Compactness кластера (например, стандартное отклонение от Centroid). Это повышает ранг семантически согласованных кластеров.
- Ранжирование кластеров по их оценкам.
- Выбор репрезентативных запросов из Топ-K кластеров для показа пользователю.
Какие данные и как использует
Данные на входе
- Поведенческие факторы: Логи запросов (Query Log) являются основным источником данных. Анализируются последовательности запросов пользователей и время между ними для выявления паттернов уточнений и их частотности (Count).
- Контентные факторы: Термины, извлеченные из содержания топовых документов, найденных по уточняющему запросу. Используются для построения Term Vectors.
- Пользовательские и Географические факторы: В описании упоминается использование профиля пользователя или переменных страны/региона (например, язык интерфейса) для сегментации данных об уточнениях.
Какие метрики используются и как они считаются
- Term Weights (Веса терминов): Метрики для оценки важности термина в документе. Упоминается возможность использования TF-IDF (Term Frequency-Inverse Document Frequency). Формула: w(tf) * idf.
- Relevancy Score (Оценка релевантности): Оценка релевантности документа запросу, предоставляемая поисковой системой. Используется для взвешивания вклада документа в Composite Term Vector. Альтернативно может использоваться позиция документа в выдаче.
- Euclidean Distance (Евклидово расстояние): Используется для измерения расстояния между векторами терминов при кластеризации и для расчета расстояния до Centroid.
- Centroid (Центроид): Взвешенный центр кластера. Вычисляется как нормализованная сумма произведений векторов терминов запросов в кластере и их весов/релевантности.
- Compactness (Компактность): Мера согласованности кластера. Определяется как стандартное отклонение (standard deviation) Евклидова расстояния векторов запросов от Centroid кластера.
- Cluster Score (Оценка кластера): Итоговая метрика для ранжирования предложений. Может вычисляться как Суммарный Count или Суммарный Count / Compactness.
Выводы
- Семантика запроса определяется его результатами: Ключевой вывод патента заключается в том, что Google определяет смысл (семантику) запроса, анализируя контент документов, которые по нему ранжируются. Два запроса считаются семантически близкими, если их Composite Term Vectors (построенные на основе результатов поиска) близки.
- Кластеризация интентов для разнообразия: Система активно группирует различные формулировки запросов в концептуальные кластеры. Это позволяет Google предлагать концептуально различные направления поиска, а не просто синонимичные запросы.
- Приоритет согласованности (Coherence): При ранжировании предложений система предпочитает семантически согласованные кластеры (с высокой Compactness). Это гарантирует, что предложенные уточнения имеют четкий и понятный смысл.
- Центральность понятия важнее частотности формулировки: При выборе репрезентативного запроса предпочтение может отдаваться запросу, ближайшему к Centroid кластера, а не самому частотному. Это позволяет выбрать более точное название для концепции.
- Использование поведенческих данных: Система полагается на реальное поведение пользователей (логи запросов) для определения того, какие уточнения являются полезными и вероятными.
- Специфический фокус на голосовом поиске (в Claims): Хотя методы применимы широко, юридическая защита в этом конкретном патенте сфокусирована на применении этих техник в контексте голосового взаимодействия (звуковые запросы и ответы через динамик).
Практика
Best practices (это мы делаем)
- Анализ SERP для понимания семантического вектора: Всегда анализируйте Топ-10 результатов по целевому запросу. Контент и терминология этих страниц формируют Composite Term Vector, который Google ассоциирует с этим запросом. Ваш контент должен соответствовать этому вектору, чтобы быть признанным семантически релевантным.
- Исследование кластеров интентов, а не только ключевых слов: При работе с широкими запросами необходимо идентифицировать основные концептуальные кластеры, которые Google выделяет (используя «Related Searches» как индикаторы). Стратегия должна быть направлена на таргетинг конкретных кластеров или построение Topical Authority для доминирования во всех кластерах темы.
- Таргетинг на центроид кластера: При создании контента стремитесь соответствовать семантическому центру (Centroid) концептуального кластера. Создавайте контент, который является репрезентативным для темы, а не находится на ее периферии.
- Оптимизация под естественный язык (Voice Search): Учитывая фокус Claims на голосовом поиске, важно оптимизировать контент под естественные языковые конструкции и понимать, как пользователи могут вербально уточнять свои запросы при взаимодействии с ассистентами.
Worst practices (это делать не надо)
- Игнорирование семантического контекста SERP: Попытка ранжироваться по запросу с контентом, который семантически сильно отличается от текущих топовых результатов, будет неэффективной. Google определил вектор запроса, и несоответствие ему снижает релевантность.
- Таргетинг только на высокочастотные формулировки: Фокусировка только на самой популярной формулировке запроса может быть менее эффективной, чем понимание всего кластера. Система может выбрать другую формулировку как репрезентативную, если она ближе к Centroid.
- Создание контента смешанного интента: Попытка охватить слишком много разных субтопиков (разных кластеров) на одной странице может привести к размытию Term Vector и усложнить для Google ассоциацию контента с конкретным кластером.
Стратегическое значение
Патент подтверждает стратегию Google по переходу от лексического сопоставления к семантическому пониманию и кластеризации намерений пользователей. Он демонстрирует, как Google использует векторные представления (Vector Space Models) для определения смысла запросов на основе контента интернета. Для SEO это означает, что исследование ключевых слов должно эволюционировать в исследование семантических кластеров, и анализ конкурентной среды в SERP становится первостепенным для определения того, какой контент создавать.
Практические примеры
Сценарий: Определение семантических кластеров для широкого запроса
Исходный запрос: «bikes» (как в примере из патента).
- Анализ поведения (симуляция Google): Google видит, что пользователи часто вводят после этого «motorbikes», «motorcycles», «bmx bikes», «mountain bikes».
- Характеризация:
- Запрос «motorbikes» возвращает страницы с терминами «engine», «gasoline», «mph». Формируется Вектор А.
- Запрос «bmx bikes» возвращает страницы с терминами «pedal», «stunts», «tricks». Формируется Вектор Б.
- Кластеризация: Вектор А сильно отличается от Вектора Б. Google создает два разных кластера: Кластер 1 (Мотоциклы) и Кластер 2 (Велосипеды BMX).
- Выбор и Ранжирование: Google выбирает репрезентативные запросы и показывает их пользователю в Related Searches: «motorbikes» и «bmx bikes».
- Действие SEO: Если вы продаете велосипеды BMX, вы должны проанализировать SERP по запросу «bmx bikes». Понять, какие термины доминируют на страницах конкурентов (формируя Вектор Б), и убедиться, что ваш контент максимально соответствует этому семантическому профилю, чтобы укрепить свою позицию в Кластере 2. Не нужно пытаться оптимизировать страницу BMX под термины из Кластера 1.
Вопросы и ответы
Как именно Google определяет смысл запроса согласно этому патенту?
Смысл запроса определяется через анализ результатов поиска по этому запросу. Система создает Composite Term Vector, который является агрегацией векторов терминов из топовых документов в выдаче. Если два разных запроса возвращают документы с похожим набором и весом терминов, их композитные векторы будут близки, и система сочтет эти запросы семантически похожими.
Что такое «Компактность» (Compactness) кластера и почему она важна?
Компактность измеряет, насколько плотно сгруппированы запросы внутри кластера вокруг его центра (Centroid). Если кластер компактный, это означает, что все входящие в него запросы имеют очень схожий смысл. Система предпочитает компактные кластеры при ранжировании предложений, так как они представляют собой четкие и согласованные концепции, полезные для пользователя.
Всегда ли самый частотный запрос выбирается в качестве предложения (Related Search)?
Не всегда. Патент описывает метод выбора запроса, ближайшего к Centroid кластера (часто с учетом формулы Частота / Расстояние до Centroid). Это позволяет выбрать запрос, который лучше всего отражает суть всего кластера, даже если он не является самой популярной формулировкой.
Как этот патент влияет на исследование ключевых слов?
Он подчеркивает необходимость перехода от анализа отдельных ключевых слов к анализу семантических кластеров. SEO-специалистам необходимо понимать, какие запросы Google группирует вместе. Исследование должно включать анализ SERP для понимания Term Vector, который Google ассоциирует с кластером, и создание контента, соответствующего этому вектору.
Патент упоминает два метода создания векторов терминов (FIG. 6 и FIG. 7). В чем разница?
Первый метод (FIG. 6) строит вектор на основе терминов, содержащихся ВНУТРИ документов, найденных по запросу. Второй метод (FIG. 7) строит вектор на основе терминов из ДРУГИХ ЗАПРОСОВ, которые ведут к этим же документам. Оба метода направлены на определение семантики, но используют разные источники данных: контент документов или связи между запросами.
Насколько важен этот патент для голосового поиска?
В данной публикации (US10223439B1) Формула изобретения (Claims) сфокусирована исключительно на голосовом поиске (обработка звуковых запросов и вывод через динамик). Это указывает на то, что описанные методы кластеризации и выбора уточнений критически важны для работы голосовых ассистентов, помогая им разрешать неоднозначности в устной речи.
Откуда берутся данные для генерации этих предложений?
Основным источником являются логи поисковых запросов (Query Logs). Система анализирует исторические данные о том, какие запросы пользователи вводят последовательно в течение короткого периода времени. Это реальные поведенческие данные о том, как люди уточняют свои поисковые намерения.
Могу ли я повлиять на то, какие уточнения показываются по моим запросам?
Напрямую повлиять сложно, так как система основана на агрегированном поведении пользователей и анализе контента всего интернета. Однако, создавая качественный контент, который четко отвечает на определенные интенты и становится топовым результатом, вы влияете на формирование Composite Term Vector для этих запросов, тем самым участвуя в определении семантики кластера.
Использует ли система TF-IDF для определения важности терминов?
Да, патент явно упоминает Inverse Document Frequency (IDF) и Term Frequency (TF) как методы для определения веса термина при генерации Term Vectors. Это означает, что более редкие и специфичные термины получают больший вес по сравнению с общеупотребительными словами.
Происходит ли этот анализ в реальном времени, когда я ввожу запрос?
Нет. Процесс сбора данных, генерации векторов и кластеризации является ресурсоемким и выполняется офлайн. В реальном времени система просто извлекает заранее рассчитанные и сохраненные в базе данных представители лучших кластеров для введенного запроса.