Как Google определяет структурно похожие запросы (sibling queries) для автоматического обучения NLP-моделей

SIBLING SEARCH QUERIES (Родственные поисковые запросы)

US11379527B2
Google LLC
2019-08-21
2022-07-05

Google использует метод для идентификации "родственных запросов" (sibling queries) — запросов с одинаковой структурой интента, но разными переменными (например, "погода в Москве" и "погода в Париже"). Система сравнивает шаблоны использования этих запросов в логах, основываясь на поведении пользователей, чтобы понять их взаимосвязь без традиционного NLP. Это позволяет автоматически генерировать масштабные наборы данных для обучения ИИ.

Какую проблему решает

Патент решает критическую проблему масштабирования машинного обучения в поиске: необходимость в огромных объемах размеченных обучающих данных (training data) для NLP-моделей, классифицирующих намерения пользователей. Ручная разметка неэффективна. Изобретение предлагает автоматизированный метод генерации этих данных путем идентификации запросов с одинаковой структурой интента, но разными переменными (Sibling Search Queries), не полагаясь на существующие NLP-модели или ручной труд.

Что запатентовано

Запатентована система для автоматического расширения наборов обучающих данных для ML-моделей. Система определяет, являются ли два запроса "родственными" (имеют ли одинаковый интент), путем анализа структуры окружающих их "экосистем" запросов в логах (Search Query Log) и поведения пользователей, а не путем лингвистического анализа самих запросов. Если запросы признаются родственными, они используются для генерации новых обучающих примеров.

Как это работает

Механизм основан на предположении, что запросы с одинаковым интентом будут окружены схожими паттернами других запросов в логах.

Система берет два запроса, Q1 и Q2 (например, "погода в Москве" и "погода в Париже").
Для каждого запроса из логов извлекается набор похожих запросов (Similar Search Queries), основываясь на поведении пользователей (например, общие клики на результаты).
Из этих похожих запросов генерируются шаблоны (Search Query Templates) путем замены целевых слов ("Москва" или "Париж") на подстановочный знак (wildcard, [*]).
Вычисляется Sibling Score — мера пересечения между наборами шаблонов для Q1 и Q2.
Если Sibling Score высок, запросы считаются родственными, и генерируется новый обучающий пример для ML-модели.

Актуальность для SEO

Высокая. Автоматическое расширение данных (Data Augmentation) для обучения сложных NLP-моделей (таких как BERT, MUM) и глубокое понимание структуры интента запросов являются критически важными задачами для современных поисковых систем. Описанный метод позволяет Google масштабировать понимание интентов без ручного труда и независимо от языка.

Важность для SEO

Патент имеет важное стратегическое значение (7/10). Он не описывает алгоритм ранжирования напрямую, но раскрывает ключевой механизм того, как Google масштабно обучает свои системы понимать структуру запросов и классифицировать интенты. Это подчеркивает важность стратегии Topical Authority: полное покрытие родственных сущностей (siblings) в рамках одного структурного интента помогает Google идентифицировать сайт как экспертный ресурс для данного класса запросов.

Термины и определения

Context Template (Шаблон контекста): Структура запроса, состоящая из последовательности слов и одного или нескольких подстановочных знаков (Wildcards). Например, "[*] на испанском".
Sibling Search Queries (Родственные поисковые запросы): Два или более запроса, которые удовлетворяют одному и тому же Context Template и имеют высокий Sibling Score. Они выражают одинаковый интент, но для разных переменных. Например, "[привет] на испанском" и "[спасибо] на испанском".
Sibling Score (Оценка родства): Числовая метрика, количественно определяющая сходство между наборами Search Query Templates, сгенерированными для двух запросов.
Search Query Log (Лог поисковых запросов): База данных, хранящая информацию о запросах пользователей и их взаимодействии с результатами поиска. Основной источник данных для этого патента.
Search Query Template (Шаблон поискового запроса): Шаблон, сгенерированный из конкретного поискового запроса путем замены Target/Sibling Word Sequence на Wildcard.
Similar Search Queries (Похожие поисковые запросы): Набор запросов из Search Query Log, которые определены как похожие на исходный запрос (на основе поведения пользователей, например, общих кликов) и содержат ту же Target/Sibling Word Sequence.
Target Word Sequence / Sibling Word Sequence (Целевая / Родственная последовательность слов): Последовательность слов в запросе, которая соответствует Wildcard в Context Template. Это переменная часть запроса (например, сущность, местоположение).
Training Data (Обучающие данные): Набор примеров (входные данные + целевой результат), используемый для обучения модели машинного обучения. Патент фокусируется на автоматической генерации этих данных.
Wildcard (Подстановочный знак, [*]): Плейсхолдер в шаблоне, представляющий переменные данные (variable data).

Ключевые утверждения (Анализ Claims)

Важно отметить, что Claims 1-20 в данном патенте (US11379527B2) фокусируются конкретно на использовании механизма определения родственных запросов для автоматической генерации обучающих данных для моделей машинного обучения.

Claim 1 (Независимый пункт): Описывает метод обучения ML-модели с использованием автоматически сгенерированных данных.

Получение исходного обучающего примера (given training example: given training input + target output).
Генерация множества новых обучающих примеров. Каждый новый пример содержит новый ввод (new training input) и тот же target output. Процесс генерации включает:
1. Идентификацию первого набора запросов из Search Query Log на основе исходного ввода.
2. Идентификацию второго набора запросов из лога на основе нового ввода.
3. Определение Sibling Score между исходным и новым вводом на основе этих двух наборов.
4. Подтверждение того, что Sibling Score удовлетворяет критерию приемлемости (acceptance criterion).
Обучение ML-модели на новых примерах.

Система автоматически расширяет обучающую выборку. Если известно, что для запроса "погода в Москве" нужно показать погодный информер (target output), и система определяет, что "погода в Париже" является родственным запросом (высокий Sibling Score), то создается новый обучающий пример: "погода в Париже" + погодный информер.

Claim 6 (Зависимый от 1, 4, 5): Детализирует механизм расчета Sibling Score.

Sibling Score количественно определяет меру сходства (similarity measure) между первым и вторым наборами Search Query Templates.
Первый набор шаблонов генерируется путем замены Target Word Sequence (из исходного ввода) на Wildcard в первом наборе запросов.
Второй набор шаблонов генерируется путем замены Sibling Word Sequence (из нового ввода) на Wildcard во втором наборе запросов.

Это ядро изобретения: сходство определяется не лингвистически, а через сравнение структуры экосистемы запросов вокруг них в логах.

Claim 7 (Зависимый от 6): Определяет формулу для Sibling Score.

Оценка основана на отношении (ratio): (i) количества общих шаблонов в обоих наборах к (ii) общему количеству шаблонов в одном из наборов (первом или втором). Это измеряет степень пересечения наборов шаблонов.

Где и как применяется

Изобретение применяется в инфраструктуре машинного обучения Google, в частности, в конвейерах обработки данных и обучения NLP-моделей.

QUNDERSTANDING – Понимание Запросов (Инфраструктура / Офлайн-процессы)
Это основная область применения. Система работает в офлайн-режиме для анализа Search Query Logs и генерации Training Data. Она позволяет автоматически генерировать данные для обучения моделей, которые классифицируют интенты запросов (например, модели, решающие, нужно ли показывать специальный блок в выдаче, такой как Weather Panel).

INDEXING – Индексирование (Сбор данных)
Процесс использует данные, собранные и проиндексированные из активности пользователей — Search Query Logs и данные о взаимодействии с результатами (клики).

Входные данные:

Исходный обучающий пример (Запрос + Метка интента).
Search Query Logs.
Данные о взаимодействии пользователей с результатами поиска (для определения схожести запросов).

Выходные данные:

Расширенный набор Training Data (Новые родственные запросы + та же Метка интента).
Обученная модель машинного обучения (конечный продукт процесса).

На что влияет

Специфические запросы: Наибольшее влияние оказывается на запросы с четкой структурой "Интент + Переменная (Сущность)". Например, информационные запросы о фактах, погоде, переводах, ценах на продукты, рецептах.
Конкретные форматы контента (SERP Features): Влияет на способность Google точно распознавать интенты, для которых должны активироваться специальные блоки выдачи (Weather Panels, Knowledge Panels, Translation Boxes).
Языковые ограничения: Одно из ключевых преимуществ метода в том, что он не зависит от конкретного языка, так как анализирует структуру логов и поведение пользователей, а не лингвистику (independent of natural language processing).

Когда применяется

Временные рамки и частота применения: Применяется в офлайн-режиме в процессе разработки и обновления (обучения) моделей машинного обучения (Training System). Не применяется в реальном времени при обработке запроса пользователя.
Триггеры активации: Необходимость расширить обучающую выборку для определенного класса интента, особенно для интентов с большим количеством вариаций сущностей (например, названия городов, имена людей, названия продуктов).

Пошаговый алгоритм

Процесс: Генерация обучающих данных с использованием Sibling Scoring System.

Получение исходных данных: Система получает исходный обучающий пример. Например: Запрос Q1="[привет] на испанском", Метка L1="Показать блок перевода".
Идентификация структуры: Определяется Context Template ("[*] на испанском") и Target Word Sequence W1 ("привет").
Поиск кандидатов: Система идентифицирует кандидатов Q_cand в Search Query Log, которые удовлетворяют тому же Context Template. Например, Q_cand="[спасибо] на испанском", W_cand="спасибо".
Генерация похожих запросов (Набор 1): Для Q1 из логов извлекается набор Similar Search Queries S1, содержащих W1 (например, "как сказать привет на испанском"). Сходство определяется по общим кликам пользователей на результаты поиска.
Генерация шаблонов (Набор 1): W1 в S1 заменяется на [*], формируя набор шаблонов T1 (например, "как сказать [*] на испанском").
Генерация похожих запросов (Набор 2): Для Q_cand извлекается набор Similar Search Queries S2, содержащих W_cand.
Генерация шаблонов (Набор 2): W_cand в S2 заменяется на [*], формируя набор шаблонов T2.
Расчет Sibling Score: Система сравнивает T1 и T2 и вычисляет меру их пересечения.
Валидация и генерация примера: Если Sibling Score превышает порог (acceptance criterion), Q_cand признается родственным Q1. Генерируется новый обучающий пример: (Q_cand, L1).
Обучение модели: ML-модель обучается на расширенном наборе данных.

Какие данные и как использует

Данные на входе

Патент сосредоточен на использовании данных из логов поисковой системы и явно избегает использования NLP.

Поведенческие факторы (Критически важны): Используются Search Query Logs. Сходство между запросами (для генерации Similar Search Queries) определяется на основе логов взаимодействия пользователей с результатами поиска (user interaction with search results). Например, два запроса считаются похожими, если они часто ведут к взаимодействию (например, кликам) с одними и теми же результатами.
Контентные факторы (Текст запроса): Текстовые данные самих запросов используются для идентификации Context Template и Target/Sibling Word Sequences и выполнения операций замены на Wildcard.

Какие метрики используются и как они считаются

Sibling Score (Оценка родства): Ключевая метрика патента. Она измеряет сходство между двумя наборами Search Query Templates (T1 и T2).
Расчет (согласно Claim 7): Отношение (ratio) (i) количества шаблонов, общих для обоих наборов, к (ii) количеству шаблонов в первом или втором наборе.

Автоматизация обучения AI без зависимости от NLP: Основная цель патента — автоматическое масштабирование генерации обучающих данных для ML-моделей. Это позволяет Google быстрее и дешевле обучать системы понимания языка, не полагаясь на ручную разметку или существующие NLP-модели (что избегает переноса ошибок старых моделей).
Определение интента через контекст использования: Патент демонстрирует метод определения контекстуальной схожести запросов (Sibling Queries) исключительно через сравнение структурных шаблонов, извлеченных из логов. Система определяет, что два разных слова играют одинаковую роль (имеют одинаковый интент), если они используются в одинаковых контекстах.
Критическая роль поведенческих данных: Поведение пользователей (взаимодействие с результатами) является фундаментальным источником данных не только для ранжирования, но и как источник истины для обучения базовых языковых моделей. Сходство запросов определяется через общие клики, а не текстовую близость.
Изучение сущностей "снизу вверх": Система может автоматически обнаруживать категории сущностей (например, города, продукты), анализируя, какие слова используются в одинаковых Context Templates. Это позволяет находить новые сущности и интенты без использования предопределенных баз знаний или Knowledge Graph.
Подтверждение важности кластеризации интентов: Для SEO это подтверждает, что Google мыслит не отдельными ключевыми словами, а кластерами запросов, объединенных общим структурным интентом (Intent Classes).

Best practices (это мы делаем)

Построение Topical Authority через охват сущностей: Необходимо стремиться к полному охвату родственных сущностей (siblings) в рамках одного кластера интента. Если вы создаете контент под интент "отзывы о [*]", вы должны охватить максимально возможное количество релевантных продуктов в этой категории. Это помогает Google распознать сайт как авторитетный источник для всего класса запросов.
Структурирование контента под шаблоны интентов: Организуйте контент так, чтобы он четко отвечал на распространенные шаблоны запросов (Context Templates). Используйте последовательную структуру и естественные формулировки для однотипных сущностей. Например, создавайте структурированные страницы для интентов вида "цена [*]", "характеристики [*]", "сравнение [*] и [**]".
Анализ связанных сущностей (Siblings) при исследовании ключей: При исследовании ключевых слов обращайте внимание не только на синонимы, но и на структурно похожие запросы с другими сущностями. Понимание того, какие сущности Google считает родственными в вашем контексте (используя модели, обученные этим методом), позволяет лучше планировать контент-стратегию.
Фокус на удовлетворении интента (User Satisfaction): Поскольку схожесть запросов в этом механизме определяется через поведение пользователей (общие клики), это подтверждает критическую важность создания контента, который получает положительные поведенческие сигналы и удовлетворяет интент пользователя.

Worst practices (это делать не надо)

Изолированная оптимизация под одну сущность: Фокусироваться только на одном высокочастотном запросе (например, "погода в Москве") и игнорировать связанные сущности (другие города) снижает потенциал сайта стать авторитетом для данного класса интента.
Использование неестественных или редких формулировок: Попытки оптимизации под слишком сложные или редкие конструкции запросов могут быть неэффективны. Система ищет совпадения с наиболее распространенными, естественными паттернами использования языка, зафиксированными в логах.
Непоследовательное представление однотипной информации: Если информация об однотипных сущностях (например, разных моделях продукта) представлена хаотично, это может затруднить Google классификацию вашего контента как релевантного для всего класса интента.

Стратегическое значение

Патент демонстрирует, как Google масштабирует понимание естественного языка и интентов, автоматизируя процесс обучения своих ML-моделей, используя поведенческие данные как основу. Это позволяет системе быстро адаптироваться к новым запросам и сущностям. Для SEO это означает окончательный переход от оптимизации под ключевые слова к оптимизации под классы интентов (Intent Classes). Стратегически важно стать лучшим ответом для всего шаблона интента, охватывая максимальное количество связанных сущностей (siblings).

Практические примеры

Сценарий: Оптимизация сайта о питании под шаблон интента (Topical Authority)

Идентификация интента: SEO-специалист определяет ключевой шаблон интента: "[*] калорийность" (Context Template).
Анализ Sibling Entities: Определяются родственные сущности (Sibling Word Sequences), которые пользователи подставляют в этот шаблон: "банан", "яблоко", "куриная грудка", "шоколад" и т.д. Google понимает, что это продукты, используя описанный механизм для обучения своих моделей.
Стратегия контента: Ставится задача создать исчерпывающую базу данных, охватывающую максимальное количество этих сущностей. Для каждой сущности создается страница с четкой структурой, отвечающей на интент.
Ожидаемый результат: Google распознает, что все эти запросы являются родственными (Sibling Queries). Сайт, который качественно отвечает на большинство из них, получает преимущество в ранжировании по всему кластеру интента, так как воспринимается как авторитетный источник для данного шаблона запроса.

Что такое "родственный запрос" (Sibling Search Query) согласно патенту?

Это запрос, который имеет ту же структуру интента (Context Template), что и исходный запрос, но использует другую переменную (сущность). Например, "погода в Москве" и "погода в Париже" являются родственными запросами. Они оба соответствуют шаблону "погода в [*]" и выражают одинаковое намерение узнать погоду, но для разных локаций.

Как рассчитывается Sibling Score и что он означает?

Sibling Score измеряет, насколько похожи экосистемы запросов вокруг двух сравниваемых запросов. Для каждого запроса система находит похожие запросы в логах, затем генерирует из них шаблоны. Sibling Score рассчитывается как степень пересечения этих двух наборов шаблонов (например, отношение числа общих шаблонов к общему числу). Высокий балл означает, что запросы структурно и интенционально схожи.

Влияет ли этот патент напрямую на ранжирование?

Нет, напрямую этот патент не описывает алгоритм ранжирования. Он описывает механизм для автоматической генерации обучающих данных. Однако эти данные затем используются для обучения ML-моделей (например, классификаторов интентов), которые, в свою очередь, критически влияют на понимание запроса (QUNDERSTANDING) и формирование выдачи (например, решая, показывать ли определенный SERP feature).

Какова основная цель этого изобретения для Google?

Основная цель, защищенная в Claims, — это автоматизация и масштабирование генерации обучающих данных для моделей машинного обучения без ручной разметки и без использования существующих NLP-систем. Это позволяет Google быстрее и эффективнее обучать ИИ распознавать различные интенты и их вариации в масштабах всего интернета.

Чем этот метод отличается от традиционного NLP или распознавания сущностей (NER)?

Ключевое отличие в том, что этот метод не требует лингвистического анализа текста или заранее определенных баз знаний о сущностях (как NER). Он опирается исключительно на анализ структуры Search Query Logs и взаимодействия пользователей (кликов). Это делает его независимым от языка и позволяет обнаруживать новые сущности и интенты "снизу вверх".

Как этот патент связан с концепцией Topical Authority в SEO?

Он обеспечивает механизм, с помощью которого Google может группировать запросы по структурному интенту. Если сайт систематически отвечает на большое количество родственных запросов (Sibling Queries) в рамках одного шаблона интента (например, покрывает все города для интента "погода в [*]"), это сигнализирует о его авторитетности (Topical Authority) для данного класса запросов.

Как система определяет "Похожие запросы" (Similar Search Queries) для расчета Sibling Score?

Патент указывает, что сходство определяется на основе данных из Search Query Logs, характеризующих взаимодействие пользователей с результатами поиска. На практике это часто означает, что запросы считаются похожими, если пользователи часто кликают на одни и те же документы после ввода этих запросов (пересечение по кликам).

Приведите пример использования этого механизма, упомянутый в патенте.

В патенте приводится пример обучения модели, которая определяет, нужно ли показывать weather panel (погодный информер) в ответ на запрос. Начав с одного примера («weather [nyc]»), система автоматически находит все родственные запросы (например, «weather [paris]»), чтобы обучить модель распознавать интент о погоде для любого города, не имея заранее заданного списка городов.

Применяется ли этот алгоритм в реальном времени при обработке запроса пользователя?

Нет. Согласно описанию и Claims, это офлайн-процесс, используемый для анализа логов и генерации обучающих данных для ML-моделей. Сами ML-модели, обученные на этих данных, затем применяются в реальном времени для классификации интента входящего запроса.

Что это говорит о важности поведенческих факторов в Google?

Это подтверждает, что поведенческие данные (логи запросов и взаимодействие с результатами) имеют фундаментальное значение. Они используются не только для оценки качества ранжирования, но и как базовый источник истины для обучения систем искусственного интеллекта, отвечающих за понимание естественного языка.

Как Google интерпретирует последовательные запросы для автоматического уточнения поискового намерения пользователя

Google использует механизм для понимания контекста сессии, анализируя последовательные запросы (например, Q1: [рестораны в Москве], затем Q2: [итальянские]). Система автоматически объединяет их в уточненный запрос (Q3: [итальянские рестораны в Москве]), основываясь на исторических данных о том, как пользователи обычно уточняют запросы. Это позволяет системе лучше понимать намерение пользователя в диалоговом режиме.

US9116952B1
2015-08-25

Семантика и интент
Поведенческие сигналы

Как Google комбинирует временные тренды и контекстуальный анализ для определения схожести поисковых запросов

Google использует систему машинного обучения для определения схожести между запросами путем объединения разнородных сигналов. Система анализирует как временные паттерны использования терминов в разных источниках (Temporal Correlation), так и контекст, в котором термины появляются в интернете (Distributional Similarity). Комбинация этих данных позволяет генерировать более точные поисковые подсказки и связанные запросы.

US8478699B1
2013-07-02

Семантика и интент

Как Google определяет "Связанные запросы", сравнивая различия в топе выдачи и сходства в нижних результатах

Google использует двухэтапный анализ для генерации блока "Связанные запросы" (Related Searches). Система ищет запросы, у которых ТОП выдачи сильно отличается от исходного запроса (чтобы показать новое), но результаты на низких позициях сильно пересекаются (чтобы сохранить тематическую связь). Это позволяет предлагать пользователю смежные темы, не повторяя уже увиденные результаты.

US9122727B1
2015-09-01

Семантика и интент
SERP

Как Google обучает модели ранжирования, сравнивая результаты из разных, но похожих запросов (Cross-List Learning to Rank)

Google использует метод обучения моделей ранжирования, который выходит за рамки одного поискового запроса. Система сравнивает релевантность документа для Запроса А с релевантностью другого документа для Запроса Б, если эти запросы семантически похожи. Это позволяет моделям лучше обобщать сигналы релевантности внутри тематических кластеров и эффективнее определять порядок результатов.

US12314275B2
2025-05-27

Семантика и интент

Как Google автоматически изучает синонимы, анализируя последовательные запросы пользователей и вариации анкорных текстов

Google использует методы для автоматического определения синонимов, акронимов и эквивалентных фраз. Система анализирует логи запросов: если пользователь быстро меняет запрос, сохраняя часть слов (например, с «отели в париже» на «гостиницы в париже»), система учится, что «отели» и «гостиницы» эквивалентны. Также анализируются вариации анкорных текстов, указывающих на одну и ту же страницу.

US6941293B1
2005-09-06

Семантика и интент
Ссылки

Как Google использует позиционный CTR (Selection Rate) для ранжирования и группировки вертикалей в Универсальном поиске

Google использует механизм для структурирования поисковой выдачи путем группировки результатов по категориям (вертикалям), таким как Новости, Видео или Веб. Система определяет порядок этих категорий, основываясь на ожидаемой частоте кликов (Selection Rate/CTR) тех позиций, которые занимают результаты категории в исходном смешанном ранжировании. Это определяет структуру Универсального поиска (Universal Search).

US8498984B1
2013-07-30

SERP
Поведенческие сигналы

Как Google использует географическое положение и историю поведения пользователей для разрешения неоднозначных запросов

Google применяет механизм для интерпретации неоднозначных поисковых запросов, которые имеют несколько географических или категориальных значений. Система определяет доминирующий интент, анализируя, как пользователи в том же регионе ранее уточняли похожие запросы и насколько они были удовлетворены результатами. На основе этих локализованных данных (гистограмм и метрик неудовлетворенности) выбирается наиболее вероятная интерпретация, и выдача фильтруется соответственно.

US8478773B1
2013-07-02

Семантика и интент
Персонализация
Поведенческие сигналы

Как Google динамически регулирует влияние фактора близости в локальном поиске в зависимости от тематики запроса и региона

Google использует систему для определения того, насколько важна близость (расстояние) для конкретного поискового запроса и региона. Анализируя исторические данные о кликах и запросах маршрутов, система вычисляет «Фактор важности расстояния». Для запросов типа «Кофе» близость критична, и удаленные результаты пессимизируются. Для запросов типа «Аэропорт» близость менее важна, и качественные результаты могут ранжироваться высоко. Система также учитывает плотность региона (город или село), адаптируя ожидания пользователей по расстоянию.

US8463772B1
2013-06-11

Local SEO
Поведенческие сигналы

Как Google нормализует поведенческие сигналы (Dwell Time), калибруя показатели «короткого» и «длинного» клика для разных категорий сайтов

Google использует механизм для устранения предвзятости в поведенческих сигналах, таких как продолжительность клика (Dwell Time). Поскольку пользователи взаимодействуют с разными типами контента по-разному, система определяет, что считать «коротким кликом» и «длинным кликом» отдельно для каждой категории (например, Новости, Недвижимость, Словари). Это позволяет более точно оценивать качество ресурса, сравнивая его показатели с нормами его конкретной ниши.

US8868565B1
2014-10-21

Поведенческие сигналы
SERP

Как Google рассчитывает тематическую популярность (Topical Authority) документов на основе поведения пользователей

Google использует данные о посещаемости и навигации пользователей для расчета популярности документов. Система классифицирует документы и запросы по темам, а затем вычисляет популярность документа внутри каждой конкретной темы (Per-Topic Popularity). Эта метрика используется как сигнал ранжирования, когда тема запроса пользователя соответствует теме документа.

US8595225B1
2013-11-26

Поведенческие сигналы
Семантика и интент
SERP

Как Google использует анализ многословных фраз для улучшения подбора синонимов с учетом грамматического согласования

Google анализирует, как пользователи одновременно меняют несколько слов в запросе (например, при изменении числа или рода). Подтверждая, что каждое измененное слово является лексическим или семантическим вариантом оригинала, Google идентифицирует «синонимы с N-граммным согласованием». Это позволяет системе улучшить понимание синонимов отдельных слов, даже если эти слова редко меняются поодиночке в определенных контекстах.

US7925498B1
2011-04-12

Семантика и интент
Поведенческие сигналы

Как Google использует структурированные данные (Schema) для отслеживания вовлеченности пользователей на уровне сущностей, а не только URL

Google может отслеживать поведение пользователей (например, время пребывания на странице и клики) и связывать его с конкретными сущностями (продуктами, людьми, темами), идентифицированными через структурированные данные, а не только с URL-адресом. Это позволяет агрегировать метрики вовлеченности для определенной темы на разных страницах и сравнивать эффективность сайтов.

US20140280133A1
2014-09-18

Семантика и интент
Поведенческие сигналы
Knowledge Graph

Как Google консолидирует сигналы ранжирования между мобильными и десктопными версиями страниц, используя десктопный авторитет для мобильного поиска

Патент Google описывает механизм для решения проблемы недостатка сигналов ранжирования в мобильном вебе. Система идентифицирует корреляцию между мобильной страницей и её десктопным аналогом. Если мобильная версия недостаточно популярна сама по себе, она наследует сигналы ранжирования (например, обратные ссылки и PageRank) от авторитетной десктопной версии, улучшая её позиции в мобильном поиске.

US8996514B1
2015-03-31

Техническое SEO
Ссылки

Как Google модифицирует PageRank, используя модель «Разумного серфера» для взвешивания ссылок на основе вероятности клика

Google использует машинное обучение для прогнозирования вероятности клика по ссылкам на основе их характеристик (позиция, размер шрифта, анкор) и реального поведения пользователей. Эта модель («Разумный серфер») модифицирует алгоритм PageRank, придавая больший вес ссылкам, которые с большей вероятностью будут использованы, и уменьшая вес игнорируемых ссылок.

US7716225B1
2010-05-11

Ссылки
Поведенческие сигналы
SERP

Как Google понижает в выдаче результаты, которые пользователь уже видел или проигнорировал в рамках одной поисковой сессии

Google использует механизм для улучшения пользовательского опыта во время длительных поисковых сессий. Если пользователь вводит несколько связанных запросов подряд, система идентифицирует результаты, которые уже появлялись в ответ на предыдущие запросы. Эти повторяющиеся результаты понижаются в ранжировании для текущего запроса, чтобы освободить место для новых, потенциально более полезных страниц. Понижение контролируется порогом релевантности, чтобы не скрывать важный контент.

US8051076B1
2011-11-01

SERP
Поведенческие сигналы