Как Google создает новые поисковые подсказки (Autocomplete), комбинируя структуры и термины из прошлых запросов

CREATION OF INFERRED QUERIES FOR USE AS QUERY SUGGESTIONS (Создание предполагаемых запросов для использования в качестве поисковых подсказок)

US8521739B1
Google LLC
2011-11-29
2013-08-27

Семантика и интент

Google расширяет покрытие поисковых подсказок (Autocomplete), создавая новые, ранее не использованные запросы. Система анализирует логи, находит запросы с похожей структурой (шаблоны), определяет семантически близкие термины (используя distributional similarity) и комбинирует их. Это позволяет предлагать пользователям релевантные подсказки, даже если такой запрос никогда ранее не вводился.

Какую проблему решает

Патент решает проблему ограниченности использования только реальных прошлых запросов для генерации поисковых подсказок (Query Suggestions, например, Autocomplete). Существующие логи запросов быстро устаревают и не покрывают все возможные информационные потребности, особенно при появлении нового контента или тем. Цель изобретения — расширить охват подсказок за пределы того, что пользователи уже искали, генерируя новые, «предполагаемые» запросы (Inferred Queries), которые являются структурно и семантически правдоподобными.

Что запатентовано

Запатентована система для автоматического создания новых запросов (Inferred Queries) на основе анализа логов прошлых запросов. Система идентифицирует структурные шаблоны (Query Templates) в запросах и определяет семантически взаимозаменяемые термины (Infixes), используя дистрибутивное сходство (Distributional Similarity). Затем она комбинирует шаблоны и термины из разных групп запросов для генерации новых, ранее не существовавших запросов, которые используются как поисковые подсказки.

Как это работает

Система работает офлайн в несколько этапов:

Декомпозиция: Уникальные прошлые запросы разбиваются на три части: Префикс, Инфикс (ключевая переменная часть) и Постфикс.
Группировка и Шаблонизация: Запросы с одинаковыми префиксами и постфиксами группируются, формируя Query Template (например, «lyrics of * beatles»).
Каноникализация: Шаблоны приводятся к стандартной форме (Canonical Representation). Это позволяет находить группы запросов, которые структурно похожи, даже если их формулировки отличаются (например, «lyrics of * beatles» и «beatles lyrics *»).
Сопоставление и Анализ Сходства: Система находит разные группы с одинаковыми каноническими шаблонами и анализирует их инфиксы на предмет семантического сходства (Distributional Similarity).
Генерация: Если инфикс из Группы А семантически подходит для контекста Группы Б (и наоборот), система вставляет его в шаблон другой группы, создавая новый Inferred Query.

Актуальность для SEO

Высокая. Потребность в генерации качественных, разнообразных и актуальных поисковых подсказок остается критически важной. Хотя современные NLP-модели (например, основанные на трансформерах) могут генерировать подсказки нейросетевыми методами, структурные и семантические подходы, описанные в патенте (шаблонизация, дистрибутивная семантика), являются фундаментальными и, вероятно, все еще используются как часть гибридной системы для обеспечения точности и скорости Autocomplete.

Важность для SEO

Патент имеет умеренно-высокое значение (6.5/10) для SEO. Он не описывает алгоритмы ранжирования, а фокусируется на механизме генерации поисковых подсказок (Autocomplete). Понимание этого патента помогает SEO-специалистам осознать, что подсказки не всегда основаны на частотности реальных запросов — они могут быть алгоритмически сгенерированы. Это критически важно для анализа семантического пространства, выявления длиннохвостовых запросов и понимания того, как Google интерпретирует структуру языка и семантическую близость терминов.

Термины и определения

Candidate Phrases (Кандидатные фразы): Фразы, которые определены как семантически похожие на инфиксы запросов в определенной группе. Используются для валидации переноса инфиксов между группами.
Canonical Representation (Каноническое представление): Стандартизированная форма Query Template, полученная путем применения правил каноникализации (стемминг, удаление стоп-слов, сортировка). Используется для поиска структурно похожих шаблонов с разными формулировками.
Distributional Similarity (Дистрибутивное сходство): Мера семантического сходства между фразами (инфиксами). Основана на гипотезе, что фразы, встречающиеся в похожих контекстах (окруженные одинаковыми словами в большом корпусе текстов), имеют близкие значения.
Inferred Query (Предполагаемый запрос): Новый запрос, сгенерированный системой путем комбинирования шаблона одной группы запросов и инфикса другой группы. Используется как поисковая подсказка.
Infix (Инфикс): Последовательность из одного или более терминов, расположенная между префиксом и постфиксом запроса. Обычно содержит ключевую сущность или атрибут запроса (например, «hey jude» в запросе «lyrics of hey jude beatles»). Должен быть непустым.
PMI (Pointwise Mutual Information – Поточечная взаимная информация): Метрика, используемая для взвешивания контекстуальных признаков при расчете Distributional Similarity. Измеряет силу ассоциации между фразой и её контекстным признаком.
Prefix (Префикс) / Postfix (Постфикс): Последовательности терминов в начале и конце запроса соответственно. Определяют структуру запроса. Могут быть пустыми.
Query Template (Шаблон запроса): Обобщение группы запросов с одинаковыми префиксами и постфиксами, где инфиксы заменены на wildcard (*). Например, «lyrics of * beatles».

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод генерации предполагаемых запросов.

Система определяет Префиксы, Инфиксы и Постфиксы для уникальных запросов из логов.
Идентифицируются группы запросов, где запросы в группе имеют совпадающие Префиксы и Постфиксы, но разные Инфиксы.
Для каждой группы формируется Query Template.
Шаблоны реформулируются в Canonical Representations с использованием правил каноникализации.
Идентифицируется первая группа запросов (Группа А) и вторая группа запросов (Группа Б), чьи канонические представления шаблонов совпадают.
Идентифицируются фразы-кандидаты (candidate phrases) на основе оценок сходства (similarity scores) между инфиксами Группы Б и этими фразами-кандидатами.
(Ключевой шаг фильтрации) Выбираются инфиксы из Группы А. Этот выбор включает:
- Создание списка фраз-кандидатов (определенных на шаге 6).
- Выбор ТОЛЬКО тех инфиксов из Группы А, которые присутствуют в этом списке кандидатов. Это гарантирует, что инфикс из Группы А семантически релевантен для контекста Группы Б.
Создаются Inferred Queries путем добавления выбранных инфиксов (из Группы А) к Query Template Группы Б.
Inferred Queries сохраняются для использования в качестве подсказок.

Claim 2 (Зависимый от 1): Уточняет, что один запрос может быть разбит на несколько троек (триплетов) {префикс, инфикс, постфикс}, т.е. участвовать в разных группах и шаблонах.

Claim 7 (Зависимый от 1): Детализирует процесс создания списка кандидатов.

Система рассчитывает оценки сходства между фразами-кандидатами и инфиксами Группы Б. Кандидаты сортируются по этим оценкам для создания рейтинга. Выбор кандидатов для включения в список основывается на этом рейтинге.

Claim 8 (Зависимый от 7): Уточняет, что выбор кандидатов может основываться на превышении определенного порога оценки сходства.

Где и как применяется

Изобретение применяется в основном на этапе понимания запросов и связано с функцией поисковых подсказок (Autocomplete).

QUNDERSTANDING – Понимание Запросов
Основное применение патента. Весь процесс анализа логов, декомпозиции запросов, группировки, каноникализации, расчета семантического сходства и генерации Inferred Queries происходит офлайн с помощью Query Creation Engine. Это позволяет системе глубоко понять структурные и семантические связи в пространстве запросов и создать базу данных предполагаемых запросов.

METASEARCH / RERANKING (Suggestion Engine)
На этом этапе система (Suggestion Engine) в реальном времени получает частичный (для Autocomplete) или полный (для Related Searches) запрос пользователя. Она обращается к базе данных Inferred Queries (наряду с реальными прошлыми запросами) для выбора и предоставления релевантных подсказок.

INDEXING (Косвенно)
Для расчета Distributional Similarity требуется предварительный анализ большого корпуса документов (например, веб-индекса), чтобы понять контексты использования фраз. Это происходит на этапе индексации или связанной с ней офлайн-обработки данных.

Входные данные:

Логи прошлых запросов (Log Files).
Коллекция документов (например, веб-страницы), используемая для расчета контекстов и Distributional Similarity.

Выходные данные:

База данных Inferred Queries, готовая для использования системой подсказок.

На что влияет

Специфические запросы: Наибольшее влияние на запросы, имеющие четкую структуру или шаблон. Это могут быть информационные запросы (например, «how is the weather in * in august»), продуктовые запросы («* of ipod touch 3g»), фактоидные запросы («when did * win the oscar»).
Длиннохвостовые запросы (Long-tail): Механизм позволяет генерировать подсказки для очень специфических или новых запросов, которые редко или никогда не встречались в логах.
Форматы запросов: Система генерирует подсказки, сохраняя формат исходного шаблона (естественный язык или ключевые слова).

Когда применяется

Генерация (Офлайн): Процесс генерации Inferred Queries выполняется периодически офлайн для анализа новых логов и обновления базы данных подсказок.
Предоставление подсказок (Онлайн): Inferred Queries используются системой подсказок каждый раз, когда пользователь вводит запрос и система ищет подходящие варианты для предложения.

Пошаговый алгоритм

Офлайн процесс генерации Inferred Queries

Сбор и фильтрация данных: Анализ логов и извлечение уникальных прошлых запросов.
Декомпозиция запросов: Для каждого уникального запроса определяются все возможные комбинации (триплеты) Префикс, Инфикс (непустой) и Постфикс.
Группировка запросов: Запросы группируются на основе точного совпадения Префиксов и Постфиксов. Запросы в одной группе должны иметь разные Инфиксы.
Создание шаблонов (Template Creation): Для каждой группы формируется Query Template путем замены инфиксов на wildcard (*).
Каноникализация шаблонов: Шаблоны преобразуются в Canonical Representations. Применяются правила: стемминг, удаление стоп-слов, сортировка терминов.
Сопоставление шаблонов (Template Matching): Для целевой группы (Группа Б) система ищет исходные группы (Группа А), чьи канонические представления шаблонов совпадают.
Анализ семантического сходства (Infix Similarity Analysis): Система определяет фразы-кандидаты, которые дистрибутивно схожи (Distributionally Similar) с инфиксами Группы Б. Это делается путем анализа контекстов использования фраз в большой коллекции документов.
Оценка и ранжирование кандидатов: Рассчитывается агрегированная оценка сходства (Sim(U,T)) для каждой фразы-кандидата относительно всех инфиксов Группы Б. Кандидаты ранжируются, может применяться порог.
Фильтрация и выбор инфиксов: Система выбирает инфиксы из Группы А, ТОЛЬКО если они присутствуют в списке лучших кандидатов (сформированном на шаге 8).
Генерация Inferred Queries: Выбранные инфиксы (из Группы А) вставляются в Query Template Группы Б вместо wildcard (*).
Хранение: Сгенерированные запросы сохраняются для использования системой подсказок.

Какие данные и как использует

Данные на входе

Поведенческие факторы: Основной источник данных — логи прошлых запросов (log of past queries). Они используются для извлечения уникальных запросов, определения их структуры и группировки.
Контентные факторы (Косвенно): Для расчета Distributional Similarity система анализирует большую коллекцию документов (например, веб-страницы), чтобы понять контексты, в которых встречаются различные фразы (инфиксы).

Какие метрики используются и как они считаются

Система использует метрики для расчета семантического сходства между инфиксами.

Векторизация фраз: Каждая фраза (инфикс) представляется как вектор контекстуальных признаков (слов, окружающих фразу в документах).
Взвешивание признаков (PMI): Вес признака F для фразы P рассчитывается с помощью Pointwise Mutual Information (PMI).

Расширение пространства запросов: Google активно генерирует правдоподобные запросы, которые пользователи еще не вводили. Это позволяет системе подсказок покрывать больше информационных потребностей, чем позволяют только логи прошлых запросов.
Autocomplete ≠ Популярность: Поисковые подсказки являются смесью популярных реальных запросов и алгоритмически сгенерированных Inferred Queries. Нельзя полагаться на Autocomplete как на точный индикатор объема поиска или частотности.
Важность структуры и семантики: Для генерации качественных подсказок система опирается на два ключевых аспекта: структурное соответствие (через Query Templates и Canonicalization) и семантическое соответствие (через Distributional Similarity).
Каноникализация как ключ к обобщению: Механизм каноникализации позволяет Google распознавать общую структуру запроса за разными формулировками (например, естественный язык и ключевые слова), делая систему более гибкой.
Distributional Similarity для определения контекста: Использование дистрибутивного сходства показывает, как Google оценивает семантическую близость терминов, анализируя контексты их употребления в вебе. Это фундаментальный принцип современной NLP.
Многоступенчатая валидация: Система использует строгий процесс фильтрации (Claim 1), включающий ранжирование кандидатов и проверку существования инфикса в схожем контексте, чтобы гарантировать качество и релевантность сгенерированных запросов.

Best practices (это мы делаем)

Анализ шаблонов запросов в нише: Изучайте Autocomplete для выявления распространенных шаблонов запросов (Query Templates) в вашей тематике (например, «[бренд] [модель] отзывы», «[симптом] причины *»). Понимание этих структур помогает формировать контент-стратегию и прогнозировать новые запросы.
Комплексное покрытие темы (Topical Authority): Создавайте контент, который охватывает все релевантные атрибуты, действия и связанные сущности (потенциальные «инфиксы») для основного топика. Это увеличивает вероятность того, что ваш контент будет соответствовать как реальным, так и сгенерированным (Inferred) длиннохвостовым запросам.
Усиление контекстных связей (Оптимизация под Distributional Similarity): Укрепляйте семантические связи между сущностями в вашем контенте. Убедитесь, что ваши ключевые термины появляются в правильном семантическом контексте. Если вы продвигаете новый продукт, используйте его в том же контексте, что и известные аналоги. Это поможет системе быстрее рассчитать Distributional Similarity и включить новый продукт в существующие шаблоны подсказок.
Использование разнообразных формулировок: Используйте как естественный язык, так и формулировки на основе ключевых слов, так как система способна канонизировать и сопоставлять оба формата.

Worst practices (это делать не надо)

Трактовка Autocomplete как данных о частотности: Использование подсказок Autocomplete в качестве единственного источника для оценки объема поиска. Inferred Queries могут появляться в подсказках, но иметь нулевой или низкий реальный трафик (по крайней мере, изначально).
Игнорирование длиннохвостовых структурных запросов: Фокусировка только на высокочастотных запросах и игнорирование структурированных длиннохвостовых запросов, на генерацию которых направлен данный патент.
Использование терминов вне контекста: Попытки манипулировать контекстом путем неестественного включения ключевых слов могут быть неэффективны, так как Distributional Similarity основана на анализе естественного употребления языка.

Стратегическое значение

Патент подтверждает, что Google стремится предсказать намерения пользователя, выходя за рамки анализа исторических данных. Он демонстрирует сложный механизм понимания структуры языка и семантики терминов для моделирования и активного формирования пространства запросов. Для SEO это подчеркивает важность перехода от оптимизации под отдельные ключевые слова к оптимизации под сущности, их контекстуальные связи и структурные паттерны пользовательских интентов.

Практические примеры

Сценарий: Генерация подсказки для нового продукта в известной категории

Исходные данные (Логи): Пользователи часто ищут «battery life of iphone 15» и «camera quality of iphone 15». Также есть запросы «battery life of galaxy s25».
Группировка и Шаблоны:
- Группа Б (Целевая): Шаблон «* of galaxy s25». Инфикс: «battery life».
- Группа А (Источник): Шаблон «* of iphone 15». Инфиксы: «battery life», «camera quality».
Каноникализация и Сопоставление: Оба шаблона приводятся к схожей канонической форме, отражающей отношение [Атрибут] – [Продукт]. Система сопоставляет Группу А и Группу Б.
Анализ сходства и Фильтрация: Система определяет, что «camera quality» (из Группы А) является дистрибутивно схожим с «battery life» (из Группы Б), так как оба являются характеристиками смартфонов и часто встречаются в похожих контекстах в вебе.
Генерация Inferred Query: Система видит, что для «galaxy s25» запроса с инфиксом «camera quality» еще нет (или мало) в логах. Она берет инфикс «camera quality» из Группы А и вставляет его в шаблон Группы Б.
Результат: Генерируется Inferred Query «camera quality of galaxy s25». Этот запрос начинает показываться в Autocomplete, даже если его никто не искал.

Означает ли этот патент, что подсказки в Google Autocomplete не основаны на реальных запросах пользователей?

Не совсем. Autocomplete использует смесь источников. Основным источником остаются реальные прошлые запросы пользователей (особенно популярные и трендовые). Однако данный патент описывает механизм дополнения этих данных алгоритмически сгенерированными запросами (Inferred Queries). Это делается для расширения покрытия, особенно для редких или новых тем, где исторических данных недостаточно.

Как Google определяет, что два термина семантически похожи и взаимозаменяемы?

Патент описывает использование Distributional Similarity (Дистрибутивное сходство). Система анализирует огромный корпус текстов и смотрит на контексты (окружающие слова), в которых встречаются термины. Если два разных термина часто появляются в одинаковых контекстах (например, «grocery» и «pet supply» часто встречаются перед «stores in...»), система считает их семантически схожими в рамках данного контекста и потенциально взаимозаменяемыми в шаблоне запроса.

Что такое каноникализация шаблонов и зачем она нужна?

Каноникализация — это приведение разных формулировок к единой стандартной форме путем стемминга, удаления стоп-слов и сортировки терминов. Например, шаблоны «lyrics of * beatles» и «beatles lyrics *» могут быть приведены к виду «* beatle lyric». Это позволяет системе понять, что эти два разных шаблона имеют одинаковую базовую структуру, и, следовательно, их инфиксы можно анализировать на предмет взаимозаменяемости.

Влияет ли этот механизм на ранжирование сайтов?

Напрямую нет. Патент описывает генерацию поисковых подсказок, а не алгоритмы ранжирования документов. Однако косвенное влияние есть: генерация новых подсказок может стимулировать новый поисковый спрос. Если пользователи начинают выбирать Inferred Queries, эти запросы становятся реальными и могут приводить трафик на сайты, которые хорошо под них оптимизированы.

Как SEO-специалист может использовать знание об этом патенте?

Ключевое применение — это более глубокий анализ семантики и выявление длиннохвостовых запросов. Необходимо анализировать не только отдельные запросы, но и целые шаблоны запросов в вашей нише. Создавая контент, который покрывает множество вариаций (различные «инфиксы») в рамках этих шаблонов, вы повышаете шансы ранжироваться по широкому спектру как реальных, так и сгенерированных запросов.

Что такое Префикс, Инфикс и Постфикс в контексте этого патента?

Это способ разбить запрос на структурные части. Например, в запросе «лучшие рестораны в Москве 2025»: Префикс может быть «лучшие рестораны в», Инфикс — «Москве», Постфикс — «2025». Система анализирует множество таких разбиений для каждого запроса, чтобы найти устойчивые шаблоны, где меняется только Инфикс (например, «лучшие рестораны в Париже 2025»).

Как система обеспечивает, что взятый из другой группы инфикс подходит для нового шаблона?

Это ключевой механизм валидации, описанный в Claim 1. Система не просто берет любой инфикс из Группы А. Сначала она создает список кандидатов, которые семантически похожи на инфиксы Группы Б (целевой группы), используя Distributional Similarity. Затем она выбирает инфиксы из Группы А, только если они уже есть в этом списке кандидатов. Эта двойная проверка гарантирует семантическую релевантность и структурную корректность.

Актуален ли этот подход в эпоху нейронных сетей (BERT, MUM)?

Вероятно, он остается частью гибридной системы. Хотя современные модели обеспечивают более глубокое понимание контекста, шаблонные методы, описанные в патенте, обеспечивают высокую скорость, точность и интерпретируемость, особенно для фактоидных или структурированных запросов. Фундаментальные концепции (дистрибутивная семантика, каноникализация) остаются актуальными.

Как рассчитывается оценка сходства Sim(U,T)?

Это агрегированная оценка, которая показывает, насколько хорошо фраза-кандидат (U) подходит к шаблону (T). Она рассчитывается как среднее значение дистрибутивного сходства (DScore) между кандидатом U и каждым существующим инфиксом в группе запросов, соответствующих шаблону T. Это гарантирует, что кандидат похож на группу в целом, а не только на один её элемент.

Как ускорить появление нового бренда или продукта в Autocomplete?

Необходимо помочь Google быстрее рассчитать Distributional Similarity для нового термина. Для этого следует активно использовать название нового бренда/продукта в контенте (обзоры, новости) в том же контексте и окружении, что и уже известные аналоги. Это позволит системе понять семантику нового термина и начать подставлять его в существующие релевантные шаблоны подсказок.

Как Google находит и предлагает более эффективные формулировки запросов через каноникализацию и оценку полезности

Google использует механизм для улучшения поисковых подсказок (Autocomplete). Система определяет запросы, которые имеют идентичную каноническую форму (тот же базовый интент после нормализации), но структурно отличаются от вводимого текста. Среди этих альтернатив выбираются те, которые исторически приводили к более высокой удовлетворенности пользователей (Query Utility Score), и предлагаются для повышения качества поиска.

US8868591B1
2014-10-21

Семантика и интент

Как Google сегментирует сложные запросы на смысловые компоненты для генерации поисковых подсказок и связанных запросов

Google использует механизм для генерации уточнений запроса (поисковых подсказок или связанных запросов) путем разделения исходного запроса на семантические компоненты (устойчивые фразы) с помощью вероятностного анализа. Система находит уточнения для каждого компонента по отдельности, а затем рекомбинирует их, сохраняя исходный порядок. Финальные кандидаты строго фильтруются на основе пользовательских данных (CTR) и синтаксической схожести.

US9703871B1
2017-07-11

Семантика и интент
SERP
Поведенческие сигналы

Как Google автоматически создает и ранжирует шаблоны запросов с сущностями для улучшения поисковых подсказок (Autocomplete)

Google использует систему для автоматического обнаружения паттернов в поисковых запросах, которые включают фиксированные термины и сущности из определенной категории (например, «рестораны в [городе]»). Система генерирует шаблоны запросов, оценивает их качество на основе частоты использования, разнообразия сущностей и их распределения, а затем использует эти шаблоны для формирования более точных и структурированных поисковых подсказок в реальном времени.

US9529856B2
2016-12-27

Knowledge Graph
Семантика и интент
Поведенческие сигналы

Как Google использует анализ окончаний запросов (суффиксов) для улучшения работы Автокомплита, игнорируя начало запроса

Google использует механизм для улучшения подсказок Автокомплита (Search Suggest), фокусируясь на окончании (суффиксе) запроса. Если начало запроса редкое или неоднозначное, система ищет популярные прошлые запросы с похожими окончаниями, но разными началами. Это позволяет предлагать релевантные подсказки, основываясь на том, как пользователи обычно заканчивают схожие по структуре запросы.

US8417718B1
2013-04-09

Как Google персонализирует подсказки Autocomplete, анализируя запросы похожих пользователей и обновляя локальный кэш устройства

Google персонализирует подсказки Autocomplete (Search Suggest), анализируя поведение пользователей со схожими профилями (местоположение, интересы, история поиска). Система генерирует кастомизированное обновление для локального кэша устройства на основе запросов, введенных этими похожими пользователями. Это означает, что разные пользователи видят разные подсказки для одного и того же ввода.

US8868592B1
2014-10-21

Персонализация
Поведенческие сигналы
Local SEO

Как Google собирает и структурирует данные о поведении пользователей в Поиске по картинкам (включая ховеры, клики и 2D-позицию)

Патент Google описывает инфраструктуру для детального сбора данных в Поиске по картинкам. Система фильтрует общие логи, фиксируя не только клики, но и наведение курсора (ховеры), длительность взаимодействия и точное 2D-расположение (строка/столбец) изображения на выдаче. Эти данные агрегируются в Модель Запросов Изображений для оценки релевантности.

US8898150B1
2014-11-25

Поведенческие сигналы
SERP
Мультимедиа

Как Google группирует похожие запросы и поисковые подсказки, определяя интент пользователя через анализ сессий и кликов

Google использует графовую модель (Марковскую цепь) для кластеризации поисковых подсказок и связанных запросов. Система анализирует, какие запросы пользователи вводят в одной сессии и на какие документы они кликают. Это позволяет сгруппировать запросы, ведущие к схожему контенту, и предложить пользователю разнообразный набор подсказок, отражающих разные интенты.

US8423538B1
2013-04-16

Семантика и интент
Поведенческие сигналы
SERP

Как Google использует блокировку сайтов пользователями для персонализации выдачи и как глобальный сигнал ранжирования (Remove List Score)

Google позволяет пользователям удалять нежелательные документы или целые сайты из своей поисковой выдачи. Система агрегирует эти данные о блокировках от множества пользователей и использует их как глобальный сигнал ранжирования — «Remove List Score» — для выявления низкокачественного контента и улучшения качества поиска для всех.

US8417697B2
2013-04-09

Персонализация
Поведенческие сигналы
Антиспам

Как Google связывает документы на основе поведения пользователей, времени взаимодействия и контентной близости для персонализации поиска

Google использует систему для определения "меры ассоциации" между различными документами (статьями, веб-страницами, письмами). Ассоциация рассчитывается на основе того, насколько близко по времени пользователь взаимодействовал с этими документами, насколько похож их контент и совпадают ли метаданные (например, автор). Эти связи используются для понимания пути пользователя и персонализации последующих результатов поиска.

US8131754B1
2012-03-06

Поведенческие сигналы
Персонализация
Семантика и интент

Как Google извлекает, обрабатывает и индексирует анкорный текст, контекст и атрибуты входящих ссылок для ранжирования целевых страниц

Фундаментальный патент, описывающий инфраструктуру Google для обработки ссылок. Система извлекает анкорный текст, окружающий контекст и атрибуты форматирования (аннотации) из исходных страниц и инвертирует эти данные в структуру "Sorted Anchor Map". Это позволяет индексировать целевую страницу по тексту ссылок, указывающих на нее, используя эту внешнюю информацию как сигнал релевантности.

US7308643B1
2007-12-11

Ссылки
Индексация
Техническое SEO

Как Google определяет скрытый интент сессии, используя универсальные уточняющие слова, и переранжирует выдачу

Google идентифицирует универсальные слова-модификаторы (например, «фото», «отзывы», «pdf»), которые пользователи часто добавляют к разным запросам. Если такое слово появляется в сессии, система определяет скрытый интент пользователя. Затем Google переранжирует выдачу, основываясь на том, какие документы исторически предпочитали пользователи с таким же интентом, адаптируя результаты под контекст сессии.

US8868548B2
2014-10-21

Семантика и интент
Поведенческие сигналы
Персонализация

Как Google использует клики по изображениям для определения схожести запросов и картинок (Поведенческая схожесть)

Google анализирует поведение пользователей в поиске по картинкам, чтобы определить схожесть двух запросов (или двух изображений). Если пользователи часто кликают на одни и те же изображения в ответ на разные запросы, эти запросы считаются похожими. Этот механизм (Коллаборативная фильтрация) позволяет находить связи независимо от языка или типа запроса (текст/изображение) и используется для генерации рекомендаций.

US8280881B1
2012-10-02

Поведенческие сигналы
Семантика и интент
Мультимедиа

Как Google использует данные о кликах разных групп пользователей (популяций) для локализации и персонализации ранжирования

Google адаптирует результаты поиска, анализируя, как разные группы пользователей (популяции), определяемые по местоположению, языку или демографии, взаимодействуют с выдачей. Система рассчитывает «Сигнал Популяции» (Population Signal) на основе исторических кликов группы и корректирует ранжирование. Также используется механизм сглаживания для компенсации нехватки данных по конкретным группам.

US7454417B2
2008-11-18

Персонализация
Поведенческие сигналы
SERP

Как Google использует реальные данные о скорости загрузки страниц (RUM) для повышения быстрых и понижения медленных сайтов в выдаче

Google собирает данные о времени загрузки страниц у реальных пользователей (RUM) и использует их для корректировки ранжирования. Система сравнивает скорость сайта с глобальными порогами, основанными на процентилях. Если сайт медленнее большинства других (например, медленнее 85% или 96%), его рейтинг понижается. Очень быстрые сайты могут получать повышение. Оценка скорости учитывает географию и тип устройства пользователя.

US8645362B1
2014-02-04

Техническое SEO
Поведенческие сигналы
SERP

Как Google использует машинное обучение для оптимизации обхода Knowledge Graph и поиска связанных концепций

Google оптимизирует обход Knowledge Graph для эффективного поиска семантически связанных фраз. Вместо анализа всех связей сущности система использует ML-модели для выбора только тех отношений (свойств), которые вероятнее всего приведут к ценным результатам. Этот выбор основан на истории поисковых запросов и контексте пользователя, что позволяет экономить вычислительные ресурсы и повышать релевантность предложений.

US10140286B2
2018-11-27

Knowledge Graph
Семантика и интент
Персонализация