Как Google использует отношения Класс-Сущность для генерации специализированных поисковых подсказок (Query Specializations)

GENERATING QUERY SUGGESTIONS USING CLASS-INSTANCE RELATIONSHIPS (Генерирование поисковых подсказок с использованием отношений Класс-Сущность)

US8452795B1
Google LLC
2010-04-13
2013-05-28

Семантика и интент

Google использует механизм для уточнения поисковых подсказок, заменяя общие термины (Классы) на конкретные примеры (Сущности). Система автоматически извлекает связи «Класс-Сущность» из веб-документов и оценивает их надежность. Например, подсказка «свойства муравьиной кислоты» может быть специализирована до «плотность муравьиной кислоты», помогая пользователю сфокусировать интент.

Какую проблему решает

Патент решает проблему ограниченности стандартных поисковых подсказок, которые обычно предлагают только завершение введенного текста (Query Completions). Это ограничивает разнообразие и не всегда помогает пользователю сузить свой интент. Цель изобретения — генерировать Query Specializations (специализированные запросы), которые направляют пользователя от общего класса сущностей к конкретному экземпляру этого класса.

Что запатентовано

Запатентована система для автоматической генерации специализированных поисковых подсказок на основе отношений Class-Instance (Класс-Сущность). Система извлекает эти отношения из веб-документов, оценивает их надежность (Weight) и заранее вычисляет потенциальные специализации для кандидатных запросов. Во время ввода запроса система предлагает не только стандартные завершения, но и специализации, где общий класс заменен конкретной сущностью.

Как это работает

Система работает в двух основных режимах: офлайн и онлайн.

Офлайн (Подготовка данных): Система извлекает пары Class-Instance (например, Класс="свойство", Сущность="плотность") из документов, используя лингвистические шаблоны (Extraction Patterns). Каждой паре присваивается вес на основе частоты (Frequency Score) и разнообразия шаблонов (Diversity Score). Затем система анализирует кандидатные запросы и генерирует базу данных специализаций, заменяя классы на сущности в общем контексте.
Онлайн (Обслуживание): Когда пользователь вводит частичный запрос (Partial Query), система находит его возможные завершения (Query Completions). Для этих завершений система ищет заранее вычисленные специализации и предлагает их пользователю наряду со стандартными подсказками.

Актуальность для SEO

Высокая. Понимание сущностей, их классов и иерархических отношений является фундаментальной задачей для современных поисковых систем (например, для Knowledge Graph). Хотя конкретные методы извлечения на основе паттернов, описанные в патенте, могли быть дополнены нейросетевыми моделями, сама концепция использования отношений Класс-Сущность для улучшения понимания запросов и активного управления интентом пользователя остается крайне актуальной.

Важность для SEO

Патент имеет высокое стратегическое значение для SEO (70/100). Он не описывает алгоритмы ранжирования, но напрямую влияет на то, что именно ищут пользователи, направляя их от общих запросов к специфическим. Он раскрывает механизмы, с помощью которых Google извлекает и структурирует знания из контента (особенно роль Diversity Score). Это критически важно для Entity SEO и построения эффективной контент-стратегии, охватывающей как классы, так и экземпляры.

Термины и определения

Candidate Text Queries (Кандидатные текстовые запросы): Набор потенциальных запросов (например, из логов поиска или документов), для которых система пытается сгенерировать специализации.
Class-Instance Pair (Пара Класс-Сущность): Отношение между общим классом (Class Text) и конкретным экземпляром этого класса (Entity Text). Пример: (еда, пицца).
Class Text (Текст класса): Наименование класса сущностей (например, «свойство», «еда»). Часто является именной группой (noun phrase).
Context (Контекст): Слова, окружающие n-грамму в запросе. Состоит из Prefix Context (до) и Suffix Context (после). Используется для обеспечения релевантности замены класса на сущность.
Diversity Score (Оценка Разнообразия): Метрика, основанная на количестве различных Extraction Patterns, с помощью которых была извлечена пара Класс-Сущность. Ключевой компонент расчета веса.
Entity Text / Instance (Текст Сущности / Экземпляр): Наименование конкретного экземпляра класса (например, «пицца», «плотность»).
Extraction Patterns (Шаблоны Извлечения): Предопределенные лингвистические шаблоны для извлечения пар Класс-Сущность из текста. Например, "[C] such as [I]" или "[C] including [I]".
Frequency Score (Оценка Частоты): Метрика, основанная на частоте извлечения пары Класс-Сущность из корпуса документов.
Partial Query (Частичный запрос): Текст, введенный пользователем в поле поиска до момента отправки запроса.
Query Completion (Завершение запроса): Стандартная поисковая подсказка, которая дополняет текст, введенный пользователем (автозаполнение).
Query Specialization (Специализация запроса): Модифицированная версия запроса, в которой текст класса заменен текстом экземпляра.
Query Whitelist (Белый список запросов): Список допустимых запросов. Может использоваться для фильтрации, чтобы гарантировать, что сгенерированные специализации являются валидными и естественными запросами.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает офлайн-процесс генерации и хранения специализаций запросов.

Получение пар Class-Instance, извлеченных из документов с помощью Extraction Patterns.
Вычисление Weight (веса) для каждой пары. Ключевой момент: вес рассчитывается на основе Frequency Score (частота извлечения) и Diversity Score (количество уникальных паттернов, которые извлекли пару).
Получение набора Candidate Text Queries.
Генерация Query Specializations путем модификации исходного запроса: замена n-граммы (совпадающей с Class Text) на соответствующий Entity Text.
Процесс генерации включает:
- Извлечение n-грамм и их Context (префикс и суффикс) из запроса.
- Сравнение n-грамм с Class Text.
- При совпадении генерация специализации с использованием Entity Text и исходного Context.
Сохранение данных, связывающих исходные запросы с их специализациями.

Claim 8 (Независимый пункт): Описывает онлайн-процесс использования сохраненных данных для предоставления подсказок.

Система хранит Specialization Data (сгенерированные и взвешенные, как описано выше).
Получение Partial Query от пользователя.
Получение Candidate Queries, которые являются Completions (завершениями) частичного запроса.
Идентификация Query Specializations, связанных с этими завершениями, в сохраненных данных.
Представление пользователю поисковых подсказок, включающих как завершения, так и специализации.

Claim 31 (Независимый пункт): Описывает конкретную техническую реализацию процесса генерации специализаций, оптимизированную для масштабирования (например, MapReduce).

Процесс извлечения и генерации включает:

Генерацию первого набора пар ключ-значение: Ключ=Контекст, Значение=N-грамма.
Генерацию второго набора: Ключ=Пара N-грамм с общим контекстом, Значение=Общий Контекст. (Это находит взаимозаменяемые термины).
Соединение (Join) второго набора с третьим набором (данные Класс-Сущность). Если взаимозаменяемая пара терминов также является парой Класс-Сущность, она используется для генерации специализаций.

Где и как применяется

Изобретение охватывает несколько этапов поисковой архитектуры, фокусируясь на извлечении знаний и понимании запросов.

INDEXING – Индексирование и извлечение признаков
На этом этапе система анализирует корпус документов. Extraction Patterns применяются к тексту для извлечения сырых данных Class-Instance Pairs. Это фундаментальный процесс извлечения семантических отношений из неструктурированного текста (построение базы знаний/Knowledge Graph).

QUNDERSTANDING – Понимание Запросов
Основная часть изобретения реализуется здесь в двух режимах:

Офлайн-обработка:
- Обработка данных Класс-Сущность: Вычисление Frequency Score, Diversity Score и итогового Weight.
- Анализ запросов: Обработка Candidate Text Queries.
- Генерация специализаций: Масштабируемый процесс для сопоставления пар Класс-Сущность с запросами и генерации Query Specializations. Сохранение в Specialization Data Store.
Онлайн (Real-time): Query Suggestion Module (Autocomplete) работает при вводе запроса пользователем. Он ищет стандартные Query Completions и запрашивает Specialization Data Store для поиска связанных специализаций. Затем происходит ранжирование и смешивание подсказок.

Входные данные:

Офлайн: Корпус документов, Extraction Patterns, Логи запросов.
Онлайн: Partial Query пользователя.

Выходные данные:

Офлайн: Взвешенные пары Класс-Сущность, Specialization Data.
Онлайн: Список поисковых подсказок (Query Suggestions).

На что влияет

Специфические запросы: Наибольшее влияние на информационные и исследовательские запросы, где пользователи ищут детализацию (например, "свойства материала", "виды животных", "функции продукта").
Типы контента: Влияет на видимость контента, который подробно описывает конкретные экземпляры (сущности) в рамках более широкого класса.
Ниши и тематики: Влияние сильнее в тематиках с четко выраженной иерархией (наука, технологии, продукты, медицина).

Когда применяется

Офлайн-процесс: Выполняется периодически для обновления базы данных Класс-Сущность и генерации новых специализаций.
Онлайн-процесс: Активируется в реальном времени при вводе текста пользователем в строку поиска.
Условия применения: Специализация предлагается, если: 1) Для частичного запроса найдено завершение; 2) Для этого завершения существует предварительно вычисленная специализация; 3) Специализация соответствует критериям качества (вес пары) и валидности (например, Query Whitelist).

Пошаговый алгоритм

Фаза А: Офлайн - Извлечение и Взвешивание пар Класс-Сущность

Применение паттернов: Система применяет предопределенные Extraction Patterns (например, "C, такие как I") к корпусу документов.
Извлечение и Нормализация: Извлечение сырых пар Класс-Сущность (C, I) и приведение их к стандартной форме.
Определение веса: Для каждой уникальной пары вычисляется вес.
- Рассчитывается Frequency Score (Freq(C, I)) — частота извлечения.
- Рассчитывается Diversity Score (Size({Pattern(C, I)})) — количество уникальных паттернов.
- Вес вычисляется как функция от этих двух метрик. Пример формулы из патента: $Weight(C,I) = Size(\{Pattern(C,I)\})^2 \times Freq(C,I)$ .
Хранение: Взвешенные пары сохраняются.

Фаза Б: Офлайн - Генерация Специализаций Запросов

Получение входных данных: Система получает Candidate Text Queries и взвешенные пары Класс-Сущность.
Извлечение контекста: Для каждого запроса извлекаются все n-граммы и их контексты (префикс/суффикс).
Фильтрация: Удаляются n-граммы, которые не встречаются в данных Класс-Сущность.
Идентификация общего контекста: Определяются пары n-грамм, которые встречаются в одинаковом контексте (масштабируемый процесс, например, MapReduce).
Сопоставление (Join): Система соединяет пары n-грамм с общим контекстом и данные Класс-Сущность. Это позволяет найти ситуации, где Класс и Сущность взаимозаменяемы в рамках одного контекста запроса.
Генерация и Фильтрация: Если Класс и Сущность взаимозаменяемы в Контексте, то "Контекст+Сущность" идентифицируется как специализация для "Контекст+Класс". Опционально проверяется наличие специализации в Query Whitelist.
Хранение: Сохранение связи между исходным запросом и его специализациями (включая вес пары).

Фаза В: Онлайн - Обслуживание Подсказок

Получение частичного запроса: Система получает ввод пользователя в реальном времени.
Получение завершений: Идентифицируются стандартные Query Completions (Q).
Идентификация специализаций: Система извлекает связанные Query Specializations из Specialization Data Store.
Ранжирование и Упорядочивание: Определяется порядок представления подсказок. Ранжирование специализаций может использовать вес завершения (F(Q)) и вес пары Класс-Сущность (W). Патент предлагает несколько методов, включая интерполяцию $score = V \times F(Q) + (1-V) \times W$ или Reciprocal Rank Fusion $score = \frac{1}{rank_Q} + \frac{1}{rank_{ISA}}$ .
Представление: Список подсказок (завершения и специализации) отправляется пользователю.

Какие данные и как использует

Данные на входе

Контентные факторы: Текст веб-документов является основным источником для извлечения пар Класс-Сущность. Система использует лингвистические паттерны (Extraction Patterns) для анализа структуры предложений.
Структурные факторы: Упоминается использование разметки частей речи (parts-of-speech tags) для идентификации Class Text как именной группы (noun phrase).
Поведенческие факторы: Query log data используется для определения Candidate Text Queries и для формирования Query Whitelist.

Какие метрики используются и как они считаются

Ключевые метрики связаны с оценкой качества пар Класс-Сущность и ранжированием подсказок.

Оценка пар Класс-Сущность (C, I):

Frequency Score (Freq(C, I)): Основана на количестве раз, когда пара была извлечена. Может быть общим числом извлечений или количеством уникальных фраз, из которых пара была извлечена.
Diversity Score (Size({Pattern(C, I)})): Основана на количестве различных паттернов извлечения, которые привели к нахождению этой пары.
Weight(C,I) (Вес пары): Комбинированная оценка силы связи. Пример формулы из патента подчеркивает важность разнообразия (квадратичная зависимость): $Weight(C,I) = Size(\{Pattern(C,I)\})^2 \times Freq(C,I)$ .

Ранжирование подсказок (Онлайн):

Query Completion Weight (F(Q)): Стандартная оценка качества или вероятности завершения запроса.
Query Specialization Score: Комбинация веса завершения (F(Q)) и веса пары Класс-Сущность (W). Патент предлагает несколько методов, включая линейную интерполяцию и Reciprocal Rank Fusion.

Автоматизированное извлечение иерархий сущностей: Google активно использует автоматизированные методы (здесь — лингвистические паттерны) для извлечения отношений "is-a" (Класс-Сущность) из неструктурированного текста. Это фундаментальный процесс для построения базы знаний.
Критическая важность Diversity Score: Сила связи Класс-Сущность (Weight) сильно зависит от Diversity Score (в примере формулы — квадратичная зависимость). Система больше доверяет связям, которые подтверждаются разнообразными лингвистическими конструкциями, а не только частым повторением одной и той же фразы.
Активное управление интентом пользователя: Система подсказок спроектирована так, чтобы активно направлять поисковый путь пользователя от общих запросов (Классы) к более сфокусированным темам (Сущности/Специализации).
Валидация через контекст и поведение пользователей: Система не просто заменяет классы сущностями. Она проверяет, что класс и сущность взаимозаменяемы в одном и том же Context запроса, и может фильтровать результаты по Query Whitelist (реальные запросы пользователей).
Масштабируемость процесса: Описанная реализация (включая методы, подобные MapReduce) подчеркивает, что этот процесс применяется в масштабах всего веба и всех логов запросов.

Best practices (это мы делаем)

Использование четких лингвистических паттернов (Extraction Patterns): Структурируйте контент так, чтобы явно указывать на отношения Класс-Сущность. Используйте естественные паттерны, которые система ищет: "такие как", "включая", "например". Пример: "Основные функции SEO-платформы (Класс), такие как аудит сайта и анализ конкурентов (Сущности)."
Максимизация Diversity Score: Поскольку разнообразие паттернов критично для веса связи, используйте различные способы описания одной и той же иерархии в вашем контенте. Не полагайтесь на один шаблон. Разнообразие формулировок повышает уверенность системы в извлеченных данных.
Построение семантической иерархии (Topical Authority): Создавайте контент, охватывающий как уровень Класса (например, "Типы маркетинговых стратегий"), так и уровень Сущности (например, "Контент-маркетинг", "SEO"). Четкая связь между ними помогает Google извлекать отношения.
Анализ специализаций в Autocomplete: Регулярно отслеживайте поисковые подсказки. Если Google предлагает специализации (например, по запросу "кроссовки Nike функции" предлагает "кроссовки Nike амортизация"), это указывает на то, какие сущности имеют наибольший вес. Обеспечьте полное покрытие этих тем в вашем контенте.
Обеспечение консистентности контекста: Убедитесь, что вы используете классы и их экземпляры в схожих контекстах. Если вы пишете о «побочных эффектах лекарств» (класс), используйте тот же контекст, когда пишете о «побочных эффектах ибупрофена» (сущность).

Worst practices (это делать не надо)

Неестественное использование шаблонов (Pattern Stuffing): Попытки манипулировать извлечением пар путем спама шаблонами. Это может выглядеть неестественно и неэффективно, так как система ценит разнообразие (Diversity), а не только частоту (Frequency).
Изолированный контент о сущностях: Создание страниц о конкретных сущностях без четкой привязки к их родительским категориям (Классам). Это затрудняет установление семантических связей.
Игнорирование детализации: Фокусировка только на широких ключевых словах (Классах) и пренебрежение конкретными сущностями, которые Google стремится предложить через специализации.

Стратегическое значение

Патент подтверждает стратегическую важность Entity SEO и четких семантических отношений. Это не просто о включении ключевых слов, а о том, как концепции связаны между собой (иерархии, таксономии). SEO-стратегии должны быть направлены на то, чтобы контент четко определял эти отношения, помогая поисковой системе строить свой граф знаний и максимизируя видимость сайта на этапе формирования запроса пользователем.

Практические примеры

Сценарий: Оптимизация сайта по ремонту техники для улучшения извлечения отношений

Анализ: Сайт хочет установить сильную связь между Классом ("проблемы iPhone") и Сущностями ("не работает экран", "быстро разряжается батарея").
Действие (Увеличение Diversity Score): Создать авторитетный гайд, используя разнообразные паттерны извлечения:
- "Распространенные проблемы iPhone (Класс), включая (Паттерн 1) неработающий экран и быструю разрядку батареи (Сущности)."
- "К основным неисправностям iPhone (Класс) относятся (Паттерн 2) сбои камеры (Сущность)."
- "Такие проблемы iPhone (Класс), как (Паттерн 3) отказ Face ID (Сущность)..."
Ожидаемый результат: Google извлекает эти пары. За счет использования разных шаблонов (высокий Diversity Score) пары получают высокий Weight. Система с большей вероятностью будет использовать их для генерации специализаций в подсказках по запросу "проблемы iPhone".

Что такое «Специализация запроса» (Query Specialization) в контексте этого патента?

Это автоматически сгенерированная поисковая подсказка, которая заменяет общий термин (Класс) в запросе на более конкретный пример (Сущность). Например, если пользователь вводит запрос, который может быть завершен как "свойства древесины" (Класс), система может предложить специализацию "плотность древесины" (Сущность). Цель — помочь пользователю быстрее перейти к более сфокусированному поиску.

Как Google определяет, что является Классом, а что — Сущностью?

Система использует автоматизированный подход, основанный на анализе веб-документов. Она применяет предопределенные лингвистические шаблоны (Extraction Patterns), такие как "[C] such as [I]" или "[C] including [I]". Например, из фразы "Еда, такая как пицца" система извлекает пару (Еда: Класс, Пицца: Сущность) на основе их позиции относительно ключевых фраз ("такие как", "включая", "например").

Как Google оценивает надежность связи между Классом и Сущностью?

Надежность оценивается с помощью Weight (веса), который рассчитывается на основе двух метрик: Frequency Score (насколько часто эта пара была извлечена) и Diversity Score (сколько различных лингвистических паттернов подтвердили эту связь). Высокий Diversity Score особенно важен, так как он указывает на консистентность связи в разных контекстах.

Что означает, что Diversity Score возводится в квадрат в формуле веса?

В примере формулы из патента ( $Weight \propto Diversity^2 \times Frequency$ ) возведение Diversity Score в квадрат экспоненциально увеличивает важность разнообразия. Это означает, что связь, подтвержденная 5 разными способами, будет значительно весомее связи, подтвержденной только одним способом. Это критически важно для SEO: используйте разнообразный язык.

Могу ли я повлиять на то, какие специализации Google предлагает для моих запросов?

Да, косвенно. Поскольку система извлекает отношения Класс-Сущность из веб-контента, вы можете оптимизировать свой контент для улучшения этого процесса. Используйте четкие и последовательные формулировки, которые явно связывают общие категории с конкретными примерами, используя естественные лингвистические паттерны. Укрепление этих связей с высоким Diversity Score может увеличить итоговый Weight пар.

Как ранжируются специализации в списке подсказок?

Патент предлагает методы ранжирования, которые комбинируют два фактора: популярность исходного завершения запроса (Query Completion Weight) и силу связи Класс-Сущность (Weight(C,I)). Система использует формулы (например, линейную интерполяцию или Reciprocal Rank Fusion) для комбинирования этих оценок и определения итогового порядка.

Что такое Context (Контекст) и почему он важен для генерации специализаций?

Контекст — это слова, окружающие термин Класса в запросе (префикс и суффикс). Он критически важен для обеспечения релевантности. Система ищет ситуации, где Класс и Сущность взаимозаменяемы в одном и том же контексте. Например, в запросе "лучшие рестораны Москвы", контекст для "рестораны" — ("лучшие", "Москвы"). Система может заменить его на "пиццерии", только если он подходит под этот контекст.

Актуальны ли методы извлечения на основе паттернов в эпоху нейронных сетей (BERT/MUM)?

Хотя современные NLP-модели значительно превосходят простые паттерны в понимании языка, паттерны остаются эффективным методом для извлечения явных семантических отношений. Вероятно, Google использует гибридный подход. В любом случае, базовая концепция извлечения иерархий, описанная в патенте, и важность четкого выражения этих иерархий в контенте остаются актуальными для SEO.

Что такое Query Whitelist и как он влияет на показ специализаций?

Query Whitelist — это список допустимых или известных запросов (часто основанный на логах поиска). Патент упоминает, что сгенерированные специализации могут фильтроваться по этому списку. Это означает, что если специализация семантически верна, но такой запрос никто не использует (он неестественен), она может быть не показана пользователю.

Какова стратегическая роль этого патента в Entity SEO?

Этот патент является одним из фундаментальных для Entity SEO. Он демонстрирует, как Google переходит от сопоставления строк к пониманию отношений между концепциями и как он оценивает надежность этих отношений (через Weight). Для SEO это подчеркивает необходимость фокусироваться на построении четкой информационной архитектуры, таксономии и ясных семантических связей в контенте.

Как Google автоматически создает и ранжирует шаблоны запросов с сущностями для улучшения поисковых подсказок (Autocomplete)

Google использует систему для автоматического обнаружения паттернов в поисковых запросах, которые включают фиксированные термины и сущности из определенной категории (например, «рестораны в [городе]»). Система генерирует шаблоны запросов, оценивает их качество на основе частоты использования, разнообразия сущностей и их распределения, а затем использует эти шаблоны для формирования более точных и структурированных поисковых подсказок в реальном времени.

US9529856B2
2016-12-27

Knowledge Graph
Семантика и интент
Поведенческие сигналы

Как Google использует атрибуты сущностей для генерации «Дополненных запросов» и уточнения поиска

Google использует механизм для помощи в исследовании тем, связанных с сущностями (люди, места, продукты). Система распознает сущность в запросе, определяет ее ключевые атрибуты (анализируя результаты поиска или Knowledge Graph) и автоматически генерирует список предлагаемых «дополненных запросов» (Сущность + Атрибут). Это позволяет пользователю одним кликом запустить новый, более сфокусированный поиск по теме.

US10055462B2
2018-08-21

Семантика и интент
Knowledge Graph
SERP

Как Google формирует и ранжирует подсказки в Autocomplete на основе исторических данных о запросах пользователей

Google использует систему, которая анализирует логи исторических запросов пользователей для предсказания полного запроса при вводе частичного. Система генерирует упорядоченный набор вероятных завершений, ранжируя их по популярности (частоте использования) или другим критериям. Это позволяет пользователям быстрее находить информацию и показывает, какие формулировки запросов наиболее распространены в сообществе.

US7487145B1
2009-02-03

Как Google связывает запросы с сущностями для формирования выдачи, подсказок и определения доминирующего интента

Google использует систему для определения того, какие сущности (люди, места, объекты) подразумеваются в поисковом запросе. Система анализирует, насколько релевантны топовые документы запросу и насколько центральное место в этих документах занимает конкретная сущность. На основе этого рассчитывается оценка Entity Score, которая определяет ранжирование сущностей для запроса. Этот механизм используется для показа блоков знаний, организации поисковой выдачи и предоставления уточняющих поисковых подсказок.

US20160224621A1
2016-08-04

Семантика и интент
Knowledge Graph
SERP

Как Google использует частичные запросы, логи и профили пользователей для формирования подсказок (Autocomplete) и предварительной загрузки результатов

Патент описывает технологию Google Autocomplete (Suggest). Система предсказывает финальный запрос на основе частично введенного текста, используя словари, составленные из популярных запросов сообщества. Предсказания ранжируются по популярности и персонализируются с учетом профиля пользователя. Система также может заранее кэшировать результаты для наиболее вероятных подсказок, чтобы ускорить выдачу.

US7836044B2
2010-11-16

Персонализация
Семантика и интент

Как Google использует клики по изображениям для определения схожести запросов и картинок (Поведенческая схожесть)

Google анализирует поведение пользователей в поиске по картинкам, чтобы определить схожесть двух запросов (или двух изображений). Если пользователи часто кликают на одни и те же изображения в ответ на разные запросы, эти запросы считаются похожими. Этот механизм (Коллаборативная фильтрация) позволяет находить связи независимо от языка или типа запроса (текст/изображение) и используется для генерации рекомендаций.

US8280881B1
2012-10-02

Поведенческие сигналы
Семантика и интент
Мультимедиа

Как Google перенаправляет пользователей на «идеальные» запросы (KHRQ), анализируя поведение и удовлетворенность

Google анализирует логи запросов, чтобы определить «известные высокоранжированные запросы» (KHRQ) — те, которые пользователи вводят часто и которыми остаются довольны (редко переформулируют или долго изучают результаты). Система вычисляет вероятность того, что исходный запрос пользователя лучше заменить на KHRQ, основываясь на сходстве запросов и исторических цепочках переформулировок. Это позволяет направлять пользователей к наиболее эффективным формулировкам.

US7870147B2
2011-01-11

Семантика и интент
Поведенческие сигналы
SERP

Как Google использует навигационные запросы, консенсус кликов и анкорных текстов для определения глобального качества сайта

Google анализирует потоки запросов, чтобы определить, когда пользователи ищут конкретный сайт (навигационный интент). Если запрос явно указывает на документ (через подавляющее большинство кликов пользователей или доминирование в анкор-текстах), этот документ получает «баллы качества». Эти баллы используются как глобальный сигнал качества, повышая ранжирование сайта по всем остальным запросам.

US7962462B1
2011-06-14

Поведенческие сигналы
Ссылки
SERP

Как Google использует визуальное расположение новостей на главных страницах СМИ для ранжирования в Google News

Google анализирует главные страницы авторитетных новостных сайтов («Hub Pages»), чтобы определить важность новостей. Система оценивает «визуальную заметность» (Prominence) ссылки на статью — ее расположение (выше/ниже), размер шрифта, наличие картинки и сниппета. Чем заметнее ссылка на сайте СМИ, тем выше статья ранжируется в агрегаторах новостей.

US8375073B1
2013-02-12

EEAT и качество
SERP
Ссылки

Как Google использует анкорный текст входящих ссылок для определения синонимов и псевдонимов сущностей в Knowledge Graph

Google автоматически определяет синонимы и псевдонимы для сущностей (например, людей, компаний) в своем хранилище фактов (Knowledge Graph). Система анализирует анкорный текст ссылок, ведущих на исходные документы, из которых были извлечены факты о сущности. Это позволяет системе понять, что, например, "Биг Блю" и "IBM" относятся к одной и той же компании.

US8738643B1
2014-05-27

Knowledge Graph
Семантика и интент
Ссылки

Как Google использует погоду, время и местоположение для понимания истинного намерения пользователя и адаптации поисковой выдачи

Google анализирует, как физическое окружение (погода, время, местоположение) влияет на то, что ищут пользователи. Система выявляет корреляции между средой и поведением пользователей в прошлом (включая длительность кликов), чтобы лучше понять текущий интент многозначных запросов. Затем она переранжирует выдачу или переписывает запрос для предоставления наиболее релевантных результатов и рекламы.

US8898148B1
2014-11-25

Семантика и интент
Поведенческие сигналы
Персонализация

Как Google анализирует распределение качества входящих ссылок для классификации и понижения сайтов в выдаче

Google использует систему для оценки качества ссылочного профиля сайта. Система фильтрует входящие ссылки (удаляя шаблонные и дублирующиеся с одного домена), группирует оставшиеся по качеству источника (например, Vital, Good, Bad) и вычисляет взвешенный «Link Quality Score». Если доля низкокачественных ссылок слишком велика, сайт классифицируется как низкокачественный и понижается в результатах поиска.

US9002832B1
2015-04-07

Ссылки
Антиспам
SERP

Как Google использует позиционный CTR (Selection Rate) для ранжирования и группировки вертикалей в Универсальном поиске

Google использует механизм для структурирования поисковой выдачи путем группировки результатов по категориям (вертикалям), таким как Новости, Видео или Веб. Система определяет порядок этих категорий, основываясь на ожидаемой частоте кликов (Selection Rate/CTR) тех позиций, которые занимают результаты категории в исходном смешанном ранжировании. Это определяет структуру Универсального поиска (Universal Search).

US8498984B1
2013-07-30

SERP
Поведенческие сигналы

Как Google персонализирует поисковую выдачу, анализируя историю кликов и поведение пользователя на сайте

Google использует механизм для персонализации поисковой выдачи на основе истории взаимодействия пользователя с результатами поиска. Система отслеживает, какие сайты пользователь выбирает, как долго он на них остается (Dwell Time), частоту и контекст выбора. Основываясь на этих данных, предпочитаемые пользователем ресурсы повышаются в ранжировании при его последующих запросах.

US9037581B1
2015-05-19

Персонализация
Поведенческие сигналы
SERP

Как Google использует историю поиска, поведение и многофакторные профили пользователей для персонализации поисковой выдачи

Google создает детальные профили пользователей на основе истории запросов, взаимодействия с результатами (клики, время просмотра) и анализа контента посещенных страниц. Эти профили (включающие интересы по терминам, категориям и ссылкам) используются для корректировки стандартных оценок ранжирования. Степень персонализации динамически регулируется уровнем уверенности системы в профиле (Confidence Score).

US9298777B2
2016-03-29

Персонализация
Поведенческие сигналы
SERP