Как Google использует многоэтапное ранжирование и автоматическое расширение запросов для повышения релевантности выдачи

MULTI-STAGE QUERY PROCESSING SYSTEM AND METHOD FOR USE WITH TOKENSPACE REPOSITORY (Многоэтапная система и метод обработки запросов для использования с репозиторием токенов)

US8407239B2
Google LLC
2004-08-13
2013-03-26

Семантика и интент

Google использует многоэтапную систему ранжирования для эффективной оценки сложных сигналов, таких как близость терминов, атрибуты (заголовки, шрифты) и контекст. Система также автоматически анализирует топовые результаты, чтобы найти дополнительные термины для расширения исходного запроса (Relevance Feedback), улучшая релевантность в последующих итерациях поиска.

Какую проблему решает

Патент решает фундаментальную проблему баланса между использованием сложных методов оценки релевантности и необходимостью поддерживать высокую скорость поиска. Сложные техники скоринга (например, анализ контекста термина) часто требуют частичной реконструкции документов, что увеличивает задержку (latency). Изобретение позволяет применять эти техники эффективно, минимизируя влияние на производительность за счет многоэтапной обработки и использования специализированного сжатого репозитория (Tokenspace Repository).

Что запатентовано

Запатентована архитектура многоэтапной обработки запросов (Multi-Stage Query Processing System). Она позволяет инкрементально вычислять оценки релевантности, применяя все более сложные и вычислительно дорогие сигналы на progressively уменьшающихся наборах документов-кандидатов. Ключевым элементом является механизм автоматического расширения запроса (Query Expansion) на основе обратной связи по релевантности (Relevance Feedback), полученной путем анализа топовых результатов предыдущей итерации поиска.

Как это работает

Система работает как каскад фильтров и скоринговых модулей:

Этап 1: Быстрый базовый отбор документов и расчет первичной оценки (S1) на основе частоты терминов и популярности документа.
Этап 2: Переоценка на основе близости (Proximity) терминов запроса в документе (S2).
Этап 3: Переоценка на основе атрибутов (Attributes) терминов, таких как расположение (заголовок, метаданные) или форматирование (шрифт) (S3).
Этап 4: Анализ контекста и генерация сниппетов путем частичной реконструкции документа из Tokenspace Repository (S4).
Обратная связь: Результаты (особенно сниппеты) анализируются для выявления новых терминов расширения запроса. Расширенный запрос может быть обработан повторно (многопроходная система) для улучшения релевантности.

Актуальность для SEO

Высокая. Многоэтапное (каскадное) ранжирование является фундаментальной архитектурой современных поисковых систем (L1, L2, L3 Ranking). Механизмы использования близости терминов, структурных атрибутов и автоматического расширения запросов остаются критически важными компонентами поиска Google. Изобретатели (Dean, Singhal, Haahr) являются ключевыми фигурами в развитии архитектуры Google.

Важность для SEO

Патент имеет критическое значение для понимания архитектуры ранжирования Google. Он описывает конкретные механизмы, лежащие в основе оценки близости ключевых слов, важности структурных элементов (заголовки, выделенный текст) и того, как Google может автоматически расширять запросы, анализируя контент топовых страниц. Это напрямую влияет на стратегии контентной оптимизации и построения Topical Authority.

Термины и определения

Attribute Table (Таблица атрибутов): Структура данных, хранящая атрибуты для каждого токена в документе (например, шрифт, расположение в заголовке, метаданные). Используется на Этапе 3 ранжирования.
GTokenID (Global Token Identifier): Уникальный идентификатор, присваиваемый каждому уникальному токену во всем корпусе документов. Определяется в Global Lexicon.
Global Lexicon (Глобальный лексикон): Словарь, содержащий все уникальные токены корпуса и их GTokenIDs.
LTokenID (Local Token Identifier): Локальный идентификатор токена, используемый в Mini-Lexicon. Обычно имеет меньший размер (например, 1 байт), чем GTokenID, и используется для сжатия.
Mini-Lexicon (Мини-лексикон): Локальный словарь, используемый для кодирования/декодирования определенного диапазона позиций в Tokenspace Repository. Содержит соответствие между LTokenIDs и GTokenIDs.
Multi-Stage Query Processing (Многоэтапная обработка запросов): Архитектура ранжирования, в которой документы проходят через последовательные этапы оценки, причем каждый последующий этап использует более сложные сигналы на меньшем наборе кандидатов.
Query Expansion (Расширение запроса): Процесс добавления дополнительных терминов (например, синонимов или связанных понятий) к исходному запросу для улучшения релевантности результатов.
Relevance Feedback (Обратная связь по релевантности): Механизм, который анализирует результаты поиска (часто топовые результаты, считающиеся релевантными) для автоматической генерации терминов расширения запроса.
Snippet (Сниппет): Небольшой фрагмент текста из документа, обычно включающий текст вокруг ключевых слов запроса. Генерируется на Этапе 4.
Token (Токен): Объект в документе (слово, фраза, пунктуация, HTML-тег), являющийся базовой единицей индексирования и поиска.
Tokenspace Repository (Репозиторий токенов): Сжатое хранилище всего корпуса документов в токенизированном виде. Документы хранятся как последовательность закодированных токенов (например, LTokenIDs).
Tokenspace Inverse Index (Инвертированный индекс токенов): Структура данных, которая отображает GTokenIDs на их позиции в Tokenspace Repository.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает метод многоэтапной обработки запроса с автоматическим расширением.

Первый этап обработки:
- Получение из индекса списка позиций токенов (list of token positions) для терминов запроса.
- Получение первого набора идентификаторов документов (DocIDs).
- Генерация первого набора оценок релевантности (S1).
Второй этап обработки:
- Генерация второго набора оценок релевантности (S2) для документов из первого набора. Оценка базируется на одном или нескольких факторах: списке позиций токенов, расстояниях между терминами запроса (Proximity), атрибутах токенов (Attributes) ИЛИ контексте использования термина (Context).
- Выбор подмножества документов на основе S2.
Автоматическое расширение запроса:
- Автоматическая генерация одного или нескольких новых терминов расширения запроса (new query expansion terms) на основе документов из выбранного подмножества.
Генерация нового запроса:
- Генерация нового выражения запроса на основе исходного запроса и терминов расширения для повторной обработки (как минимум, первым этапом) с целью получения второго набора DocIDs.

Ядром изобретения является не только многоэтапное ранжирование, но и интеграция автоматической обратной связи по релевантности (Relevance Feedback), где анализ топовых результатов первой итерации используется для расширения и повторного выполнения запроса.

Claim 5 (Зависимый от 1): Уточняет механизм генерации терминов расширения.

Во время второго этапа обработки генерируются сниппеты для одного или нескольких документов из подмножества. Новые термины расширения запроса генерируются автоматически на основе этих сниппетов.

Где и как применяется

Патент описывает архитектуру, затрагивающую практически все ключевые этапы поиска.

INDEXING – Индексирование и извлечение признаков
На этом этапе происходит предварительная обработка корпуса: генерация Global Lexicon и Mini-Lexicons, кодирование документов в Tokenspace Repository, создание Tokenspace Inverse Index и извлечение атрибутов для Attribute Table.

QUNDERSTANDING – Понимание Запросов
Query Parser и Query Expander работают на этом этапе, преобразуя запрос пользователя в GTokenIDs и формируя дерево запроса (Query Tree). Механизм Relevance Feedback также влияет на этот этап, предоставляя новые термины для расширения запроса на второй итерации.

RANKING – Ранжирование
Основное применение патента. Описанная многоэтапная система реализует каскадное ранжирование:

L1/L2 (Отбор и Легковесное ранжирование): Соответствует Этапу 1 (First Stage Query Processor). Быстрый отбор кандидатов и базовый скоринг (S1).
L2/L3 (Глубокое ранжирование): Соответствует Этапам 2, 3 и 4. Применение более сложных сигналов (Proximity, Attributes, Context) к отобранным кандидатам для точного ранжирования (S2, S3, S4).

RERANKING – Переранжирование
Финальный выбор Топ-Z документов и генерация сниппетов (Этап 4) могут рассматриваться как часть финального ранжирования или переранжирования перед показом пользователю.

Входные данные:

Запрос пользователя.
Global Lexicon.
Tokenspace Inverse Index.
DocID Map.
Attribute Table.
Tokenspace Repository и Mini-Lexicons (для Этапа 4).

Выходные данные:

Отсортированный список DocIDs с финальными оценками релевантности.
Сниппеты для топовых документов.
(Внутренне) Термины расширения запроса для следующей итерации.

На что влияет

Это архитектурный патент, поэтому он влияет на обработку всех типов контента и запросов.

Специфические запросы: Наибольшее влияние оказывается на запросы, где релевантность сильно зависит от близости терминов (например, фразовые запросы), структуры документа или контекста, а также на неоднозначные запросы, которые выигрывают от автоматического расширения.
Определенные форматы контента: Влияет на контент, где структурные элементы (заголовки, выделения) играют важную роль в определении значимости терминов (Этап 3).

Когда применяется

Многоэтапное ранжирование: Применяется при обработке большинства запросов для эффективного расчета сложных сигналов. Система последовательно сокращает набор кандидатов на каждом этапе (Top X, Top Y, Top Z).
Многопроходная обработка (Relevance Feedback): Может применяться универсально или активироваться для определенных типов запросов. Система выполняет как минимум два прохода: первый для генерации терминов расширения, второй – для финального ранжирования расширенного запроса.

Пошаговый алгоритм

Описан процесс многопроходной обработки запроса.

Проход 1 (Генерация расширения)

Парсинг запроса: Исходный запрос токенизируется Query Parser и преобразуется в GTokenIDs с помощью Global Lexicon.
Первичное расширение: Query Expander формирует первичное дерево запроса (Query Tree).
Этап 1 (Базовый отбор и S1): First Stage Query Processor использует Inverse Index и DocID Map для поиска документов. Рассчитывается S1 (частота, популярность).
Этап 2 (Proximity и S2): Second Stage Query Processor анализирует позиции токенов для оценки близости терминов. Рассчитывается S2. Выбираются Топ-X документов.
Этап 3 (Attributes и S3): Third Stage Query Processor использует Attribute Table для оценки значимости терминов (заголовки, шрифты). Рассчитывается S3. Выбираются Топ-Y документов.
Этап 4 (Context, Snippets и S4): Fourth Stage Query Processor выполняет частичную реконструкцию Топ-Y документов из Tokenspace Repository. Генерируются "длинные сниппеты" (Long Snippets) для анализа контекста. Рассчитывается S4.
Обратная связь по релевантности: Relevance Feedback Module анализирует "длинные сниппеты" и документы для идентификации новых терминов расширения запроса.

Проход 2 (Финальное ранжирование)

Расширение запроса: Query Expander обновляет Query Tree, добавляя новые термины из Прохода 1.
Этапы 1-3: Повторное выполнение Этапов 1, 2 и 3 для расширенного запроса. Генерация обновленных оценок S1, S2, S3.
Этап 4 (Финальный скоринг и сниппеты): Повторное выполнение Этапа 4. Генерация финальных оценок S4 и "коротких сниппетов" (Short Snippets), пригодных для показа пользователю.
Вывод результатов: Предоставление отсортированного списка документов и сниппетов пользователю.

Какие данные и как использует

Данные на входе

Патент фокусируется на архитектуре обработки и явно упоминает использование следующих данных для ранжирования:

Контентные и Структурные факторы (Attributes): Система использует Attribute Table, которая содержит информацию о расположении токена (Title, Heading, Metadata) и его форматировании (Font attributes, Bold, Underlined). Это напрямую используется на Этапе 3.
Технические факторы (Позиции токенов): Позиции токенов в Tokenspace Repository являются основой для расчета близости (Proximity) на Этапе 2 и для реконструкции контекста на Этапе 4.
Поведенческие факторы (Популярность): Упоминается, что Этап 1 может использовать популярность документов (popularity of the documents), что может включать независимую от запроса оценку важности документа (например, PageRank или аналогичные метрики).

Какие метрики используются и как они считаются

Система рассчитывает несколько наборов оценок релевантности (Relevancy Scores) инкрементально:

S1 (Базовая релевантность): Рассчитывается на Этапе 1. Факторы: наличие термина, частота термина (term frequency), популярность документа.
S2 (Proximity Score): Рассчитывается на Этапе 2. Основана на близости или относительных позициях терминов запроса в документе. Документы, где термины расположены ближе друг к другу, получают более высокую оценку.
S3 (Attribute Score): Рассчитывается на Этапе 3. Основана на атрибутах терминов. Термины в важных позициях (Title, Headings) или с определенным форматированием получают больший вес.
S4 (Context Score): Рассчитывается на Этапе 4. Основана на анализе контекста вокруг терминов запроса после частичной реконструкции документа.

Агрегация данных: Патент указывает, что последующие оценки могут быть получены путем корректировки предыдущих оценок (например, S2 может быть получена путем корректировки S1 с учетом факторов Этапа 2).

Методы анализа (Relevance Feedback): Для генерации терминов расширения используются алгоритмы обратной связи по релевантности (например, pseudo-relevance feedback algorithms), которые анализируют контент (в частности, сниппеты) топовых документов.

Каскадное ранжирование как основа эффективности: Патент подтверждает, что Google использует многоэтапную архитектуру для баланса скорости и качества. Сложные сигналы применяются только к небольшому набору лучших кандидатов, отобранных на предыдущих этапах.
Явное выделение Proximity, Attributes и Context как этапов ранжирования: Близость ключевых слов (Этап 2), структурные и визуальные атрибуты (Этап 3, например, заголовки, выделение текста) и контекст окружения (Этап 4) являются отдельными, последовательными слоями оценки релевантности.
Критическая роль автоматического расширения запросов (Relevance Feedback): Система активно использует механизм автоматического анализа топовых результатов (в частности, сниппетов) для поиска дополнительных терминов и повторного выполнения запроса (многопроходная система).
Влияние Топа на Понимание Запроса: Механизм Relevance Feedback означает, что контент страниц, находящихся в топе выдачи, напрямую влияет на то, как Google понимает и расширяет запрос для всех пользователей. Топовые сайты "обучают" систему связанным терминам.
Эффективный доступ к данным: Архитектура полагается на специализированные структуры данных (Tokenspace Repository, Attribute Table) для быстрого доступа к информации о позициях, атрибутах и контексте без полной декомпрессии документов.

Best practices (это мы делаем)

Оптимизация под близость терминов (Proximity - Этап 2): Размещайте ключевые слова и связанные с ними сущности близко друг к другу в тексте. Структурируйте предложения так, чтобы семантически связанные понятия находились в непосредственной близости.
Использование структурных и визуальных атрибутов (Attributes - Этап 3): Активно используйте иерархию заголовков (H1-H6), Title и метаданные для размещения ключевых терминов. Патент подтверждает, что система отдельно оценивает значимость терминов на основе их расположения и форматирования (например, выделение жирным).
Оптимизация контекста и сниппетов (Context - Этап 4): Убедитесь, что текст, окружающий ключевые слова, является максимально релевантным и описательным. Это влияет как на оценку S4, так и на качество генерируемого сниппета.
Влияние на расширение запросов (Relevance Feedback): Стремитесь к достижению топовых позиций, чтобы ваш контент участвовал в формировании терминов расширения запроса. Используйте богатый, семантически разнообразный словарь, включающий синонимы и связанные термины, чтобы "научить" систему правильным ассоциациям.
Построение Topical Authority: Создание контента, который всесторонне охватывает тему, увеличивает вероятность того, что система идентифицирует релевантные термины расширения на вашем сайте, укрепляя ваше ранжирование по широкому спектру связанных запросов.

Worst practices (это делать не надо)

Keyword Stuffing без учета структуры и близости: Простое повторение ключевых слов малоэффективно, так как Этапы 2 и 3 анализируют взаиморасположение терминов и их структурную значимость.
Игнорирование структуры документа: Создание "плоского" текста без четкой иерархии заголовков и семантического форматирования снижает потенциал ранжирования на Этапе 3 (Attribute Scoring).
Нерелевантный контекст: Размещение ключевых слов в окружении текста, не связанного с основной темой, может негативно сказаться на оценке S4 (Context Scoring) и привести к генерации нерелевантных сниппетов.

Стратегическое значение

Патент подчеркивает стратегическую важность комплексного подхода к оптимизации контента, выходящего за рамки простого включения ключевых слов. Он подтверждает, что структура документа, взаимосвязь между терминами и общий контекст являются отдельными, измеримыми сигналами ранжирования. Кроме того, механизм автоматического расширения запросов демонстрирует, что SEO – это не только соответствие запросу, но и влияние на его интерпретацию системой через качественный контент в топе выдачи.

Практические примеры

Сценарий: Оптимизация страницы категории E-commerce

Применение принципов патента для страницы категории "Беспроводные наушники для спорта".

Этап 2 (Proximity): Убедиться, что термины "беспроводные", "наушники" и "спорт" часто встречаются в непосредственной близости друг от друга во вводном тексте и описаниях товаров.
Этап 3 (Attributes): Разместить основное ключевое слово в Title и H1. Использовать H2 для подкатегорий (например, "Лучшие влагозащищенные наушники для бега"). Выделять ключевые характеристики товаров (например, время работы батареи) жирным шрифтом в списках.
Этап 4 (Context/Snippets): Для каждого товара предоставить краткое, емкое описание, которое сформирует качественный сниппет, четко объясняющий преимущества модели для спортивного использования.
Relevance Feedback: Включить в текст связанные термины, которые система может использовать для расширения запроса: "TWS", "Bluetooth 5.2", "влагозащита IPX7", "надежная посадка", "звукоизоляция". Если страница попадет в топ, эти термины могут быть автоматически добавлены к исходному запросу пользователя на второй итерации поиска.

Что такое многоэтапное ранжирование, описанное в патенте?

Это архитектура, в которой процесс ранжирования разбит на несколько последовательных этапов (в патенте описано 4). На каждом следующем этапе используются более сложные и дорогие для вычисления сигналы, но они применяются к меньшему набору документов, отобранных на предыдущем этапе. Это позволяет Google использовать сложные факторы ранжирования, сохраняя высокую скорость поиска.

Какие конкретно факторы ранжирования используются на разных этапах?

Патент явно выделяет: Этап 1 – базовая релевантность (частота терминов, популярность документа). Этап 2 – Близость (Proximity) терминов запроса друг к другу в документе. Этап 3 – Атрибуты (Attributes) терминов (расположение в Title/Headings, форматирование шрифта). Этап 4 – Контекст (Context) вокруг терминов.

Как работает оценка близости (Proximity) на Этапе 2?

Система анализирует позиции токенов, полученные из инвертированного индекса. Документы, в которых термины запроса расположены ближе друг к другу (например, идут подряд или в одном предложении), получают более высокую оценку S2, чем документы, где эти термины разбросаны далеко друг от друга. Для SEO это означает важность размещения связанных понятий рядом.

Что такое "Атрибуты" на Этапе 3 и как они влияют на SEO?

Атрибуты – это характеристики токенов, хранящиеся в отдельной Attribute Table. Они включают местоположение (Title, Heading, Metadata) и форматирование (Bold, Underline, Font Size). На Этапе 3 система повышает вес терминов, находящихся в важных структурных элементах. Это подтверждает критическую важность оптимизации заголовков и использования семантической разметки.

Что такое автоматическое расширение запроса (Automatic Query Expansion) в этом патенте?

Это ключевой механизм, также известный как Relevance Feedback. Система анализирует топовые документы (и их сниппеты), полученные на первой итерации поиска, чтобы найти дополнительные связанные термины. Затем она автоматически добавляет эти термины к исходному запросу и выполняет поиск повторно (второй проход), чтобы улучшить релевантность выдачи.

Как мой сайт может повлиять на автоматическое расширение запросов?

Если ваш сайт находится в топе выдачи, его контент (особенно сниппеты) используется системой для "обучения" тому, какие термины связаны с исходным запросом. Используя богатый словарь, синонимы и релевантные сущности, вы можете способствовать тому, что система начнет ассоциировать эти термины с основным запросом, что укрепит ваши позиции.

Что такое Tokenspace Repository и зачем он нужен?

Это высоко сжатое хранилище всего корпуса документов в токенизированном виде. Он используется на Этапе 4 для быстрой частичной реконструкции документа (например, для анализа контекста и генерации сниппета) без необходимости загружать и распаковывать исходный документ целиком.

Означает ли этот патент, что Google выполняет каждый запрос дважды?

Да, архитектура предполагает многопроходную обработку (как минимум два прохода) для реализации механизма Relevance Feedback. Первый проход используется для анализа топовых результатов и генерации терминов расширения, а второй проход выполняет ранжирование уже расширенного запроса для предоставления финальных результатов пользователю.

Насколько важен контекст (Этап 4) для ранжирования?

Контекст является финальным этапом глубокого ранжирования (S4). Система анализирует текст, непосредственно окружающий ключевые слова. Это означает, что оптимизация должна включать не только сами ключевые слова, но и их окружение, чтобы обеспечить максимальную релевантность и качество сниппета.

Актуальна ли эта архитектура, учитывая развитие нейронных сетей (BERT, MUM)?

Архитектура многоэтапного ранжирования остается фундаментально актуальной. Современные нейронные сети (как правило, более медленные) интегрируются на поздних этапах ранжирования (L2/L3), что соответствует Этапам 3 или 4 в этом патенте. Они применяются к меньшему набору кандидатов, отобранных на ранних этапах, что полностью соответствует принципам, описанным в данном изобретении.

Как Google объединяет разные стратегии и поведенческие данные для генерации и выбора лучших альтернативных запросов

Google использует архитектуру, которая одновременно применяет множество стратегий (расширение, уточнение, синтаксис, анализ сессий) для генерации альтернативных запросов. Система оценивает качество этих вариантов с помощью показателей уверенности, основанных на поведении пользователей (например, длительности кликов) и критериях разнообразия. Лучшие альтернативы предлагаются пользователю, часто с превью результатов, чтобы помочь уточнить поиск.

US7565345B2
2009-07-21

Поведенческие сигналы
SERP

Как Google использует данные веб-поиска для распознавания сущностей в специализированных вертикалях (на примере поиска медиаконтента)

Google использует двухэтапный процесс для ответа на описательные запросы в специализированных поисках (например, поиск фильмов по сюжету). Сначала система ищет информацию в основном веб-индексе, анализирует топовые результаты для выявления релевантных сущностей (названий фильмов), а затем использует эти сущности для поиска в специализированной базе данных.

US9063984B1
2015-06-23

Семантика и интент
Мультимедиа
Индексация

Как Google может генерировать альтернативные запросы из контента страниц и встраивать их в сниппеты

Google использует механизм для помощи пользователям в уточнении их поискового намерения. Система анализирует текст веб-страниц в результатах поиска и находит фразы, похожие на исходный запрос или характеризующие документ. Эти фразы затем встраиваются непосредственно в сниппеты как кликабельные предложения для нового поиска, облегчая навигацию и уточнение запроса.

US9183323B1
2015-11-10

Семантика и интент
SERP

Как Google оптимизирует поиск документов в закрытых системах для юридических задач (E-Discovery)

Патент описывает систему для автоматического улучшения поисковых запросов в контексте юридического обнаружения (E-Discovery). Система использует обучающую выборку документов, размеченных юристами как релевантные/нерелевантные, для итеративного уточнения запроса (комбинации ключевых слов и булевых операторов), максимизируя количество найденных релевантных документов и минимизируя нерелевантные. Патент не относится к публичному веб-поиску.

US8583669B2
2013-11-12

Как Google анализирует оглавления и визуальную верстку для понимания структуры документа и повышения веса заголовков в ранжировании

Google использует технологию для автоматического определения оглавления (TOC) в цифровых документах (книгах, PDF). Система извлекает названия разделов из TOC и сопоставляет их с заголовками в основном тексте, используя машинное обучение, анализ шрифта и верстки, а также ограничения порядка. Это позволяет Google понять структуру документа и увеличить вес ранжирования для идентифицированных заголовков разделов.

US8549008B1
2013-10-01

Индексация
Техническое SEO

Как Google использует историю поиска, поведение и многофакторные профили пользователей для персонализации поисковой выдачи

Google создает детальные профили пользователей на основе истории запросов, взаимодействия с результатами (клики, время просмотра) и анализа контента посещенных страниц. Эти профили (включающие интересы по терминам, категориям и ссылкам) используются для корректировки стандартных оценок ранжирования. Степень персонализации динамически регулируется уровнем уверенности системы в профиле (Confidence Score).

US9298777B2
2016-03-29

Персонализация
Поведенческие сигналы
SERP

Как Google использует визуальные цитаты и обратную связь для генерации и уточнения ответов в мультимодальном поиске

Google генерирует ответы на мультимодальные запросы (изображение + текст), находя визуально похожие изображения в интернете и используя текст с их исходных страниц как основу для LLM. Система показывает эти изображения как «визуальные цитаты» для подтверждения ответа и позволяет пользователям исключать нерелевантные источники, чтобы мгновенно уточнить сгенерированный результат.

US20240378236A1
2024-11-14

Мультимедиа
EEAT и качество
Ссылки

Как Google динамически изменяет вес синонимов в ранжировании на основе поведения пользователей

Google не присваивает фиксированный вес синонимам (замещающим терминам) при ранжировании. Вес синонима динамически корректируется для каждого документа в зависимости от того, насколько релевантен исходный термин запроса этому документу. Эта релевантность определяется на основе поведенческих данных (клики, время просмотра), что позволяет точнее интерпретировать значение синонимов в контексте конкретной страницы.

US9116957B1
2015-08-25

Поведенческие сигналы
Семантика и интент
SERP

Как Google использует интерактивные визуальные цитаты для генерации и уточнения ответов в мультимодальном поиске (SGE/Lens)

Google использует механизм для улучшения точности ответов, генерируемых LLM в ответ на мультимодальные запросы (изображение + текст). Система находит визуально похожие изображения, извлекает текст из их источников и генерирует ответ. Этот ответ сопровождается «визуальными цитатами» (исходными изображениями). Если пользователь видит, что цитата визуально не соответствует запросу, он может её отклонить. Система удалит текст этого источника и перегенерирует ответ, повышая его точность.

US20240378237A1
2024-11-14

Мультимедиа
EEAT и качество
Семантика и интент

Как Google рассчитывает оценку авторитетности сайта, используя соотношение Независимых Ссылок и Брендовых Запросов

Google рассчитывает метрику авторитетности для веб-сайтов на основе соотношения количества независимых входящих ссылок к количеству брендовых (референсных) запросов. Сайты, имеющие много независимых ссылок относительно их поисковой популярности, получают преимущество. Напротив, популярные сайты с недостаточным количеством внешних ссылок могут быть понижены в ранжировании по общим запросам.

US8682892B1
2014-03-25

Ссылки
EEAT и качество
SERP

Как Google персонализирует поиск, повышая в выдаче объекты, которые пользователь ранее явно отметил как интересные

Google использует механизм персонализации поисковой выдачи. Если пользователь явно отметил определенный объект (например, место, компанию, веб-страницу) как интересующий его, этот объект получит значительное повышение в ранжировании при последующих релевантных запросах этого пользователя. Уровень повышения зависит от степени интереса, указанной пользователем.

US20150242512A1
2015-08-27

Персонализация
Поведенческие сигналы
SERP

Как Google автоматически выбирает категории и контент для страниц сущностей, комбинируя данные о поведении пользователей и Knowledge Graph

Google использует механизм для автоматического создания страниц о сущностях (например, о фильмах или персонажах). Система определяет, какие категории (свойства) сущности наиболее интересны пользователям, сравнивая данные из Knowledge Graph с данными о том, что пользователи ищут или смотрят вместе с этой сущностью. Затем она наполняет эти категории популярным контентом.

US11036743B2
2021-06-15

Knowledge Graph
Семантика и интент
Поведенческие сигналы

Как Google обучается на поведении пользователя для персонализации весов источников в поисковой выдаче

Google использует сигналы интереса пользователя (клики, время просмотра) для динамической корректировки весов различных источников данных (например, ключевых слов, тем, типов контента). Система определяет, какие источники наиболее полезны для конкретного пользователя, и повышает их значимость при ранжировании последующих результатов поиска, тем самым персонализируя выдачу.

US8631001B2
2014-01-14

Персонализация
Поведенческие сигналы
SERP

Как Google позволяет вебмастерам управлять весом и интерпретацией исходящих ссылок через атрибуты тега (Основа nofollow)

Google запатентовал механизм, позволяющий вебмастерам добавлять в теги ссылок () специальные пары "параметр=значение" (например, rel=nofollow или linkweight=0.5). Эта информация используется краулером и поисковой системой для изменения способа обработки ссылки, например, для корректировки передаваемого веса (PageRank) или блокировки ее учета.

US7979417B1
2011-07-12

Ссылки
Краулинг
Техническое SEO

Как Google использует данные о поведении пользователей внутри документов (время чтения разделов, закладки) для улучшения ранжирования

Google может собирать и анализировать данные о том, как пользователи взаимодействуют с электронными документами (например, PDF, DOC, HTML). Система отслеживает, какие разделы или страницы просматриваются дольше всего или добавляются в закладки. Эта агрегированная информация используется для повышения в ранжировании документов, чьи ключевые слова находятся в наиболее используемых (и, следовательно, ценных) разделах.

US8005811B2
2011-08-23

Поведенческие сигналы
SERP