Как Google анализирует, извлекает и ранжирует данные из таблиц для формирования Featured Snippets

PROVIDING INFORMATION RELATED TO A TABLE OF A DOCUMENT IN RESPONSE TO A SEARCH QUERY (Предоставление информации, связанной с таблицей документа, в ответ на поисковый запрос)

US20190065502A1
Google LLC
2015-04-21
2019-02-28

Google использует систему для идентификации таблиц с упорядоченными данными (рейтингами) на веб-страницах. Система анализирует структуру таблицы и контекст страницы (заголовки, окружающий текст, прошлые запросы), чтобы понять, что именно и по какому критерию ранжируется. Если исходная страница уже занимает высокие позиции, Google может извлечь данные из таблицы и показать их непосредственно в выдаче в виде Featured Snippet, отвечая на запросы о рейтингах и сравнениях.

Какую проблему решает

Патент решает задачу предоставления прямых, структурированных ответов на запросы, подразумевающие упорядоченный список или рейтинг (например, «самые высокие горы», «лучшие ноутбуки»). Система стремится извлечь этот структурированный ответ (ordered collection of information) непосредственно из таблиц, содержащихся в веб-документах, и представить его пользователю в выдаче, особенно в ответ на superlative queries (запросы в превосходной степени).

Что запатентовано

Запатентована система и метод для идентификации, семантического анализа и ранжирования таблиц в документах. Система определяет ключевые признаки таблицы (Subject, Attribute, Modifier, Superlative), используя как содержимое самой таблицы, так и контекст документа (например, заголовок страницы). Извлечение данных для показа (например, в Featured Snippet) происходит преимущественно из тех документов, которые уже высоко ранжируются по данному запросу.

Как это работает

Система работает в двух основных режимах:

Индексирование (Offline): Table Information Engine анализирует документы, находит таблицы и определяет, содержат ли они упорядоченные данные (например, по наличию отсортированных колонок). Он извлекает семантические признаки, анализируя структуру таблицы и её контекст (заголовок страницы, текст рядом, исторические запросы, ведущие на страницу). Данные сохраняются в базе Table Information Database.
Ранжирование (Online): При получении запроса система определяет высокоранжируемые документы. Затем Table Ranking Engine проверяет, содержат ли эти топовые документы релевантные таблицы, сопоставляя запрос с сохраненными признаками. Если найдено соответствие и таблица набирает достаточный relevance score, система извлекает данные (потенциально фильтруя или переупорядочивая строки/столбцы) и отображает их заметно (prominently) в выдаче.

Актуальность для SEO

Критически высокая. Описанный механизм напрямую соответствует функциональности Table Featured Snippets в Google. Извлечение структурированных данных из таблиц для прямого ответа на запрос является ключевым направлением развития поиска. Это фундаментальный патент для понимания работы с табличными данными в SEO.

Важность для SEO

Влияние на SEO критическое (90/100). Патент детально описывает механизм, позволяющий занять «нулевую позицию» (Featured Snippet) за счет табличных данных. Он раскрывает, как Google интерпретирует таблицы и какой вес имеет контекст страницы. Понимание этого процесса позволяет оптимизировать контент для прямого извлечения. Патент также подчеркивает, что для активации механизма страница-источник уже должна занимать высокие позиции (например, Топ-10).

Термины и определения

Additional Content (Дополнительный контент): Контент, внешний по отношению к самой таблице. Используется для определения признаков таблицы. Включает контент того же документа (Title, заголовки Hn, подписи, текст рядом с таблицей) и внешние данные (например, исторические запросы).
Attribute (Атрибут): Мера, по которой сущности (Subject) отсортированы или ранжированы в таблице (например, «Высота», «Цена»).
Modifier (Модификатор): Ограничение или категория субъекта (например, «Калифорния» для гор). Может быть извлечен из контекста документа или из столбцов категорий (Category Column) в таблице.
Ordered Collection of Information (Упорядоченная коллекция информации): Данные, извлеченные из таблицы документа и отформатированные для показа в результатах поиска (Featured Snippet). Обычно это подмножество строк и столбцов исходной таблицы.
Query Information for Documents (Информация о запросах для документов): База данных, связывающая документы с запросами, по которым на эти документы кликали пользователи в прошлом. Используется для лучшего понимания семантики таблиц.
Sorted Measure Column (Отсортированный столбец с мерой): Столбец в таблице, содержащий отсортированные числовые значения. Его наличие является сильным сигналом упорядоченности данных.
Subject (Субъект): Тип сущностей (entity type), которые ранжируются в таблице (например, «Гора», «Ноутбук»).
Superlative (Превосходная степень): Признак, указывающий на тип ранжирования (например, «Самый высокий», «Лучший»). Superlative query – запрос, содержащий такие термины.
Table Information Engine: Компонент системы (работает офлайн), отвечающий за анализ документов, идентификацию таблиц и определение их семантических признаков.
Table Ranking Engine: Компонент системы (работает онлайн), который выбирает наиболее релевантные таблицы из высокоранжируемых документов, рассчитывает их relevance score и извлекает данные для выдачи.

Ключевые утверждения (Анализ Claims)

Патент содержит несколько независимых пунктов, описывающих различные варианты реализации (embodiments).

Claim 1 (Независимый пункт): Описывает основной процесс обработки запроса, где ранг документа основан на контенте ВНЕ таблицы.

Система получает поисковый запрос.
Идентифицируются и ранжируются релевантные документы. Ранжирование данной веб-страницы основано на сравнении запроса с контентом страницы, который находится вне таблицы (additional content that is external to the table).
Проверяется критическое условие: входит ли данная веб-страница в пороговое количество (threshold quantity) самых высокоранжируемых документов (указано 10 или менее).
Если ДА, то для таблицы на этой странице вычисляется relevance score. Эта оценка основана на сравнении запроса с содержимым внутри таблицы (table content).
Принимается решение о предоставлении ordered collection of information. Это решение базируется на двух факторах: (а) relevance score таблицы и (б) высоком ранге исходной веб-страницы.
Система предоставляет извлеченные данные, отображая их более заметно (more prominently), чем стандартные результаты.
Извлеченные данные включают только подмножество (subset) столбцов и строк исходной таблицы.

Claim 17 (Независимый пункт): Описывает процесс индексирования таблиц и их последующее использование.

(Индексирование): Система идентифицирует таблицу, определяет Subject и Attribute. Ключевой момент: определение Attribute (меры сортировки) основано на контенте вне таблицы (Claim 17).

(Обработка запроса): Повторяет логику Claim 1 (проверка высокого ранга страницы, сопоставление запроса с сохраненными Subject и Attribute, расчет relevance score и показ извлеченных данных).

Claim 24 (Независимый пункт): Описывает альтернативный вариант реализации, где ранг документа основан на контенте ВНУТРИ таблицы.

Система получает запрос.
Документы ранжируются. В этом варианте ранжирование данной веб-страницы основано на сравнении запроса с содержимым внутри таблицы (table content).
Проверяется условие: является ли страница самой высокоранжируемой (the highest ranked – т.е. Топ-1).
Если ДА, вычисляется relevance score таблицы.
Решение о показе принимается на основе relevance score и того факта, что страница занимает первое место.

Claim 8 и 9 (Зависимые от 1): Уточняют процесс динамической адаптации данных.

Система может изменять порядок строк (Claim 8) или фильтровать строки (Claim 9) в извлеченной коллекции, если запрос содержит Modifier (ограничение/категорию), соответствующий данным в таблице.

Где и как применяется

Изобретение является мостом между индексированием контента и формированием специальных форматов выдачи (Featured Snippets).

INDEXING – Индексирование и извлечение признаков
Это основной этап для офлайн-анализа таблиц. Table Information Engine работает здесь. Он анализирует структуру HTML-таблиц, контекст документа (Additional Content) и исторические данные запросов (Query Information for Documents), чтобы извлечь семантические признаки (Subject, Attribute и т.д.). Результаты сохраняются в Table Information Database.

QUNDERSTANDING – Понимание Запросов
Система распознает запрос как ищущий упорядоченный список (например, идентифицирует superlative query) и разбирает его на компоненты (искомый Субъект, Атрибут, Модификаторы).

RANKING – Ранжирование
Стандартный Document Ranking Engine определяет ранг страницы-источника. Согласно патенту (Claims 1, 17, 24), этот ранг является необходимым условием (gatekeeper). Таблицы рассматриваются только из документов, попавших в Топ-N (Топ-10 или Топ-1).

METASEARCH – Метапоиск и Смешивание / RERANKING – Переранжирование
На этом этапе Table Ranking Engine оценивает таблицы из высокоранжируемых документов. Он вычисляет relevance score для каждой таблицы. Если оценка высока, система извлекает ordered collection of information, динамически выбирая, фильтруя и переупорядочивая строки и столбцы. Затем этот блок (Featured Snippet) смешивается с основными результатами и позиционируется заметно.

На что влияет

Специфические запросы: Наибольшее влияние на информационные запросы, содержащие превосходные степени («лучший», «самый большой», «топ») или подразумевающие рейтинг/сравнение (superlative queries).
Типы контента: Страницы с четко структурированными HTML-таблицами: рейтинги, сравнения продуктов, статистические данные.
Форматы контента: Влияет непосредственно на формирование Table Featured Snippets.

Когда применяется

Триггеры активации: Распознавание superlative query или запроса, который может быть сопоставлен с семантическими признаками проиндексированных таблиц.
Условия применения: Алгоритм применяется только при выполнении двух условий: 1) Документ, содержащий таблицу, должен входить в Топ-N результатов поиска (например, Топ-10 или Топ-1). 2) Сама таблица должна иметь достаточно высокий relevance score по отношению к запросу.

Пошаговый алгоритм

Процесс А: Индексирование и анализ таблиц (Offline)

Идентификация таблицы: Table Information Engine сканирует документ и идентифицирует таблицы (например, по HTML-тегам <table>, <div>).
Определение упорядоченности: Анализируется содержимое таблицы. Ищутся признаки упорядоченности: наличие Sorted Measure Column (числовые данные отсортированы) или Rank Column (1, 2, 3...).
Анализ структуры таблицы: Определяются типы столбцов. Извлекаются потенциальные атрибуты и модификаторы/категории (из Category Columns).
Анализ контекста (Ключевой этап): Система анализирует Additional Content вне таблицы:
1. Контент документа: Title, H1-Hn, текст рядом с таблицей.
2. Данные о запросах: Исторические запросы, которые приводили к кликам на этот документ.
Извлечение семантических признаков: Контекст анализируется с помощью NLP для определения и уточнения Subject, Attribute, Modifier и Superlative таблицы.
Сохранение данных: Признаки таблицы и ID документа сохраняются в Table Information Database.

Процесс Б: Обработка запроса и ранжирование таблиц (Online)

Получение и анализ запроса: Система получает запрос и определяет его интент.
Стандартное ранжирование документов: Document Ranking Engine определяет и ранжирует релевантные документы.
Фильтрация по рангу документа (Gatekeeper): Table Ranking Engine отбирает только документы из Топ-N (например, Топ-10 или Топ-1).
Идентификация таблиц-кандидатов: Для отобранных документов система ищет записи в Table Information Database.
Сопоставление и Расчет Relevance Score таблицы: Термины запроса сопоставляются с семантическими признаками таблиц. Оценка вычисляется на основе качества сопоставления, ранга исходного документа и, возможно, исторических данных о кликах (selection rates).
Выбор таблицы: Выбирается таблица с наивысшим relevance score, удовлетворяющим порогу.
Извлечение данных: Система определяет, какие столбцы и строки включить в ordered collection. Данные могут быть отфильтрованы или переупорядочены на основе Modifier в запросе.
Форматирование и предоставление: Система форматирует извлеченные данные и предоставляет их в SERP на заметной позиции.

Какие данные и как использует

Данные на входе

Контентные факторы (Внутри таблицы): Заголовки столбцов (Headers) используются для определения Subject и Attribute. Содержимое ячеек используется для определения сортировки (Sorted Measure Column) и категорий (Category Column).
Контентные факторы (Вне таблицы): Заголовок страницы (Title) критически важен для понимания контекста и определения Attribute (Claim 17). Также используются заголовки (Hn) и текст, окружающий таблицу (Additional Content).
Структурные факторы: HTML-разметка таблицы (теги <table>, <tr>, <td>, <th>). Структура данных внутри ячеек (например, наличие числовых данных и единиц измерения).
Поведенческие факторы: Журналы запросов (Query Information for Documents). Данные о том, какие запросы (особенно superlative queries) ранее приводили к выбору данного документа, используются для определения семантических признаков таблицы.

Какие метрики используются и как они считаются

Определение Sorted Measure Column: Метрики для оценки числовой сортировки столбца (например, анализ длины возрастающей/убывающей подпоследовательности числовых значений).
Определение Category Column: Метрика уникальности значений в столбце. Если количество уникальных значений значительно меньше общего числа ячеек (например, <50%), столбец может быть классифицирован как категория.
NLP-аннотации: Результаты синтаксического анализа и разметки частей речи (Part-of-Speech tagging) для заголовков и прошлых запросов, используемые для идентификации семантических признаков.
Document Rank (Ранг документа): Стандартная оценка ранжирования документа, используемая как пороговое значение (Топ-10 или Топ-1) для рассмотрения таблицы.
Relevance Score (Оценка релевантности таблицы): Комплексная оценка, рассчитываемая на основе:
1. Степени соответствия между терминами запроса и признаками таблицы (Subject, Attribute и т.д.).
2. Ранга исходного документа.
3. Исторических сигналов (например, средний selection rate документа по схожим запросам).

Ранг страницы-источника является обязательным условием (Gatekeeper). Ключевой аспект патента (Claims 1, 17, 24) заключается в том, что механизм извлечения табличных данных активируется только для документов, которые уже входят в топ выдачи (Топ-10 или даже Топ-1). Невозможно получить Table Featured Snippet, если страница не ранжируется высоко стандартными алгоритмами.
Контекст определяет интерпретацию таблицы. Google активно использует информацию вне таблицы (Additional Content) для понимания ее семантики (Claim 17). Заголовок страницы (Title), заголовки Hn и окружающий текст критически важны для определения того, что именно (Subject) и по какому критерию (Attribute) ранжируется в таблице.
Исторические данные запросов используются для понимания таблиц. Система анализирует, по каким запросам пользователи ранее кликали на документ, чтобы лучше понять смысл содержащихся в нем таблиц. Это подчеркивает важность соответствия контента реальным поисковым интентам.
Структурная чистота и сортировка имеют значение. Система ищет четкие структурные сигналы внутри таблицы, такие как Sorted Measure Columns (отсортированные числовые данные) и Rank Columns, чтобы идентифицировать ее как упорядоченный список.
Динамическое извлечение и фильтрация. Google не просто копирует таблицу. Система динамически выбирает подмножество строк и столбцов, и может фильтровать (Claim 9) или переупорядочивать (Claim 8) данные в сниппете в зависимости от модификаторов (Modifier) в запросе пользователя.

Best practices (это мы делаем)

Обеспечить высокий ранг страницы-источника. Сосредоточьтесь на стандартных факторах ранжирования, чтобы страница с таблицей попала на первую страницу выдачи. Без выполнения этого условия механизм извлечения данных из таблицы не активируется.
Использовать максимально ясные и описательные заголовки (Контекст). Заголовок страницы (Title) и заголовки перед таблицей (Hn) должны четко описывать ее содержание. Они должны включать Subject, Attribute и Superlative. Например, вместо «Таблица ноутбуков» используйте «Рейтинг Топ-10 лучших игровых ноутбуков 2025 по производительности».
Использовать чистую семантическую разметку таблиц (Структура). Применяйте стандартные HTML-теги (<table>). Используйте <th> для заголовков столбцов, чтобы помочь системе идентифицировать Subject и Attribute.
Обеспечить явную сортировку данных. Если таблица представляет собой рейтинг, убедитесь, что основной числовой столбец (Sorted Measure Column) действительно отсортирован. Добавление колонки «Ранг» также полезно.
Добавлять контекст вокруг таблицы. Используйте подписи (<caption>) и вводный текст, чтобы предоставить дополнительное описание того, что показано в таблице.
Создавать комплексные таблицы с категориями (Modifiers). Включение столбцов с категориями (например, «Тип процессора», «Регион») позволяет Google использовать механизм динамической фильтрации и переупорядочивания для более точных ответов на специфические запросы (например, «лучший ноутбук с процессором Intel»).

Worst practices (это делать не надо)

Использовать изображения вместо HTML-таблиц. Система не сможет извлечь текстовые данные из изображений.
Применять сложную верстку для имитации таблиц (например, только через DIV). Хотя патент упоминает возможность распознавания <div>, стандартная HTML-таблица значительно надежнее для парсинга структуры данных.
Использовать неоднозначные или отсутствующие заголовки. Если заголовки страницы (контекст) и заголовки колонок (структура) неясны, система не сможет точно определить Subject и Attribute, что снижает шансы на получение сниппета.
Размещать ключевые таблицы на низкокачественных или плохо ранжирующихся страницах. Даже идеальная таблица не появится в сниппете, если ранг документа-источника низок (не входит в Топ-10).
Использовать неявную сортировку или смешанные типы данных в столбцах. Это затрудняет идентификацию Sorted Measure Column и может привести к ошибкам при определении упорядоченности.

Стратегическое значение

Этот патент подтверждает стратегию Google на извлечение ответов из контента и предоставление их непосредственно в SERP (Featured Snippets). Для SEO это означает, что оптимизация под извлечение контента (Extraction Optimization) является ключевой компетенцией. Предоставление данных в четко структурированном формате (HTML-таблицы с ясным контекстом) является эффективным способом захвата видимости на нулевой позиции. Патент также подчеркивает синергию между традиционным SEO (достижение высокого ранга страницы) и оптимизацией под специальные форматы выдачи.

Практические примеры

Сценарий: Оптимизация таблицы сравнения хостингов для получения Featured Snippet

Анализ текущей ситуации: У вас есть страница «Сравнение хостингов 2025», которая колеблется на 8-12 позициях по запросу «лучший дешевый хостинг». На странице есть таблица.
Действие 1 (Повышение ранга): Улучшите качество страницы, оптимизируйте под интент, чтобы поднять страницу в Топ-5 (выполнение условия Claims 1/17 о высоком ранге).
Действие 2 (Оптимизация контекста): Измените Title на «Топ-10 лучших дешевых хостингов 2025: Рейтинг и сравнение цен». Добавьте H2 перед таблицей: «Таблица: Рейтинг самых дешевых хостинг-провайдеров по стоимости в месяц». Это поможет системе извлечь Subject=Хостинг-провайдер, Attribute=Стоимость в месяц, Superlative=Самый дешевый.
Действие 3 (Оптимизация структуры): Убедитесь, что таблица сверстана через <table>. Проверьте, что столбец «Цена в месяц» содержит числовые данные и отсортирован по возрастанию (Sorted Measure Column). Добавьте столбец «Ранг».
Действие 4 (Расширение данных): Добавьте столбец «Тип хостинга» (Shared, VPS, Dedicated). Это Category Column. Это позволит Google фильтровать таблицу (Claims 8, 9) по запросам типа «лучший дешевый VPS хостинг» (Modifier=VPS).
Ожидаемый результат: После индексации и достижения высоких позиций страница получает Table Featured Snippet по основному запросу и его вариациям за счет высокого Table Relevance Score.

Должна ли моя страница занимать первое место, чтобы получить Table Featured Snippet?

Не обязательно, но она должна ранжироваться высоко. Патент (Claims 1 и 17) указывает, что система рассматривает таблицы из документов, входящих в «пороговое количество» лучших результатов (10 или менее). В альтернативном варианте (Claim 24) требуется именно первое место. На практике это означает, что страница должна быть на первой странице выдачи (Топ-10), чтобы иметь реальные шансы.

Насколько важен заголовок страницы (Title) для интерпретации таблицы?

Он критически важен. Патент явно указывает (Claim 17), что признаки таблицы, такие как Attribute (мера ранжирования), определяются на основе контента вне таблицы (Additional Content), и Title является одним из основных источников этого контекста. Ясный и описательный Title значительно повышает шансы на правильную интерпретацию таблицы системой.

Что делать, если моя таблица не имеет числовой сортировки (например, список лучших книг по мнению редакции)?

Системе будет сложнее определить, что это ordered collection. Основной механизм полагается на идентификацию Sorted Measure Column (отсортированного числового столбца). В вашем случае рекомендуется добавить явный столбец «Ранг» (1, 2, 3...), который система также умеет распознавать (Rank Column) как признак упорядоченности.

Как Google определяет, что является Субъектом (Subject) и Атрибутом (Attribute) моей таблицы?

Google использует комбинацию сигналов. Анализируются заголовки столбцов самой таблицы (структура) и контекст: заголовок страницы, текст рядом с таблицей и даже исторические запросы, ведущие на страницу. Система объединяет эти сигналы для определения семантики.

Может ли Google показать только часть моей таблицы в сниппете?

Да, абсолютно. Патент (Claim 1) заявляет, что предоставляемая ordered collection of information включает только подмножество (subset) столбцов и строк. Система динамически решает, какие данные наиболее релевантны запросу, и может скрыть лишние столбцы или показать только первые несколько строк.

Что произойдет, если пользователь задаст очень специфический запрос, включающий категорию из моей таблицы?

Система может динамически адаптировать сниппет. Согласно Claims 8 и 9, если запрос содержит Modifier (например, категорию), система может отфильтровать строки таблицы, оставив только соответствующие этой категории, или переупорядочить строки, подняв релевантные категории выше в сниппете.

Влияет ли использование тега <th> для заголовков столбцов на шансы получить сниппет?

Да, это помогает. Патент описывает анализ структуры таблицы и идентификацию заголовков столбцов для определения Attribute и Subject. Использование семантически правильной разметки (<th> для заголовков) помогает Table Engine корректно разобрать структуру и повышает надежность анализа.

Как исторические данные о запросах (Query Information for Documents) влияют на мои таблицы?

Они используются на этапе индексирования для лучшего понимания смысла таблицы. Если пользователи часто приходят на вашу страницу по запросу «самые быстрые автомобили», система может использовать эту информацию для более точного определения Subject=Автомобиль и Attribute=Скорость для этой таблицы, даже если заголовки на странице не идеальны.

Что важнее для получения сниппета: ранг страницы или релевантность самой таблицы?

Оба фактора критичны и взаимосвязаны. Ранг страницы является входным фильтром (gatekeeper) — если он низок, таблица даже не будет рассмотрена. Если ранг высок, то система вычисляет Relevance Score самой таблицы. Итоговое решение о показе сниппета принимается на основе комбинации этих двух оценок.

Стоит ли использовать JavaScript для генерации или сортировки таблиц?

Это рискованно. Механизм анализа таблиц работает на этапе индексирования. Если для генерации таблицы требуется выполнение сложного JavaScript или взаимодействие с пользователем (например, клик для сортировки), система может проиндексировать неполные или неотсортированные данные. Предпочтительнее предоставлять полностью сформированную и отсортированную таблицу в исходном HTML или после базового рендеринга.

Как Google извлекает, формирует и оценивает контент для Featured Snippets из структурированных и неструктурированных данных

Google использует систему для генерации Featured Snippets (ответных пассажей) в ответ на запросы-вопросы. Система анализирует топовые результаты, разделяя контент на структурированный (таблицы, списки) и неструктурированный (текст). Применяя разные наборы правил для каждого типа контента, система извлекает блоки текста (Passage Units) и формирует из них кандидатов для показа в блоке ответов, после чего оценивает их с помощью комплексного скоринга.

US10180964B1
2019-01-15

SERP
Семантика и интент

Как Google извлекает и ранжирует прямые ответы (Featured Snippets) из веб-страниц

Google использует систему для ответов на вопросы пользователей путем извлечения конкретных предложений из результатов поиска. Система оценивает предложения-кандидаты по трем критериям: насколько часто похожие фразы встречаются в других результатах (консенсус), насколько предложение соответствует запросу (релевантность) и насколько авторитетен источник (ранг документа). Лучшие ответы отображаются над стандартными результатами поиска.

US8682647B1
2014-03-25

SERP
Семантика и интент

Как Google оценивает и выбирает контент для Featured Snippets (Блоков с ответами) на основе консенсуса выдачи

Google использует систему для выбора и оценки Featured Snippets. Система анализирует топовые результаты поиска, чтобы предсказать, какие термины должны быть в ответе (Answer Terms). Затем она оценивает отрывки текста, учитывая совпадение с запросом, наличие предсказанных терминов ответа (консенсус топа), качество исходного сайта, форматирование и языковую модель контента.

US9940367B1
2018-04-10

SERP
Семантика и интент
EEAT и качество

Как Google извлекает факты из веб-страниц для прямых ответов и автоматического наполнения Knowledge Graph

Google использует систему для ответов на вопросительные запросы. Система анализирует текстовые сниппеты из результатов поиска, применяет NLP-анализ (аннотирование) для извлечения кандидатов в ответы и выбирает лучший на основе консенсуса и качества источников. Этот механизм используется как для предоставления прямых ответов пользователям (Featured Snippets), так и для автоматического поиска недостающей информации и обновления базы знаний (Entity Database).

US20160132501A1
2016-05-12

Knowledge Graph
Семантика и интент
SERP

Как Google находит, объединяет и обогащает связанные таблицы, разбросанные по разным веб-страницам

Google использует механизм для идентификации связанных таблиц ("stitchable tables") на разных веб-страницах. Система проверяет семантическую эквивалентность заголовков, извлекает скрытые атрибуты из окружающего контекста (текст, URL) и объединяет все данные в единую, обогащенную таблицу ("union table") для лучшего понимания структурированных данных в вебе.

US9720896B1
2017-08-01

Семантика и интент

Как Google кластеризует похожие страницы, анализируя, куда пользователи переходят дальше (Co-visitation)

Google анализирует навигационные пути пользователей для определения схожести документов. Если после просмотра Страницы А и Страницы Б пользователи часто переходят к одному и тому же набору последующих страниц, Google считает Страницу А и Страницу Б похожими и объединяет их в кластер. Этот механизм позволяет определять тематическую близость на основе поведения пользователей.

US8650196B1
2014-02-11

Поведенческие сигналы
SERP
Семантика и интент

Как Google использует LLM для генерации поисковых сводок (SGE), основываясь на контенте веб-сайтов, и итеративно уточняет ответы

Google использует Большие Языковые Модели (LLM) для создания сводок (AI-ответов) в результатах поиска. Для повышения точности и актуальности система подает в LLM не только запрос, но и контент из топовых результатов поиска (SRDs). Патент описывает, как система выбирает источники, генерирует сводку, проверяет факты, добавляет ссылки на источники (linkifying) и аннотации уверенности. Кроме того, система может динамически переписывать сводку, если пользователь взаимодействует с одним из источников.

US11769017B1
2023-09-26

EEAT и качество
Ссылки
SERP

Как Google проактивно уведомляет пользователей об изменении цен или доступности товаров на основе их предполагаемого намерения покупки

Google анализирует действия пользователя (поисковые запросы, посещения сайтов), чтобы выявить намерение в отношении сущностей (например, продуктов или авиабилетов). Если намерение сильное и происходит значительное изменение (падение цены или изменение доступности), Google проактивно отправляет уведомление со ссылками для завершения действия (например, покупки).

US20180357238A1
2018-12-13

Семантика и интент
Поведенческие сигналы
Персонализация

Как Google вычисляет семантическую близость запросов, анализируя поведение пользователей при переформулировках

Google использует механизм для определения семантического расстояния между запросами (Generalized Edit Distance). Вместо подсчета изменений символов система анализирует исторические логи, чтобы понять, как пользователи переформулируют запросы. На основе этих данных вычисляется «стоимость» замены одного термина на другой с помощью Pointwise Mutual Information (PMI), что позволяет генерировать более релевантные подсказки и расширения запросов.

US8417692B2
2013-04-09

Семантика и интент
Поведенческие сигналы

Как Google использовал специальные токены в запросе (например, «+») для прямой навигации на верифицированные социальные страницы в обход SERP

Google может интерпретировать специальные токены в поисковом запросе (например, «+») как намерение пользователя найти официальную социальную страницу сущности. Если система идентифицирует верифицированный профиль, соответствующий запросу с высокой степенью уверенности, она может перенаправить пользователя прямо на эту страницу, минуя стандартную поисковую выдачу.

US9275421B2
2016-03-01

Семантика и интент
SERP
Ссылки

Как Google находит фактические ответы, начиная с потенциальных ответов и связывая их с запросами пользователей (Reverse Question Answering)

Google использует метод «обратного ответа на вопрос» для эффективного поиска фактов. Вместо глубокого анализа запроса система начинает с идентификации потенциальных ответов (например, дат, измерений) в индексе. Затем она определяет, для каких запросов эти ответы релевантны, анализируя, какие документы высоко ранжируются и получают клики по этим запросам. Это позволяет точно сопоставлять факты с разнообразными формулировками вопросов.

US9116996B1
2015-08-25

Поведенческие сигналы
Семантика и интент

Как Google определяет географическую релевантность сайта по локали ссылающихся на него ресурсов и их аудитории

Google использует географические сигналы ссылающихся сайтов для определения локальной релевантности целевого домена. Система анализирует контент, технические данные и, что важно, географию аудитории ссылающихся ресурсов, чтобы вычислить «Link Based Locale Score». Эта оценка комбинируется с собственными сигналами сайта и используется для повышения позиций в релевантных географических регионах.

US8788490B1
2014-07-22

Local SEO
Ссылки
SERP

Как Google персонализирует мобильную выдачу, повышая в ранжировании приложения, которые пользователь часто использует (Affinity Score)

Google рассчитывает «Affinity Score» для мобильных приложений на основе того, как часто и долго пользователь их использует (относительное вовлечение). При поиске с мобильного устройства система повышает в ранжировании результаты (deep links), ведущие в приложения с высоким Affinity Score, делая выдачу более персонализированной.

US10248698B2
2019-04-02

Персонализация
Поведенческие сигналы
SERP

Как Google автоматически дополняет запросы пользователя терминами из его недавней истории поиска для уточнения интента

Google использует механизм для улучшения релевантности результатов путем анализа недавней истории поиска пользователя. Если текущий запрос похож на предыдущие, система определяет ключевые контекстные термины, которые часто повторялись в истории (устойчивый интент), но отсутствуют в текущем запросе. Эти термины автоматически добавляются к запросу, чтобы предоставить более точные и персонализированные результаты.

US9449095B1
2016-09-20

Семантика и интент
Персонализация
Поведенческие сигналы

Как Google динамически фильтрует выдачу, уточняя интент пользователя после клика по результату

Google использует механизм для обработки неоднозначных запросов. Если выдача содержит результаты, относящиеся к разным сущностям (например, «Ягуар» как животное и как автомобиль), клик пользователя по одному из результатов сигнализирует о его интересе к конкретной сущности. При возврате на страницу выдачи система модифицирует SERP, скрывая или понижая результаты, связанные с нерелевантными сущностями, и фокусируя выдачу на выбранном интенте.

US9355158B2
2016-05-31

Семантика и интент
SERP
Поведенческие сигналы