SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google извлекает факты напрямую из веб-страниц для формирования прямых ответов (Featured Snippets / Answer Boxes)

RETURNING FACTUAL ANSWERS IN RESPONSE TO QUERIES (Возвращение фактических ответов в ответ на запросы)
  • US8655866B1
  • Google LLC
  • 2011-02-10
  • 2014-02-18
  • Индексация
  • Семантика и интент
  • SERP
  • Свежесть контента
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Google использует систему для динамического извлечения фактов из веб-индекса. Когда поступает фактический запрос, система определяет ожидаемый тип ответа (например, дата, число, имя), анализирует топовые результаты поиска и извлекает соответствующие фразы. Эти фразы нормализуются, оцениваются по частоте, контексту и авторитетности источника, и лучший вариант показывается в виде прямого ответа.

Описание

Какую проблему решает

Патент решает задачу предоставления прямых, фактических ответов на запросы пользователей масштабируемо и актуально. Он преодолевает ограничения статических баз знаний (например, Knowledge Graph), которые могут устаревать или не содержать ответов на редкие запросы. Система позволяет находить ответы путем анализа веб-индекса в реальном времени, обеспечивая широкий охват и актуальность информации.

Что запатентовано

Запатентована система для извлечения фактов из результатов поиска. Ключевым механизмом является определение ожидаемого типа ответа (Expected Type) на фактический запрос (Fact Query). Система анализирует топовые результаты поиска, идентифицирует фразы, соответствующие этому типу, приводит их к канонической форме (Canonical Form) и оценивает их. Фраза с наивысшей оценкой выбирается как прямой ответ.

Как это работает

Система работает в два основных этапа:

  • Индексирование (Офлайн): Ресурсы предварительно обрабатываются для выявления фраз, соответствующих определенным типам (даты, числа и т.д.). Индекс аннотируется (Annotated Index) этими типами и их каноническими формами.
  • Обработка запроса (Онлайн):
    1. Система классифицирует запрос как Fact Query и определяет Expected Type ответа.
    2. Получаются топовые результаты поиска.
    3. Из этих результатов (используя Annotated Index) быстро извлекаются фразы-кандидаты.
    4. Кандидаты оцениваются (Score). Оценка учитывает частоту (консенсус), близость к терминам запроса в документе (Proximity) и авторитетность источника (Resource Score).
    5. Лучший ответ отображается над результатами поиска (например, в Answer Box).

Актуальность для SEO

Высокая. Описанный механизм является фундаментальным для работы систем, генерирующих экстрактивные (извлекающие) Featured Snippets (Блоки с ответами) путем извлечения информации непосредственно из веб-индекса. Это ключевой компонент стратегии Google по предоставлению прямых ответов.

Важность для SEO

Патент имеет критическое значение для современных SEO-стратегий (9/10). Он напрямую описывает механизм, лежащий в основе извлечения контента для отображения на «нулевой позиции» (Featured Snippets). Понимание того, как Google идентифицирует типы ответов, извлекает фразы и оценивает их контекст, авторитетность и консенсус, является ключом к оптимизации контента для захвата этой высоко видимой позиции в SERP.

Детальный разбор

Термины и определения

Fact Query (Фактический запрос)
Запрос, направленный на поиск короткого, общепринятого фактического ответа (например, «столица Турции»).
Expected Type (Ожидаемый тип ответа)
Шаблон или категория, к которой относится правильный ответ на запрос. Примеры: Измерение, Дата, Имя человека, Географическая локация.
Subtype (Подтип)
Более конкретная категория внутри типа. Например, для типа «Измерение» подтипами могут быть «Скорость», «Расстояние» или диапазон значений.
Annotated Index (Аннотированный индекс)
Индекс базы данных, в котором ресурсы предварительно помечены типами и фразами, найденными в них. Используется для быстрого поиска фактов определенного типа.
Canonical Form (Каноническая форма)
Стандартизированное представление фразы. Позволяет агрегировать различные формы одного и того же факта (например, «Aug. 4, 1961» и «4 августа 1961 года» приводятся к единой форме).
Proximity (Близость)
Метрика, учитывающая расстояние между фразой-кандидатом и терминами запроса (или другими ключевыми контекстными терминами) в исходном документе.
Resource Score (Оценка ресурса)
Оценка авторитетности или ранг страницы-источника. Используется для взвешивания достоверности найденного факта.
Answer Box Module (Модуль блока ответов)
Специальный блок в выдаче (часто Featured Snippet) для представления прямого ответа, обычно располагается над стандартными результатами поиска.
Aggregation Indexing Term (Агрегирующий индексный термин)
Метка в аннотированном индексе, указывающая на тип/подтип фразы (например, «meas; length»).

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной процесс ответа на фактический запрос.

  1. Система получает Fact Query.
  2. Определяется Expected Type ответа (шаблон или набор фраз, включающий правильный ответ).
  3. Идентифицируются результаты поиска, релевантные запросу.
  4. Из ресурсов, соответствующих этим результатам, идентифицируется первая коллекция фраз, которые соответствуют форме ожидаемого типа.
  5. Каноникализация: Из первой коллекции определяется вторая коллекция фраз, где каждая фраза соответствует Canonical Form ожидаемого типа.
  6. Оценка (Консенсус): Для каждой канонической фразы определяется оценка (Score). Эта оценка основана на подсчете количества ресурсов (count of resources), которые включают данную каноническую фразу или её вариант.
  7. Определенная фраза идентифицируется как ответ на основе её оценки.
  8. Ответ предоставляется пользователю.

Ядро изобретения — извлечение фактов из веба, их нормализация и выбор ответа на основе консенсуса.

Claim 3 и 4 (Зависимые): Уточняют метод извлечения. Идентификация фраз может включать поиск в indexed annotations (аннотированном индексе), где аннотации заранее идентифицируют фразы и их типы.

Claim 6 (Зависимый): Уточняет расчет оценки. Оценка фразы основывается на близости (proximity) этой фразы к терминам запроса в каждом соответствующем ресурсе.

Claim 7 (Зависимый): Уточняет расчет оценки. Оценка фразы основывается на оценке (score) каждого соответствующего ресурса (т.е. на авторитетности или ранге источника).

Claim 8 (Зависимый): Уточняет расчет оценки. Оценка фразы основывается на близости (proximity) этой фразы к другим ключевым терминам (key terms) в ресурсе (например, слово «высота» рядом с числом).

Где и как применяется

Изобретение затрагивает несколько ключевых этапов поиска, работая как в офлайн, так и в онлайн режимах для генерации прямых ответов.

INDEXING – Индексирование и извлечение признаков
Офлайн-подготовка. Indexing Engine анализирует ресурсы, идентифицирует фразы различных типов (даты, имена, измерения), определяет их Canonical Form и создает Annotated Index.

QUNDERSTANDING – Понимание Запросов
В момент запроса система классифицирует его как Fact Query и определяет Expected Type ответа.

RANKING – Ранжирование
Выполняется стандартное ранжирование для получения набора топовых результатов (Top-N), которые будут служить источниками фактов. Их Resource Scores будут использованы позже.

METASEARCH – Метапоиск и Смешивание / RERANKING – Переранжирование
Основное применение патента. Fact Engine анализирует топовые результаты. Используя Annotated Index, он быстро извлекает кандидатов, рассчитывает оценки (Scoring), выбирает лучший ответ и формирует Answer Box Module для вставки в SERP.

Входные данные:

  • Пользовательский запрос и его Expected Type.
  • Топовые результаты поиска и их оценки (Resource Scores).
  • Данные из Annotated Index (типы, канонические формы фраз, их расположение).

Выходные данные:

  • Фактический ответ.
  • Ссылки на источники ответа.
  • Answer Box Module, интегрированный в SERP.

На что влияет

  • Специфические запросы: Наибольшее влияние на информационные запросы, ищущие конкретные факты (Кто, Что, Когда, Где, Сколько).
  • Конкретные типы контента: Страницы, содержащие фактическую информацию: биографии, спецификации продуктов, справочные материалы, новостные статьи.
  • Форматы контента: Система эффективно извлекает данные из текста. Также в описании патента упоминается извлечение фактов из таблиц («Z being the cell in row X and column Y»).

Когда применяется

  • Триггеры активации: Алгоритм активируется, когда система с высокой уверенностью классифицирует запрос как Fact Query и может определить Expected Type ответа.
  • Условия применения: Когда в топовых результатах поиска существует консенсус относительно ответа (т.е. одна из канонических фраз набирает достаточно высокий балл или превышает порог частотности).
  • Исключения: Если распределение ответов слишком шумное (нет явного лидера), запрос субъективен или ответ слишком сложен.

Пошаговый алгоритм

Процесс А: Обработка запроса в реальном времени

  1. Получение запроса и Классификация: Система получает запрос и определяет, что это Fact Query.
  2. Определение типа: Идентифицируется Expected Type ответа (например, Дата).
  3. Получение результатов: Система получает Топ-N результатов поиска.
  4. Извлечение фраз (Extraction): Из этих результатов (используя Annotated Index) извлекаются фразы, соответствующие Expected Type.
  5. Каноникализация (Normalization): Извлеченные фразы преобразуются в Canonical Form.
  6. Агрегация и Оценка (Scoring): Канонические фразы агрегируются и оцениваются. Оценка рассчитывается на основе:
    • Количества ресурсов, содержащих фразу (Консенсус).
    • Resource Score (авторитетности) этих ресурсов.
    • Proximity фразы к терминам запроса в тексте.
    • Proximity фразы к ключевым контекстуальным терминам.
  7. Выбор ответа: Фраза с наивысшей агрегированной оценкой выбирается как ответ.
  8. Представление ответа: Ответ отображается пользователю в Answer Box вместе со ссылками на источники.

Процесс Б: Аннотирование индекса (Офлайн/Индексирование)

  1. Выбор типа: Система выбирает тип из коллекции (например, «Измерение Длины»).
  2. Идентификация фраз в ресурсах: Во время индексации в ресурсах идентифицируются фразы, соответствующие этому типу (например, «12 дюймов»).
  3. Аннотирование индекса: Запись в индексе для ресурса дополняется аннотацией, включающей:
    • Aggregation Indexing Term (Тип/Подтип, например, meas; length).
    • Canonical Value (например, 0.3048 метра).
    • Длину фразы (количество токенов).
    • Precise Indexing Term (для группировки значений).

Какие данные и как использует

Данные на входе

Система использует несколько типов данных для извлечения и валидации фактов:

  • Контентные факторы: Текст ресурсов в топе выдачи. Анализируются конкретные фразы и их форматы.
  • Контекстные и Структурные факторы: Расположение фразы в документе используется для расчета близости (Proximity) к терминам запроса или ключевым контекстным терминам. Также анализируется структура (например, таблицы).
  • Системные данные (Авторитетность/Ранжирование): Оценка ресурса (Resource Score). Авторитетность или ранг источника используется для взвешивания найденных в нем фраз.
  • Данные индекса: Annotated Index, содержащий предварительно извлеченные и нормализованные факты.

Какие метрики используются и как они считаются

Ключевой метрикой является Score для каждой фразы-кандидата. Патент описывает несколько компонентов расчета:

  • Frequency/Count (Частота/Консенсус): Подсчет количества ресурсов в топе выдачи, содержащих каноническую форму фразы (Claim 1).
  • Proximity Score (Оценка близости): Метрика, основанная на расстоянии (в токенах) между фразой-кандидатом и терминами запроса в тексте ресурса (Claim 6). Также учитывается близость к другим ключевым терминам (Claim 8). Чем ближе, тем выше оценка.
  • Resource Score Weighting (Взвешивание по оценке ресурса): Использование оценки ранжирования исходного ресурса в качестве весового коэффициента (Claim 7). Факты из авторитетных источников получают больший вес.
  • Агрегация оценок: Итоговая оценка фразы является агрегацией (например, взвешенной суммой) оценок, рассчитанных для этой фразы по всем ресурсам, где она найдена.

Выводы

  1. Динамическое извлечение фактов (Extraction vs. Knowledge Graph): Google активно извлекает факты напрямую из контента веб-страниц, а не полагается исключительно на статические базы данных. Это механизм, лежащий в основе многих экстрактивных Featured Snippets.
  2. Предварительная обработка индекса (Annotated Index): Google индексирует не просто текст, а *факты*. Во время индексации система распознает типы данных и сохраняет их в Annotated Index, что позволяет быстро находить ответы в реальном времени.
  3. Критичность Каноникализации: Способность приводить разные форматы данных (даты, единицы измерения) к Canonical Form является ключом к точному агрегированию и определению консенсуса.
  4. Многофакторная оценка ответов: Выбор финального ответа основан на сложной оценке, включающей:
    1. Консенсус (частота встречаемости в топе).
    2. Авторитетность источника (Resource Score).
    3. Контекстуальную релевантность (Proximity к терминам запроса и ключевым словам).
  5. Важность структуры и контекста: Чтобы факт был извлечен, он должен быть представлен в распознаваемом формате и находиться в правильном контекстном окружении (близко к вопросу).

Практика

Best practices (это мы делаем)

  • Оптимизация контекстной близости (Proximity): Размещайте фактический ответ в непосредственной близости от текста, который содержит термины запроса (или сам вопрос). Четкая структура «Вопрос-Ответ» (например, в FAQ или сразу после заголовка H2/H3) максимизирует Proximity Score.
  • Использование стандартных и четких форматов: Представляйте факты в легко извлекаемых форматах (даты, измерения, валюты). Это облегчает идентификацию типа на этапе индексирования и корректную каноникализацию (Canonicalization).
  • Использование HTML-таблиц и списков: Структурируйте данные. Патент упоминает извлечение данных из таблиц. Используйте семантически корректные HTML-таблицы и списки для представления спецификаций или наборов фактов.
  • Повышение авторитетности ресурса (E-E-A-T): Поскольку оценка ресурса (Resource Score) используется для взвешивания ответов (Claim 7), работа над общей авторитетностью сайта повышает вероятность выбора именно вашего ответа.
  • Консистентность и точность фактов: Убедитесь, что ваши факты точны и соответствуют консенсусу авторитетных источников, так как частотность (Claim 1) является базовым фактором оценки.

Worst practices (это делать не надо)

  • Скрытие фактов в сложном тексте: Размещение ключевых фактов глубоко в длинных абзацах, далеко от основных терминов запроса. Это снижает оценку близости и затрудняет извлечение.
  • Отсутствие контекста: Предоставление фактов без окружающего контекста или ключевых связанных терминов (например, указание числа без единиц измерения или без слов «высота»/«вес»).
  • Двусмысленные форматы: Использование нестандартных или двусмысленных форматов (например, даты вида 01/05/2025 без контекста), что затрудняет распознавание типа и каноникализацию.
  • Игнорирование авторитетности: Попытка конкурировать за ответы на важные фактические запросы (особенно YMYL) при низком общем авторитете сайта.

Стратегическое значение

Патент подчеркивает стратегическую важность оптимизации под «Позицию Ноль» (Featured Snippets). Google стремится быть машиной ответов, и этот механизм позволяет масштабировать ответы за пределы Knowledge Graph. Для SEO это означает, что предоставление четкой, хорошо структурированной и авторитетной фактической информации (Extraction-ready content) является прямым путем к получению максимальной видимости в SERP.

Практические примеры

Сценарий: Оптимизация страницы спецификаций продукта для извлечения данных о весе.

  1. Анализ запроса: Пользователи ищут «вес [Модель Продукта]». Google определяет Expected Type как Измерение (Вес).
  2. Действия (Плохо): В тексте указано: «Благодаря использованию новых материалов, общий вес удалось снизить до всего лишь 1.5 кг, что делает его удобным для переноски». Факт есть, но он удален от названия модели и не выделен структурно. Proximity Score низкий.
  3. Действия (Хорошо): Создать таблицу или список спецификаций:
    Спецификации [Модель Продукта]: ... Вес: 1.5 кг (3.3 фунта) ... 
  4. Ожидаемый результат: Система легко идентифицирует фразу «1.5 кг» как тип «Измерение» через Annotated Index. Фактор близости к названию модели и слову «Вес» (ключевой контекстуальный термин) высок. Это максимизирует итоговый Score и увеличивает вероятность попадания в Answer Box.

Вопросы и ответы

Описывает ли этот патент работу Knowledge Graph (Сети Знаний)?

Нет, он описывает альтернативный и дополняющий механизм. Вместо использования предварительно сохраненных фактов из базы данных (как Knowledge Graph), он описывает процесс динамического извлечения фактов непосредственно из контента веб-страниц в индексе. Это позволяет отвечать на запросы, которых нет в базе, и обеспечивать актуальность.

Что такое «Аннотированный индекс» (Annotated Index) и как он используется?

Annotated Index — это поисковый индекс, в котором Google предварительно (во время индексации) идентифицировал и пометил фразы по типам (даты, измерения, имена) и нормализовал их. При обработке фактического запроса система использует эти аннотации для быстрого извлечения кандидатов, не анализируя полный текст страниц заново.

Как Google выбирает лучший ответ, если в разных источниках указаны разные факты?

Система рассчитывает агрегированную оценку (Score) для каждого варианта. Эта оценка учитывает комбинацию трех факторов: Консенсус (как часто факт встречается в топе выдачи), Авторитетность источника (Resource Score) и Контекстуальную близость (Proximity). Ответ с наивысшей совокупной оценкой побеждает.

Что такое «Каноническая форма» (Canonical Form) и почему она важна для SEO?

Canonical Form — это нормализация разных форматов одного факта в единое представление (например, «1 фут» и «12 дюймов» приводятся к одной форме). Это позволяет Google подсчитывать их вместе для определения консенсуса. Для SEO важно использовать стандартные, четкие форматы данных, чтобы облегчить системе процесс каноникализации и распознавания.

Как повысить вероятность попадания моего контента в Featured Snippet, исходя из этого патента?

Ключевым фактором является оптимизация контекстной близости (Proximity Score). Размещайте полный и точный ответ непосредственно рядом с текстом, который формулирует вопрос (например, сразу после заголовка H2/H3). Также работайте над повышением авторитетности сайта (Resource Score).

Влияет ли авторитетность сайта (E-E-A-T) на выбор ответа?

Да, напрямую. Патент явно указывает (Claim 7), что оценка фразы основывается на оценке соответствующего ресурса (Resource Score). Факты, найденные на более авторитетных и высоко ранжирующихся сайтах, получают больший вес при расчете итоговой оценки ответа.

Может ли система извлекать факты из таблиц и списков?

Да. В описании патента явно упоминается извлечение фактов из таблиц (по строкам и столбцам). Это подтверждает важность использования семантической разметки (HTML-таблиц и списков) для четкого представления фактических данных.

Что такое «Ожидаемый тип ответа» (Expected Type) и как он определяется?

Это категория информации, которую ищет пользователь (например, «дата», «расстояние»). Система определяет его на этапе понимания запроса (Query Understanding), анализируя формулировку (например, наличие слов «когда», «сколько») или сопоставляя запрос с известными фактическими атрибутами сущностей.

Что произойдет, если на моей странице много фактов одного типа (например, много дат)?

Система использует показатель близости (Proximity) для определения того, какой факт относится к запросу. Она оценит расстояние между каждой датой на странице и терминами запроса или ключевыми контекстными словами. Дата, расположенная ближе всего к релевантному контексту (например, рядом со словом «родился»), получит более высокую оценку.

Означает ли этот патент, что для попадания в блок ответов нужно быть в ТОП-10?

Система анализирует топовые результаты поиска (в патенте упоминается 'm' топовых результатов, что может быть больше 10) для извлечения фактов и определения консенсуса. Однако, поскольку оценка ресурса (Resource Score) сильно влияет на вес ответа, источники из самого верха выдачи (например, ТОП-5 или ТОП-10) имеют значительно больше шансов стать источником для финального ответа.

Похожие патенты

Как Google оценивает и выбирает контент для Featured Snippets (Блоков с ответами) на основе консенсуса выдачи
Google использует систему для выбора и оценки Featured Snippets. Система анализирует топовые результаты поиска, чтобы предсказать, какие термины должны быть в ответе (Answer Terms). Затем она оценивает отрывки текста, учитывая совпадение с запросом, наличие предсказанных терминов ответа (консенсус топа), качество исходного сайта, форматирование и языковую модель контента.
  • US9940367B1
  • 2018-04-10
  • SERP

  • Семантика и интент

  • EEAT и качество

Как Google извлекает и ранжирует прямые ответы (Featured Snippets) из веб-страниц
Google использует систему для ответов на вопросы пользователей путем извлечения конкретных предложений из результатов поиска. Система оценивает предложения-кандидаты по трем критериям: насколько часто похожие фразы встречаются в других результатах (консенсус), насколько предложение соответствует запросу (релевантность) и насколько авторитетен источник (ранг документа). Лучшие ответы отображаются над стандартными результатами поиска.
  • US8682647B1
  • 2014-03-25
  • SERP

  • Семантика и интент

Как Google генерирует сниппеты для фактических ответов, требуя близости вопроса и ответа в тексте источника
Патент Google описывает систему ответа на фактические запросы (Fact Query Engine). Для подтверждения факта, извлеченного из Fact Repository (аналог Knowledge Graph), система генерирует сниппеты из исходных веб-документов. Ключевое требование: сниппет должен содержать как термины из запроса пользователя, так и термины ответа, причем система предпочитает фрагменты, где они расположены близко друг к другу (Proximity).
  • US7587387B2
  • 2009-09-08
  • Семантика и интент

  • Knowledge Graph

  • SERP

Как Google выбирает изображения для блоков с ответами (Featured Snippets), обеспечивая контекст и скорость
Google использует многоэтапный процесс для выбора изображений, отображаемых рядом с прямыми ответами на вопросы. Система генерирует отдельный запрос для поиска изображений на основе темы вопроса и заранее оценивает изображения на релевантных страницах. Когда источник текстового ответа определен, Google отдает предпочтение лучшему изображению с этой же страницы, гарантируя его контекстуальную связь с ответом.
  • US10691746B2
  • 2020-06-23
  • Мультимедиа

  • SERP

  • Семантика и интент

Как Google находит фактические ответы, начиная с потенциальных ответов и связывая их с запросами пользователей (Reverse Question Answering)
Google использует метод «обратного ответа на вопрос» для эффективного поиска фактов. Вместо глубокого анализа запроса система начинает с идентификации потенциальных ответов (например, дат, измерений) в индексе. Затем она определяет, для каких запросов эти ответы релевантны, анализируя, какие документы высоко ранжируются и получают клики по этим запросам. Это позволяет точно сопоставлять факты с разнообразными формулировками вопросов.
  • US9116996B1
  • 2015-08-25
  • Поведенческие сигналы

  • Семантика и интент

Популярные патенты

Как Google использует атрибуты пользователей и показатели предвзятости (Bias Measures) для персонализации ранжирования
Google анализирует, как разные группы пользователей (сегментированные по атрибутам, таким как интересы или демография) взаимодействуют с документами. Система вычисляет «показатель предвзятости» (Bias Measure), который показывает, насколько чаще или реже определенная группа взаимодействует с документом по сравнению с общей массой пользователей. При поиске Google определяет атрибуты пользователя и корректирует ранжирование, повышая или понижая документы на основе этих показателей предвзятости.
  • US9436742B1
  • 2016-09-06
  • Персонализация

  • Поведенческие сигналы

  • SERP

Как Google использует распределение кликов в выдаче для определения брендовых (навигационных) и общих (тематических) запросов
Google анализирует поведение пользователей в поисковой выдаче для классификации интента запроса. Если клики сконцентрированы на одном результате (низкое разнообразие, высокая частота), запрос классифицируется как навигационный или брендовый (Data-Creator Targeting). Если клики распределены по разным сайтам, запрос считается общим (Content Targeting). Эта классификация используется для адаптации поисковой выдачи.
  • US20170068720A1
  • 2017-03-09
  • Семантика и интент

  • Поведенческие сигналы

  • SERP

Как Google консолидирует сигналы ранжирования между мобильными и десктопными версиями страниц, используя десктопный авторитет для мобильного поиска
Патент Google описывает механизм для решения проблемы недостатка сигналов ранжирования в мобильном вебе. Система идентифицирует корреляцию между мобильной страницей и её десктопным аналогом. Если мобильная версия недостаточно популярна сама по себе, она наследует сигналы ранжирования (например, обратные ссылки и PageRank) от авторитетной десктопной версии, улучшая её позиции в мобильном поиске.
  • US8996514B1
  • 2015-03-31
  • Техническое SEO

  • Ссылки

Как Google игнорирует часто меняющийся контент и ссылки в нем, определяя "временные" блоки шаблона сайта
Google использует механизм для отделения основного контента от динамического шума (реклама, виджеты, дата). Система сравнивает разные версии одной страницы, чтобы найти часто меняющийся контент. Затем она анализирует HTML-структуру (путь) этого контента и статистически определяет, является ли этот структурный блок "временным" для всего сайта. Такой контент игнорируется при индексации и таргетинге рекламы, а ссылки в нем могут не учитываться при расчете PageRank.
  • US8121991B1
  • 2012-02-21
  • Индексация

  • Техническое SEO

  • Структура сайта

Как Google автоматически изучает синонимы, анализируя последовательные запросы пользователей и вариации анкорных текстов
Google использует методы для автоматического определения синонимов, акронимов и эквивалентных фраз. Система анализирует логи запросов: если пользователь быстро меняет запрос, сохраняя часть слов (например, с «отели в париже» на «гостиницы в париже»), система учится, что «отели» и «гостиницы» эквивалентны. Также анализируются вариации анкорных текстов, указывающих на одну и ту же страницу.
  • US6941293B1
  • 2005-09-06
  • Семантика и интент

  • Ссылки

Как Google проактивно уведомляет пользователей об изменении цен или доступности товаров на основе их предполагаемого намерения покупки
Google анализирует действия пользователя (поисковые запросы, посещения сайтов), чтобы выявить намерение в отношении сущностей (например, продуктов или авиабилетов). Если намерение сильное и происходит значительное изменение (падение цены или изменение доступности), Google проактивно отправляет уведомление со ссылками для завершения действия (например, покупки).
  • US20180357238A1
  • 2018-12-13
  • Семантика и интент

  • Поведенческие сигналы

  • Персонализация

Как Google использует структурированные данные для отображения прямых ссылок на песни в результатах поиска (Rich Snippets)
Google улучшает результаты поиска музыки, извлекая детали песен (названия, альбомы, продолжительность) из структурированной разметки (например, HTML5 microdata) на веб-страницах. Это позволяет Google отображать прямые ссылки на конкретные песни (вторичные ссылки) внутри основного блока результатов поиска, при условии соблюдения определенных порогов качества и популярности.
  • US9128993B2
  • 2015-09-08
  • Ссылки

  • SERP

  • Индексация

Как Google выбирает предлагаемые запросы, анализируя вероятность завершения поиска и коммерческую ценность
Google использует графовую модель для анализа поисковых сессий пользователей. Система определяет, какие уточняющие запросы чаще всего приводят к завершению поиска (становятся «финальным пунктом назначения»). Эти запросы считаются обладающими наибольшей «полезностью» (Utility) и предлагаются пользователю в качестве подсказок или связанных запросов. Система также учитывает коммерческий потенциал этих запросов и может показывать для них релевантные рекламные блоки.
  • US8751520B1
  • 2014-06-10
  • SERP

  • Поведенческие сигналы

  • Семантика и интент

Как Google подменяет ссылки в выдаче, чтобы обойти медленные редиректы на мобильные версии сайтов
Google оптимизирует скорость загрузки, определяя, когда клик по результату поиска вызовет условный редирект (например, с десктопной версии на мобильную). Система заранее подменяет исходную ссылку в выдаче на конечный URL редиректа. Это позволяет устройству пользователя сразу загружать нужную страницу, минуя промежуточный запрос и экономя время.
  • US9342615B2
  • 2016-05-17
  • Техническое SEO

  • SERP

  • Ссылки

Как Google использует гибридную классификацию и данные о кликах пользователей для точного определения тематики контента
Google использует многоэтапный процесс для классификации контента в детальные иерархические категории. Система комбинирует традиционные методы классификации с анализом поисковых запросов и кликов пользователей (подтвержденных результатов поиска). Это позволяет точно определить узкоспециализированную тематику документа, фильтруя нерелевантные категории и взвешивая релевантность на основе TF-IDF и глубины иерархии.
  • US8145636B1
  • 2012-03-27
  • Семантика и интент

  • Поведенческие сигналы

seohardcore