SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google находит фактические ответы, начиная с потенциальных ответов и связывая их с запросами пользователей (Reverse Question Answering)

REVERSE QUESTION ANSWERING (Обратный ответ на вопрос)
  • US9116996B1
  • Google LLC
  • 2012-07-24
  • 2015-08-25
  • Поведенческие сигналы
  • Семантика и интент
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Google использует метод «обратного ответа на вопрос» для эффективного поиска фактов. Вместо глубокого анализа запроса система начинает с идентификации потенциальных ответов (например, дат, измерений) в индексе. Затем она определяет, для каких запросов эти ответы релевантны, анализируя, какие документы высоко ранжируются и получают клики по этим запросам. Это позволяет точно сопоставлять факты с разнообразными формулировками вопросов.

Описание

Какую проблему решает

Патент решает задачу эффективного и точного ответа на фактические запросы (например, «высота Эвереста»). Традиционные системы анализа вопросов требуют сложного лингвистического парсинга и понимания структуры запроса, что ресурсоемко и подвержено ошибкам при различных формулировках. Изобретение упрощает этот процесс, используя существующие данные ранжирования и поведения пользователей для связи ответов с вопросами, минуя необходимость глубокого анализа текста запроса. Это повышает точность и масштабируемость системы ответов.

Что запатентовано

Запатентован метод «обратного» сопоставления запросов и ответов (Reverse Question Answering). Вместо того чтобы идти от запроса к ответу, система начинает с идентификации потенциальных фактических ответов (fact terms) в коллекции документов, классифицированных по категориям (например, даты, измерения). Затем система использует данные поисковой системы (логи запросов, результаты ранжирования, данные о кликах), чтобы определить, какие запросы ищут эти фактические ответы. На основе этого создается офлайн-база соответствий (mappings) между вопросами и фактами.

Как это работает

Система работает в офлайн-режиме для генерации базы ответов:

  • Идентификация ответов: Система сканирует документы и извлекает fact terms, соответствующие шаблонам определенной категории (например, «[ЧИСЛО] [ЕДИНИЦА]»).
  • Связь Термин-Документ (First associations): Создаются связи между терминами и документами, которые их содержат.
  • Связь Документ-Запрос (Second associations): Анализируются поисковые логи, чтобы найти запросы, для которых эти документы ранжируются высоко или получают значительную долю кликов.
  • Фильтрация запросов: Отбираются только те запросы, которые относятся к той же категории, что и fact term.
  • Генерация соответствий (Mapping): Создается связь между запросом и фактическим ответом, если оба они связаны с достаточным количеством одних и тех же документов.
  • Выбор лучшего ответа: Для каждого запроса выбирается наиболее вероятный ответ на основе консенсуса (частоты упоминания) в релевантных документах.

Актуальность для SEO

Высокая. Извлечение фактов и предоставление прямых ответов (Featured Snippets, Knowledge Graph) являются ключевыми функциями современного поиска. Описанный метод предоставляет эффективный и масштабируемый способ генерации этих ответов, опираясь на данные ранжирования и поведение пользователей как на сигналы валидации, что остается крайне актуальным для Google.

Важность для SEO

Патент имеет высокое значение (85/100) для SEO, особенно в контексте оптимизации под блоки с ответами. Он раскрывает механизм, который подчеркивает критическую важность не только ранжирования, но и поведенческих факторов (кликов) для того, чтобы контент был признан авторитетным ответом на вопрос. Это напрямую влияет на стратегии создания контента, подчеркивая важность точности данных, четкого представления фактов и достижения высоких позиций.

Детальный разбор

Термины и определения

Reverse Question Answering (Обратный ответ на вопрос)
Метод определения ответов на запросы, при котором процесс начинается с идентификации возможных ответов (fact terms) и последующего сопоставления их с соответствующими запросами, а не наоборот.
Fact Term (Фактический термин)
Сегмент текста в документе, который соответствует текстовому шаблону, специфичному для определенной категории (например, дата, измерение, имя человека). Является кандидатом в ответы.
Category (Категория)
Классификация фактических ответов (например, даты, имена людей, цены, измерения). Каждая категория связана с определенными текстовыми шаблонами (text patterns) и ключевыми словами/фразами.
Text Patterns (Текстовые шаблоны)
Паттерны (например, регулярные выражения), используемые для распознавания fact terms в тексте. Например, шаблон "[NUMBER] [UNIT]" для категории измерений.
First Associations (Первые ассоциации)
Связи, создаваемые между fact terms и документами, которые содержат эти термины.
Second Associations (Вторые ассоциации)
Связи, создаваемые между документами (из первых ассоциаций) и ранее отправленными запросами (previously-submitted queries), для которых эти документы были показаны в результатах поиска.
Mapping (Соответствие)
Итоговая связь между конкретным запросом и конкретным fact term (ответом), сгенерированная на основе общих документов в первых и вторых ассоциациях.
Query Logs (Логи запросов)
Данные о ранее отправленных пользователями запросах, используемые для идентификации связей между запросами и документами.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной офлайн-процесс генерации базы соответствий между запросами и фактическими ответами для множества категорий.

  1. Система обрабатывает коллекцию документов для каждой категории. Категория имеет специфические text patterns и ключевые слова.
  2. Применяются text patterns категории к документам для идентификации fact terms.
  3. Создаются и сохраняются First associations: связь между каждым fact term и документами, которые его содержат.
  4. Создаются и сохраняются Second associations: связь между этими документами и ранее отправленными запросами. Условия для связи: (i) запрос содержит ключевое слово/фразу категории, и (ii) документ был показан в результатах поиска по этому запросу.
  5. Генерируются и сохраняются Mappings (соответствия). Соответствие между запросом и fact term создается, если оба они связаны с пороговым количеством (threshold number) одних и тех же документов.

Claim 3 (Зависимый от 1): Уточняет условие для создания Second associations (связи документ-запрос).

Связь создается, если документ не просто был показан в результатах, а был highly ranked (высоко ранжирован) для этого запроса. Это подчеркивает использование данных ранжирования для валидации.

Claim 4 (Зависимый от 1): Предлагает альтернативное условие для создания Second associations.

Связь создается, если процент кликов (percentage of clicks) по результату поиска, ссылающемуся на документ, превышает пороговый процент от общего числа кликов для этого запроса. Это указывает на использование поведенческих данных (CTR) для валидации.

Claim 6 (Зависимый от 1): Описывает процесс использования сгенерированной базы в реальном времени.

  1. Система получает запрос пользователя.
  2. В сохраненных Mappings идентифицируется соответствие, связывающее этот запрос с определенным fact term.
  3. Этот fact term предоставляется в ответе на запрос пользователя.

Где и как применяется

Изобретение представляет собой офлайн-процесс, который использует данные, собранные на разных этапах поиска, для создания базы данных ответов, используемой на финальных этапах формирования выдачи.

INDEXING – Индексирование и извлечение признаков
На этом этапе происходит основная часть работы по извлечению фактов. Система сканирует документы, применяет text patterns для идентификации fact terms по категориям и создает First associations (термин-документ).

QUNDERSTANDING (Offline Processing) – Понимание Запросов (Офлайн-обработка)
Основная логика патента выполняется здесь, но не в реальном времени. Система анализирует Query Logs, данные ранжирования и кликов (собранные после этапов RANKING/RERANKING) для создания Second associations (документ-запрос). Затем происходит генерация итоговой базы Mappings (запрос-ответ). Это масштабный процесс для построения базы знаний о фактах.

RANKING – Ранжирование
Данные этапа ранжирования (какие документы ранжируются по каким запросам) являются критически важными входными данными для офлайн-процесса генерации маппингов.

METASEARCH – Метапоиск и Смешивание
На этом этапе система использует сгенерированные Mappings. При получении запроса в реальном времени система проверяет наличие готового ответа в базе данных. Если он найден, он может быть использован для формирования специальных блоков выдачи (например, Direct Answers или Featured Snippets).

Входные данные (Офлайн):

  • Коллекция проиндексированных документов.
  • Определения категорий (шаблоны и ключевые слова).
  • Query Logs (включая данные о позициях документов в выдаче и кликах пользователей).

Выходные данные (Офлайн):

  • База данных Mappings (соответствия запрос-ответ).

На что влияет

  • Специфические запросы: Наибольшее влияние оказывается на фактические информационные запросы (например, «когда родился X», «какая высота Y», «сколько стоит Z»).
  • Конкретные типы контента: Влияет на контент, содержащий четкие, объективные факты, которые могут быть извлечены с помощью шаблонов (справочники, энциклопедии, новостные статьи, страницы товаров с ценами и характеристиками).
  • Форматы контента: Предпочтение отдается форматам, где факты представлены ясно и легко извлекаемы (текст, таблицы, списки).

Когда применяется

  • Условия работы алгоритма: Основной процесс генерации Mappings выполняется офлайн и периодически обновляется по мере поступления новых данных в индекс и логи.
  • Триггеры активации (для генерации Mapping):
    • Наличие в документе Fact Term, соответствующего шаблону категории.
    • Документ должен быть релевантен запросу: либо высоко ранжироваться по нему, либо получать значительную долю кликов (threshold percentage of total clicks).
    • Запрос должен содержать ключевые слова, соответствующие категории.
    • Должно быть достаточное пересечение документов между термином и запросом (threshold number).
  • Применение в рантайме: Применяется, когда пользователь вводит запрос, для которого существует заранее вычисленное соответствие в базе Mappings.

Пошаговый алгоритм

Процесс А: Офлайн-генерация базы соответствий (Reverse Question Answering)

  1. Выбор категории: Система выбирает категорию (например, «Измерения») с соответствующими шаблонами (например, «[ЧИСЛО] метров») и ключевыми словами (например, «высота», «длина»).
  2. Идентификация терминов (Fact Terms): Система сканирует корпус документов, применяя шаблоны для извлечения потенциальных ответов. Термины, встречающиеся слишком редко или слишком часто, могут быть отфильтрованы.
  3. Создание Первых Ассоциаций: Каждый извлеченный термин связывается со списком документов, в которых он встречается.
  4. Идентификация Запросов и Создание Вторых Ассоциаций: Система анализирует Query Logs. Для каждого документа из шага 3 определяются запросы, для которых этот документ был показан в выдаче и соответствовал критериям качества (высокий ранг или высокий процент кликов).
  5. Фильтрация запросов: Идентифицированные запросы фильтруются. Оставляются только те, которые содержат ключевые слова, релевантные выбранной категории.
  6. Сопоставление Терминов и Запросов: Система анализирует пересечение документов между First и Second associations. Если термин и запрос связаны с достаточным количеством общих документов, создается предварительное соответствие.
  7. Выбор Ответа и Генерация Mapping: Для каждого запроса система выбирает лучший Fact Term из предварительных соответствий. Выбор основывается на частоте появления термина в документах, связанных с запросом (консенсус), или на совокупном весе этих документов. Создается финальный Mapping (Запрос -> Ответ).

Процесс Б: Онлайн-обслуживание запроса

  1. Получение запроса: Система получает запрос от пользователя.
  2. Поиск соответствия: Система ищет запрос в базе Mappings.
  3. Предоставление ответа: Если соответствие найдено, система извлекает связанный fact term и предоставляет его пользователю.

Какие данные и как использует

Данные на входе

Патент фокусируется на использовании контентных, поведенческих и системных данных для связи контента с запросами.

  • Контентные факторы: Текст документов. Система ищет конкретные текстовые шаблоны (text patterns) для извлечения фактов.
  • Поведенческие факторы (Критически важные):
    • Query Logs: история ранее отправленных запросов.
    • Данные о кликах: Патент явно упоминает использование процента от общего числа кликов (percentage of total clicks) как критерий для связи документа с запросом (Claim 4).
  • Системные данные (Ранжирование): Ранг документа в результатах поиска для конкретного запроса. Упоминается критерий «высоко ранжированный» (highly ranked) (Claim 3).

Какие метрики используются и как они считаются

  • Частота термина в корпусе: Используется для фильтрации слишком редких или слишком частых терминов (потенциальных ответов).
  • Ранг документа (Document Rank): Позиция документа в SERP для запроса. Используется для создания Second associations (например, Топ-N).
  • Процент кликов (Click Percentage): Доля кликов, которую документ получает для данного запроса. Используется как альтернативный или дополнительный критерий для Second associations.
  • Количество общих документов (Threshold number of the same documents): Пороговое значение пересечения документов, с которыми ассоциированы и термин, и запрос. Необходимо для создания Mapping.
  • Частота ответа (Answer Frequency): Количество упоминаний Fact Term в документах, связанных с запросом. Используется для выбора наилучшего ответа среди кандидатов (консенсус).

Выводы

  1. Эффективность через обратное сопоставление: Google может генерировать точные фактические ответы без необходимости глубокого понимания нюансов формулировки запроса. Система полагается на то, что если множество пользователей задают вопрос и переходят на документ с определенным фактом, этот факт, вероятно, является правильным ответом.
  2. Критичность поведенческих факторов и ранжирования: Чтобы факт из документа был ассоциирован с запросом, документ должен быть авторитетным для этого запроса. Авторитетность определяется через высокий ранг (highly ranked) и/или высокую долю кликов (threshold percentage of total clicks). Это подтверждает, что традиционное SEO и оптимизация CTR критически важны для извлечения знаний из контента.
  3. Фокус на извлекаемых шаблонах данных: Система активно ищет данные, соответствующие известным шаблонам (даты, цены, измерения). Контент, структурированный таким образом, чтобы облегчить это извлечение (text patterns), имеет преимущество.
  4. Валидация фактов через консенсус: Лучший ответ выбирается на основе того, какой Fact Term чаще всего появляется в наиболее авторитетных документах для данного запроса. Консистентность информации между топовыми сайтами укрепляет уверенность системы в факте.
  5. Офлайн-обработка для скорости: Весь процесс анализа и генерации Mappings происходит офлайн, что позволяет системе мгновенно предоставлять прямые ответы в реальном времени.

Практика

Best practices (это мы делаем)

  • Оптимизация под Featured Snippets через сильное ранжирование и CTR: Для того чтобы ваш контент стал источником ответа, он должен высоко ранжироваться по целевым запросам и иметь привлекательный сниппет, генерирующий высокую долю кликов. Это необходимо для создания Second associations между вашим документом и запросом.
  • Четкое и стандартизированное форматирование фактов: Представляйте фактическую информацию в форматах, которые легко распознаются как шаблоны (Fact Terms). Например, указывайте единицы измерения (8,848 м), используйте стандартные форматы дат, четко указывайте цены и валюты. Избегайте неоднозначных формулировок.
  • Использование семантически ясных структур: Используйте таблицы, списки и пары «ключ-значение» для представления характеристик и фактов. Это облегчает извлечение Fact Terms на этапе индексации.
  • Консистентность и точность данных: Убедитесь, что ваши данные точны и соответствуют консенсусу авторитетных источников. Система предпочитает ответы, которые часто повторяются в топовых документах.
  • Ответы на фактические вопросы в контенте: Создавайте контент, который прямо отвечает на фактические вопросы в вашей нише. Это увеличивает вероятность того, что система идентифицирует релевантные запросы и свяжет их с вашим контентом.

Worst practices (это делать не надо)

  • Использование нестандартных форматов данных: Представление фактов в виде изображений без текстового эквивалента или использование неоднозначных формулировок (например, «чуть меньше девяти тысяч метров» вместо «8,848 м») препятствует извлечению Fact Terms.
  • Скрытие фактов в мультимедиа или сложных скриптах: Размещение ключевой информации только в изображениях, видео или труднодоступном для рендеринга JavaScript не позволит этой системе (основанной на текстовых паттернах) извлечь их.
  • Игнорирование оптимизации сниппетов: Слабый Title и Description, приводящие к низкому CTR, могут помешать системе ассоциировать ваш высокоранжирующийся документ с запросом, даже если он содержит правильный ответ (согласно Claim 4).
  • Противоречивые данные на сайте: Наличие разных ответов на один и тот же вопрос на сайте может снизить уверенность системы в выборе вашего контента в качестве источника ответа.

Стратегическое значение

Патент подчеркивает стратегию Google по извлечению знаний из веба масштабируемым и основанным на данных способом. Он показывает, как поведенческие данные (логи и клики) используются не только для ранжирования, но и как механизм валидации фактов. Для SEO это означает, что создание авторитетного контента, который заслуживает высоких позиций и привлекает клики, является фундаментом для видимости в элементах «нулевой позиции» (Position Zero) и других блоках, основанных на знаниях.

Практические примеры

Сценарий: Оптимизация страницы товара для извлечения характеристик (Вес)

Задача: Обеспечить, чтобы Google извлек вес товара для показа в прямых ответах по запросу «вес [Товар X]».

  1. Структурирование контента (Best Practice): Разместить характеристики в четкой таблице или списке на странице товара. Использовать стандартные единицы измерения.
    Пример: Вес: 1.2 кг.
  2. Избегание (Worst Practice): Не писать «Вес около килограмма» или прятать вес в неструктурированном абзаце текста.
  3. Оптимизация ранжирования и CTR: Убедиться, что страница товара хорошо ранжируется по этому запросу и имеет информативный сниппет, привлекающий клики.
  4. Ожидаемый результат: Система индексирования извлекает Fact Term («1.2 кг»). Анализ логов показывает, что пользователи, ищущие «вес [Товар X]», часто кликают на эту страницу (Second association). Система создает Mapping между запросом «вес [Товар X]» и ответом «1.2 кг».

Вопросы и ответы

Что такое «обратный ответ на вопрос» (Reverse Question Answering) и чем он отличается от традиционного?

Традиционный подход идет от запроса к ответу: система анализирует структуру вопроса и ищет ответ. «Обратный» подход идет от ответа к запросу: система сначала извлекает все потенциальные факты (например, все даты) из индекса, а затем определяет, на какие вопросы эти факты отвечают, анализируя данные ранжирования. Это более эффективно, так как уникальных фактов меньше, чем способов задать о них вопрос.

Насколько важен CTR для этого механизма?

CTR (или доля кликов) критически важен. Патент явно указывает (Claim 4), что связь между документом и запросом может быть установлена, если документ получает «пороговый процент от общего числа кликов» для этого запроса. Это означает, что если ваш сайт ранжируется в топе, но пользователи его игнорируют, Google может не ассоциировать ваш контент с ответом на вопрос.

Как система определяет, какой факт является правильным ответом на запрос?

Система полагается на консенсус и авторитетность. Она проверяет, какой fact term чаще всего встречается в документах, которые релевантны данному запросу. Релевантность документов определяется тем, насколько высоко они ранжируются по этому запросу и/или сколько кликов они получают. Факт, доминирующий среди авторитетных источников, выбирается как ответ.

Как система понимает, что такое «факт»?

Система не понимает факты семантически в рамках этого патента. Вместо этого она использует категоризацию и шаблоны (text patterns). Например, для категории «Измерения» используется шаблон "[ЧИСЛО] [ЕДИНИЦА]". Любой текст, соответствующий этому шаблону (например, "8848 м" или "5 кг"), считается fact term и кандидатом в ответы.

Как этот патент связан с Featured Snippets и Knowledge Graph?

Этот механизм является одним из вероятных способов генерации контента для Featured Snippets и наполнения Knowledge Graph фактическими данными. Патент описывает, как система может заранее вычислить соответствие между вопросом и ответом, основываясь на данных из веба и поведении пользователей, чтобы затем показать его на «нулевой позиции».

Что делать, если мой контент содержит правильный ответ, но Google выбирает другой источник?

Необходимо проанализировать два ключевых аспекта. Во-первых, убедитесь, что ваш ответ отформатирован ясно и соответствует извлекаемым шаблонам (Fact Terms). Во-вторых, работайте над улучшением ранжирования и CTR вашей страницы по целевым запросам. Google выбирает ответы из документов, которые он считает наиболее авторитетными и на которые чаще кликают.

Влияет ли микроразметка (Schema.org) на этот процесс?

Патент не упоминает микроразметку. Он описывает механизм извлечения фактов непосредственно из неструктурированного текста с помощью распознавания шаблонов (text patterns). Однако использование микроразметки для фактов может помочь другим системам Google понять контент и потенциально усилить сигналы, используемые этим механизмом.

Применяется ли этот метод только к коротким фактическим ответам?

Да, патент фокусируется на Fact Terms – коротких сегментах текста, которые соответствуют определенным шаблонам (даты, числа, имена). Он не предназначен для генерации длинных, сложных или субъективных ответов. Метод идеально подходит для объективных фактов.

Является ли этот процесс офлайн или он работает в реальном времени?

Генерация соответствий (Mappings) между запросами и ответами происходит офлайн. Это ресурсоемкий процесс, включающий анализ всего индекса и логов запросов. Однако применение этих соответствий (получение запроса и выдача ответа) происходит в реальном времени, что обеспечивает быстрый ответ пользователю.

Как бороться с устареванием фактов при использовании этого метода?

Поскольку система периодически пересчитывает Mappings на основе свежих данных индекса и актуальных логов запросов, устаревшие факты естественным образом заменяются новыми. Когда авторитетные сайты обновляют информацию, и пользователи начинают кликать на эти обновленные документы, система перестраивает соответствия в пользу новых фактов.

Похожие патенты

Как Google решает, показывать ли прямой ответ, анализируя частоту использования естественного языка в исторических запросах о факте
Google анализирует исторические данные о том, как пользователи ищут конкретный факт. Если они часто используют естественный язык (например, «какая высота у Эйфелевой башни»), система считает, что пользователи действительно ищут этот факт. На основе этого рассчитывается «Оценка поиска фактов» (Fact-Seeking Score). Эта оценка используется как сигнал ранжирования, чтобы решить, нужно ли показывать прямой ответ (Factual Answer) и насколько высоко его разместить в результатах поиска.
  • US9396235B1
  • 2016-07-19
  • Семантика и интент

  • SERP

  • Поведенческие сигналы

Как Google извлекает факты напрямую из веб-страниц для формирования прямых ответов (Featured Snippets / Answer Boxes)
Google использует систему для динамического извлечения фактов из веб-индекса. Когда поступает фактический запрос, система определяет ожидаемый тип ответа (например, дата, число, имя), анализирует топовые результаты поиска и извлекает соответствующие фразы. Эти фразы нормализуются, оцениваются по частоте, контексту и авторитетности источника, и лучший вариант показывается в виде прямого ответа.
  • US8655866B1
  • 2014-02-18
  • Индексация

  • Семантика и интент

  • SERP

Как Google находит ответы на фактологические вопросы, анализируя консенсус сущностей в топе поисковой выдачи
Google использует этот механизм для автоматического ответа на фактологические вопросы путем анализа неструктурированного текста топовых результатов поиска. Система определяет, какая сущность (например, человек, место) чаще всего упоминается на авторитетных страницах. Эта наиболее часто упоминаемая сущность, с учетом нормализации частоты и веса источника, выбирается в качестве ответа.
  • US9477759B2
  • 2016-10-25
  • Семантика и интент

  • Индексация

  • Knowledge Graph

Как Google генерирует сниппеты для фактических ответов, требуя близости вопроса и ответа в тексте источника
Патент Google описывает систему ответа на фактические запросы (Fact Query Engine). Для подтверждения факта, извлеченного из Fact Repository (аналог Knowledge Graph), система генерирует сниппеты из исходных веб-документов. Ключевое требование: сниппет должен содержать как термины из запроса пользователя, так и термины ответа, причем система предпочитает фрагменты, где они расположены близко друг к другу (Proximity).
  • US7587387B2
  • 2009-09-08
  • Семантика и интент

  • Knowledge Graph

  • SERP

Как Google извлекает и ранжирует прямые ответы (Featured Snippets) из веб-страниц
Google использует систему для ответов на вопросы пользователей путем извлечения конкретных предложений из результатов поиска. Система оценивает предложения-кандидаты по трем критериям: насколько часто похожие фразы встречаются в других результатах (консенсус), насколько предложение соответствует запросу (релевантность) и насколько авторитетен источник (ранг документа). Лучшие ответы отображаются над стандартными результатами поиска.
  • US8682647B1
  • 2014-03-25
  • SERP

  • Семантика и интент

Популярные патенты

Как Google понижает в выдаче результаты, которые пользователь уже видел или проигнорировал в рамках одной поисковой сессии
Google использует механизм для улучшения пользовательского опыта во время длительных поисковых сессий. Если пользователь вводит несколько связанных запросов подряд, система идентифицирует результаты, которые уже появлялись в ответ на предыдущие запросы. Эти повторяющиеся результаты понижаются в ранжировании для текущего запроса, чтобы освободить место для новых, потенциально более полезных страниц. Понижение контролируется порогом релевантности, чтобы не скрывать важный контент.
  • US8051076B1
  • 2011-11-01
  • SERP

  • Поведенческие сигналы

Как Google использует распределение кликов в выдаче для определения брендовых (навигационных) и общих (тематических) запросов
Google анализирует поведение пользователей в поисковой выдаче для классификации интента запроса. Если клики сконцентрированы на одном результате (низкое разнообразие, высокая частота), запрос классифицируется как навигационный или брендовый (Data-Creator Targeting). Если клики распределены по разным сайтам, запрос считается общим (Content Targeting). Эта классификация используется для адаптации поисковой выдачи.
  • US20170068720A1
  • 2017-03-09
  • Семантика и интент

  • Поведенческие сигналы

  • SERP

Как Google предсказывает следующий запрос пользователя на основе контента текущей страницы и исторических данных
Google использует машинное обучение для анализа логов поведения пользователей, чтобы понять, что они ищут после посещения определенного контента. Система создает совместное векторное пространство (joint embedding) для документов и запросов, где близость отражает семантическую связь и вероятность совместной встречаемости. Это позволяет предлагать релевантные последующие запросы (query suggestions) в реальном времени, даже если ключевые слова для этих запросов на странице отсутствуют.
  • US9594851B1
  • 2017-03-14
  • Семантика и интент

  • Поведенческие сигналы

  • Персонализация

Как Google A/B тестирует и оптимизирует сниппеты (заголовки, описания, изображения) для повышения CTR
Google использует механизм для оптимизации отображения контента (сниппетов). Система показывает разные варианты заголовков, описаний или изображений для одной и той же ссылки разным пользователям или на разных платформах. Затем она измеряет кликабельность (CTR) каждого варианта и выбирает наиболее эффективный для дальнейшего использования, учитывая также тип устройства пользователя.
  • US9569432B1
  • 2017-02-14
  • SERP

  • Поведенческие сигналы

  • Персонализация

Как Google использует погоду, время и местоположение для понимания истинного намерения пользователя и адаптации поисковой выдачи
Google анализирует, как физическое окружение (погода, время, местоположение) влияет на то, что ищут пользователи. Система выявляет корреляции между средой и поведением пользователей в прошлом (включая длительность кликов), чтобы лучше понять текущий интент многозначных запросов. Затем она переранжирует выдачу или переписывает запрос для предоставления наиболее релевантных результатов и рекламы.
  • US8898148B1
  • 2014-11-25
  • Семантика и интент

  • Поведенческие сигналы

  • Персонализация

Как Google выбирает модель визуальной релевантности для сложных запросов в Поиске по картинкам
Google решает проблему ранжирования изображений для сложных или редких запросов, для которых нет специализированной модели релевантности. Система тестирует существующие модели, созданные для частей запроса (подзапросов), и выбирает ту, которая лучше всего соответствует поведению пользователей (кликам) по исходному запросу. Это позволяет улучшить визуальную релевантность в Image Search.
  • US9152652B2
  • 2015-10-06
  • Поведенческие сигналы

  • Мультимедиа

  • Семантика и интент

Как Google комбинирует поведенческие сигналы из разных поисковых систем для улучшения ранжирования
Google использует механизм для улучшения ранжирования путем объединения данных о поведении пользователей (клики и время взаимодействия) из разных поисковых систем (например, Веб-поиск и Поиск по Видео). Если в основной системе данных недостаточно, система заимствует данные из другой, применяя весовой коэффициент и фактор сглаживания для контроля смещения и обеспечения релевантности.
  • US8832083B1
  • 2014-09-09
  • Поведенческие сигналы

  • SERP

Как Google использует время пребывания на странице (Dwell Time) для оценки качества и корректировки ранжирования
Google анализирует продолжительность визитов пользователей на страницы из результатов поиска (Dwell Time). Система рассчитывает метрику, сравнивающую количество «длинных кликов» (длительных визитов) с общим количеством кликов для конкретного документа по конкретному запросу. Этот показатель используется как сигнал качества, независимый от позиции в выдаче, для повышения или понижения документа в ранжировании.
  • US8661029B1
  • 2014-02-25
  • Поведенческие сигналы

  • SERP

Как Google определяет, действительно ли новость посвящена сущности, и строит хронологию событий
Google использует систему для определения релевантности новостей конкретным объектам (сущностям, событиям, темам). Система анализирует кластеры новостных статей (коллекции), оценивая общий интерес к объекту (поисковые запросы, социальные сети) и значимость объекта внутри коллекции (упоминания в заголовках, центральность в тексте). Ключевой механизм — оценка уместности событий: система проверяет, соответствует ли событие типу объекта (например, «новый метод лечения» для болезни), чтобы отфильтровать мимолетные упоминания и создать точную хронологию новостей.
  • US9881077B1
  • 2018-01-30
  • Семантика и интент

  • Поведенческие сигналы

Как Google извлекает, обрабатывает и индексирует анкорный текст, контекст и атрибуты входящих ссылок для ранжирования целевых страниц
Фундаментальный патент, описывающий инфраструктуру Google для обработки ссылок. Система извлекает анкорный текст, окружающий контекст и атрибуты форматирования (аннотации) из исходных страниц и инвертирует эти данные в структуру "Sorted Anchor Map". Это позволяет индексировать целевую страницу по тексту ссылок, указывающих на нее, используя эту внешнюю информацию как сигнал релевантности.
  • US7308643B1
  • 2007-12-11
  • Ссылки

  • Индексация

  • Техническое SEO

seohardcore