Как Google извлекает и ранжирует прямые ответы (Featured Snippets) из веб-страниц

SYSTEMS AND METHODS FOR ANSWERING COMPLEX QUESTIONS WITH MINED NATURAL LANGUAGE SEARCH RESULTS (Системы и методы для ответов на сложные вопросы с помощью извлеченных результатов поиска на естественном языке)

US8682647B1
Google LLC
2012-01-13
2014-03-25

Google использует систему для ответов на вопросы пользователей путем извлечения конкретных предложений из результатов поиска. Система оценивает предложения-кандидаты по трем критериям: насколько часто похожие фразы встречаются в других результатах (консенсус), насколько предложение соответствует запросу (релевантность) и насколько авторитетен источник (ранг документа). Лучшие ответы отображаются над стандартными результатами поиска.

Какую проблему решает

Патент решает задачу предоставления прямых, естественно-языковых ответов (natural language answers) на запросы, сформулированные как вопросы (natural language questions). Вместо того чтобы заставлять пользователя переходить по ссылкам, система стремится извлечь конкретное предложение из найденных документов, которое наилучшим образом отвечает на вопрос, и выделить его в поисковой выдаче.

Что запатентовано

Запатентована система для майнинга (извлечения) и ранжирования ответов. Система анализирует топовые результаты поиска, извлекает из них предложения-кандидаты (candidate sentences) и оценивает их с использованием многофакторной модели. Эта модель комбинирует сигналы частоты встречаемости фраз (N-gram Frequency Score), релевантности запросу (Query Relevance Score) и авторитетности источника (Web Ranking Score) для выбора наилучшего ответа.

Как это работает

Система работает следующим образом:

Первичный поиск: На вход поступает вопрос, который отправляется в стандартную поисковую систему (lookup engine) для получения ранжированного списка документов.
Извлечение кандидатов: Текст топовых документов парсится для идентификации candidate sentences.
Оценка кандидатов: Каждое предложение оценивается по трем ключевым метрикам:
- Консенсус (N-gram Frequency Score): Насколько часто фразы из этого предложения встречаются в других результатах (поиск общепринятого ответа).
- Релевантность (Query Relevance Score): Степень пересечения слов между предложением и запросом.
- Авторитетность (Web Ranking Score): Насколько высоко ранжируется исходный документ.
Финальный скоринг: Эти метрики комбинируются (например, перемножаются) для получения общей оценки (Overall Score). Предложения сортируются, и лучшее из них представляется пользователю как прямой ответ (Featured Snippet).

Актуальность для SEO

Критически высокая. Патент описывает фундаментальные механики системы, известной сегодня как Featured Snippets (Блоки с ответами). Хотя конкретные алгоритмы оценки могли эволюционировать с внедрением ML-моделей, базовые принципы — извлечение ответов и их оценка на основе консенсуса, релевантности и авторитетности источника — остаются ядром этой функциональности.

Важность для SEO

Патент имеет критическое значение для SEO (9.5/10). Он раскрывает конкретные механизмы, используемые для выбора контента на «позицию ноль». Понимание трехкомпонентной модели оценки (особенно роли N-gram Frequency как фактора консенсуса) позволяет SEO-специалистам целенаправленно оптимизировать структуру и формулировки контента для захвата Featured Snippets и максимизации видимости в SERP.

Термины и определения

Candidate Sentence (Предложение-кандидат): Предложение, извлеченное из текста документа в первичных результатах поиска, которое рассматривается как потенциальный прямой ответ на запрос.
Lookup Engine (Поисковая система / Механизм поиска): Система (например, стандартный веб-поиск), которая предоставляет начальный набор ранжированных результатов в ответ на запрос.
N-gram (N-грамма): Непрерывная последовательность из N слов. Например, 2-грамма – это последовательность из двух слов.
N-gram Frequency Score (Оценка частоты N-грамм): Метрика, оценивающая предложение на основе того, насколько часто содержащиеся в нем N-граммы встречаются во всем пуле предложений-кандидатов. Отражает «консенсус» среди источников.
Overall Score (Общая оценка): Итоговая оценка предложения-кандидата. Является комбинацией (произведением, суммой или средним геометрическим) из N-gram Frequency Score, Query Relevance Score и Web Ranking Score.
Query Relevance Score (Оценка релевантности запросу): Мера общности между предложением-кандидатом и исходным запросом. Часто рассчитывается как количество общих слов, с возможным исключением стоп-слов или учетом синонимов.
Web Ranking Score (Оценка веб-ранжирования): Метрика, основанная на позиции документа-источника в первичных результатах поиска. Отражает авторитетность источника.

Ключевые утверждения (Анализ Claims)

Патент содержит несколько независимых пунктов (Claims 1, 21, 41), описывающих вариации системы, использующие разные комбинации из трех основных сигналов.

Claim 1 (Независимый пункт): Описывает процесс, использующий Консенсус + Релевантность.

Система получает запрос в виде грамматического вопроса.
Получает первичные результаты поиска.
Идентифицирует candidate sentences.
Вычисляет частоту N-грамм (N-gram Frequency) (как минимум для N=1 и N=2).
Вычисляет меру общности с запросом (Query Relevance).
Присваивает Overall Score, включающий (1) частоту N-грамм и (2) меру общности.
Сортирует кандидатов и отправляет лучший ответ.

Claim 21 (Независимый пункт): Описывает процесс, использующий Консенсус + Авторитетность.

Требует, чтобы первичные результаты были ранжированы. Overall Score рассчитывается на основе (1) частоты N-грамм и (2) ранга документа-источника (Web Ranking Score).

Claim 41 (Независимый пункт): Описывает процесс, использующий Релевантность + Авторитетность.

Требует ранжирования результатов. Overall Score рассчитывается на основе (1) ранга документа-источника (Web Ranking Score) и (2) меры общности (Query Relevance).

Claim 6, 16, 25, 35, 46, 56 (Зависимые пункты): Уточняют, что система может использовать все три компонента (Консенсус + Релевантность + Авторитетность) одновременно.

Claim 3, 6, 10 (Зависимые): Детализируют методы расчета Overall Score.

Утверждается, что Overall Score может быть рассчитан как произведение (product) используемых компонентов (Claim 3, 6) или как среднее геометрическое (geometric mean) (Claim 10).

Где и как применяется

Изобретение применяется на финальных этапах формирования поисковой выдачи для генерации блока прямых ответов (Featured Snippets).

RANKING – Ранжирование
На этом этапе генерируется первичный набор результатов поиска (initial search results). Ранжирование этих результатов критически важно, так как оно используется в качестве входных данных для расчета Web Ranking Score.

METASEARCH – Метапоиск и Смешивание / RERANKING – Переранжирование
Основное применение патента. Система функционирует как дополнительный слой поверх стандартного ранжирования для генерации SERP Feature.

Анализ и Извлечение: Система анализирует контент топовых документов, полученных на этапе RANKING, и извлекает candidate sentences.
Оценка: Применяются специализированные алгоритмы оценки (N-gram Frequency, Query Relevance, Web Ranking) для переранжирования извлеченных предложений.
Формирование блока: Лучший ответ внедряется в SERP, часто над стандартными результатами (позиция #0).

Входные данные:

Исходный запрос (natural language question).
Набор первичных результатов поиска (документы и их текст).
Ранжирование первичных результатов.

Выходные данные:

Сформированный блок ответа, включающий лучшее предложение, ссылку на источник (URL) и заголовок источника.

На что влияет

Специфические запросы: Наибольшее влияние на информационные запросы, сформулированные в виде вопросов («что», «почему», «как», «когда»).
Конкретные типы контента: Влияет на контент, содержащий четкие определения, объяснения или инструкции, которые могут быть представлены в виде краткого текстового ответа (параграфа).
Форматы контента: Предпочтение отдается четко структурированному тексту, из которого легко извлечь грамматически законченные предложения.

Когда применяется

Триггеры активации: Система активируется, когда входящий запрос идентифицируется как грамматический вопрос (grammatical question).
Условия применения: Применяется при условии, что в первичных результатах поиска удается найти подходящие candidate sentences.
Пороговые значения: Ответ предоставляется, только если Overall Score лучшего кандидата превышает заранее определенный порог (predetermined threshold) (Claim 7).

Пошаговый алгоритм

Получение запроса: Система получает поисковый запрос в форме вопроса на естественном языке.
Запрос к Lookup Engine: Запрос отправляется в основную поисковую систему.
Получение первичных результатов: Система получает набор документов и их ранжирование.
Идентификация кандидатов: Документы парсятся для извлечения candidate sentences (например, по грамматическим признакам: заглавная буква в начале, точка в конце).
Вычисление N-gram Frequency Score (Опционально):
1. Подсчитывается частота встречаемости всех N-грамм (например, для N от 1 до 10) во всем пуле кандидатов.
2. Для каждого предложения вычисляется общая оценка частоты N-грамм (C(S)), например, как взвешенная сумма частот.
Вычисление Query Relevance Score (Опционально):
1. Подсчитывается количество общих слов между предложением и запросом. Могут игнорироваться стоп-слова и учитываться синонимы.
2. Фильтр повтора: Если процент совпадения слишком высок (например, 80%-100%), эта оценка может быть проигнорирована (установлена в 1 для произведения или 0 для суммы), чтобы избежать выбора предложений, повторяющих вопрос.
Вычисление Web Ranking Score (Опционально):
1. Определяется ранг документа-источника.
2. Ранг преобразуется в оценку (например, Константа минус Ранг, или инвертированный ранг).
Присвоение Overall Score: Вычисляется общая оценка путем комбинирования как минимум двух из трех вышеупомянутых оценок. Методы комбинирования: Произведение, Сумма или Среднее геометрическое.
Сортировка и Фильтрация: Предложения сортируются по Overall Score. Лучший ответ может быть отфильтрован, если его оценка не превышает порог.
Отправка ответа: Лучшее предложение (или топ-N) отправляется пользователю, часто в специальном блоке.

Какие данные и как использует

Данные на входе

Контентные факторы: Текст документов из первичной выдачи (для извлечения предложений, анализа N-грамм и подсчета пересечения с запросом). Заголовок (Title) страницы (для отображения в блоке ответа).
Технические факторы: URL документа (для цитирования источника).
Системные данные (Ranking): Ранг документа в первичной выдаче (используется для Web Ranking Score).

Какие метрики используются и как они считаются

Система использует три ключевые метрики, агрегируемые в Overall Score:

N-gram Frequency Score (C(S)):
- Цель: Измерить консенсус и общепринятость формулировки.
- Расчет: Сумма частот N-грамм, содержащихся в предложении, во всем пуле кандидатов. Может использоваться взвешивание. Патент приводит пример формулы с весом, обратно пропорциональным длине N-граммы:
  $C(S) = \sum_{n=1}^{N} \frac{C_n(S)}{n}$
Query Relevance Score:
- Цель: Измерить релевантность тексту запроса.
- Расчет: Подсчет количества общих слов между запросом и предложением.
Web Ranking Score:
- Цель: Измерить авторитетность источника.
- Расчет: Функция от ранга документа. Например, Константа минус Ранг (e.g., 10 - Rank) или инвертированный ранг.

Фундамент Featured Snippets: Патент детально описывает алгоритмическую основу для выбора прямых ответов. Это не просто выбор релевантного текста с топовой страницы, а сложное переранжирование извлеченных предложений.
Три столпа оценки ответа: Система ищет баланс между тремя ключевыми сигналами:
- Авторитетность (Web Ranking Score): Ответ должен быть взят со страницы, которая уже хорошо ранжируется.
- Релевантность (Query Relevance Score): Ответ должен лексически соответствовать вопросу.
- Консенсус (N-gram Frequency Score): Ответ должен быть сформулирован так, как это делают другие авторитетные источники. Это ключевой механизм обеспечения достоверности.
Критическая роль Консенсуса: Google активно ищет общепринятые ответы. N-gram Frequency Score позволяет системе предпочесть предложения, которые используют фразы, часто встречающиеся на *других* релевантных страницах.
Фильтрация повторов вопроса: Система имеет механизм защиты от выбора предложений, которые слишком похожи на сам запрос (>80-100% совпадения), гарантируя, что выбранный текст является ответом, а не эхом вопроса.
Гибкость алгоритма: Патент предусматривает использование разных комбинаций факторов (минимум два из трех) и разных методов их агрегации (произведение, сумма, среднее геометрическое), что позволяет адаптировать систему к различным ситуациям.

Best practices (это мы делаем)

Обеспечение высокого ранжирования (Web Ranking Score): Фундаментальное требование — страница должна находиться в Топ-10 по целевому запросу. Это необходимое условие для получения высокого Web Ranking Score, который является одним из множителей в Overall Score.
Анализ консенсуса (N-gram Frequency): Изучайте, как формулируют ответы конкуренты в Топе и текущий владелец Featured Snippet. Используйте общепринятые в нише формулировки, факты и терминологию. Это повысит N-gram Frequency Score, так как ваши фразы будут совпадать с фразами в общем пуле кандидатов.
Четкие и прямые ответы: Формулируйте контент так, чтобы он содержал грамматически законченные предложения, которые напрямую отвечают на вопрос и могут быть извлечены из контекста.
Оптимизация релевантности (Query Relevance): Включайте в ответ ключевые термины из запроса (или их синонимы) естественным образом. Убедитесь, что предложение отвечает на интент, а не просто содержит слова.
Структурирование контента: Используйте формат «Вопрос-Ответ». Размещайте четкий ответ сразу после заголовка (H2/H3), содержащего вопрос. Это облегчает системе идентификацию и извлечение candidate sentences.

Worst practices (это делать не надо)

Использование уникального, но нестандартного языка: Попытки выделиться за счет слишком сложного или нестандартного языка могут снизить N-gram Frequency Score. Система предпочитает консенсус и ясность.
Повторение вопроса без ответа: Создание предложений, которые слишком близко повторяют запрос (более 80% совпадения). Система может отфильтровать их, так как они не несут ответа.
«Вода» и сложные конструкции: Отсутствие четких, лаконичных ответов и использование слишком сложных предложений снижает вероятность того, что система сможет корректно идентифицировать и высоко оценить candidate sentences.
Противоречие общепринятым фактам: Предоставление ответов, которые идут вразрез с консенсусом авторитетных источников, значительно снизит N-gram Frequency Score.

Стратегическое значение

Патент подтверждает стратегическую важность оптимизации под ответы (Answer Engine Optimization). Для захвата Featured Snippets недостаточно быть авторитетным или просто иметь релевантный текст. Стратегия должна включать анализ того, как информация представлена в нише в целом (консенсус). Понимание роли N-gram Frequency Score меняет подход к копирайтингу: необходимо стремиться не только к уникальности контента, но и к стандартизации формулировок ключевых определений и фактов, чтобы соответствовать ожиданиям алгоритма консенсуса.

Практические примеры

Сценарий: Оптимизация статьи для захвата Featured Snippet по запросу «Что такое SEO?»

Анализ выдачи (Консенсус / N-gram): Изучаем Топ-10. Замечаем, что большинство авторитетных сайтов используют фразы (N-граммы): «оптимизация для поисковых систем», «улучшение видимости сайта» и «привлечение органического трафика».
Исходный контент (Низкий N-gram Score): Наша статья дает определение: «SEO – это комплексное развитие веб-ресурса для его лучшего ранжирования». Эта формулировка уникальна, но не совпадает с консенсусом.
Оптимизация (Повышение N-gram и Relevance Score): Переписываем определение, интегрируя выявленные N-граммы: «SEO (Search Engine Optimization) – это оптимизация для поисковых систем с целью улучшения видимости сайта и привлечения органического трафика».
Структурирование: Размещаем это определение в отдельном абзаце сразу после заголовка H2 «Что такое SEO?».
Ожидаемый результат: При условии, что страница уже хорошо ранжируется (высокий Web Ranking Score), измененное предложение имеет значительно более высокие шансы быть выбранным в качестве Featured Snippet благодаря повышению N-gram Frequency Score.

Описывает ли этот патент работу Featured Snippets (Блоков с ответами)?

Да, этот патент описывает фундаментальные механики, лежащие в основе Featured Snippets. Он объясняет, как система извлекает предложения из веб-страниц, оценивает их по нескольким критериям (консенсус, релевантность, авторитетность) и отображает лучший ответ над стандартными результатами поиска, что точно соответствует функциональности Featured Snippets.

Что такое N-gram Frequency Score и почему он так важен?

N-gram Frequency Score измеряет, насколько часто фразы (N-граммы) из вашего предложения встречаются в других результатах поиска по этому же запросу. Это механизм оценки «консенсуса». Google предпочитает ответы, сформулированные общепринятым языком, который используют другие авторитетные источники, считая их более надежными. Для SEO это означает, что важно придерживаться стандартной терминологии и фактов.

Насколько важен исходный ранг страницы для попадания в блок ответов?

Он критически важен. Web Ranking Score, основанный на ранге документа в стандартной выдаче, является одним из трех ключевых компонентов итоговой оценки. Система обычно извлекает кандидатов только из результатов, находящихся на первой странице выдачи (Топ-10). Если сайт не ранжируется высоко, шансы получить Featured Snippet минимальны.

Как рассчитывается итоговая оценка (Overall Score)?

Патент предлагает несколько методов агрегации трех компонентов (N-gram Frequency, Query Relevance, Web Ranking Score). Они могут быть агрегированы путем перемножения (Product), сложения (Sum) или расчета среднего геометрического (Geometric Mean). Перемножение является часто используемым методом, который требует высоких показателей по всем трем направлениям.

Всегда ли используются все три фактора оценки?

Нет. Патент описывает разные варианты реализации. В некоторых случаях система может полагаться только на два фактора, например, игнорируя N-gram Frequency Score и используя только Web Ranking Score и Query Relevance Score (Claim 41), или фокусируясь на N-gram и Web Ranking (Claim 21). Однако использование всех трех факторов дает наиболее полную оценку.

Как практически применить знание о N-gram Frequency Score в SEO?

Необходимо анализировать формулировки ответов у конкурентов в Топ-10. Если вы видите, что большинство авторитетных сайтов используют определенные фразы или определения для ответа на вопрос, вы должны интегрировать эти общепринятые фразы в свой контент. Совпадение с консенсусом повышает ваш N-gram Frequency Score.

Что такое Query Relevance Score и почему Google может его игнорировать?

Query Relevance Score измеряет лексическое совпадение (количество общих слов) между запросом и предложением-кандидатом. Однако, если совпадение слишком велико (например, >80%), система может игнорировать эту оценку. Это сделано для того, чтобы отфильтровать предложения, которые просто повторяют вопрос, не давая на него ответа.

Влияет ли форматирование текста на извлечение ответов?

Да, косвенно. Система должна уметь идентифицировать начало и конец предложения, чтобы извлечь Candidate Sentence. Использование четкой грамматической структуры, правильной пунктуации и логичного разделения на абзацы (особенно размещение ответа сразу после заголовка с вопросом) облегчает системе парсинг контента.

Почему мой сайт потерял Featured Snippet, хотя контент не менялся?

Это могло произойти по нескольким причинам, основанным на механизмах патента. Возможно, снизился ваш Web Ranking Score (упали позиции в основном поиске). Также возможно, что конкурент обновил свой контент, и его предложение получило более высокий N-gram Frequency Score (лучше соответствует новому консенсусу) или Query Relevance Score.

Актуальны ли описанные методы скоринга, учитывая развитие нейронных сетей (BERT, MUM)?

Фундаментальные принципы — авторитетность, релевантность и консенсус — остаются актуальными. Однако современные ML-модели, вероятно, заменили простые методы расчета (вроде подсчета общих слов или простого суммирования частот N-грамм) на более сложные векторные и семантические оценки. Тем не менее, цели оценки остались прежними.

Как Google оценивает и выбирает контент для Featured Snippets (Блоков с ответами) на основе консенсуса выдачи

Google использует систему для выбора и оценки Featured Snippets. Система анализирует топовые результаты поиска, чтобы предсказать, какие термины должны быть в ответе (Answer Terms). Затем она оценивает отрывки текста, учитывая совпадение с запросом, наличие предсказанных терминов ответа (консенсус топа), качество исходного сайта, форматирование и языковую модель контента.

US9940367B1
2018-04-10

SERP
Семантика и интент
EEAT и качество

Как Google извлекает, формирует и оценивает контент для Featured Snippets из структурированных и неструктурированных данных

Google использует систему для генерации Featured Snippets (ответных пассажей) в ответ на запросы-вопросы. Система анализирует топовые результаты, разделяя контент на структурированный (таблицы, списки) и неструктурированный (текст). Применяя разные наборы правил для каждого типа контента, система извлекает блоки текста (Passage Units) и формирует из них кандидатов для показа в блоке ответов, после чего оценивает их с помощью комплексного скоринга.

US10180964B1
2019-01-15

SERP
Семантика и интент

Как Google извлекает факты напрямую из веб-страниц для формирования прямых ответов (Featured Snippets / Answer Boxes)

Google использует систему для динамического извлечения фактов из веб-индекса. Когда поступает фактический запрос, система определяет ожидаемый тип ответа (например, дата, число, имя), анализирует топовые результаты поиска и извлекает соответствующие фразы. Эти фразы нормализуются, оцениваются по частоте, контексту и авторитетности источника, и лучший вариант показывается в виде прямого ответа.

US8655866B1
2014-02-18

Индексация
Семантика и интент
SERP

Как Google извлекает факты из веб-страниц для прямых ответов и автоматического наполнения Knowledge Graph

Google использует систему для ответов на вопросительные запросы. Система анализирует текстовые сниппеты из результатов поиска, применяет NLP-анализ (аннотирование) для извлечения кандидатов в ответы и выбирает лучший на основе консенсуса и качества источников. Этот механизм используется как для предоставления прямых ответов пользователям (Featured Snippets), так и для автоматического поиска недостающей информации и обновления базы знаний (Entity Database).

US20160132501A1
2016-05-12

Knowledge Graph
Семантика и интент
SERP

Как Google анализирует, извлекает и ранжирует данные из таблиц для формирования Featured Snippets

Google использует систему для идентификации таблиц с упорядоченными данными (рейтингами) на веб-страницах. Система анализирует структуру таблицы и контекст страницы (заголовки, окружающий текст, прошлые запросы), чтобы понять, что именно и по какому критерию ранжируется. Если исходная страница уже занимает высокие позиции, Google может извлечь данные из таблицы и показать их непосредственно в выдаче в виде Featured Snippet, отвечая на запросы о рейтингах и сравнениях.

US20190065502A1
2019-02-28

Семантика и интент
Индексация
SERP

Как Google выбирает модель визуальной релевантности для сложных запросов в Поиске по картинкам

Google решает проблему ранжирования изображений для сложных или редких запросов, для которых нет специализированной модели релевантности. Система тестирует существующие модели, созданные для частей запроса (подзапросов), и выбирает ту, которая лучше всего соответствует поведению пользователей (кликам) по исходному запросу. Это позволяет улучшить визуальную релевантность в Image Search.

US9152652B2
2015-10-06

Поведенческие сигналы
Мультимедиа
Семантика и интент

Как Google использует околоссылочный текст и заголовки (Web Quotes) для индексирования страниц и генерации сниппетов

Google анализирует текст на страницах, ссылающихся на целевой документ, извлекая «Web Quotes». Это не только текст абзаца, окружающего ссылку, но и текст из ближайших заголовков. Эти цитаты ранжируются по качеству ссылающегося источника (например, PageRank) и используются для индексирования целевой страницы (даже если этих слов на ней нет) и для формирования сниппета в результатах поиска.

US8495483B1
2013-07-23

Индексация
Ссылки
SERP

Как Google снижает ценность кликов по результатам, полученным из слишком общих запросов

Google использует механизм для корректировки показателей популярности (например, кликов) документа. Если документ получил клик в ответ на очень общий (широкий) запрос, ценность этого клика снижается. Это предотвращает искусственное завышение популярности документов, которые часто показываются по высокочастотным общим запросам, и повышает значимость кликов, полученных по более специфическим запросам.

US7925657B1
2011-04-12

Поведенческие сигналы

Как Google создает мгновенные интерактивные результаты на SERP, предварительно загружая и персонализируя скрытый контент

Google использует механизм для создания интерактивных блоков ответов (Answer Boxes), таких как Погода или Панели Знаний. Система отправляет пользователю не только видимый результат, но и дополнительный скрытый контент («карточки»), выбранный на основе истории взаимодействий пользователя. При взаимодействии с блоком (свайп или клик) дополнительный контент отображается мгновенно, без отправки нового запроса на сервер.

US9274683B2
2016-03-01

SERP
Персонализация
Поведенческие сигналы

Как Google определяет структурно похожие запросы (sibling queries) для автоматического обучения NLP-моделей

Google использует метод для идентификации "родственных запросов" (sibling queries) — запросов с одинаковой структурой интента, но разными переменными (например, "погода в Москве" и "погода в Париже"). Система сравнивает шаблоны использования этих запросов в логах, основываясь на поведении пользователей, чтобы понять их взаимосвязь без традиционного NLP. Это позволяет автоматически генерировать масштабные наборы данных для обучения ИИ.

US11379527B2
2022-07-05

Семантика и интент
Поведенческие сигналы

Как Google определяет синонимы и варианты слов, анализируя категории выбранных пользователями результатов

Google использует метод стемминга, основанный на поведении пользователей и категориях сущностей. Если пользователи ищут разные слова (например, «пицца» и «пиццерия») и выбирают результаты одной категории («ресторан»), система идентифицирует эти слова как варианты одной основы (Stem Variants). Это происходит, если слова похожи по написанию ИЛИ если объем кликов статистически значим.

US9104759B1
2015-08-11

Семантика и интент
Поведенческие сигналы
Персонализация

Как Google использует структурированные данные (Schema) для отслеживания вовлеченности пользователей на уровне сущностей, а не только URL

Google может отслеживать поведение пользователей (например, время пребывания на странице и клики) и связывать его с конкретными сущностями (продуктами, людьми, темами), идентифицированными через структурированные данные, а не только с URL-адресом. Это позволяет агрегировать метрики вовлеченности для определенной темы на разных страницах и сравнивать эффективность сайтов.

US20140280133A1
2014-09-18

Семантика и интент
Поведенческие сигналы
Knowledge Graph

Как Google агрегирует, оценивает и ранжирует комментарии, отзывы и упоминания о веб-странице из разных источников

Google собирает комментарии, отзывы и посты в блогах, относящиеся к определенной веб-странице. Система использует сложные алгоритмы для определения основной темы упоминаний (особенно если в них несколько ссылок) и ранжирует эти комментарии на основе авторитетности автора, свежести, качества языка и обратной связи пользователей, чтобы представить наиболее полезные мнения.

US8745067B2
2014-06-03

EEAT и качество
Свежесть контента
Семантика и интент

Как Google рассчитывает «VisualRank» для изображений и медиафайлов, используя виртуальные ссылки на основе схожести и поведения пользователей

Google использует алгоритм (концептуально называемый VisualRank) для ранжирования изображений и других медиафайлов путем создания «виртуальных ссылок» между ними. Эти ссылки основаны на визуальной схожести контента, данных о кликах пользователей и контексте размещения (URL analysis). Это позволяет оценить качество и авторитетность медиафайлов даже без явных гиперссылок, при этом система активно избегает показа слишком похожих (дублирующихся) результатов.

US8732187B1
2014-05-20

Ссылки
Мультимедиа
Поведенческие сигналы

Как Google корректирует позиционную предвзятость (Position Bias) при обучении моделей ранжирования на кликах пользователей

Google использует механизм для устранения позиционной предвзятости (Position Bias) при обучении моделей ранжирования (Learning to Rank). Система анализирует, на какой позиции находился кликнутый результат, и присваивает этому клику вес важности. Клики по нижним позициям получают больший вес, чем клики по ТОП-1. Это позволяет модели учиться определять истинную релевантность, а не просто копировать существующий порядок выдачи.

US20210125108A1
2021-04-29

Поведенческие сигналы
SERP