Как Google извлекает и ранжирует факты, используя сопоставление шаблонов, IDF и консенсус источников

SEARCH ENGINE WITH FILL-THE-BLANKS CAPABILITY (Поисковая система с возможностью заполнения пропусков)

US7693829B1
Google LLC
2005-04-25
2010-04-06

Google использует многоэтапный процесс для ответов на запросы с пропусками (fill-the-blanks). Система преобразует запрос в шаблон, находит совпадения в тексте и извлекает ответ (Filler Text). Ранжирование ответов основано на уникальности терминов (IDF), качестве документа-источника (Document Quality) и частоте подтверждения этого ответа другими источниками (Relative Frequency), что позволяет валидировать факты через консенсус.

Какую проблему решает

Патент решает проблему обработки запросов формата "fill-the-blanks" (заполнение пропусков), например, "Truman beat ___ in 1948". Цель — найти конкретный факт для заполнения пропуска. Изобретение предлагает метод, основанный на эвристическом сопоставлении текстовых шаблонов (textual pattern matching), что позволяет избежать сложности и ресурсоемкости традиционных систем обработки естественного языка (NLP) и экспертных систем, требовавших сложных лингвистических правил для каждого языка.

Что запатентовано

Запатентован метод поиска информации, который преобразует запрос с пропущенными терминами в поисковый шаблон (Search Pattern). Этот шаблон включает выражения запроса (Query Expressions) и ограничения на структуру (Constraints). Система ищет совпадения в документах, извлекает текст, соответствующий пропуску (Filler Text), и использует многоступенчатую систему ранжирования для выбора лучшего ответа. Ранжирование учитывает уникальность ответа, качество источника и статистический консенсус.

Как это работает

Система работает по следующему алгоритму:

Преобразование запроса: Запрос конвертируется в Search Pattern. Учитываются возможные синонимы, перефразировки, ограничения на порядок слов (Ordering Constraints) и допустимое количество слов между терминами (Padding Constraints).
Сопоставление и Извлечение: Система находит документы, соответствующие шаблону, и извлекает Filler Text. Длина ответа определяется динамически, часто с использованием анализа IDF (резкое падение IDF может обрезать ответ).
Многоступенчатое Ранжирование:
1. Match Score: Оценка конкретного совпадения. Зависит от уникальности (IDF) Filler Text и штрафуется за наличие промежуточных слов (Padding).
2. Document Score: Оценка документа. Учитывает лучший Match Score, общее количество совпадений и метрику качества документа (Quality of Document Metric, например, PageRank).
3. Adjusted Document Score: Финальная оценка. Document Score корректируется (например, умножается) на Relative Frequency – частоту появления этого ответа во всем наборе найденных документов (консенсус).
Вывод результатов: Система предоставляет ранжированный список ответов (information items) или сниппетов.

Актуальность для SEO

Высокая. Описанные механизмы являются фундаментальными для систем извлечения информации (Information Extraction) и Question Answering (QA), которые используются для генерации Featured Snippets. Принципы оценки ответов на основе статистической значимости (IDF), авторитетности источника и валидации через консенсус (Relative Frequency) остаются центральными в современных поисковых технологиях для извлечения фактов.

Важность для SEO

Влияние на SEO высокое (85/100). Патент детально описывает механизм, по которому Google может оценивать и выбирать краткие ответы из контента. Понимание этого многоступенчатого процесса критически важно для оптимизации под Featured Snippets. Он подчеркивает необходимость баланса между четкостью структуры контента (низкий Padding), использованием точной терминологии (высокий IDF), авторитетностью сайта и соответствием общепринятым фактам (высокая Relative Frequency).

Термины и определения

Adjusted Document Score (Скорректированная оценка документа): Финальная оценка, используемая для ранжирования ответов. Рассчитывается путем комбинирования (например, умножения) Document Score и Relative Frequency ключевого термина ответа.
Content Score / Uniqueness Metric (Оценка контента / Метрика уникальности): Числовое значение, оценивающее информационную ценность или уникальность термина. В патенте в качестве основного примера используется Inverse Document Frequency (IDF).
Document Score (Оценка документа): Промежуточная оценка документа. Основана на наивысшем Match Score в этом документе, общем количестве совпадений и, опционально, Quality of Document Metric.
Filler Text (Заполняющий текст / Ответ): Текст в документе, который соответствует пропущенному термину (Missing Term Identifier) в исходном запросе. Потенциальный ответ на вопрос.
Identified Content (Идентифицированный контент): Весь фрагмент текста в документе, который соответствует Search Pattern. Включает текст, соответствующий запросу, и Filler Text.
Inverse Document Frequency (IDF) (Обратная частота документа): Метрика уникальности термина. Используется для расчета Content Score и определения границ Filler Text.
Key Term (Ключевой термин): Термин в Filler Text, имеющий наивысший Content Score (например, самый высокий IDF). Используется как репрезентативный термин для расчета Relative Frequency и группировки ответов.
Match Score (Оценка совпадения): Оценка конкретного экземпляра совпадения Search Pattern в документе. Зависит от Content Score заполняющего текста, штрафов за Padding и весов синонимов.
Padding (Паддинг / Промежуточные слова): Слова в документе, которые находятся между терминами, соответствующими одному Query Expression. Наличие Padding может снижать Match Score.
Padding Constraints (Ограничения паддинга): Правила в Search Pattern, определяющие максимально допустимое количество Padding слов для зачета совпадения.
Quality of Document Metric (Метрика качества документа): Внешняя метрика качества или авторитетности документа (например, PageRank), которая может использоваться при расчете Document Score.
Query Expression (Выражение запроса): Часть Search Pattern, соответствующая одному непрерывному сегменту текста в исходном запросе. Может включать синонимы и перефразировки.
Relative Frequency (Относительная частота): Метрика консенсуса. Показывает, как часто определенный Key Term (ответ) встречается в наборе всех найденных документов. Используется для расчета Adjusted Document Score.
Search Pattern (Поисковый шаблон): Внутреннее представление исходного запроса, включающее Query Expressions, идентификаторы пропусков и ограничения (Constraints).

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает базовый процесс обработки запроса "fill-the-blank".

Система получает запрос с текстовыми сегментами и идентификаторами пропусков.
Запрос конвертируется в Search Pattern, включающий Query Expressions.
Идентифицируется набор документов, соответствующих шаблону.
В документах идентифицируется контент, включающий потенциальные ответы (potential answers / Filler Text) на месте пропусков.
Система предоставляет один или несколько из этих ответов.

Claim 2, 9, 10, 11 (Зависимые): Детализируют механизм ранжирования и расчет Match Score.

Система рассчитывает Match Scores для ранжирования (Claim 2). Эта оценка базируется на метрике уникальности (uniqueness metric, например, IDF) для ответа и метрике уникальности для Padding (Claim 9). Также учитываются веса синонимов (Claim 10). Match Score может быть взвешенной суммой этих компонентов (Claim 11).

Claim 4, 5, 6 (Зависимые): Детализируют расчет Document Score.

Система рассчитывает Document Scores. Оценка базируется на наивысшем Match Score и общем количестве совпадений в документе (Claim 4). Она также может учитывать Quality of Document Metric (Claim 5). В одном из вариантов это взвешенная сумма этих трех компонентов (Claim 6).

Claim 7, 8 (Зависимые): Детализируют расчет финальной оценки (Adjusted Document Score) и вводят консенсус.

Система определяет Relative Frequency ответа в общем наборе документов. Финальная оценка рассчитывается на основе Document Score и Relative Frequency (Claim 7). В одном из вариантов финальная оценка является взвешенным произведением этих двух метрик (Claim 8).

Claim 15 (Зависимый от 1): Описывает механизм ограничения длины ответа.

Идентификация контента (ответа) включает ограничение его длины в соответствии с метрикой уникальности (IDF) терминов-кандидатов.

Где и как применяется

Изобретение затрагивает несколько этапов поиска, фокусируясь на извлечении и ранжировании ответов.

INDEXING – Индексирование и извлечение признаков
На этом этапе система рассчитывает и сохраняет данные, необходимые для работы алгоритма: Inverse Document Frequency (IDF) для терминов и Quality of Document Metric (например, PageRank) для документов.

QUNDERSTANDING – Понимание Запросов
Система распознает формат "fill-the-blank". Происходит конвертация запроса в Search Pattern с использованием Query Expressions, Padding Constraints и Ordering Constraints. Могут применяться синонимы и перефразировки.

RANKING – Ранжирование
Алгоритм используется для поиска кандидатов и их первичной оценки.

Сопоставление и Извлечение: Система находит документы, соответствующие шаблону, и извлекает Filler Text, определяя его границы с помощью анализа IDF.
Расчет Match Score: Вычисляются первичные оценки для каждого совпадения, используя IDF ответа и штрафы за Padding.
Расчет Document Score: Оценки агрегируются на уровне документа с учетом метрик качества документа.

RERANKING – Переранжирование
Финальный этап ранжирования ответов (а не просто документов).

Расчет Relative Frequency: Анализируются все извлеченные ответы (Key Terms) из всех документов для вычисления частоты каждого уникального ответа (консенсус).
Расчет Adjusted Score: Document Score комбинируется с Relative Frequency для получения финальной оценки.
Формирование выдачи: Формируется ранжированный список ответов или сниппетов (например, Featured Snippet).

На что влияет

Специфические запросы: Наибольшее влияние на фактоидные информационные запросы (Кто, Что, Где, Когда), которые могут быть сформулированы как утверждение с пропуском.
Типы контента: Влияет на контент, содержащий четкие, лаконичные утверждения, определения и факты (статьи, справочники, инструкции).
Форматы контента: Предпочтение отдается тексту, где ключевые термины находятся в непосредственной близости (низкий Padding) и структурированы в виде законченных фраз или предложений.

Когда применяется

Триггеры активации: Алгоритм активируется, когда система идентифицирует запрос как попытку найти пропущенную информацию в рамках известной фразы (формат "fill-the-blank").
Условия работы: Применяется для извлечения конкретных фрагментов текста (фактов), которые дополняют информацию в запросе.

Пошаговый алгоритм

Этап 1: Генерация Шаблона Поиска

Получение и Сегментация Запроса: Принять запрос и разделить его на Term Segments (известный текст) и Missing Term Identifiers (пропуски).
Генерация Query Expressions: Преобразовать каждый Term Segment в Query Expression. Опционально применить синонимы и перефразировки.
Определение Ограничений: Установить Padding Constraints (максимальное расстояние между словами) и Ordering Constraints (допустимые перестановки).
Формирование Search Pattern: Объединить Query Expressions и ограничения.

Этап 2: Поиск, Извлечение и Определение Границ

Поиск Документов: Найти документы, соответствующие Search Pattern.
Идентификация Контента: Определить Identified Content и извлечь Filler Text (потенциальный ответ).
Определение Длины Filler Text (Truncation): Динамически определить границы ответа. Анализировать IDF каждого следующего слова. Если IDF резко падает (например, более чем в 2 раза по сравнению с предыдущим словом), обрезать Filler Text перед этим словом.

Этап 3: Ранжирование (Многоступенчатая Оценка)

Расчет Match Score (для каждого совпадения): Вычислить оценку на основе взвешенной суммы: (+) Content Score (IDF) для Filler Text; (-) Штраф за Padding (IDF промежуточных слов); (+) Веса использованных синонимов.
Расчет Document Score (для каждого документа): Вычислить оценку на основе взвешенной суммы: (+) Наивысший Match Score в документе; (+) Общее количество совпадений; (+) Quality of Document Metric.
Определение Key Term: Идентифицировать термин в Filler Text с наивысшим IDF.
Расчет Relative Frequency (Консенсус): Подсчитать, как часто данный Key Term встречается в качестве ответа во всем наборе найденных документов.
Расчет Adjusted Document Score: Скорректировать Document Score, например, умножив его на Relative Frequency соответствующего Key Term.
Финальное Ранжирование: Ранжировать уникальные ответы (Key Terms) на основе наивысшего Adjusted Document Score, связанного с каждым ответом.
Генерация Сниппетов: Выбрать лучший документ для топовых ответов и сгенерировать сниппеты.

Какие данные и как использует

Данные на входе

Контентные факторы: Текст документа используется для сопоставления с шаблоном. Анализируется структура предложений, близость слов (Padding) и сами слова ответа (Filler Text).
Ссылочные факторы / Факторы авторитетности: Упоминается Quality of Document Metric (в качестве примера приведен PageRank). Используется при расчете Document Score.
Системные данные (Индекс): Предварительно рассчитанные значения Inverse Document Frequency (IDF) для всех терминов. Критически важны для всех этапов оценки.
Лингвистические данные: Базы синонимов с весами (Synonym Weights) и парафраз используются для расширения запроса.

Какие метрики используются и как они считаются

Inverse Document Frequency (IDF): Используется как Content Score (метрика уникальности). Применяется для оценки значимости ответа, штрафования за Padding, определения Key Term и динамического определения длины ответа.
Match Score: Оценка конкретного совпадения. В патенте приводится пример формулы расчета:

Многоступенчатая валидация ответов: Ранжирование ответов — это сложный процесс, включающий три уровня оценки: качество совпадения (Match Score), качество источника (Document Score) и статистический консенсус (Adjusted Score).
Критическая роль IDF (Уникальность и Структура): IDF используется не только для оценки важности слов в ответе, но и как эвристический инструмент для определения границ ответа (Truncation). Резкое падение IDF сигнализирует о конце релевантной фразы.
Консенсус как фактор ранжирования (Relative Frequency): Система активно использует Relative Frequency для валидации фактов. Ответы, которые часто встречаются в релевантных документах, получают значительное преимущество. Google полагается на мудрость толпы (авторитетных источников).
Штраф за "воду" (Padding Penalty): Система штрафует совпадения, где термины запроса разделены большим количеством промежуточных слов (Padding). Это подчеркивает важность лаконичности и близости ключевых терминов в тексте.
Влияние авторитетности источника: Общее качество и авторитетность документа (Quality of Document Metric, например, PageRank) напрямую влияют на ранжирование извлеченного ответа через Document Score.
Извлечение на основе шаблонов: Система полагается на сопоставление текстовых шаблонов, а не только на семантическое понимание, что делает структуру предложения важным фактором оптимизации.

Best practices (это мы делаем)

Создание контента в формате четких фактических утверждений: Структурируйте контент так, чтобы он содержал декларативные предложения, отвечающие на вопросы. Это увеличивает вероятность совпадения с Search Pattern и идеально подходит для Featured Snippets.
Лаконичность и близость терминов (Минимизация Padding): Формулируйте ответы так, чтобы ключевые сущности находились максимально близко. Избегайте вводных слов и сложных конструкций между важными терминами, чтобы минимизировать штрафы за Padding.
Использование точной и специфичной терминологии (Высокий IDF): Используйте термины с высокой информационной ценностью (потенциально высокий IDF). Это увеличивает Content Score ответа и помогает системе идентифицировать Key Term.
Соответствие консенсусу (Relative Frequency): При освещении фактов придерживайтесь общепринятой информации, используемой в авторитетных источниках. Это повышает Relative Frequency вашего ответа, что критично для финальной оценки (Adjusted Document Score).
Повышение авторитетности сайта (E-E-A-T): Работайте над сигналами качества и авторитетности ресурса, так как Quality of Document Metric напрямую влияет на Document Score.
Повторение ключевых фактов: Поскольку Document Score учитывает общее количество совпадений (Total Number of Matches), полезно использовать разные формулировки одного и того же ключевого утверждения в рамках документа.

Worst practices (это делать не надо)

Размытые формулировки и "вода": Использование длинных предложений с большим количеством стоп-слов между ключевыми терминами увеличивает Padding и снижает Match Score.
Использование только общих терминов (Низкий IDF): Построение ответов исключительно из высокочастотных слов снижает Content Score и уменьшает вероятность выбора вашего ответа.
Предоставление уникальных, но непроверенных или спорных фактов: Если ваш ответ противоречит большинству других источников, его Relative Frequency будет низкой, что приведет к понижению в ранжировании, даже если ответ точен и исходит с авторитетного сайта.
Скрытие фактов в неструктурированном тексте: Если информация разбросана по разным предложениям или спрятана в длинных абзацах, система может не сопоставить ее с Search Pattern или неправильно определить границы ответа.

Стратегическое значение

Этот патент закладывает основу для понимания систем извлечения фактов (Information Extraction) Google. Он демонстрирует, что для успеха в получении Featured Snippets необходим баланс трех компонентов: идеальной структуры контента на микроуровне (оптимизация Match Score), высокой авторитетности сайта (оптимизация Document Score) и соответствия общепринятым фактам (оптимизация Relative Frequency). Стратегия должна фокусироваться на создании авторитетного контента, который предоставляет четкие и верифицируемые ответы.

Практические примеры

Сценарий: Оптимизация под запрос "Столица Австралии ___"

Плохая реализация (Высокий Padding, Нечеткая структура):
"Если говорить о столице такой страны, как Австралия, то многие люди часто думают, что это, возможно, Сидней или Мельбурн, но на самом деле это город Канберра."

Проблема: Между "Столица Австралии" и "Канберра" много лишних слов (высокий Padding). Match Score будет низким.

Хорошая реализация (Низкий Padding, Четкая структура):
"Столицей Австралии является Канберра. Город был специально спланирован..."

Преимущество: Термины находятся рядом (низкий Padding). Структура фразы идеально соответствует шаблону. "Канберра" имеет достаточно высокий IDF, чтобы быть Key Term.

Стратегическое усиление (Document Score):
Размещение этого контента на авторитетном сайте (высокая Quality Metric) и повторение факта далее в тексте ("Выбор Канберры в качестве столицы Австралии произошел в 1908 году") увеличит общий Document Score.

Что такое IDF в контексте этого патента и почему он так важен?

IDF (Inverse Document Frequency) используется как мера уникальности или важности слова (Content Score). В этом патенте IDF критичен по трем причинам: он повышает оценку (Match Score) для ответов с точными терминами, он используется для идентификации Key Term (самого важного слова в ответе), и он помогает определить границы ответа – резкое падение IDF сигнализирует системе о необходимости обрезать текст (Truncation).

Что такое Padding и как он влияет на SEO?

Padding – это промежуточные слова в тексте документа, которые находятся между терминами из поискового запроса. Патент указывает, что система штрафует совпадения с большим количеством Padding при расчете Match Score. Для SEO это критически важно: ключевые термины и ответы должны быть расположены максимально близко друг к другу в тексте (лаконичные формулировки), чтобы повысить шансы на выбор в качестве Featured Snippet.

Что такое Relative Frequency и почему Google использует консенсус?

Relative Frequency показывает, как часто конкретный ответ встречается в наборе релевантных документов. Это механизм валидации фактов через консенсус. Ответы, которые чаще встречаются в разных источниках, считаются более достоверными и получают значительное повышение при расчете финальной оценки (Adjusted Document Score). Это защищает систему от продвижения ложной или спорной информации.

Влияет ли авторитетность сайта (например, PageRank) на выбор ответа?

Да, напрямую. Патент упоминает использование Quality of Document Metric (например, PageRank) при расчете Document Score. Эта оценка затем используется для расчета финального Adjusted Document Score. Ответы с авторитетных сайтов имеют существенное преимущество перед ответами с менее качественных ресурсов.

Как система определяет, какую часть текста показать в качестве ответа (границы ответа)?

Система использует эвристический анализ IDF для определения границ Filler Text. Она проверяет IDF каждого следующего слова в потенциальном ответе. Если IDF резко падает (например, в 2 раза и более), это сигнализирует о конце значимой фразы, и система обрезает ответ перед этим словом. Это помогает извлекать краткие и точные факты.

Полезно ли повторять ключевые факты в тексте документа?

Да. Согласно патенту, Document Score рассчитывается с учетом не только лучшего совпадения (Highest Match Score), но и общего количества совпадений (Total Number of Matches) в документе. Повторение факта или использование разных формулировок одного и того же утверждения может увеличить Document Score.

Что такое Key Term и как он используется?

Key Term – это слово в найденном ответе (Filler Text), имеющее наивысший IDF (наиболее уникальное или значимое). Система использует Key Term как представителя всего ответа при расчете Relative Frequency и для группировки похожих ответов из разных источников. Выбор точной терминологии в контенте важен для этого механизма.

Как этот патент связан с Featured Snippets?

Патент описывает фундаментальные механизмы, которые идеально подходят для выбора Featured Snippets. Процесс идентификации лаконичных ответов в тексте, оценка их качества на основе структуры фразы (Padding, IDF) и валидация через консенсус (Relative Frequency) напрямую соответствуют целям и поведению системы генерации Featured Snippets.

Что важнее для SEO: качество сайта или структура ответа на странице?

Оба фактора критичны и перемножаются для получения финальной оценки. Нужна идеальная структура ответа для высокого Match Score и высокая авторитетность сайта для высокого Document Score. Даже идеальный ответ на слабом сайте проиграет хорошему ответу на очень авторитетном ресурсе, и наоборот.

Актуальны ли методы из этого патента, учитывая развитие нейронных сетей (BERT/MUM)?

Хотя современные методы сопоставления (Matching) стали нейросетевыми и лучше понимают контекст, принципы оценки (Scoring) и верификации (Verification), описанные в патенте, остаются стратегически актуальными. Использование сигналов авторитетности (PageRank/Quality) и консенсуса (Relative Frequency) по-прежнему критически важно для обеспечения качества ответов в поиске, даже если они реализованы более сложными способами.

Как Google находит, оценивает и показывает «интересные факты» о сущностях в поиске

Google идентифицирует «уникальные» или «интересные» факты о сущностях, анализируя документы, на которые ссылаются с использованием триггеров (например, «fun facts»). Система извлекает предложения, кластеризует их для поиска лучшей формулировки и оценивает качество факта на основе авторитетности источника, уникальности терминов и топикальности. Эти факты затем показываются в выдаче в виде специальных блоков.

US11568274B2
2023-01-31

Knowledge Graph
Семантика и интент
EEAT и качество

Как Google вычисляет схожесть документов, используя значимость слов, их описательность и распознавание фраз

Google использует алгоритм для определения схожести документов, который превосходит традиционный TF-IDF. Система вычисляет Оценку Значимости (Prominence Score) и Оценку Описательности (Descriptiveness Score) для отдельных слов и фраз. Учитывается, где именно на странице расположены термины и насколько информативными они являются в целом. Это позволяет точнее определять релевантность и тематическую близость контента.

US7958136B1
2011-06-07

Семантика и интент

Как Google использует данные о поведении пользователей по похожим запросам для ранжирования новых или редких запросов

Google использует механизм для улучшения ранжирования запросов, по которым недостаточно данных о поведении пользователей (например, кликов). Система находит исторические запросы, семантически похожие на исходный, и «заимствует» их поведенческие данные. Степень сходства рассчитывается с учетом важности терминов, синонимов и порядка слов. Эти заимствованные данные используются для корректировки рейтинга документов по исходному запросу.

US9009146B1
2015-04-14

Поведенческие сигналы
Семантика и интент
SERP

Как Google агрегирует поведенческие данные из похожих запросов для ранжирования редких и длиннохвостых запросов

Google использует механизм обобщения запросов для улучшения ранжирования, особенно когда исторических данных по исходному запросу недостаточно. Система создает варианты запроса (удаляя стоп-слова, используя синонимы, стемминг или частичное совпадение) и агрегирует данные о поведении пользователей (клики, dwell time) из этих вариантов. Это позволяет оценить качество документа для исходного запроса, используя статистику из семантически близких запросов.

US9110975B1
2015-08-18

Поведенческие сигналы
Семантика и интент
SERP

Как Google ранжирует результаты для контекстного (неявного) поиска на основе форматирования контента и поведения пользователя

Патент описывает технологию "неявного поиска" (Implicit Search), которая анализирует текущий контекст пользователя (например, редактируемый документ или просматриваемую страницу) для автоматической генерации запросов. Ранжирование этих контекстных результатов учитывает характеристики исходного контента (форматирование, капитализация, TF-IDF) и предпочтения пользователя (клики, типы файлов).

US7693825B2
2010-04-06

Семантика и интент
Поведенческие сигналы
SERP

Как Google использует нейросетевые эмбеддинги (Two-Tower Model) для семантического поиска изображений с учетом контекста страницы

Google использует систему поиска изображений, основанную на нейронных сетях (модель "Две Башни"). Система создает векторные представления (эмбеддинги) для поисковых запросов и для пар "изображение + посадочная страница", помещая их в общее семантическое пространство. Это позволяет находить релевантные изображения не по ключевым словам, а по близости векторов, учитывая как содержание картинки, так и контекст страницы, на которой она размещена.

US11782998B2
2023-10-10

Семантика и интент
Индексация
Мультимедиа

Как Google персонализирует поиск, повышая в выдаче объекты, которые пользователь ранее явно отметил как интересные

Google использует механизм персонализации поисковой выдачи. Если пользователь явно отметил определенный объект (например, место, компанию, веб-страницу) как интересующий его, этот объект получит значительное повышение в ранжировании при последующих релевантных запросах этого пользователя. Уровень повышения зависит от степени интереса, указанной пользователем.

US20150242512A1
2015-08-27

Персонализация
Поведенческие сигналы
SERP

Как Google использует визуальные цитаты и обратную связь для генерации и уточнения ответов в мультимодальном поиске

Google генерирует ответы на мультимодальные запросы (изображение + текст), находя визуально похожие изображения в интернете и используя текст с их исходных страниц как основу для LLM. Система показывает эти изображения как «визуальные цитаты» для подтверждения ответа и позволяет пользователям исключать нерелевантные источники, чтобы мгновенно уточнить сгенерированный результат.

US20240378236A1
2024-11-14

Мультимедиа
EEAT и качество
Ссылки

Как Google использует крупномасштабное машинное обучение и данные о поведении пользователей для предсказания кликов и ранжирования результатов

Google использует систему машинного обучения для создания модели ранжирования, которая предсказывает вероятность клика пользователя по документу. Модель обучается на огромных массивах данных о прошлых поисках (запросы, документы, клики). Система учитывает базовую вероятность клика (Prior Probability), основанную на позиции и предыдущей оценке документа, а затем корректирует её с помощью правил, выявляющих, какие признаки (Features) документа и запроса влияют на выбор пользователя.

US7231399B1
2007-06-12

Поведенческие сигналы

Как Google использует вовлеченность пользователей на связанных страницах (Reachability Score) для ранжирования основного документа

Google рассчитывает «Оценку Достижимости» (Reachability Score), анализируя, как пользователи взаимодействуют со страницами, на которые ссылается основной документ (внутренние и исходящие ссылки). Если пользователи активно переходят по этим ссылкам (высокий CTR) и проводят время на целевых страницах (высокое время доступа), основной документ получает повышение в ранжировании. Этот механизм измеряет потенциальную глубину и качество пользовательской сессии.

US8307005B1
2012-11-06

Поведенческие сигналы
Ссылки
SERP

Как Google Assistant адаптирует выдачу на лету, позволяя пользователям навигировать по результатам и запоминать предпочтения по источникам и темам

Google использует механизм для диалоговых систем (например, Google Assistant), позволяющий пользователям взаимодействовать с поисковой выдачей через естественный язык. Система предоставляет результаты последовательно и адаптирует порядок выдачи в ответ на команды навигации (например, «Вернись к новости о Кафе»). Кроме того, система фиксирует отношение пользователя к атрибутам контента (например, «Не показывай новости из Источника 1») и использует эти данные для фильтрации или изменения ранжирования в текущих и будущих сессиях.

US10481861B2
2019-11-19

Персонализация
Семантика и интент
Поведенческие сигналы

Как Google обрабатывает клики по ссылкам на мобильные приложения (App Deep Links) в результатах поиска

Google использует механизм клиентской обработки результатов поиска, ведущих в нативные приложения. Если у пользователя не установлено нужное приложение, система на устройстве автоматически подменяет ссылку приложения (App Deep Link) на эквивалентный веб-URL. Это гарантирует доступ к контенту через браузер и обеспечивает бесшовный пользовательский опыт.

US10210263B1
2019-02-19

Ссылки
SERP

Как Google использует гибридную классификацию и данные о кликах пользователей для точного определения тематики контента

Google использует многоэтапный процесс для классификации контента в детальные иерархические категории. Система комбинирует традиционные методы классификации с анализом поисковых запросов и кликов пользователей (подтвержденных результатов поиска). Это позволяет точно определить узкоспециализированную тематику документа, фильтруя нерелевантные категории и взвешивая релевантность на основе TF-IDF и глубины иерархии.

US8145636B1
2012-03-27

Семантика и интент
Поведенческие сигналы

Как Google использует клики пользователей для определения составных фраз (N-грамм) в запросах

Google анализирует, какие результаты поиска выбирают пользователи, чтобы понять, являются ли последовательные слова в запросе единой фразой (например, "Нью Йорк") или отдельными терминами. Если пользователи преимущественно кликают на результаты, содержащие эту последовательность как неразрывную фразу, система определяет ее как составную (Compound) и использует это знание для улучшения ранжирования и понимания запроса.

US8086599B1
2011-12-27

Семантика и интент
Поведенческие сигналы
SERP

Как Google вычисляет важность сущностей внутри документа, используя контекст, ссылки и поведение пользователей, для улучшения ранжирования

Google использует систему для определения относительной важности сущностей (люди, места, даты) внутри документа (книги или веб-страницы) независимо от поискового запроса. Важность рассчитывается на основе того, где сущность упомянута (контекст, структура), насколько точно она определена, ссылаются ли на этот раздел внешние источники и как часто его просматривают пользователи. Эти оценки важности сущностей затем используются как сигнал для ранжирования самого документа в результатах поиска.

US7783644B1
2010-08-24

Поведенческие сигналы
Индексация
Семантика и интент