Как Google автоматически распознает сущности в тексте и связывает их в Knowledge Graph с помощью динамических поисковых ссылок

AUTOMATIC OBJECT REFERENCE IDENTIFICATION AND LINKING IN A BROWSEABLE FACT REPOSITORY (Автоматическая идентификация и связывание ссылок на объекты в просматриваемом хранилище фактов)

US8260785B2
Google LLC
2006-02-17
2012-09-04

Google использует автоматизированную систему для поддержания связей между сущностями (объектами) в своем хранилище фактов (Knowledge Graph). Система сканирует текст, статистически определяет значимые фразы и сверяет их со списком известных объектов. При совпадении создается динамическая «поисковая ссылка» вместо фиксированного URL. Это позволяет Google постоянно обновлять связи по мере добавления новых знаний.

Какую проблему решает

Патент решает проблему поддержания актуальных связей (гиперссылок) в динамически растущей базе знаний (Fact Repository). Традиционные фиксированные ссылки требуют ручного создания, ломаются при изменении структуры базы данных и не позволяют связать существующий контент с объектами, добавленными позже. Изобретение автоматизирует процесс идентификации упоминаний известных объектов (сущностей) в тексте и создания динамических, устойчивых связей.

Что запатентовано

Запатентован метод автоматического распознавания именованных сущностей (объектов) и их динамического связывания внутри хранилища фактов. Система создает список имен всех известных объектов, а затем анализирует текстовые значения фактов, используя статистические методы (phrase-identification metric) для выявления фраз, соответствующих этим именам. При совпадении система генерирует Search Link (поисковую ссылку), которая динамически запрашивает объект по имени, а не использует фиксированный URL.

Как это работает

Система работает в два основных этапа, выполняемых компонентом Janitor:

Сбор имен: Система формирует список имен всех объектов (Object Names List), хранящихся в Fact Repository.
Идентификация и связывание: Система анализирует текстовое содержание фактов. Сначала текст токенизируется на потенциальные фразы с использованием метрик, таких как Information Gain (прирост информации), для определения статистически значимых последовательностей слов. Затем эти фразы сверяются со списком имен объектов (с помощью хеш-таблицы).
Создание ссылок: Если фраза совпадает с именем объекта, она преобразуется в Search Link. Эта ссылка содержит поисковый запрос, который ищет объекты с данным именем.

Весь процесс автоматически повторяется при выполнении определенных условий, обеспечивая актуальность связей.

Актуальность для SEO

Высокая. Патент описывает фундаментальные механизмы для построения и поддержания крупномасштабных баз знаний, таких как Google Knowledge Graph. Процессы распознавания именованных сущностей (NER) и связывания сущностей (Entity Linking), описанные здесь, являются критически важными для семантического поиска и понимания контента в 2025 году.

Важность для SEO

Патент имеет высокое стратегическое значение для SEO (85/100). Он раскрывает инфраструктурные процессы, лежащие в основе того, как Google идентифицирует и связывает сущности. Понимание этих механизмов критично для стратегий, ориентированных на сущности (Entity-Oriented Search). Патент подтверждает важность использования четких, последовательных и статистически значимых наименований для сущностей, чтобы облегчить их распознавание и связывание системами Google.

Термины и определения

Fact Repository (Хранилище фактов): База данных, хранящая фактическую информацию, извлеченную из множества документов. Основа для базы знаний (Knowledge Graph).
Object (Объект): Сущность (человек, место, организация и т.д.), представленная в хранилище уникальным Object ID и набором связанных фактов.
Fact (Факт): Единица информации об объекте, состоящая из Атрибута (Attribute) и Значения (Value).
Name Fact (Факт имени): Специализированный факт, значение которого является именем объекта.
Importer (Импортер): Компонент системы, который извлекает факты из документов-источников.
Janitor (Уборщик/Смотритель): Компонент системы, который обрабатывает извлеченные факты. Выполняет очистку, нормализацию и, как описано в патенте, автоматическое связывание объектов.
Search Link (Поисковая ссылка) / Object Reference Link: Динамическая ссылка, встроенная в значение факта. Вместо фиксированного URL она содержит поисковый запрос (search query), который ищет объекты по определенным критериям (например, имени).
Object Names List (Список имен объектов): Список, содержащий имена всех объектов в хранилище. Используется для сверки с фразами, найденными в тексте.
Phrase-identification metric (Метрика идентификации фраз): Статистическая метрика, используемая для определения того, является ли последовательность слов значимой фразой.
Information Gain (Прирост информации): Конкретная метрика для идентификации фраз. Измеряет, насколько вероятность появления последовательности слов превышает ожидаемую вероятность совместного появления отдельных слов в этой последовательности.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод автоматического связывания объектов в хранилище фактов.

Система хранит объекты и связанные с ними факты.
Система автоматически (без вмешательства пользователя) модифицирует факты:
1. Создается список имен объектов (list of object names), который хранится в виде хеш-таблицы (hash table).
2. Для факта с несколькими терминами система сравнивает phrase-identification metric для разных комбинаций терминов, чтобы идентифицировать потенциальные фразы (candidate phrases).
3. Потенциальные фразы сверяются со списком имен. Проверка включает определение того, вызывает ли хеш (hash) фразы коллизию в хеш-таблице имен.
4. Если фраза совпадает с именем объекта, система создает и сохраняет search link для факта. Выбор этой ссылки инициирует выполнение поискового запроса (search query) к хранилищу, используя имя объекта как критерий поиска.
При выполнении предопределенных критериев (predefined criteria), система автоматически повторяет шаги a-d (обновление связей).

Claim 3, 4 и 5 (Зависимые): Уточняют процесс идентификации фраз.

Идентификация включает формирование последовательностей смежных терминов и проверку, является ли последовательность значимой фразой. Проверка (Claim 4, 5) основана на том, превышает ли Information Gain последовательности порог, или превышает ли вероятность последовательности совместную вероятность отдельных терминов.

Claim 6 и 7 (Зависимые): Описывают возможность уточнения поискового запроса в ссылке (дизамбигуация).

Система может включать в критерии поискового запроса (search criteria) в search link дополнительные атрибуты объекта (например, категорию — Claim 6, или другой атрибут — Claim 7) для повышения точности связывания.

Где и как применяется

Изобретение описывает процессы, происходящие внутри системы обработки данных Google, и затрагивает этап индексирования и структурирования данных.

INDEXING – Индексирование и извлечение признаков
Это основной этап применения патента. Процесс происходит после того, как Importers извлекли факты из документов (CRAWLING), и выполняется компонентом Janitor.

Извлечение фактов: Importers помещают факты в Fact Repository.
Обработка фактов (Janitor): Janitor выполняет очистку, нормализацию и процесс автоматического связывания. Это включает распознавание сущностей (NER) внутри значений фактов и их связывание (Entity Linking) с другими объектами в хранилище.

Этот процесс создает структурированную, взаимосвязанную базу знаний (граф знаний) из изначально слабоструктурированных данных.

Входные данные:

Факты в Fact Repository (включая Name Facts и факты с текстовыми значениями).
Статистические данные о частотности терминов для расчета Information Gain.

Выходные данные:

Object Names List (список имен объектов).
Модифицированные факты в Fact Repository, содержащие встроенные Search Links (ссылки на другие объекты).

На что влияет

Структурирование знаний: Влияет на то, насколько полно и точно Google понимает связи между различными сущностями в Knowledge Graph.
Все типы контента и тематики: Применяется универсально ко всем тематикам. Любой контент, из которого могут быть извлечены факты о сущностях, подвержен этому процессу.

Когда применяется

Триггеры активации: Процесс связывания активируется после того, как факты были извлечены и помещены в хранилище (постобработка).
Частота применения: Патент указывает (Claim 1), что процесс повторяется автоматически при выполнении "предопределенных критериев" (predefined criteria). Эти критерии могут включать (Claims 9-11):
- Истечение заданного периода времени (например, ежедневно, еженедельно).
- Модификация определенного количества фактов в хранилище.
- Создание определенного количества новых фактов или объектов.

Пошаговый алгоритм

Процесс автоматической идентификации и связывания объектов (выполняется компонентом Janitor).

Инициализация (Сбор имен): Система обходит Fact Repository и извлекает все Name Facts. Создается Object Names List. Он хранится в виде хеш-таблицы для быстрого поиска. Опционально, вместе с именами сохраняются ключевые атрибуты (например, категория).
Итерация по фактам: Система начинает обход значений (Value) фактов в хранилище.
Идентификация фраз (Токенизация и Оценка): Для текстового значения каждого факта система идентифицирует потенциальные фразы (candidate phrases).
- Текст разбивается на последовательности смежных слов (N-граммы).
- Для каждой последовательности рассчитывается phrase-identification metric (например, Information Gain). Метрика определяет статистическую значимость совместного появления этих слов.
- Последовательности, чья метрика превышает определенный порог (K), считаются потенциальными фразами.
Сверка с именами объектов (Entity Linking): Каждая потенциальная фраза сверяется с Object Names List. Это делается путем хеширования фразы и проверки наличия коллизии в хеш-таблице имен.
Создание связи (Конструирование Search Link): Если фраза совпадает с именем объекта:
- Система конструирует поисковый запрос (search query). Например: [attribute{name} value{"Имя Объекта"}].
- При необходимости добавляются уточняющие атрибуты (например, категория) для дизамбигуации.
- Текстовое упоминание фразы становится анкорным текстом (anchor text) для этой поисковой ссылки.
Сохранение: Модифицированный факт со встроенной ссылкой сохраняется в Fact Repository.
Повторение (Обновление): Весь процесс повторяется автоматически при срабатывании predefined criteria.

Какие данные и как использует

Данные на входе

Патент фокусируется на обработке данных, уже находящихся в хранилище фактов.

Контентные факторы (Внутри хранилища):
- Значения фактов (Values): Текстовое содержание фактов, которое анализируется для поиска упоминаний объектов.
- Имена объектов (Name Facts): Используются для создания Object Names List.
- Атрибуты фактов (Attributes): Используются для идентификации Name Facts и опционально для уточнения поисковых запросов (например, атрибут "Категория").

Какие метрики используются и как они считаются

Phrase-identification metric: Метрика для определения значимых фраз.
Information Gain (Прирост информации): Основной пример метрики. Рассчитывается на основе вероятности появления последовательности слов в корпусе по сравнению с произведением вероятностей отдельных слов.
Пороговые значения для Information Gain (Порог K): Чтобы последовательность считалась фразой, ее вероятность должна превышать совместную вероятность ее отдельных терминов в K раз. В описании патента предлагается формула для K: $K = 10^L$ , где L — длина последовательности (количество слов). Например, для фразы из 3 слов (L=3) ее вероятность должна быть в 1000 раз выше ожидаемой.
Хеш-функции и Хеш-таблицы: Используются для быстрого хранения списка имен и эффективного сопоставления фраз со списком имен объектов (Claim 1).

Автоматизация построения Графа Знаний: Патент описывает ключевой механизм автоматического и масштабируемого построения связей между сущностями (объектами) в базе знаний Google. Система не зависит от ручной разметки или существующих гиперссылок в исходных документах.
Статистическое распознавание сущностей (NER): Для идентификации упоминаний сущностей в тексте Google использует статистические методы (Information Gain). Система определяет значимые фразы, основываясь на том, насколько часто слова появляются вместе по сравнению с их индивидуальной частотой.
Динамическое связывание (Entity Linking): Связывание осуществляется путем сравнения идентифицированных фраз со списком известных имен объектов (Object Names List). Использование Search Links вместо фиксированных ссылок делает систему гибкой и позволяет связывать упоминания с сущностями, добавленными в базу позже исходного текста.
Механизм дизамбигуации: Система предусматривает возможность уточнения Search Link с помощью дополнительных атрибутов (например, категории объекта) для разрешения неоднозначностей, когда одно имя относится к разным сущностям.
Постоянное обновление: Процесс является итеративным и запускается автоматически по расписанию или при накоплении изменений (predefined criteria), что обеспечивает постоянное обогащение и актуализацию Графа Знаний.

Best practices (это мы делаем)

Последовательное и четкое именование сущностей: Используйте полные и официальные имена сущностей (брендов, продуктов, людей) последовательно во всем контенте. Это повышает вероятность того, что статистический алгоритм (Information Gain) идентифицирует имя как значимую фразу и корректно свяжет его с объектом в Knowledge Graph.
Оптимизация под распознавание фраз: Создавайте контент, в котором ключевые сущности упоминаются в естественных, но четких конструкциях. Частое совместное употребление терминов, составляющих имя сущности, увеличивает их статистическую значимость как фразы.
Предоставление контекста для дизамбигуации: Поскольку система может использовать дополнительные атрибуты (например, категорию) для уточнения связей, важно предоставлять четкий контекст вокруг упоминания сущности. Указывайте тип сущности (например, "компания X", "актер Y"), чтобы помочь отличить ее от других сущностей с тем же именем.
Создание авторитетных профилей сущностей (Entity SEO): Работайте над тем, чтобы ваша сущность была признана Google и добавлена в Fact Repository (через Schema.org, авторитетные источники и т.д.). Чем раньше сущность попадает в Object Names List, тем быстрее система начнет автоматически связывать упоминания о ней.

Worst practices (это делать не надо)

Использование неоднозначных или сокращенных имен: Использование аббревиатур или общих слов в качестве основного имени бренда без достаточного контекста затрудняет идентификацию фразы и ее корректное связывание.
Непоследовательное написание: Вариативность в написании имени сущности может снизить статистическую значимость каждой отдельной фразы, мешая алгоритму Information Gain идентифицировать ее.
Изолированное упоминание сущностей: Упоминание сущности без контекста или связанных фактов может привести к ошибкам в связывании (Entity Linking) или игнорированию упоминания.

Стратегическое значение

Патент подтверждает фундаментальную роль автоматизированного извлечения знаний и построения Графа Знаний в поиске. Стратегия SEO должна быть сфокусирована на оптимизации сущностей (Entity-Oriented SEO). Важно помогать Google корректно идентифицировать ваши ключевые сущности и понимать их взаимосвязи. Понимание того, что Google использует статистический анализ фраз для распознавания сущностей, подчеркивает важность последовательности, частотности и контекста упоминаний.

Практические примеры

Сценарий: Помощь Google в распознавании нового продукта

Компания запускает новый продукт с уникальным названием, например, "Synergix Quantum Processor". Цель — чтобы Google быстро распознал это название как значимую фразу и связал ее с сущностью продукта.

Действие: Обеспечить частое и последовательное использование полного названия "Synergix Quantum Processor" на официальном сайте, в пресс-релизах и авторитетных публикациях.
Механизм (по патенту): Компонент Importer извлекает эти тексты. Алгоритм Information Gain анализирует частоту совместного появления этих трех слов. Из-за высокой частоты совместного употребления система идентифицирует "Synergix Quantum Processor" как значимую фразу (candidate phrase).
Действие: Предоставить четкий контекст, например, всегда указывать категорию: "The Synergix Quantum Processor, a new CPU for data centers...".
Механизм (по патенту): Система извлекает факты (например, Категория: CPU). При связывании эта информация может быть использована для дизамбигуации (уточнения Search Link), если появится другой продукт с похожим названием.
Ожидаемый результат: Google быстрее создает объект для продукта в своей базе знаний. Последующие упоминания продукта будут автоматически распознаваться и связываться с этим объектом, укрепляя его авторитетность.

Что такое "Fact Repository" в контексте этого патента?

Fact Repository — это база данных, где Google хранит извлеченную фактическую информацию в формате Объект-Атрибут-Значение. Это техническая реализация того, что мы обычно называем базой знаний или Knowledge Graph. Она содержит сущности (Объекты) и факты о них.

Как система определяет, является ли фраза в тексте именем сущности?

Система использует двухэтапный процесс. Сначала она применяет статистическую метрику (например, Information Gain), чтобы определить, является ли последовательность слов статистически значимой фразой. Затем она проверяет, присутствует ли эта значимая фраза в списке уже известных имен объектов (Object Names List), используя хеш-таблицу для быстрого поиска.

Что такое "Information Gain" и как он помогает распознавать сущности?

Information Gain измеряет, насколько часто слова появляются вместе по сравнению с тем, как часто они появляются по отдельности. Если слова появляются вместе значительно чаще, чем ожидалось бы случайно (например, "Нью-Йорк Таймс"), система считает эту последовательность устойчивой фразой. Это позволяет идентифицировать имена сущностей, состоящие из нескольких слов, как единое целое.

Что означает, что ссылки являются "Search Links", а не фиксированными?

Вместо того чтобы ссылаться на конкретный адрес (URL), Search Link содержит поисковый запрос (например, "найти объект с именем X"). Это означает, что ссылка динамически ищет цель в момент активации. Это делает базу знаний гибкой: даже если целевой объект был добавлен или изменен после создания ссылки, она останется рабочей.

Как этот патент влияет на SEO-стратегию по работе с сущностями (Entity SEO)?

Он подчеркивает критическую важность последовательности и четкости в именовании сущностей. Чтобы Google корректно распознал и связал вашу сущность, необходимо использовать ее официальное имя часто и последовательно во всех источниках. Это увеличит ее статистическую значимость как фразы и облегчит работу алгоритмов распознавания.

Как система справляется с неоднозначностью имен (дизамбигуацией)?

Патент предусматривает механизм для уточнения Search Link (Claims 6, 7). Система может включать в поисковый запрос ссылки не только имя, но и дополнительные атрибуты объекта, например, его категорию (Человек, Город, Фильм). Это помогает направить ссылку на правильный объект, если в базе есть несколько объектов с одинаковым именем.

Что такое компонент "Janitor" и какова его роль?

Janitor — это компонент системы, отвечающий за постобработку извлеченных фактов. Его задачи включают очистку данных, удаление дубликатов, нормализацию форматов и, как описано в патенте, выполнение процесса автоматического распознавания и связывания сущностей в Fact Repository.

Как часто обновляется база знаний и эти связи?

Патент указывает, что генерация связей происходит автоматически при выполнении "предопределенных критериев" (Claim 1). Это подразумевает периодическое обновление (по времени) или обновление по триггеру (по количеству новых или измененных фактов) для отражения изменений в данных.

Влияет ли структура предложений на распознавание сущностей согласно патенту?

Да, косвенно. Поскольку алгоритм ищет последовательности смежных терминов (Claim 3) для формирования фраз, использование сложных предложений, разрывающих имя сущности, может затруднить ее идентификацию на этапе формирования потенциальных фраз. Рекомендуется использовать четкие и прямые упоминания.

Означает ли этот патент, что Google игнорирует разметку Schema.org?

Нет. Этот патент описывает автоматизированный механизм для построения связей на основе анализа текста. Однако Schema.org является важным источником данных, который помогает Google (компоненту Importer) извлекать факты и формировать Name Facts, что является необходимым условием для последующей работы механизма связывания, описанного в патенте.

Как Google динамически выбирает и ранжирует факты об объектах в зависимости от запроса пользователя (Основы Knowledge Graph)

Патент описывает создание и использование репозитория фактов (предшественника Knowledge Graph). Система извлекает факты из интернета и связывает их с объектами (сущностями). При поиске Google не просто возвращает список объектов, а динамически выбирает и ранжирует наиболее релевантные факты для каждого объекта, основываясь на конкретном запросе пользователя, а также метриках достоверности и важности.

US7774328B2
2010-08-10

Knowledge Graph
Семантика и интент
SERP

Как Google автоматически генерирует блоки "Связанные ссылки" и "Похожие запросы", анализируя контент страницы при загрузке

Патент описывает систему для динамической генерации виджетов связанных ссылок. При загрузке страницы система извлекает текст (заголовок, контент, запрос из реферера), определяет наиболее важные ключевые слова с помощью глобального репозитория (Keyword Repository), выполняет поиск по этим словам (часто в пределах того же домена) и отображает топовые результаты для улучшения навигации.

US9129009B2
2015-09-08

Ссылки
Семантика и интент
Техническое SEO

Как Google находит ответы на фактологические вопросы, анализируя консенсус сущностей в топе поисковой выдачи

Google использует этот механизм для автоматического ответа на фактологические вопросы путем анализа неструктурированного текста топовых результатов поиска. Система определяет, какая сущность (например, человек, место) чаще всего упоминается на авторитетных страницах. Эта наиболее часто упоминаемая сущность, с учетом нормализации частоты и веса источника, выбирается в качестве ответа.

US9477759B2
2016-10-25

Семантика и интент
Индексация
Knowledge Graph

Как Google создает, управляет и использует Репозиторий Фактов (Fact Repository) для поиска по сущностям

Патент описывает архитектуру Google для создания и использования Репозитория Фактов. Система извлекает факты из интернета, связывает их с объектами (сущностями), очищает и нормализует данные. В ответ на запрос система находит релевантные факты и возвращает их в формате структурированного фида (например, XML/RSS). Это foundational-технология для поиска по сущностям и формирования Графа Знаний.

US7454398B2
2008-11-18

Knowledge Graph
Семантика и интент
Индексация

Как Google использует Knowledge Graph для автодополнения фактов и проверки точности информации при создании контента

Система анализирует вводимый текст в редакторах (например, Google Docs или Gmail), распознает сущности и их атрибуты, автоматически запрашивает факты у поисковой системы (Knowledge Graph) и предлагает их для вставки. Также она способна проверять уже введенные факты на точность и предлагать исправления в реальном времени.

US20150324339A1
2015-11-12

Knowledge Graph
Семантика и интент
EEAT и качество

Как Google использует модель D-Q-D и поведение пользователей для предложения разнообразных запросов, связанных с конкретными результатами поиска

Google использует модель "Документ-Запрос-Документ" (D-Q-D), построенную на основе данных о поведении пользователей (клики, время просмотра), для генерации связанных поисковых подсказок. Система предлагает альтернативные запросы, привязанные к конкретному результату, только если эти запросы ведут к новому, разнообразному набору документов, облегчая исследование смежных тем.

US8583675B1
2013-11-12

Поведенческие сигналы
SERP
Семантика и интент

Как Google определяет интент запроса, анализируя классификацию контента, который кликают пользователи

Google использует данные о поведении пользователей для классификации запросов. Система определяет, какой контент пользователи считают наиболее релевантным для запроса (на основе кликов и времени пребывания). Затем она анализирует классификацию этого контента (например, «продукт», «новости», «взрослый контент») и присваивает доминирующую классификацию самому запросу. Это позволяет уточнить интент и скорректировать ранжирование.

US8838587B1
2014-09-16

Семантика и интент
Поведенческие сигналы
SERP

Как Google использует личные интересы пользователя для понимания неопределенных запросов и персонализации рекомендаций

Google использует механизм для интерпретации неопределенных запросов или команд (например, «Я голоден» или «Мне скучно»), когда контекст неясен. Если система не может определить конкретное намерение пользователя только из текущего контента (например, экрана приложения), она обращается к профилю интересов пользователя (User Attribute Data) и его местоположению, чтобы заполнить пробелы и предоставить персонализированные рекомендации или выполнить действие.

US10180965B2
2019-01-15

Персонализация
Семантика и интент
Local SEO

Как Google использует близость цитирований (ссылок) для кластеризации результатов поиска

Google может группировать результаты поиска, анализируя, как документы ссылаются друг на друга. Система оценивает силу связи между документами, проверяя контекстуальную близость общих цитирований. Ссылки, расположенные в одном предложении (co-citation) или абзаце, имеют значительно больший вес, чем ссылки, просто присутствующие в документе. Это позволяет формировать точные тематические кластеры, отсеивая группы со слабыми связями.

US8612411B1
2013-12-17

Ссылки
SERP

Как Google рассчитывает тематический авторитет сайта для кастомизации поиска с помощью Topic-Sensitive PageRank

Патент Google, описывающий механизм кастомизации результатов поиска, инициированного со стороннего сайта (например, Google Custom Search). Система использует «профиль сайта» для повышения результатов, соответствующих его тематике. Ключевая ценность патента — детальное описание расчета тематической авторитетности (Topic Boosts) путем анализа ссылок с эталонных сайтов (Start Sites), что является реализацией Topic-Sensitive PageRank.

US7565630B1
2009-07-21

Персонализация
SERP
Ссылки

Как Google использует географическое положение и историю поведения пользователей для разрешения неоднозначных запросов

Google применяет механизм для интерпретации неоднозначных поисковых запросов, которые имеют несколько географических или категориальных значений. Система определяет доминирующий интент, анализируя, как пользователи в том же регионе ранее уточняли похожие запросы и насколько они были удовлетворены результатами. На основе этих локализованных данных (гистограмм и метрик неудовлетворенности) выбирается наиболее вероятная интерпретация, и выдача фильтруется соответственно.

US8478773B1
2013-07-02

Семантика и интент
Персонализация
Поведенческие сигналы

Как Google проактивно уведомляет пользователей об изменении цен или доступности товаров на основе их предполагаемого намерения покупки

Google анализирует действия пользователя (поисковые запросы, посещения сайтов), чтобы выявить намерение в отношении сущностей (например, продуктов или авиабилетов). Если намерение сильное и происходит значительное изменение (падение цены или изменение доступности), Google проактивно отправляет уведомление со ссылками для завершения действия (например, покупки).

US20180357238A1
2018-12-13

Семантика и интент
Поведенческие сигналы
Персонализация

Как Google улучшает результаты поиска, подбирая похожие "идеальные" запросы из логов и структурированных данных

Google идентифицирует запросы, которые стабильно показывают высокое вовлечение пользователей (CTR, долгие клики), и генерирует синтетические запросы из структурированных данных (например, частотного анкорного текста). Когда пользователь вводит похожий, но потенциально плохо сформулированный запрос, Google использует эти "аугментирующие запросы" для предоставления более качественных и релевантных результатов.

US9128945B1
2015-09-08

SERP
Поведенческие сигналы
EEAT и качество

Как Google использует анализ параллельных анкорных текстов и кликов пользователей для перевода запросов и кросс-язычного поиска

Google использует механизм для автоматического перевода запросов с одного языка или набора символов на другой. Система создает вероятностный словарь, анализируя, как анкорные тексты на разных языках ссылаются на одни и те же страницы (параллельные анкоры). Вероятности перевода затем уточняются на основе того, на какие результаты кликают пользователи. Это позволяет осуществлять кросс-язычный поиск (CLIR).

US8706747B2
2014-04-22

Мультиязычность
Семантика и интент
Ссылки

Как Google использует обучение с подкреплением (Reinforcement Learning) для оптимизации ранжирования и переписывания запросов на основе успешности поисковых сессий

Google использует систему Reinforcement Learning для динамической адаптации поисковых процессов. Система анализирует поисковые сессии (последовательности запросов и кликов) и учится оптимизировать выдачу, чтобы пользователь быстрее находил нужный результат. Это достигается путем корректировки весов факторов ранжирования, переписывания запросов или даже обновления индекса на лету для конкретных ситуаций.

US11157488B2
2021-10-26

Индексация
Поведенческие сигналы
Семантика и интент