Как Google использует популярность сущностей для понимания и структурирования запросов в вертикальном поиске

METHODS, SYSTEMS, AND MEDIA FOR INTERPRETING QUERIES (Методы, системы и медиа для интерпретации запросов)

US9116918B1
Google LLC
2012-11-14
2015-08-25

Google интерпретирует запросы в специализированных доменах (например, медиа, товары, музыка), используя базу данных сущностей с оценками популярности (Entity Scores). Система распознает сущности в запросе, разрешает неоднозначности с помощью этих оценок и контекста, и преобразует неструктурированный текстовый или голосовой запрос в структурированный поиск по конкретным полям (например, ищет имя актера в поле «Актер»).

Какую проблему решает

Патент решает проблему неточной интерпретации поисковых запросов в специализированных доменах (Search Domains), где традиционный поиск по ключевым словам часто дает нерелевантные результаты. Например, поиск "action movie with tom cruise" может вернуть "Last Action Hero" и "Tom and Jerry". Изобретение направлено на понимание структуры запроса и идентификацию конкретных сущностей и их типов для выполнения точного структурированного поиска.

Что запатентовано

Запатентована система интерпретации запросов (текстовых и голосовых), которая использует предварительно созданную базу данных сущностей (Entity Table) для определенного домена. Эта база содержит имена сущностей, их типы (Entity Types) и оценки (Entity Scores), основанные на популярности. Система распознает сущности в запросе и использует Entity Scores и контекстную информацию (Contextual Information) для разрешения неоднозначностей, преобразуя запрос в структурированный формат.

Как это работает

Система работает в двух режимах: офлайн и онлайн.

Офлайн: Создается Entity Table путем извлечения метаданных из источников домена. Для каждой сущности (например, "House" как сериал и "House" как фильм) рассчитывается Entity Score (на основе популярности, кликов, частоты доступа).
Онлайн: Запрос пользователя сегментируется. Сегменты ищутся в Entity Table. Найденные совпадения интерпретируются: неоднозначности разрешаются с помощью Entity Scores (выбирается более популярная интерпретация), удаляются перекрывающиеся сущности (например, "Tom" удаляется, если найдено "Tom Cruise"), и учитывается контекст. Оставшиеся сущности используются для структурированного поиска (например, Жанр: "Action", Актер: "Tom Cruise").

Актуальность для SEO

Высокая. Переход от ключевых слов к сущностям (entities) является фундаментальным направлением развития поиска Google (Knowledge Graph). Описанные механизмы критически важны для работы вертикального поиска (Shopping, Video, Books) и голосового поиска. Использование сигналов популярности и поведения пользователей для понимания запросов остается актуальной практикой.

Важность для SEO

Патент имеет высокое значение (8/10), особенно для сайтов в четко определенных вертикалях (eCommerce, медиа, книги). Он показывает, что для успешного ранжирования критически важно, чтобы Google правильно идентифицировал ваши сущности (продукты, авторов) и ассоциировал их с высоким Entity Score (популярностью). Это подчеркивает важность структурированных данных и работы над популярностью бренда/продукта для корректной интерпретации запросов.

Термины и определения

Search Domain (Поисковый домен): Специализированная область поиска, например, медиаконтент, книги, музыка, товары. Система генерирует entity information для конкретного домена.
Entity Name (Имя сущности): Идентификатор сущности, извлеченный из метаданных домена (например, название фильма, имя актера, название продукта).
Entity Type (Тип сущности): Категория, к которой принадлежит сущность (например, ACTOR, GENRE, MOVIE TITLE, SERIES TITLE, BRAND).
Entity Score (Оценка сущности): Числовая метрика, присваиваемая паре Entity Name/Entity Type. Отражает популярность или релевантность сущности в домене. Рассчитывается на основе частоты доступа к связанному контенту, кликов, рейтингов. Используется для разрешения неоднозначностей.
Entity Table (Таблица сущностей): База данных, содержащая Entity Names, Entity Types и Entity Scores для определенного домена. Генерируется офлайн.
Contextual Information (Контекстная информация): Информация, извлеченная из запроса (например, позиция термина, окружающие слова), которая используется для интерпретации сущностей и удаления маловероятных вариантов.
Feasibility Score (Оценка правдоподобия): Метрика, используемая при обработке голосовых запросов. Рассчитывается для каждого варианта распознавания речи (Voice Recognition Terms) на основе Entity Scores соответствующих сущностей. Помогает выбрать наиболее вероятную текстовую интерпретацию голоса.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод интерпретации поискового запроса в определенном домене.

Система получает поисковый запрос в домене.
Определяются поисковые термины (сегментация запроса).
Для каждого термина проверяется, соответствует ли он имени сущности (Entity Name), извлеченному из метаданных домена.
Если найдены соответствующие сущности, для каждой определяются типы (Entity Types).
Определяется оценка (Entity Score) для каждой комбинации Имя+Тип. Entity Score указывает на связанность (relatedness) имени и типа и основан, в частности, на количестве доступов к медиаконтенту, ассоциированному с этой комбинацией (т.е. популярность/использование).
Ключевое действие (Disambiguation): Определяется оставшаяся часть сущностей путем удаления как минимум одного из типов сущностей для конкретного имени сущности на основе Entity Score. (Выбирается наиболее вероятная интерпретация).
Выполняется поиск в домене с использованием оставшихся сущностей, причем каждая сущность ищется в соответствии с ее ассоциированным типом (структурированный поиск).

Claim 4 (Зависимый от 1): Детализирует офлайн-процесс создания Entity Table.

Извлекаются метаданные домена.
Из метаданных извлекаются имена сущностей.
Для каждого имени определяются тип и оценка.
Генерируется Entity Table.

Claim 5 (Зависимый от 4): Уточняет, что Entity Table может быть дополнена курируемой вручную информацией (curated entity information), включая игнорируемые термины (стоп-слова).

Claim 7 (Зависимый от 1): Описывает процесс периодического обновления Entity Table на основе обновленных метаданных.

Где и как применяется

Изобретение затрагивает несколько этапов поиска, фокусируясь на создании специализированных индексов и интерпретации запросов.

INDEXING – Индексирование и извлечение признаков
На этом этапе происходит основной офлайн-процесс. Система извлекает метаданные из источников, специфичных для домена. Происходит извлечение сущностей, определение их типов и расчет Entity Scores на основе сигналов популярности или пользовательского поведения (клики, просмотры). Результатом является Entity Table – специализированный словарь для домена.

QUNDERSTANDING – Понимание Запросов
Это основная область применения патента в онлайн-режиме. Когда пользователь вводит запрос (текст или голос), система использует Entity Table для его интерпретации. Происходит сегментация, распознавание сущностей и разрешение неоднозначностей (Disambiguation) с использованием Entity Scores и контекста. На выходе неструктурированный запрос преобразуется в структурированное намерение.

RANKING – Ранжирование
Система выполняет структурированный поиск, используя интерпретированный запрос. Поиск выполняется по конкретным полям базы данных (Entity Types), что повышает точность. В патенте приводится пример SQL-подобного запроса: SELECT * from MOVIE where GENRE is "action" AND ACTOR is "tom cruise".

Входные данные:

Офлайн: Метаданные домена, данные о поведении пользователей (click logs), вручную курируемые данные.
Онлайн: Поисковый запрос пользователя, Entity Table.

Выходные данные:

Офлайн: Entity Table (Name, Type, Score).
Онлайн: Интерпретированный структурированный запрос; результаты поиска. Для голосового поиска: выбранный термин распознавания речи.

На что влияет

Конкретные ниши и типы контента: Наибольшее влияние патент оказывает на вертикальный поиск, где существуют четкие структуры метаданных: eCommerce (продукты, бренды, категории), Медиа (фильмы, актеры, жанры), Музыка, Книги.
Специфические запросы: Влияет на запросы, содержащие названия сущностей, особенно неоднозначные (например, "House", "2012"). Также сильно влияет на интерпретацию голосовых запросов.

Когда применяется

Триггеры активации: Алгоритм активируется, когда запрос поступает в рамках определенного Search Domain или когда система определяет, что запрос относится к специфической вертикали (Claim 6).
Условия работы: Наличие предварительно сгенерированной Entity Table для данного домена. Алгоритм интерпретации запускается при обнаружении совпадений между терминами запроса и записями в таблице.

Пошаговый алгоритм

Процесс А: Генерация Таблицы Сущностей (Офлайн - INDEXING)

Определение домена: Выбор специализированной области поиска (например, Товары).
Сбор метаданных: Доступ к источникам метаданных (фиды, базы данных контента), логам кликов (user click information) и курируемым данным (manual curation information).
Извлечение сущностей: Извлечение Entity Names и их Entity Types из метаданных (например, "Apple" как BRAND).
Расчет оценок: Вычисление Entity Score для каждой пары Имя/Тип. Оценка базируется на популярности (рейтинги, частота поиска, количество доступов к контенту). Может включать агрегацию и взвешивание (например, по свежести).
Генерация таблицы: Создание Entity Table.
Обновление: Периодическое повторение процесса (Claim 7).

Процесс Б: Интерпретация Текстового Запроса (Онлайн - QUNDERSTANDING)

Получение запроса: Например, "action movie with tom cruise".
Сегментация: Определение поисковых терминов (генерация N-грамм: "action", "action movie", "tom", "tom cruise" и т.д.).
Поиск соответствий: Поиск терминов в Entity Table.
Извлечение кандидатов: Получение всех совпадений с их Типами и Оценками.
Интерпретация и Очистка (Disambiguation): Анализ кандидатов на основе Entity Score и Contextual Information:
- Score-based Disambiguation: Удаление менее вероятных типов для одного имени на основе низкого Entity Score (например, выбор "House" (Series) вместо "House" (Movie)).
- Overlap Resolution (Разрешение наложений): Удаление перекрывающихся сущностей (например, удаление "Tom", если найдено "Tom Cruise").
- Contextual Pruning (Контекстный анализ): Использование структуры запроса для удаления маловероятных интерпретаций (например, в запросе "action movie 2012", "2012" скорее DATE, а не MOVIE TITLE).
Структурированный поиск: Выполнение поиска с использованием оставшихся сущностей. Имя сущности применяется к поисковому полю на основе его типа (например, "Action" к полю "Genre").
Вывод результатов.

Процесс В: Интерпретация Голосового Запроса (Онлайн - QUNDERSTANDING)

Получение голосового запроса.
Генерация интерпретаций: Определение нескольких вариантов Voice Recognition Terms.
Поиск соответствий: Проверка терминов по Entity Table.
Расчет Оценки Правдоподобия: Определение Feasibility Score для каждого термина на основе Entity Scores найденных сущностей. Могут применяться штрафы (penalty scores/weights) за слова, не распознанные как сущности.
Ранжирование интерпретаций: Ранжирование Voice Recognition Terms по Feasibility Score.
Выбор и Поиск: Выполнение поиска с использованием термина, имеющего наивысший Feasibility Score.

Какие данные и как использует

Данные на входе

Патент фокусируется на использовании метаданных и поведенческих сигналов для интерпретации запросов.

Структурные/Контентные факторы (Метаданные домена): Основной источник данных для извлечения сущностей. Включает структурированную информацию о контенте в домене (названия, авторы, жанры, производители, даты выпуска и т.д.).
Поведенческие факторы (User Feedback/Popularity): Критически важны для расчета Entity Score. Упоминаются:
- Количество доступов к контенту, связанному с сущностью (Claim 1).
- Логи кликов (click log, User Click Information).
- Частота поиска сущности.
- Пользовательские рейтинги (User ratings).
Системные данные (Manually Curated Information): Вручную подготовленная информация, включающая стоп-слова или популярные сущности, отсутствующие в основных источниках.

Какие метрики используются и как они считаются

Entity Score (Оценка сущности): Ключевая метрика. Рассчитывается офлайн. Основана на популярности (popularity score).
Методы расчета: Могут включать агрегацию (например, Entity Score актера может быть средним значением Entity Scores его фильмов) и взвешивание (например, недавний контент имеет больший вес).
Feasibility Score (Оценка правдоподобия): Используется для голосового поиска. Рассчитывается онлайн. Базируется на Entity Scores сущностей, распознанных в варианте речи. Может быть взвешенным средним с применением штрафов (penalty scores/weights), если часть термина не распознана как сущность.

Сущности и Структура важнее Ключевых слов в Вертикалях: Патент демонстрирует механизм преобразования неструктурированного запроса в структурированный поиск по полям (Entity Types). В специализированных доменах Google стремится понять запрос как набор ограничений сущностей, а не как набор ключевых слов.
Популярность влияет на Понимание Запроса (QU): Entity Score, основанный на популярности и поведении пользователей, используется на этапе понимания запроса для разрешения неоднозначностей. Если сущность более популярна, Google с большей вероятностью интерпретирует запрос в ее пользу.
Специализированные Словари для Доменов: Google создает и поддерживает Entity Tables – словари сущностей и их оценок для конкретных вертикалей. Попадание в этот словарь и наличие высокого Entity Score критически важно для видимости.
Контекст и Оценки для Разрешения Неоднозначностей: Система использует комбинацию Entity Score (популярность) и Contextual Information (структура запроса) для выбора наиболее вероятной интерпретации термина.
Улучшение Голосового Поиска через Сущности: Популярность сущностей (Entity Score) напрямую используется для повышения точности распознавания речи (через Feasibility Score). Более популярные сущности распознаются лучше.

Best practices (это мы делаем)

Использование Структурированных Данных (Schema.org): Внедряйте и поддерживайте актуальную микроразметку для всех релевантных сущностей (Product, Movie, Book, Author). Это помогает Google правильно извлекать Entity Names и Entity Types для построения Entity Table.
Обеспечение Полного Присутствия в Метаданных: Гарантируйте, что ваши сущности присутствуют в релевантных базах знаний и источниках метаданных (Knowledge Graph, Google Shopping Feed, Google Books, IMDb и т.д.) с точной и полной информацией.
Стимулирование Популярности Сущностей (Entity Popularity): Поскольку Entity Score основан на популярности и взаимодействии (клики, просмотры, рейтинги), работайте над повышением узнаваемости и востребованности ваших ключевых сущностей. Это напрямую влияет на вероятность их правильной интерпретации в неоднозначных запросах.
Обеспечение Четкости Контекста: Создавайте контент, который ясно указывает на основную сущность и ее тип. Используйте ясный язык, чтобы помочь системе использовать Contextual Information для правильной интерпретации.
Оптимизация под Голосовой Поиск через Популярность: Для улучшения распознавания названия вашего бренда или продукта в голосовом поиске необходимо повышать их Entity Score, что увеличит Feasibility Score при распознавании речи.

Worst practices (это делать не надо)

Игнорирование Структурированных Данных: Полагаться только на текстовый контент неэффективно, особенно в вертикальном поиске. Система предпочитает структурированные данные для идентификации сущностей.
Непоследовательное Наименование Сущностей: Использование разных вариантов написания для одной и той же сущности в разных источниках затрудняет ее идентификацию и консолидацию Entity Score.
Манипуляция Популярностью Низкого Качества: Попытки искусственно завысить Entity Score с помощью накруток кликов или просмотров рискованны и, вероятно, будут отфильтрованы системами оценки качества Google.
Keyword Stuffing: Перенасыщение ключевыми словами неэффективно, так как система ориентирована на распознавание структурированных связей (сущность + тип), а не на простое совпадение строк.

Стратегическое значение

Патент подтверждает стратегическую важность Entity-Based SEO и глубокой интеграции данных о поведении пользователей на ранних этапах обработки запроса (Query Understanding). Для SEO-специалистов это означает, что стратегия должна включать не только оптимизацию контента, но и управление сущностями (Entity Management) и их популярностью. В вертикальном поиске преимущество получают те сайты, чьи сущности четко определены, структурированы и имеют высокий уровень взаимодействия с пользователями.

Практические примеры

Сценарий 1: Разрешение неоднозначности для eCommerce

Ситуация: Пользователь ищет "Surface" в домене Google Shopping. Существуют Microsoft Surface (планшет) и Surface (бренд средств для ухода за волосами).
Действие системы: Система проверяет Entity Table для товаров и находит обе сущности.
Применение Entity Score: Система сравнивает Entity Scores. Если Microsoft Surface имеет значительно больше поисковых запросов, кликов и покупок, его Entity Score будет выше.
Результат: Система интерпретирует запрос как [Entity Name: "Surface", Entity Type: "Планшет"] и выполняет структурированный поиск по этой категории, отсекая средства для волос (при отсутствии дополнительного контекста в запросе).
Действие SEO: Бренд средств для волос должен использовать более специфичные наименования в метаданных и работать над повышением популярности своих продуктов, чтобы увеличить их Entity Score в своем типе.

Сценарий 2: Улучшение распознавания голосового запроса

Ситуация: Пользователь говорит голосовой запрос, который звучит как "Watch Fringe".
Действие системы: Система генерирует варианты распознавания (Voice Recognition Terms): "Watch French", "Watch Fringe", "Watch Friends".
Применение Feasibility Score: Система проверяет Entity Scores для "French" (Язык/Жанр), "Fringe" (Сериал) и "Friends" (Сериал). Если "Fringe" имеет высокую популярность как сериал, комбинация ["Watch" (Action) + "Fringe" (Series)] получит высокий Feasibility Score.
Результат: Система выбирает интерпретацию "Watch Fringe" и выполняет команду.
Действие SEO: Для продвижения нового контента/продукта необходимо активно работать над его популярностью (просмотры, обсуждения, рейтинги), чтобы повысить его Entity Score и улучшить распознаваемость в голосовом поиске.

Что такое Entity Score в контексте этого патента и как он влияет на SEO?

Entity Score — это оценка, которая отражает популярность или значимость сущности в определенном домене (паре Имя/Тип). Она рассчитывается на основе поведения пользователей: кликов, просмотров, рейтингов, частоты доступа к контенту. В SEO это критически важно, так как Entity Score используется Google на этапе понимания запроса для разрешения неоднозначностей. Если ваш продукт конкурирует с другим объектом с похожим названием, тот, у кого выше Entity Score, получит приоритет в интерпретации запроса.

Как этот патент связан с микроразметкой Schema.org?

Патент описывает процесс создания Entity Table путем извлечения метаданных из источников домена. Микроразметка Schema.org является одним из ключевых способов предоставления этих метаданных поисковой системе. Внедряя точную и полную разметку, вы помогаете Google правильно идентифицировать ваши Entity Names и ассоциировать их с корректными Entity Types, что является основой для работы описанного механизма.

Применяется ли этот патент к обычному веб-поиску или только к вертикалям?

Патент в первую очередь описывает механизмы для специализированных поисковых доменов (Search Domains), таких как медиа, товары (вертикальный поиск). Однако принципы интерпретации запросов на основе сущностей и использования оценок популярности для разрешения неоднозначностей применяются и в основном веб-поиске, особенно с развитием Knowledge Graph, который можно рассматривать как глобальную Entity Table.

Как я могу повлиять на Entity Score моих сущностей?

Вы можете повлиять на Entity Score, работая над реальной популярностью и востребованностью ваших сущностей. Это включает получение положительных отзывов и рейтингов, увеличение количества брендовых/продуктовых запросов, стимулирование кликов и взаимодействий с вашим контентом. Также важно обеспечить консистентное упоминание сущности в авторитетных источниках, чтобы Google мог консолидировать сигналы популярности.

Что такое Contextual Information и как она используется?

Contextual Information — это данные, извлеченные из самого запроса, такие как порядок слов и соседние термины. Система использует этот контекст вместе с Entity Score для удаления маловероятных интерпретаций. Например, в запросе "action movie 2012", контекст (наличие слов "action movie") подсказывает системе, что "2012" скорее всего является датой выпуска (Entity Type: DATE), а не названием фильма (Entity Type: MOVIE).

Как этот патент влияет на стратегию SEO для eCommerce?

Для eCommerce это означает, что оптимизация фида продуктов и структурированных данных критически важна для обеспечения правильной идентификации товаров и их атрибутов. Кроме того, популярность продукта (отраженная в Entity Score) напрямую влияет на его видимость, особенно по общим или неоднозначным запросам. Стратегия должна включать активное управление отзывами и стимулирование спроса.

Что означает удаление перекрывающихся сущностей (Merging/Removing Overlapping Entities)?

Это процесс очистки интерпретации запроса. Если система распознает несколько сущностей, которые перекрываются в тексте запроса, она обычно отдает предпочтение более длинной или более точной сущности. Например, если в запросе "...tom cruise..." распознаны "Tom" и "Tom Cruise", система удалит "Tom" и будет использовать только "Tom Cruise" для дальнейшего поиска.

Как патент помогает улучшить голосовой поиск?

Патент описывает использование Entity Scores для выбора наилучшей текстовой интерпретации голосового ввода. Система рассчитывает Feasibility Score для разных вариантов распознавания речи. Варианты, содержащие более популярные сущности (с высоким Entity Score), получают более высокий Feasibility Score и выбираются как правильная интерпретация. Это значит, что популярные бренды и продукты распознаются точнее.

Что такое Manually Curated Information и зачем это нужно?

Это информация, добавленная в систему вручную. Патент упоминает, что она может включать стоп-слова (например, "with", "the"), которые система должна игнорировать при интерпретации запроса. Также это может включать правила для обработки специальных символов или добавление новых популярных сущностей, которые еще не попали в автоматические источники метаданных.

В чем разница между Entity Score и PageRank?

Entity Score, как описано в патенте, основан на популярности и поведенческих факторах (клики, просмотры) и используется на этапе Понимания Запроса для разрешения неоднозначностей сущностей. PageRank основан на ссылочной структуре интернета и используется для определения авторитетности веб-страниц на этапах Индексирования и Ранжирования. Это разные метрики, применяемые для разных целей на разных этапах поиска.

Как Google связывает запросы с сущностями для формирования выдачи, подсказок и определения доминирующего интента

Google использует систему для определения того, какие сущности (люди, места, объекты) подразумеваются в поисковом запросе. Система анализирует, насколько релевантны топовые документы запросу и насколько центральное место в этих документах занимает конкретная сущность. На основе этого рассчитывается оценка Entity Score, которая определяет ранжирование сущностей для запроса. Этот механизм используется для показа блоков знаний, организации поисковой выдачи и предоставления уточняющих поисковых подсказок.

US20160224621A1
2016-08-04

Семантика и интент
Knowledge Graph
SERP

Как Google использует данные веб-поиска для распознавания сущностей в специализированных вертикалях (на примере поиска медиаконтента)

Google использует двухэтапный процесс для ответа на описательные запросы в специализированных поисках (например, поиск фильмов по сюжету). Сначала система ищет информацию в основном веб-индексе, анализирует топовые результаты для выявления релевантных сущностей (названий фильмов), а затем использует эти сущности для поиска в специализированной базе данных.

US9063984B1
2015-06-23

Семантика и интент
Мультимедиа
Индексация

Как Google определяет и ранжирует наиболее важные факты о сущности на основе совместных упоминаний в интернете

Google использует механизм для определения наиболее важных свойств (фактов) о сущности в контексте ее типа. Система анализирует частоту совместного упоминания (co-occurrence) сущности и связанных с ней сущностей в интернете (Related Entity Score), агрегирует эти данные для каждого свойства (Property Score) и сортирует свойства по важности. Это определяет, какие факты будут показаны первыми в результатах поиска, например, в Панели знаний.

US9256682B1
2016-02-09

Knowledge Graph
Семантика и интент

Как Google автоматически выбирает категории и контент для страниц сущностей, комбинируя данные о поведении пользователей и Knowledge Graph

Google использует механизм для автоматического создания страниц о сущностях (например, о фильмах или персонажах). Система определяет, какие категории (свойства) сущности наиболее интересны пользователям, сравнивая данные из Knowledge Graph с данными о том, что пользователи ищут или смотрят вместе с этой сущностью. Затем она наполняет эти категории популярным контентом.

US11036743B2
2021-06-15

Knowledge Graph
Семантика и интент
Поведенческие сигналы

Как Google ранжирует сущности (например, фильмы или книги), используя популярность связанных веб-страниц и поисковых запросов в качестве прокси-сигнала

Google использует механизм для определения популярности контентных сущностей (таких как фильмы, телешоу, книги), когда прямые данные о потреблении недоступны. Система идентифицирует авторитетные «эталонные веб-страницы» (например, страницы Википедии) и связанные поисковые запросы. Затем она измеряет популярность сущности, анализируя объем трафика на эти эталонные страницы и частоту связанных запросов в поиске, используя эти данные как прокси-сигнал для ранжирования сущности.

US9098551B1
2015-08-04

EEAT и качество
Поведенческие сигналы
SERP

Как Google динамически фильтрует выдачу, уточняя интент пользователя после клика по результату

Google использует механизм для обработки неоднозначных запросов. Если выдача содержит результаты, относящиеся к разным сущностям (например, «Ягуар» как животное и как автомобиль), клик пользователя по одному из результатов сигнализирует о его интересе к конкретной сущности. При возврате на страницу выдачи система модифицирует SERP, скрывая или понижая результаты, связанные с нерелевантными сущностями, и фокусируя выдачу на выбранном интенте.

US9355158B2
2016-05-31

Семантика и интент
SERP
Поведенческие сигналы

Как Google алгоритмически определяет и верифицирует языковые версии страниц, анализируя ссылки, контент и частоту обновлений

Google использует систему для автоматической идентификации связанных версий контента (например, переводов). Система анализирует ссылки между страницами и ищет «индикаторы связи» (названия языков в анкорах или флаги). Обнаруженная связь затем верифицируется с помощью машинного перевода и сравнения контента, а также анализа частоты обновлений. Это позволяет Google показывать пользователю наиболее подходящую языковую или региональную версию в поиске.

US8892596B1
2014-11-18

Мультиязычность
Ссылки
SERP

Как Google анализирует текст вокруг ссылки (Rare Words) для борьбы со спамом и определения шаблонных ссылок

Google использует механизм для оценки качества ссылок, выходящий за рамки анкорного текста. Система анализирует редкие слова (rare words) в тексте, непосредственно окружающем ссылку, чтобы определить её уникальный контекст. Ранжирование улучшается при наличии разнообразия этих контекстов. Ссылки с повторяющимся контекстом (спам, Google-бомбинг или шаблонные/сквозные ссылки) идентифицируются и дисконтируются.

US8577893B1
2013-11-05

Антиспам
Ссылки
Семантика и интент

Как Google генерирует связанные запросы (Related Searches), используя сущности из топовых результатов и сохраняя структуру исходного запроса

Google использует систему для автоматической генерации уточнений запросов (например, «Связанные запросы»). Система анализирует топовые документы в выдаче и извлекает из них ключевые сущности. Затем эти сущности комбинируются с важными терминами исходного запроса, при этом строго сохраняется исходный порядок слов, чтобы создать релевантные и естественно звучащие предложения для дальнейшего поиска.

US8392443B1
2013-03-05

Семантика и интент
Поведенческие сигналы

Как Google автоматически определяет и отображает обратные ссылки (цитирования) между независимыми веб-страницами

Патент Google, описывающий фундаментальный механизм автоматического обнаружения ссылок между веб-страницами разных авторов. Когда система обнаруживает, что Страница B ссылается на Страницу A, она может автоматически встроить представление (например, ссылку) Страницы B в Страницу A при её показе пользователю. Это технология для построения и визуализации графа цитирований в Интернете.

US8032820B1
2011-10-04

Ссылки
Индексация
Краулинг

Как Google идентифицирует и верифицирует локальные бизнесы для показа карт и адресов в органической выдаче

Google использует этот механизм для улучшения органических результатов. Система определяет, связана ли веб-страница с одним конкретным бизнесом. Затем она верифицирует ее локальную значимость, проверяя, ссылаются ли на нее другие топовые результаты по тому же запросу. Если страница верифицирована, Google дополняет стандартную «синюю ссылку» интерактивными локальными данными, такими как адреса и превью карт.

US9418156B2
2016-08-16

Local SEO
SERP
Ссылки

Как Google использует фразы и тематические кластеры из истории пользователя для персонализации результатов поиска

Google может строить модель интересов пользователя, анализируя семантически значимые фразы и тематические кластеры в контенте, который пользователь потребляет (просматривает, сохраняет, печатает). При последующих запросах система повышает в ранжировании те документы, которые содержат фразы, одновременно релевантные запросу и присутствующие в профиле интересов пользователя.

US7580929B2
2009-08-25

Персонализация
Семантика и интент
Поведенческие сигналы

Как Google использует LLM для генерации поисковых сводок (SGE), основываясь на контенте веб-сайтов, и итеративно уточняет ответы

Google использует Большие Языковые Модели (LLM) для создания сводок (AI-ответов) в результатах поиска. Для повышения точности и актуальности система подает в LLM не только запрос, но и контент из топовых результатов поиска (SRDs). Патент описывает, как система выбирает источники, генерирует сводку, проверяет факты, добавляет ссылки на источники (linkifying) и аннотации уверенности. Кроме того, система может динамически переписывать сводку, если пользователь взаимодействует с одним из источников.

US11769017B1
2023-09-26

EEAT и качество
Ссылки
SERP

Как Google ранжирует комментарии и UGC, используя объективное качество и субъективную персонализацию

Google использует двухфакторную модель для ранжирования пользовательского контента (комментариев, отзывов). Система вычисляет объективную оценку качества (репутация автора, грамотность, длина, рейтинги) и субъективную оценку персонализации (является ли автор другом или предпочтительным автором, соответствует ли контент интересам и истории поиска пользователя). Итоговый рейтинг объединяет обе оценки для показа наиболее релевантного и качественного UGC.

US8321463B2
2012-11-27

Персонализация
EEAT и качество
Поведенческие сигналы

Как Google использует персональное дерево интересов пользователя для определения важности слов в запросе и его переписывания

Google использует иерархический профиль интересов пользователя (Profile Tree), построенный на основе истории поиска и поведения, чтобы определить, какие слова в запросе наиболее важны для конкретного человека. Специфичные интересы (глубокие узлы в дереве) получают больший вес. Это позволяет системе отфильтровать шум в длинных запросах и сгенерировать более точный альтернативный запрос.

US8326861B1
2012-12-04

Персонализация
Семантика и интент
Поведенческие сигналы