Как Google определяет сущности (например, болезни) по их атрибутам (например, симптомам), анализируя результаты поиска и аннотации индекса

IDENTIFYING ENTITIES USING SEARCH RESULTS (Идентификация сущностей с использованием результатов поиска)

US8856099B1
Google LLC
2011-09-27
2014-10-07

Google использует систему для ответа на запросы, которые перечисляют атрибуты (например, симптомы), но ищут сущность (например, болезнь). Система определяет связь между ними, используя несколько методов: предварительное аннотирование индекса связями сущностей, анализ частоты упоминания сущностей в топе выдачи или генерацию комбинированных запросов. Также система предлагает дополнительные атрибуты для уточнения.

Какую проблему решает

Патент решает проблему обработки поисковых запросов, которые неявно задают вопрос о сущности (Entity) путем перечисления ее атрибутов (Attributes). Пользователи часто вводят признаки (например, симптомы, характеристики товара, актеров) и ожидают получить названия соответствующих сущностей (например, болезней, моделей товара, фильмов). Например, запрос «болит ступня» неявно спрашивает: «Какое медицинское состояние связано с этим симптомом?». Система призвана идентифицировать эти сущности и представить их пользователю.

Что запатентовано

Запатентована система и несколько методов для идентификации сущностей на основе атрибутов, указанных в запросе, с использованием результатов поиска. Основная идея заключается в использовании поискового индекса и сигналов ранжирования для установления связи между атрибутами в запросе и сущностями-кандидатами. Патент описывает различные подходы, включая предварительное аннотирование документов в индексе, анализ совместной встречаемости в результатах поиска и активную проверку гипотез путем генерации Combined Queries.

Как это работает

Система использует несколько подходов (embodiments) для решения этой задачи:

Триггер: Система определяет, содержит ли запрос ссылки на предопределенные атрибуты определенного типа сущности (например, симптомы), проверяя термины по базе данных атрибутов (Attribute Data Store).
Метод 1 (Аннотирование Индекса - Основной в Claims): На этапе индексирования ресурсы анализируются на предмет упоминания сущностей. Если сущность упоминается достаточно часто (выше порога), ресурс аннотируется в индексе как связанный с ней. Во время поиска система анализирует аннотации ресурсов в топе выдачи и выбирает наиболее часто встречающиеся сущности.
Метод 2 (Анализ SERP): Во время поиска система анализирует контент ресурсов, попавших в топ выдачи по исходному запросу. Сущностям присваивается оценка (score) на основе частоты их упоминания в этих ресурсах и ранга самих ресурсов.
Метод 3 (Комбинированные Запросы): Система генерирует множество Combined Queries (Исходный Запрос + Имя Сущности). Для каждой сущности вычисляется сводная оценка (Summary Score) на основе качества результатов ее комбинированного запроса.
Предложение Атрибутов: Система может предлагать дополнительные атрибуты (Attribute Suggestions) для интерактивного уточнения списка сущностей.

Актуальность для SEO

Высокая. Понимание сущностей и их атрибутов является фундаментом современного семантического поиска и Knowledge Graph. Механизмы, описанные в патенте, особенно актуальны для YMYL-запросов (в частности, медицинских, которые используются как основной пример), где Google активно пытается связать симптомы с авторитетной информацией о состояниях. Это напрямую связано с E-E-A-T и предоставлением точных ответов на сложные запросы.

Важность для SEO

Патент имеет высокое значение (85/100). Он описывает механизмы, с помощью которых Google устанавливает связь между контентом, сущностями и их атрибутами. Понимание этих методов критически важно для SEO в YMYL-нишах и для любой стратегии, ориентированной на семантический охват и Topical Authority. Это влияет на то, как контент должен быть структурирован, чтобы помочь Google корректно распознавать и аннотировать основные сущности на странице (Entity Association).

Термины и определения

Attribute (Атрибут): Характеристика или свойство сущности. В контексте патента часто используются медицинские симптомы как примеры атрибутов.
Attribute Data Store (База данных атрибутов): Хранилище терминов, которые были идентифицированы как атрибуты определенного типа сущностей. Используется как триггер для активации системы идентификации сущностей.
Combined Query (Комбинированный запрос): Запрос, сгенерированный системой путем объединения исходного запроса пользователя и имени конкретной сущности (например, [почему я устал] + [Анемия]).
Entity (Сущность): Объект определенного типа, обладающий набором атрибутов. Примеры: медицинское состояние (болезнь), фильм, книга.
Entity Data Store (База данных сущностей): Хранилище имен сущностей определенного типа и их синонимов.
Annotations (Аннотации в индексе): Метаданные, связанные с ресурсом в индексной базе данных (Index Database), которые указывают, что ресурс связан с конкретными сущностями. Создаются на этапе индексирования.
Summary Score (Сводная оценка): В методе комбинированных запросов — агрегированная оценка для сущности, основанная на оценках (scores) результатов поиска, полученных в ответ на комбинированный запрос для этой сущности.
Attribute Suggestions (Предложения атрибутов): Дополнительные атрибуты, предлагаемые пользователю для уточнения исходного запроса и сужения списка идентифицированных сущностей.
Named Entity Recognition (NER, Распознавание именованных сущностей): Технология, используемая для идентификации упоминаний сущностей в тексте и разрешения неоднозначности (когда имя сущности может иметь другие значения).
Threshold number of occurrences (Пороговое число вхождений): Минимальное количество раз, которое имя сущности должно встретиться в ресурсе, чтобы система считала ресурс связанным с этой сущностью (используется в методе аннотирования).

Ключевые утверждения (Анализ Claims)

Патент содержит несколько наборов Claims, описывающих разные методы. Проанализируем ключевые независимые пункты.

Claim 1 (Независимый пункт): Описывает метод, основанный на предварительном аннотировании индекса (соответствует FIG. 8). Это основной защищаемый метод.

Офлайн-процесс (Индексирование):

Анализ контента множества ресурсов для идентификации связанных сущностей первого типа.
Этот анализ включает: (i) идентификацию вхождений имен сущностей в контенте; (ii) определение того, что сущность связана с ресурсом, если ее имя встречается больше порогового числа раз (threshold number of occurrences).
Аннотирование каждого ресурса в Index Database с указанием идентифицированных связанных сущностей.

Онлайн-процесс (Обработка запроса):

Определение того, что первый запрос содержит ссылки на один или несколько предопределенных атрибутов, связанных с первым типом сущности.
Получение результатов поиска для первого запроса.
Идентификация сущностей первого типа, которые связаны с ресурсами, найденными в результатах поиска (используя аннотации из шага 1).
Выбор имен одной или нескольких идентифицированных сущностей для включения в ответ на запрос.

Ядро изобретения здесь — использование порогового значения упоминаний сущности для создания устойчивой аннотации в индексе и последующее использование этой аннотации для идентификации сущностей во время поиска.

Claim 3 (Зависимый от 1): Уточняет процесс идентификации вхождений.

Идентификация вхождений имени сущности включает определение того, что одно или несколько вхождений имени в контенте не относятся к данной сущности (процесс разрешения неоднозначности или Named Entity Recognition).

Claim 5 (Зависимый от 1): Уточняет процесс выбора сущностей.

Выбор имен включает ранжирование каждой идентифицированной сущности на основе количества ресурсов из результатов поиска, с которыми она связана, и выбор имен на основе этого ранжирования.

Claim 9 (Зависимый от 8): Уточняет выбор предложений атрибутов (Attribute Suggestions).

Генерация предложений включает идентификацию связанных атрибутов для выбранных сущностей и выбор тех атрибутов, которые максимально сужают (maximally refine) список выбранных сущностей.

Где и как применяется

Изобретение затрагивает несколько этапов поиска, в зависимости от конкретного метода (embodiment).

INDEXING – Индексирование и извлечение признаков

Критически важен для методов, основанных на аннотировании (Claim 1).

Извлечение Признаков и NLP: Система анализирует контент ресурсов для идентификации упоминаний сущностей (Named Entity Recognition). Она должна разрешать неоднозначности (Claim 3).
Аннотирование: Если количество упоминаний сущности превышает порог, система создает аннотацию в индексе (Index Database), связывающую ресурс с сущностью.
Офлайн-классификация: Система может использовать классификаторы для наполнения Attribute Data Store терминами из логов запросов и анализа ресурсов.

QUNDERSTANDING – Понимание Запросов

Триггер: Система определяет, содержит ли запрос атрибуты определенного типа сущности, сверяясь с Attribute Data Store. Это определяет дальнейшую логику обработки запроса (активировать идентификацию сущностей или обработать стандартно).

RANKING – Ранжирование

Система получает стандартные результаты поиска для исходного запроса.
В методе комбинированных запросов система выполняет множество дополнительных поисковых запросов (Query + Entity Name) и получает результаты для них.

METASEARCH – Метапоиск и Смешивание / RERANKING – Переранжирование

Идентификация Сущностей: Основной этап работы системы. В зависимости от метода: анализ аннотаций ресурсов в топе выдачи, анализ контента ресурсов в топе или агрегация Summary Scores.
Формирование SERP Features: Выбранные имена сущностей могут быть представлены как отдельный блок на странице результатов (как показано на FIG. 1 в патенте). Также генерируются Attribute Suggestions.
Переранжирование: В некоторых вариантах (Claim 7) система может повышать (promoting) в ранжировании те результаты исходного поиска, которые связаны с выбранными сущностями.

На что влияет

Специфические запросы: В первую очередь влияет на информационные запросы, которые перечисляют атрибуты, свойства или характеристики, но не называют саму сущность.
Конкретные ниши или тематики: Наибольшее влияние оказывается на YMYL-тематики, особенно медицину (все примеры в патенте медицинские: симптомы и состояния). Также может применяться в других вертикалях, где есть четкие связи атрибут-сущность (кино, книги, продукты, E-commerce).

Когда применяется

Триггеры активации: Алгоритм активируется, когда система определяет, что запрос включает текстовые ссылки на один или несколько предопределенных атрибутов определенного типа сущности. Это определяется путем проверки терминов запроса в Attribute Data Store.
Исключения: Система может использовать «черный список» (blacklist) фраз, для которых идентификация сущностей не должна проводиться, даже если атрибуты присутствуют (пример в патенте: «you give me fever»). Также механизм может не активироваться, если запрос уже содержит название сущности.

Пошаговый алгоритм

Патент описывает несколько методов. Опишем два основных.

Алгоритм А: Идентификация сущностей через аннотирование индекса (Claim 1, FIG. 8)

Этап 1: Индексирование (Офлайн)

Анализ контента: Для каждого ресурса система анализирует контент для идентификации вхождений имен сущностей определенного типа.
Разрешение неоднозначности (NER): Система определяет, действительно ли вхождение имени относится к сущности, а не к другому контексту (Claim 3).
Проверка порога: Определяется количество релевантных вхождений имени сущности. Если оно превышает пороговое значение (threshold number of occurrences), сущность считается связанной с ресурсом.
Аннотирование: Ресурс аннотируется в Index Database метаданными, указывающими на связанные с ним сущности.

Этап 2: Обработка запроса (Онлайн)

Прием запроса и триггер: Система получает запрос и определяет (через Attribute Data Store), что он содержит атрибуты и следует вернуть имена сущностей.
Получение результатов: Система получает стандартные результаты поиска для запроса.
Анализ аннотаций: Система проверяет аннотации (из Этапа 1) для ресурсов, идентифицированных в результатах поиска (или Топ-N результатов).
Ранжирование сущностей: Сущности ранжируются на основе количества ресурсов из выдачи, с которыми они связаны (согласно аннотациям) (Claim 5).
Выбор и предоставление: Выбираются имена сущностей с наивысшим рангом для включения в ответ на запрос.

Алгоритм Б: Идентификация сущностей через комбинированные запросы (Описано в патенте, FIG. 4-6)

Прием запроса и триггер: Система получает запрос (Q) и определяет, что следует вернуть имена сущностей.
Генерация комбинированных запросов: Для каждой сущности (E) из набора кандидатов генерируется Combined Query (Q+E).
Получение результатов: Система получает результаты поиска для каждого комбинированного запроса.
Расчет Summary Score: Для каждой сущности (E) вычисляется сводная оценка (Summary Score). Это функция (например, сумма, среднее) от оценок ранжирования (scores) результатов, полученных для ее комбинированного запроса.
Нормализация (Опционально): Summary Score может быть нормализован с учетом обратной частоты документа (Inverse Document Frequency, IDF) имени сущности, чтобы снизить влияние общеупотребимых сущностей.
Выбор и предоставление: Выбираются сущности с наивысшими Summary Scores.

Какие данные и как использует

Данные на входе

Контентные факторы: Содержимое ресурсов (текст) анализируется для идентификации вхождений имен сущностей и атрибутов. Вхождения в заголовках или метаданных могут иметь больший вес.
Системные данные:

Attribute Data Store: Список известных атрибутов.
Entity Data Store: Список известных сущностей и их синонимов.
Index Database: Индекс ресурсов, включающий аннотации о связанных сущностях.
Ranking Scores: Оценки ранжирования, присвоенные поисковой системой результатам поиска.

Поведенческие факторы (Косвенно): Журналы запросов (query log) могут использоваться офлайн-классификатором (Query Classifier) для наполнения Attribute Data Store.

Какие метрики используются и как они считаются

Для метода аннотаций (Алгоритм А, Claim 1):

Threshold number of occurrences (Пороговое число вхождений): Минимальное количество упоминаний сущности в документе (с учетом NER) для установления связи.
Ранжирование сущностей: Основано на количестве ресурсов в Топ-N результатов поиска, с которыми связана данная сущность.

Для метода комбинированных запросов (Алгоритм Б):

Summary Score (Сводная оценка): Агрегированная метрика качества результатов для Combined Query. Может быть суммой, средним арифметическим, геометрическим средним или гармоническим средним оценок ранжирования Топ-N результатов.

Общие метрики:

Inverse Document Frequency (IDF): Может использоваться для нормализации оценок сущностей (в Алгоритме Б и других), чтобы учесть общую частоту упоминания сущности в корпусе и снизить влияние очень частых сущностей.
Максимальное уточнение (Maximal Refinement): Метрика для выбора Attribute Suggestions. Выбираются атрибуты, которые обеспечивают наибольшее изменение (сужение) в списке результатов при их добавлении к запросу.

Критичность связи Документ-Сущность (Entity Association): Основной метод, описанный в Claim 1, основан на способности системы определить, о какой конкретно сущности идет речь в документе на этапе индексирования. Для установления этой связи используется частотный порог (threshold number of occurrences).
Важность NER и разрешения неоднозначности: Система использует Named Entity Recognition (NER), чтобы убедиться, что упоминание действительно относится к нужной сущности (Claim 3), прежде чем учитывать его при аннотировании или подсчете оценок. Контекст упоминания критичен.
Множественность подходов к идентификации сущностей: Google запатентовал несколько различных методов для связи атрибутов с сущностями — от ресурсоемкого выполнения тысяч дополнительных запросов (Алгоритм Б) до эффективного использования аннотаций индекса (Алгоритм А).
Идентификация сущностей основана на консенсусе Топа выдачи: В методах, использующих анализ SERP (включая Алгоритм А), система анализирует, какие сущности чаще всего аннотированы или упомянуты в топовых результатах поиска по запросу об атрибутах.
Нормализация по популярности (IDF): Система учитывает, что некоторые сущности упоминаются чаще других, и может использовать IDF для нормализации оценок, чтобы обеспечить релевантность, а не только популярность.
Интерактивное уточнение (Attribute Suggestions): Google рассматривает поиск сущностей как итеративный процесс, предлагая дополнительные атрибуты для "максимального уточнения" результатов, что подчеркивает важность полного покрытия атрибутов сущности в контенте.

Best practices (это мы делаем)

Усиление связи Страница-Сущность (Entity Association): Обеспечьте, чтобы ключевые страницы были четко сфокусированы на конкретной сущности. Согласно Claim 1, связь устанавливается, если имя сущности встречается выше порогового значения. Это требует достаточной частоты и заметности упоминаний сущности (включая синонимы) в основном контенте и заголовках.
Четкое определение связей Атрибут-Сущность: Создавайте контент, который явно связывает сущности (например, заболевания, продукты, фильмы) с их ключевыми атрибутами (симптомы, характеристики, актеры). Это помогает всем описанным методам корректно установить связь.
Используйте точную терминологию и контекст (для NER): Используйте общепринятые и точные названия сущностей. Предоставляйте достаточный контекст, чтобы помочь системам NER разрешать неоднозначности (Claim 3) и корректно идентифицировать сущность.
Оптимизация под семантический поиск и E-E-A-T: Поскольку система агрегирует данные преимущественно из топовых результатов поиска, необходимо иметь высокий базовый рейтинг и авторитетность (E-E-A-T), чтобы участвовать в процессе идентификации сущностей.
Структурирование данных (Schema.org): Используйте микроразметку для явного указания сущностей и их атрибутов (например, MedicalCondition и signOrSymptom, или Product и его свойства). Это помогает системам индексирования однозначно интерпретировать контент и улучшает качество аннотаций.

Worst practices (это делать не надо)

Поверхностный контент и "размытие" фокуса: Создание страниц, упоминающих множество сущностей поверхностно. Если частота упоминания целевой сущности не превысит порог, система может не аннотировать документ этой сущностью (Claim 1).
Неоднозначное использование терминов: Использование неоднозначных терминов без достаточного контекста. Система может использовать NER и проигнорировать упоминания, которые она не смогла однозначно связать с нужной сущностью (Claim 3).
Перечисление атрибутов без связи с сущностью: Создание контента, который только перечисляет атрибуты (например, список симптомов), но не дает глубокого описания связанных с ними сущностей (заболеваний).

Стратегическое значение

Этот патент подтверждает стратегический курс Google на переход от ключевых слов к сущностям и их взаимосвязям (основа Knowledge Graph). Он описывает конкретные механизмы, лежащие в основе семантического понимания контента и запросов. Для SEO это означает, что стратегия должна быть сосредоточена на построении тематического авторитета (Topical Authority) и превращении сайта в надежный источник информации о конкретных сущностях и их атрибутах. В YMYL-тематиках это напрямую связано с демонстрацией E-E-A-T.

Практические примеры

Сценарий: Оптимизация страницы о заболевании (Сущность) для ранжирования по симптомам (Атрибутам)

Задача: Продвинуть страницу о "Плантарном фасциите" по запросу [жгучая боль в пятке утром].

Идентификация: Запрос содержит Атрибуты ("жгучая боль в пятке", "утром"). Целевая Сущность — "Плантарный фасциит".
Усиление связи с Сущностью (Алгоритм А): Убедиться, что термин "Плантарный фасциит" и его синонимы достаточно часто используются на странице в правильном контексте, чтобы превысить порог для аннотирования документа этой сущностью в индексе Google.
Покрытие Атрибутов: Подробно описать симптоматику, используя точные формулировки атрибутов: "Основным симптомом плантарного фасциита является жгучая боль в пятке, которая особенно сильна утром при первых шагах".
Повышение базового ранжирования: Оптимизировать страницу (E-E-A-T, ссылки, технические факторы), чтобы она попала в Топ-N результатов по запросу [жгучая боль в пятке утром].
Ожидаемый результат: Google индексирует страницу и аннотирует её сущностью "Плантарный фасциит". При обработке запроса [жгучая боль в пятке утром] система видит эту страницу в топе, извлекает аннотацию и повышает оценку для сущности "Плантарный фасциит". В результате заболевание может быть показано в специальном блоке или страница получит дополнительное повышение в ранжировании (Claim 7).

Как Google определяет, является ли термин в запросе "атрибутом" сущности?

Система использует Attribute Data Store — базу данных терминов, предварительно идентифицированных как атрибуты определенного типа сущностей (например, симптомы). Эта база может пополняться автоматически с помощью классификатора (Query Classifier), который анализирует логи запросов и корпус документов, выявляя термины, часто встречающиеся в контексте определенного типа сущностей.

Патент описывает несколько разных методов. Какой из них основной?

Метод, основанный на аннотировании индекса (описан в Claim 1 и FIG. 8), является основным защищаемым механизмом в этом патенте. Он более масштабируем, так как основная работа выполняется офлайн на этапе индексирования. Однако Google может использовать и другие методы, такие как Комбинированные запросы, выборочно или в комбинации для повышения точности.

Как система определяет, что страница действительно связана с сущностью, а не просто упоминает её?

Патент предлагает конкретный механизм в Claim 1: использование порогового числа вхождений (threshold number of occurrences). Если имя сущности упоминается на странице достаточно часто, система считает страницу связанной с этой сущностью и аннотирует её соответствующим образом в индексе. При этом используется NER для подтверждения контекста.

Что делать, если имя сущности неоднозначно (например, "Apple")?

Патент явно указывает на использование технологий распознавания именованных сущностей (NER) (Claim 3). Система анализирует контекст упоминания, чтобы определить, относится ли оно к нужной сущности. Для SEO критически важно предоставлять четкий контекст вокруг упоминаний сущностей, использовать связанные термины и определения, чтобы помочь системе правильно их интерпретировать.

Что такое Attribute Suggestions и как они выбираются?

Это предложения дополнительных атрибутов для уточнения запроса (например, предложение других симптомов). Патент указывает, что выбираются атрибуты, которые «максимально сужают» (maximally refine) список идентифицированных сущностей (Claim 9). Это означает, что предлагаются наиболее диагностически значимые атрибуты, которые помогут быстрее отсеять нерелевантные сущности.

Влияет ли этот патент на ранжирование обычных «синих ссылок»?

Да, может влиять. В одном из вариантов реализации (Claim 7) упоминается повышение (promoting) результатов поиска, которые идентифицируют ресурсы, связанные с выбранными именами сущностей. Если ваша страница четко связана с сущностью, которую система идентифицировала как ответ на запрос, она может получить бустинг в ранжировании.

Влияет ли популярность сущности на её выбор системой?

Да, но система пытается это контролировать. Более популярные сущности чаще упоминаются в документах и могут получать завышенные оценки. Патент предлагает использовать нормализацию на основе обратной частоты документа (IDF) имени сущности (в описании альтернативных методов), чтобы снизить влияние общеупотребительных сущностей и повысить релевантность.

Какое значение этот патент имеет для E-commerce сайтов?

Значение очень высокое. Хотя примеры медицинские, механизм универсален. Продукты (сущности) ищут по их характеристикам (атрибутам). Для эффективного ранжирования по запросам типа [ноутбук с экраном 14 дюймов и SSD 1TB], страницы продуктов должны быть четко связаны с сущностью (модель ноутбука) и содержать все релевантные атрибуты.

Если мой сайт является авторитетным источником (высокий E-E-A-T), поможет ли это мне в контексте этого патента?

Да, безусловно. Авторитетность и высокое ранжирование вашего контента играют ключевую роль во всех описанных методах. В методах, основанных на анализе SERP (включая Алгоритм А), система анализирует только топовые результаты. Если ваш авторитетный сайт находится в топе по исходному запросу, его аннотации или контент будут иметь решающее значение при идентификации сущностей.

Как этот патент связан с Knowledge Graph?

Этот патент описывает конкретные механизмы для наполнения и использования данных, которые лежат в основе Knowledge Graph. Он предоставляет алгоритмы для установления связей между атрибутами и сущностями на основе анализа веб-документов, что является фундаментальной задачей для построения графа знаний.

Как Google определяет сущности (например, болезни) по их атрибутам (например, симптомам) в запросе пользователя

Google использует несколько методов для ответа на запросы, которые описывают атрибуты (например, симптомы) и подразумевают поиск соответствующей сущности (например, болезни). Система может генерировать множество комбинированных запросов (Атрибут + Сущность), изменять исходный запрос (Атрибут + Тип Сущности) или анализировать выдачу по исходному запросу для выявления часто упоминаемых сущностей. Это позволяет предоставлять список релевантных сущностей и предлагать дополнительные атрибуты для уточнения поиска.

US8473489B1
2013-06-25

Семантика и интент
SERP

Как Google определяет сущности (например, болезни) по списку признаков (например, симптомов) в запросе пользователя

Google использует различные методы для ответа на запросы, содержащие список признаков (атрибутов), но не называющие саму сущность. Система определяет, какой тип сущности ищет пользователь (например, медицинское состояние по симптомам), и идентифицирует наиболее релевантные сущности. Для этого анализируется частота упоминания сущностей в результатах поиска по исходному запросу или используются специально сгенерированные комбинированные запросы.

US8843466B1
2014-09-23

Семантика и интент
Knowledge Graph
Индексация

Как Google использует атрибуты сущностей для генерации «Дополненных запросов» и уточнения поиска

Google использует механизм для помощи в исследовании тем, связанных с сущностями (люди, места, продукты). Система распознает сущность в запросе, определяет ее ключевые атрибуты (анализируя результаты поиска или Knowledge Graph) и автоматически генерирует список предлагаемых «дополненных запросов» (Сущность + Атрибут). Это позволяет пользователю одним кликом запустить новый, более сфокусированный поиск по теме.

US10055462B2
2018-08-21

Семантика и интент
Knowledge Graph
SERP

Как Google связывает запросы с сущностями для формирования выдачи, подсказок и определения доминирующего интента

Google использует систему для определения того, какие сущности (люди, места, объекты) подразумеваются в поисковом запросе. Система анализирует, насколько релевантны топовые документы запросу и насколько центральное место в этих документах занимает конкретная сущность. На основе этого рассчитывается оценка Entity Score, которая определяет ранжирование сущностей для запроса. Этот механизм используется для показа блоков знаний, организации поисковой выдачи и предоставления уточняющих поисковых подсказок.

US20160224621A1
2016-08-04

Семантика и интент
Knowledge Graph
SERP

Как Google определяет и ранжирует наиболее важные факты о сущности на основе совместных упоминаний в интернете

Google использует механизм для определения наиболее важных свойств (фактов) о сущности в контексте ее типа. Система анализирует частоту совместного упоминания (co-occurrence) сущности и связанных с ней сущностей в интернете (Related Entity Score), агрегирует эти данные для каждого свойства (Property Score) и сортирует свойства по важности. Это определяет, какие факты будут показаны первыми в результатах поиска, например, в Панели знаний.

US9256682B1
2016-02-09

Knowledge Graph
Семантика и интент

Как Google определяет ключевые аспекты (фасеты) сущности для организации и диверсификации поисковой выдачи

Google использует систему для автоматической идентификации различных «аспектов» (подтем или фасетов) сущности в запросе. Анализируя логи запросов и базы знаний, система определяет, как пользователи исследуют информацию. Затем эти аспекты ранжируются по популярности и разнообразию и используются для организации результатов поиска в структурированном виде (mashup), облегчая пользователю навигацию и исследование темы.

US8458171B2
2013-06-04

Семантика и интент
SERP
Поведенческие сигналы

Как Google оценивает и выбирает контент для Featured Snippets (Блоков с ответами) на основе консенсуса выдачи

Google использует систему для выбора и оценки Featured Snippets. Система анализирует топовые результаты поиска, чтобы предсказать, какие термины должны быть в ответе (Answer Terms). Затем она оценивает отрывки текста, учитывая совпадение с запросом, наличие предсказанных терминов ответа (консенсус топа), качество исходного сайта, форматирование и языковую модель контента.

US9940367B1
2018-04-10

SERP
Семантика и интент
EEAT и качество

Как Google использует персонализированный PageRank ссылающихся страниц для переоценки значимости анкорного текста

Google может персонализировать поисковую выдачу, изменяя вес анкорного текста ссылок. Вес ссылки зависит не от глобального PageRank ссылающейся страницы, а от её "персонализированного PageRank", рассчитанного на основе предпочтений пользователя (например, любимых сайтов или тематик). Это позволяет повышать в выдаче документы, на которые ссылаются авторитетные для конкретного пользователя источники.

US7260573B1
2007-08-21

Персонализация
Ссылки

Как Google использует ссылки, которыми делятся в почте, блогах и мессенджерах, как сигнал для корректировки ранжирования

Google запатентовал механизм (User Distributed Search), который учитывает, как пользователи делятся ссылками в коммуникациях (почта, блоги, мессенджеры). Если автор включает ссылку в сообщение, это дает ей первоначальную модификацию в ранжировании. Если получатели переходят по этой ссылке, её Ranking Score увеличивается ещё больше. Оба сигнала используются для влияния на позиции документа в будущей выдаче.

US8862572B2
2014-10-14

Поведенческие сигналы
Ссылки

Как Google использует время пребывания на странице (Dwell Time) для оценки качества и корректировки ранжирования

Google анализирует продолжительность визитов пользователей на страницы из результатов поиска (Dwell Time). Система рассчитывает метрику, сравнивающую количество «длинных кликов» (длительных визитов) с общим количеством кликов для конкретного документа по конкретному запросу. Этот показатель используется как сигнал качества, независимый от позиции в выдаче, для повышения или понижения документа в ранжировании.

US8661029B1
2014-02-25

Поведенческие сигналы
SERP

Как Google использует внешние сигналы (соцсети, новости, блоги) для верификации реальной популярности контента и фильтрации накруток

Google верифицирует популярность контента (например, видео) проверяя, упоминается ли он на внешних источниках: блогах, новостных сайтах и в социальных сетях. Это позволяет формировать списки "популярного", отражающие подлинный широкий интерес, отфильтровывая контент с искусственно завышенными просмотрами или узконишевой популярностью. Система также учитывает географическую релевантность внешних упоминаний.

US9465871B1
2016-10-11

Антиспам
SERP
Ссылки

Как Google выбирает модель визуальной релевантности для сложных запросов в Поиске по картинкам

Google решает проблему ранжирования изображений для сложных или редких запросов, для которых нет специализированной модели релевантности. Система тестирует существующие модели, созданные для частей запроса (подзапросов), и выбирает ту, которая лучше всего соответствует поведению пользователей (кликам) по исходному запросу. Это позволяет улучшить визуальную релевантность в Image Search.

US9152652B2
2015-10-06

Поведенческие сигналы
Мультимедиа
Семантика и интент

Как Google использует нормализованные сигналы удовлетворенности пользователей для переранжирования выдачи и управления краулингом/индексацией

Google анализирует вовлеченность пользователей (полезность), сравнивая фактическую удовлетворенность (Good Utilization Events) с ожидаемой вовлеченностью для данной позиции ранжирования. На основе этого рассчитывается Correction Factor для повышения документов, превосходящих ожидания, и понижения тех, которые им не соответствуют. Эта система также влияет на приоритеты сканирования и решения об индексации.

US9223897B1
2015-12-29

Поведенческие сигналы
Индексация
Техническое SEO

Как Google понижает в выдаче результаты, которые пользователь уже видел или проигнорировал в рамках одной поисковой сессии

Google использует механизм для улучшения пользовательского опыта во время длительных поисковых сессий. Если пользователь вводит несколько связанных запросов подряд, система идентифицирует результаты, которые уже появлялись в ответ на предыдущие запросы. Эти повторяющиеся результаты понижаются в ранжировании для текущего запроса, чтобы освободить место для новых, потенциально более полезных страниц. Понижение контролируется порогом релевантности, чтобы не скрывать важный контент.

US8051076B1
2011-11-01

SERP
Поведенческие сигналы

Как Google находит, фильтрует и подмешивает посты из блогов, релевантные конкретным результатам поиска

Патент описывает систему Google для дополнения стандартных результатов веб-поиска ссылками на релевантные посты в блогах. Система использует многоступенчатую фильтрацию для отсеивания низкокачественных блогов и спама (splogs). Фильтры анализируют количество исходящих ссылок (out-degree), качество входящих ссылок (Link-based score), возраст поста, его длину и расположение ссылок, чтобы гарантировать качество подмешиваемого контента.

US8117195B1
2012-02-14

EEAT и качество
Антиспам
Ссылки