Как Google использует сущности, онтологии и векторные представления для кластеризации и организации поисковой выдачи

CLUSTERING SEARCH RESULTS (Кластеризация результатов поиска)

US10496691B1
Google LLC
2015-09-08
2019-12-03

Google использует этот механизм для структурирования поисковой выдачи по широким запросам. Система группирует результаты в кластеры на основе их связи с сущностями из Базы Знаний. Для объединения кластеров используются онтологические связи (иерархия, синонимы) и векторная близость (embedding similarity). Система параллельно тестирует несколько алгоритмов и выбирает наилучшую структуру SERP на основе метрик качества (покрытие, баланс, пересечение, силуэт).

Какую проблему решает

Патент решает проблему неструктурированной и недостаточно разнообразной поисковой выдачи по общим (generic) запросам (например, "игры", "инструменты"). В традиционных ранжированных списках по таким запросам часто доминирует небольшое количество популярных элементов, что затрудняет пользователю навигацию и изучение всего спектра релевантных результатов. Изобретение призвано обеспечить логическую структуру и разнообразие (diversity) в выдаче.

Что запатентовано

Запатентована система кластеризации результатов поиска, основанная на ассоциациях с сущностями (entities) из Базы Знаний. Система группирует результаты, связанные с одной сущностью, а затем объединяет эти группы, используя онтологию сущностей (Entity Ontology – иерархические связи и синонимы) и метрики схожести, рассчитанные в векторном пространстве (Embedding Space). Ключевой особенностью является оптимизационный фреймворк, который параллельно оценивает несколько алгоритмов кластеризации для выбора наилучшей структуры выдачи.

Как это работает

Система работает следующим образом:

Идентификация и привязка: Определяются элементы, релевантные запросу, и их привязки к сущностям.
Первичная кластеризация: Результаты группируются в кластеры первого уровня (first-level clusters). Каждый кластер соответствует одной сущности.
Многовариантное объединение: Система параллельно применяет несколько методов объединения. Это включает двухэтапные методы (сначала объединение на основе онтологии, затем иерархическая кластеризация на основе embedding similarity) и иерархические методы с онтологическим усилением.
Оценка качества кластеров: Каждый вариант оценивается с помощью комплексной метрики (Cluster Score), которая агрегирует пять показателей: охват популярных результатов (Coverage), равномерность размеров (Balance), пересечение (Overlap), тематическую однородность и разделение (Silhouette Score и Silhouette Ratio).
Выбор и отображение: Выбирается вариант кластеризации с наивысшей оценкой качества, и результаты отображаются пользователю в структурированном виде (например, в виде секций или каруселей).

Актуальность для SEO

Высокая. Структурирование поисковой выдачи, использование сущностей и векторных представлений (embeddings) являются центральными элементами современного поиска. Этот патент напрямую описывает механизмы, которые могут использоваться в Google Поиске, Google Shopping, Play Store и других сервисах для улучшения разнообразия и организации результатов по широким запросам.

Важность для SEO

Патент имеет высокое значение (8/10), особенно для E-commerce, агрегаторов, контентных проектов с большим количеством однотипных страниц и App Store Optimization (ASO). Он показывает, что для видимости по общим запросам критически важна не только релевантность элемента, но и его четкая ассоциация с сущностями и место этих сущностей в онтологии Google. Если контент не может быть качественно кластеризован, он может потерять видимость в структурированной выдаче.

Термины и определения

Balance Score (Оценка баланса): Метрика, измеряющая, насколько равномерно распределены популярные результаты (например, по объему конверсий) между кластерами. Рассчитывается как энтропия распределения конверсий. Высокий балл означает равномерное распределение.
Cluster Score (Оценка кластера): Итоговая метрика качества кластера. Рассчитывается как регрессия (взвешенная комбинация) из пяти метрик: Coverage, Balance, Overlap, Silhouette Score и Silhouette Ratio.
Coverage Score (Оценка покрытия): Метрика, измеряющая процент топовых или популярных результатов поиска, которые покрываются кластерами.
Embedding Space (Векторное пространство / Пространство представлений): Многомерное пространство, в котором каждый объект (результат поиска или сущность) представлен как вектор. Расстояние между векторами отражает семантическую близость объектов.
Embedding Similarity (Векторная близость): Мера близости между двумя объектами в Embedding Space, часто рассчитываемая как косинусное сходство (cosine similarity).
Entity (Сущность): Объект из Базы Знаний (Knowledge Base), представляющий человека, место, предмет, идею, тему и т.д.
Entity Ontology (Онтология сущностей): Набор отношений, связывающих сущности как синонимы (synonyms) или как родитель-потомок (parent-child/hypernyms). Также включает отношения братьев/сестер (co-hypernyms).
First-level Clusters (Первичные кластеры): Начальный набор кластеров, где каждый кластер соответствует одной сущности и включает все релевантные результаты поиска, привязанные к этой сущности.
Hierarchical Clustering (Иерархическая кластеризация): Метод кластерного анализа (например, агломеративный), который строит иерархию кластеров, часто основанный на дистанции (distance-based).
Overlap Score (Оценка пересечения): Метрика, измеряющая количество дублирующихся результатов поиска в разных кластерах. Высокое пересечение нежелательно.
Silhouette Ratio (Коэффициент силуэта): Метрика качества всего набора кластеров. Представляет собой процент кластеров, у которых Silhouette Score выше определенного порога.
Silhouette Score (Оценка силуэта): Метрика, измеряющая когерентность (coherence) и разделенность (separation) отдельного кластера. Учитывает сходство внутри кластера и несходство с ближайшим соседним кластером.
Trained Embedding Model (Обученная модель векторных представлений): Модель машинного обучения (например, WALS), используемая для генерации Embedding Space на основе привязок результатов поиска к сущностям.
Two-Step Clustering (Двухэтапная кластеризация): Метод, где на первом этапе кластеры объединяются строго на основе онтологии, а на втором этапе применяется стандартная иерархическая кластеризация.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод кластеризации с оптимизацией на основе оценок качества.

Определение результатов, релевантных запросу.
Генерация первичных кластеров (first-level clusters) на основе привязки результатов к сущностям.
Расчет Cluster Score для каждого первичного кластера. Ключевое требование: эта оценка основана на Silhouette Score и Silhouette Ratio.
Объединение первичных кластеров на основе Entity Ontology И рассчитанных оценок. Условие объединения: оценка объединенного кластера должна быть лучше, чем оценки исходных кластеров.
Применение иерархической кластеризации (hierarchical clustering) к объединенным кластерам для получения финальных кластеров, максимизируя их оценки качества.
Предоставление результатов поиска, организованных по финальным кластерам.

Claim 2 и 3 (Зависимые от 1): Детализируют стратегию объединения на основе схожести.

Система предпочитает объединять онтологически связанные кластеры, которые имеют наивысшую схожесть (определяемую через Embedding Similarity – Claim 3), при условии, что качество (Cluster Score) улучшается.

Claim 4 (Зависимый от 1): Детализирует альтернативную стратегию объединения на основе размера.

Система предпочитает объединять онтологически связанные кластеры, начиная с самых маленьких, при условии, что качество (Cluster Score) улучшается.

Claim 6 (Зависимый от 1): Определяет состав Cluster Score.

Оценка кластера рассчитывается как регрессия пяти метрик: Silhouette Score, Silhouette Ratio, Coverage Score, Balance Score и Overlap Score.

Claim 9 (Независимый пункт): Фокусируется на деталях механизма оценки качества кластеров.

Этот пункт защищает сам метод расчета Cluster Score как регрессии пяти метрик. Он определяет Silhouette Ratio как долю кластеров с Silhouette Score выше порога. Далее этот скоринг используется для итеративного улучшения кластеров, гарантируя, что новые кластеры имеют лучшую оценку.

Claim 14 (Независимый пункт): Описывает метод, комбинирующий онтологию и векторные представления для кластеризации.

Этот пункт акцентирует внимание на использовании как Entity Ontology, так и Embedding Space (сгенерированного из Embedding Model) для объединения кластеров, при этом также требуя использования Silhouette Score и Silhouette Ratio для валидации качества объединения.

Где и как применяется

Изобретение затрагивает несколько этапов поисковой архитектуры, используя данные, рассчитанные на этапе индексирования, для формирования финальной выдачи.

INDEXING – Индексирование и извлечение признаков

Привязка к сущностям: Система привязывает результаты поиска (search items) к сущностям в Knowledge Base на основе анализа контента или метаданных.
Генерация онтологии: Система (Entity Ontology Engine) генерирует или обновляет Entity Ontology (офлайн-процесс).
Обучение модели представлений: Система обучает Trained Embedding Model (например, WALS), создавая Embedding Space для сущностей и результатов поиска.

RANKING – Ранжирование

Определяются релевантные результаты и рассчитываются их базовые оценки популярности/релевантности (используемые позже в метрике Coverage).

METASEARCH – Метапоиск и Смешивание / RERANKING – Переранжирование

Основное применение патента происходит на этапе формирования SERP.

Кластеризация и оптимизация: Clustering Engine получает набор результатов и применяет фреймворк оптимизации: генерирует первичные кластеры, запускает параллельные алгоритмы кластеризации и оценивает их качество с помощью Cluster Score.
Формирование SERP: Result Engine выбирает наилучший вариант кластеризации и организует финальную выдачу в виде сгруппированных блоков (например, каруселей).

Входные данные:

Набор релевантных результатов поиска с их оценками популярности.
Привязки результатов поиска к сущностям.
Entity Ontology.
Trained Embedding Model.

Выходные данные:

Организованная страница результатов поиска (SERP), где результаты сгруппированы по финальным кластерам с наивысшим качеством.

На что влияет

Специфические запросы: Наибольшее влияние на широкие, общие запросы (например, "игры", "инструменты", "рецепты"), где требуется разнообразие и структурирование выдачи.
Конкретные типы контента и вертикали: Патент явно упоминает поиск мобильных приложений, но технология применима к товарам в маркетплейсах, песням, изображениям, видео и веб-документам.
Форматы SERP: Влияет на формирование структурированной выдачи, каруселей, групп результатов вместо плоского списка.

Когда применяется

Триггеры активации: Алгоритм активируется, когда стандартный ранжированный список может быть недостаточно разнообразным (insufficiently diverse) или когда требуется предоставить логическую структуру для большого пространства результатов.
Условия работы: Требуется наличие достаточного количества релевантных результатов, которые можно привязать к сущностям, а также наличие онтологии и обученной модели векторных представлений для этих сущностей.

Пошаговый алгоритм

Описание процесса оптимизации кластеризации (Optimization-based framework).

Определение релевантных результатов: Система определяет набор результатов поиска, отвечающих запросу.
Генерация и оценка первичных кластеров: Формируются first-level clusters на основе сущностей. Для них рассчитывается Cluster Score (см. Процесс Оценки).
Параллельное выполнение алгоритмов кластеризации: Система запускает несколько методов для генерации кандидатов.
- Метод 1 (Двухэтапный, Схожесть):
  - Этап 1: Объединение кластеров, связанных онтологически, начиная с самых похожих (по Embedding Similarity).
  - Этап 2: Применение иерархической кластеризации.
- Метод 2 (Двухэтапный, Размер):
  - Этап 1: Объединение кластеров, связанных онтологически, начиная с самых маленьких.
  - Этап 2: Применение иерархической кластеризации.
- Метод 3 (Иерархический с онтологией): Иерархическая кластеризация, где Embedding Similarity усиливается (boost) для онтологически связанных пар.
- Метод 4 (Иерархический стандартный): Иерархическая кластеризация только на основе Embedding Similarity.
Примечание: В каждом методе объединение происходит, только если Cluster Score улучшается.
Выбор лучшего кандидата: Система сравнивает итоговое качество (например, средний Cluster Score или Silhouette Ratio) для всех методов.
Генерация SERP: Выбирается набор кластеров с наивысшей оценкой для отображения пользователю.

Процесс Оценки (Cluster Scoring):

Расчет Coverage Score: Определение процента популярных/топовых элементов.
Расчет Balance Score: Оценка равномерности распределения популярности (энтропия).
Расчет Overlap Score: Определение количества дубликатов между кластерами.
Расчет Silhouette Score: Оценка когерентности кластера и его отличия от соседей (используя Embedding Similarity).
Расчет Silhouette Ratio: Определение процента кластеров с Silhouette Score выше порога.
Расчет Cluster Score: Вычисление взвешенной линейной комбинации (регрессии) этих пяти метрик.

Какие данные и как использует

Данные на входе

Семантические факторы (NLP/Entities): Привязки результатов поиска к сущностям (Entities) в Knowledge Base. Основаны на анализе текста, метаданных или аннотаций.
Структурные факторы (Ontology): Entity Ontology, определяющая отношения между сущностями (синонимы, иерархии).
Векторные данные (Embeddings): Trained Embedding Model, позволяющий проецировать сущности и результаты поиска в единое Embedding Space.
Поведенческие/Ранговые факторы (Popularity/Relevance): Данные о популярности или конверсии результатов (клики, покупки, установки). Используются для расчета метрики Coverage.

Какие метрики используются и как они считаются

Система использует пять ключевых метрик для оценки качества кластеров:

Coverage Score: Процент популярных элементов, попавших в кластеры.
Balance Score: Энтропия распределения популярных элементов по кластерам.
Overlap Score: Количество дубликатов элементов между кластерами.
Silhouette Score: Мера когерентности кластера и его отличия от ближайшего соседа. Рассчитывается с использованием Embedding Similarity.
Silhouette Ratio: Процент кластеров с Silhouette Score выше порога.

Итоговая метрика:

Cluster Score: Рассчитывается как регрессия (взвешенная линейная комбинация) пяти вышеуказанных метрик.

Сущности как основа структуры SERP: Патент демонстрирует, что сущности из Knowledge Graph являются фундаментальными единицами для организации поисковой выдачи по широким запросам. Первичная кластеризация происходит строго по привязке контента к сущностям.
Онтология и Embeddings для объединения: Для создания полезных кластеров система использует два типа связей: явные онтологические отношения (иерархия, синонимия) и неявную семантическую близость (Embedding Similarity). Это позволяет объединять семантически связанные темы.
Многовариантность и Оптимизация (Optimization-based Framework): Google не использует один фиксированный метод кластеризации. Система тестирует несколько подходов параллельно (например, объединение по схожести vs. объединение по размеру) и выбирает лучший для конкретного запроса.
Специфические метрики качества кластеров: Качество структуры SERP оценивается по структурным метрикам. Система стремится к высокому покрытию популярных результатов (Coverage), равномерному распределению (Balance), минимальному пересечению (Overlap) и четкой семантической обособленности кластеров (Silhouette Score/Ratio).
Качество превыше всего: Механизм оценки кластеров строг: объединение происходит только в том случае, если качество итогового кластера улучшается. Это предотвращает создание искусственных или нелогичных групп.

Best practices (это мы делаем)

Усиление связи контента с сущностями: Необходимо обеспечить четкую и однозначную связь страниц (товаров, статей) с конкретными сущностями из Knowledge Graph. Это достигается через качественную микроразметку (Schema.org), использование сущностей в заголовках и тексте. Это увеличивает вероятность попадания в first-level clusters.
Работа над Topical Authority и понимание онтологий: Создавайте контент, который покрывает не только отдельные сущности, но и их онтологические связи (родителей, потомков, синонимов). Если вы оптимизируете под "Эспрессо", покройте также "Кофе" (родитель) и "Ристретто" (брат/сестра). Это поможет вашему контенту участвовать в объединенных кластерах (merged clusters).
Оптимизация под семантическую близость (Embeddings): Убедитесь, что контент семантически когерентен и соответствует интенту, связанному с целевой сущностью. Это улучшит embedding similarity с другими релевантными элементами, что положительно скажется на Silhouette Score кластера, в который попадет ваш контент.
Анализ структуры SERP по широким запросам: Изучайте выдачу по общим запросам в вашей нише. Если Google уже кластеризует результаты (например, показывает разные карусели или блоки), проанализируйте, какие сущности лежат в основе этих кластеров, и убедитесь, что ваш контент таргетирует эти группы.
Повышение популярности и CTR: Метрика Coverage напрямую зависит от популярности элементов. Работа над поведенческими факторами и конверсиями остается критически важной для того, чтобы ваши элементы считались «топовыми» и учитывались при оценке качества кластеров.

Worst practices (это делать не надо)

Игнорирование сущностей: Фокусироваться только на ключевых словах без учета лежащих в их основе сущностей. Это может привести к тому, что контент не будет ассоциирован ни с одним сильным кластером.
Создание семантически размытого контента: Попытка охватить слишком много слабо связанных тем на одной странице может ухудшить векторное представление (embedding) страницы и снизить ее embedding similarity с целевыми кластерами, ухудшая Silhouette Score.
Манипуляции с сущностями: Использование нерелевантной микроразметки или спамное упоминание популярных сущностей в попытке попасть в кластер. Система использует Embedding Model для оценки фактической семантической близости, поэтому поверхностные манипуляции будут неэффективны.

Стратегическое значение

Этот патент демонстрирует переход от ранжирования документов к организации информации на основе семантической структуры знаний. Стратегическое значение для SEO заключается в необходимости мыслить категориями сущностей и их взаимосвязей, а не только запросами и страницами. Построение авторитетности в рамках определенной темы (которая представляет собой кластер сущностей) становится ключом к видимости по широким запросам. Система предпочитает источники, которые помогают ей формировать когерентные и разнообразные кластеры.

Практические примеры

Сценарий: Оптимизация интернет-магазина кроссовок по запросу "Баскетбольная обувь"

Анализ (До): По запросу "Баскетбольная обувь" магазин ранжируется слабо. Выдача Google кластеризована по брендам ("Nike Basketball", "Adidas Basketball") и по игрокам ("LeBron James Shoes", "Jordan Shoes").
Действия на основе патента:
- Усиление Entity Mapping: Внедрить детальную разметку Product на карточках товаров, указав бренд, модель и вид спорта (Basketball).
- Работа с Онтологией: Создать или оптимизировать страницы категорий, соответствующие кластерам, которые использует Google (бренды, игроки). Убедиться, что они связаны в иерархии сайта.
- Улучшение Embeddings: Наполнить страницы категорий и товаров качественным контентом (обзоры, характеристики), который семантически связан с баскетболом и конкретными моделями. Это улучшит embedding similarity товаров с целевыми кластерами.
- Повышение Coverage: Улучшить юзабилити и конверсию (популярность) ключевых моделей.
Результат (После): Товары магазина начинают появляться в соответствующих кластерах в выдаче Google Shopping или основном поиске. Система идентифицирует товары как релевантные, ассоциирует их с нужными сущностями и включает их в высококачественные кластеры.

Что такое Entity Ontology и почему это важно для SEO?

Entity Ontology – это структура, описывающая отношения между сущностями в базе знаний Google. Она определяет, является ли одна сущность синонимом, родителем, потомком или "братом/сестрой" другой сущности (например, "iPhone" – потомок "Смартфон"). В контексте этого патента, онтология используется для объединения первичных кластеров. Понимание этой структуры позволяет SEO-специалистам строить контентную стратегию так, чтобы охватывать связанные сущности и участвовать в более крупных и значимых кластерах в выдаче.

Как система определяет схожесть между кластерами?

Схожесть (similarity) определяется преимущественно с помощью моделей векторных представлений (Embedding Models). И элементы поиска, и сами сущности отображаются в единое многомерное пространство (Embedding Space). Схожесть рассчитывается как близость между векторами (например, косинусное сходство). Чем ближе векторы двух кластеров (или сущностей, их представляющих), тем они более похожи семантически.

Что такое двухэтапная кластеризация (Two-step Clustering), описанная в патенте?

Это один из методов, который система использует для повышения качества группировки. На первом этапе система объединяет только те кластеры, которые связаны онтологически (например, синонимы или родитель-потомок). Это гарантирует семантическую логичность объединения. На втором этапе к этим укрупненным кластерам применяется стандартная иерархическая кластеризация на основе векторной близости для дальнейшего структурирования выдачи.

Патент упоминает параллельное выполнение нескольких алгоритмов кластеризации. Зачем это нужно?

Это называется оптимизационным фреймворком. Разные наборы результатов могут требовать разных подходов к группировке. Например, для очень фрагментированных результатов может лучше сработать агрессивное объединение маленьких кластеров, а для результатов с четкой иерархией – другой подход. Запуская несколько методов одновременно и оценивая их по единым метрикам качества (Cluster Score), система может динамически выбрать наилучшую структуру SERP для каждого конкретного запроса.

Что такое Silhouette Score и Silhouette Ratio, и почему они так важны?

Silhouette Score измеряет качество отдельного кластера: насколько элементы внутри него похожи друг на друга (когерентность) и насколько он отличается от соседних кластеров (разделение). Silhouette Ratio показывает процент "хороших" кластеров во всей выдаче. Они критически важны, так как гарантируют, что созданные группы тематически однородны и четко разделены. Для SEO это означает, что контент должен быть максимально сфокусированным и семантически когерентным.

Как метрики Coverage и Balance влияют на формирование выдачи?

Coverage (Покрытие) гарантирует, что кластеры содержат наиболее популярные или топовые результаты. Система стремится включить в кластеры то, что пользователи чаще всего ищут. Balance (Баланс) гарантирует, что кластеры имеют примерно одинаковую значимость, предотвращая доминирование одного огромного кластера. Вместе они обеспечивают разнообразие выдачи, включающей популярный контент.

Как я могу улучшить ассоциацию моего контента или товаров с нужными сущностями?

Ключевыми инструментами являются использование структурированных данных (Schema.org) для явного указания сущностей (например, Product, Recipe, Organization), а также качественный копирайтинг, который естественно интегрирует сущности и связанные с ними термины в заголовки и основной текст. Также важно убедиться, что ваш контент семантически соответствует целевой сущности, так как это влияет на его позицию в Embedding Space.

Применяется ли этот патент только к App Store или E-commerce?

Нет. Хотя примеры в патенте часто ссылаются на мобильные приложения ("apps") и веб-магазины, в тексте явно указано, что технология применима к любым коллекциям элементов. Это включает веб-документы (стандартный поиск Google), песни, изображения, видео, товары в маркетплейсах и т.д. Механизмы кластеризации на основе сущностей универсальны.

Что произойдет, если система попытается объединить два кластера, но качество ухудшится?

Патент явно указывает, что в каждом раунде кластеризации система пересчитывает Cluster Score. Если оценка объединенного кластера оказывается хуже (ниже), чем оценки исходных кластеров, система отменяет это объединение. Это защитный механизм, который предотвращает создание некачественных или нелогичных групп.

Как Google создает Entity Ontology? Могу ли я на это повлиять?

Патент описывает, что онтология может создаваться путем анализа совместной встречаемости сущностей в контенте, анализа названий (является ли одно подмножеством другого), близости в Embedding Space, а также с помощью краудсорсинга для верификации связей. Напрямую повлиять сложно, но создание авторитетного контента, который четко описывает связи между сущностями в вашей нише, может помочь Google лучше понять эту область.

Как Google ранжирует сущности (например, людей с одинаковыми именами) с помощью кластеризации, контекстной авторитетности и персонализации

Google использует систему двухуровневого ранжирования для обработки неоднозначных запросов (например, имен людей). Сначала ресурсы группируются в кластеры, представляющие разные сущности. Ресурсы внутри кластера ранжируются на основе их качества и авторитетности внутри этого кластера. Затем сами кластеры ранжируются с учетом релевантности запросу и сильной персонализации (социальные связи и местоположение пользователя).

US8645393B1
2014-02-04

Персонализация
Семантика и интент
SERP

Как Google определяет ключевые аспекты (фасеты) сущности для организации и диверсификации поисковой выдачи

Google использует систему для автоматической идентификации различных «аспектов» (подтем или фасетов) сущности в запросе. Анализируя логи запросов и базы знаний, система определяет, как пользователи исследуют информацию. Затем эти аспекты ранжируются по популярности и разнообразию и используются для организации результатов поиска в структурированном виде (mashup), облегчая пользователю навигацию и исследование темы.

US8458171B2
2013-06-04

Семантика и интент
SERP
Поведенческие сигналы

Как Google анализирует сессии пользователей и кластеризует концепции для генерации блока "Связанные запросы" (Related Searches)

Google анализирует последовательности запросов пользователей в рамках одной сессии для выявления шаблонов уточнений. Система кластеризует эти уточнения по смыслу, анализируя контент ранжирующихся по ним документов или другие запросы, ведущие на эти документы. Это позволяет предлагать пользователям концептуально различные варианты для сужения или изменения темы поиска.

US8065316B1
2011-11-22

Семантика и интент
SERP
Поведенческие сигналы

Как Google использует категоризацию контента и запросов для уточнения релевантности и ранжирования результатов

Google использует систему для улучшения ранжирования, комбинируя стандартную текстовую релевантность с оценкой соответствия категории. Система определяет, насколько сильно документ принадлежит к определенным категориям и насколько сильно запрос соответствует этим же категориям. Если и документ, и запрос сильно совпадают по категории, результат получает повышение в ранжировании. Это особенно важно для E-commerce и контента с четкой структурой.

US7814085B1
2010-10-12

Семантика и интент
SERP

Как Google использует визуальное сходство для связывания изображений и видео, кластеризации выдачи и обогащения метаданных

Google анализирует визуальное содержимое изображений и ключевых кадров видео для выявления сходств. Это позволяет связывать разнотипный контент, даже если у него мало текстовых данных. Система использует эти связи для переноса метаданных (например, ключевых слов или геопозиции) от одного ресурса к другому, а также для кластеризации и смешивания изображений и видео в результатах поиска.

US9652462B2
2017-05-16

Мультимедиа
SERP
Семантика и интент

Как Google генерирует "Свежие связанные запросы" на основе анализа трендов и новостного контента

Google анализирует недавние поисковые логи, чтобы выявить запросы, демонстрирующие резкий рост популярности или отклонение от ожидаемой частоты. Эти "свежие" запросы проходят обязательную валидацию: они должны возвращать достаточное количество новостных результатов и иметь хорошие показатели вовлеченности (CTR). Это позволяет Google динамически обновлять блок "Связанные поиски", отражая актуальные события и тренды.

US8412699B1
2013-04-02

Свежесть контента
Поведенческие сигналы
SERP

Как Google использует контент, который вы смотрите (например, на ТВ), для автоматического переписывания и персонализации ваших поисковых запросов

Google может анализировать контент (фильмы, шоу, аудио), который пользователь потребляет на одном устройстве (например, ТВ), и использовать эту информацию как контекст для уточнения последующих поисковых запросов. Система распознает аудиовизуальный контекст и автоматически дополняет неоднозначные запросы пользователя, чтобы предоставить более релевантные результаты, в том числе на связанных устройствах (например, смартфоне).

US9244977B2
2016-01-26

Персонализация
Семантика и интент
Поведенческие сигналы

Как Google извлекает готовые ответы из авторитетных источников для формирования Featured Snippets

Google использует систему для предоставления прямых ответов на естественном языке (в виде абзацев или списков) на запросы с четким намерением. Система заранее анализирует авторитетные источники, извлекает пары «заголовок-текст», соответствующие популярным шаблонам вопросов, и сохраняет их в специальной базе данных. При получении соответствующего запроса система извлекает готовый ответ из этой базы и отображает его в выдаче.

US9448992B2
2016-09-20

Семантика и интент
EEAT и качество
Индексация

Как Google агрегирует, оценивает и ранжирует комментарии, отзывы и упоминания о веб-странице из разных источников

Google собирает комментарии, отзывы и посты в блогах, относящиеся к определенной веб-странице. Система использует сложные алгоритмы для определения основной темы упоминаний (особенно если в них несколько ссылок) и ранжирует эти комментарии на основе авторитетности автора, свежести, качества языка и обратной связи пользователей, чтобы представить наиболее полезные мнения.

US8745067B2
2014-06-03

EEAT и качество
Свежесть контента
Семантика и интент

Как Google определяет, действительно ли новость посвящена сущности, и строит хронологию событий

Google использует систему для определения релевантности новостей конкретным объектам (сущностям, событиям, темам). Система анализирует кластеры новостных статей (коллекции), оценивая общий интерес к объекту (поисковые запросы, социальные сети) и значимость объекта внутри коллекции (упоминания в заголовках, центральность в тексте). Ключевой механизм — оценка уместности событий: система проверяет, соответствует ли событие типу объекта (например, «новый метод лечения» для болезни), чтобы отфильтровать мимолетные упоминания и создать точную хронологию новостей.

US9881077B1
2018-01-30

Семантика и интент
Поведенческие сигналы

Как Google использует машинное обучение и поведение пользователей для понимания скрытого намерения в коммерческих запросах

Google использует систему машинного обучения для анализа того, какие товары пользователи выбирают после ввода широких или неоднозначных запросов. Изучая скрытые атрибуты (метаданные) этих выбранных товаров, система определяет «скрытое намерение» запроса. Это позволяет автоматически переписывать будущие неоднозначные запросы в структурированный формат, ориентированный на атрибуты товара, а не только на ключевые слова.

US20180113919A1
2018-04-26

Семантика и интент
SERP
Поведенческие сигналы

Как Google автоматически превращает текст на странице в ссылки на результаты поиска для монетизации контента

Патент Google описывает технологию автоматического анализа контента веб-страницы для выявления ключевых тем и терминов. Система генерирует релевантные поисковые запросы и динамически встраивает гиперссылки в текст страницы. При клике пользователь перенаправляется на страницу результатов поиска (SERP). Ключевая особенность: система приоритизирует термины с высоким потенциалом дохода от рекламы.

US7788245B1
2010-08-31

Ссылки
SERP
Семантика и интент

Как Google использует консенсус источников для выбора и валидации фактов в Knowledge Graph и прямых ответах

Система Google для выбора наилучшего ответа на фактические запросы. Она оценивает потенциальные ответы из разных источников и вычисляет «Оценку Поддержки» (Supported Score) на основе их согласованности. Факт отображается, только если он значительно превосходит противоречащие и несвязанные данные, обеспечивая высокую точность ответа.

US7953720B1
2011-05-31

Knowledge Graph
EEAT и качество
Семантика и интент

Как Google использует анализ аномалий в показах и кликах для выявления фейковых локальных бизнес-листингов (Map Spam)

Google анализирует статистику взаимодействий (кликов) для групп связанных бизнес-листингов (Common Business). Система вычисляет статистически нормальный уровень активности и устанавливает порог (Anomaly Detection Threshold). Резкий всплеск активности выше этого порога (например, на два стандартных отклонения) сигнализирует о наличии фейковых или спамных листингов, созданных для манипуляции локальной выдачей.

US20150154610A1
2015-06-04

Local SEO
Антиспам
Поведенческие сигналы

Как Google автоматически обнаруживает и индексирует контент внутри мобильных приложений для показа в поиске (App Indexing)

Google использует систему для индексации контента нативных мобильных приложений. Для приложений, связанных с веб-сайтами, система проверяет аффилиацию и использует существующие веб-URL для доступа к контенту приложения. Для приложений с кастомными URI система эмулирует работу приложения и итеративно обнаруживает внутренние ссылки. Это позволяет контенту из приложений появляться в результатах поиска в виде глубоких ссылок.

US10073911B2
2018-09-11

Индексация
Краулинг
Ссылки