Как Google в реальном времени вычисляет схожесть между сущностями (сайтами, запросами, пользователями) внутри конкретных тематических категорий

EFFICIENT SIMILARITY RANKING FOR BIPARTITE GRAPHS (Эффективное ранжирование по схожести для двудольных графов)

US10152557B2
Google LLC
2014-05-15
2018-12-11

Google использует инфраструктурное решение для мгновенного расчета сложных метрик схожести (например, Personalized PageRank) в огромных графах связей (например, Документы и Запросы). Система заранее разбивает граф на тематические категории и создает компактные подграфы (Reduction). Это позволяет в реальном времени оценивать тематическую близость контента или интересов пользователей (Aggregation), минуя обработку всего массива данных.

Какую проблему решает

Патент решает проблему высокой вычислительной сложности при расчете ранжирования по схожести (Similarity Ranking) в массивных и часто несбалансированных (lopsided) двудольных графах в реальном времени. Двудольные графы моделируют отношения между двумя типами сущностей (например, миллионы Документов и миллиарды Запросов). Задача — мгновенно определить схожесть между узлами, особенно в контексте конкретной категории (Targeted Similarity), что ресурсоемко на полном графе.

Что запатентовано

Запатентована система для эффективного вычисления схожести в двудольных графах, основанная на двухэтапном подходе: офлайн-операции Редукции (Reduction Operation) и онлайн-операции Агрегации (Aggregation Operation). Система заранее разбивает большой граф на непересекающиеся категории и создает компактные взвешенные подграфы (Weighted Category Subgraphs) для каждой из них. Это позволяет обрабатывать запросы на схожесть в реальном времени путем быстрой агрегации этих предварительно рассчитанных данных.

Как это работает

Система работает следующим образом:

Подготовка данных: Имеется двудольный граф (например, А – Документы, B – Запросы). Узлы B разбиваются на непересекающиеся категории (Disjoint Categories) (например, Темы запросов).
Офлайн Редукция: Для каждой категории создается подграф, содержащий только узлы А. Ребро между двумя узлами А в подграфе существует, если они оба связаны с одним и тем же узлом B (common neighbor) в этой категории. Вес ребра определяется метрикой схожести (например, Jaccard, Personalized PageRank).
Онлайн Агрегация: Поступает запрос: "Найти узлы А, похожие на узел X в категориях Y и Z". Система мгновенно извлекает подграфы для Y и Z и агрегирует данные для вычисления результата.

Актуальность для SEO

Высокая. Анализ графов и вычисление схожести между сущностями, документами, пользователями и запросами являются фундаментальными задачами в современных поисковых и рекомендательных системах (Information Retrieval). Эффективность этих вычислений критична для работы в реальном времени. Этот патент описывает базовую инфраструктуру для масштабирования такого анализа.

Важность для SEO

Патент имеет значительное инфраструктурное влияние на SEO (7.5 из 10). Он не описывает факторы ранжирования, но раскрывает механизмы, позволяющие Google мгновенно оценивать схожесть между сущностями в рамках конкретных тем. Эта инфраструктура лежит в основе систем, которые определяют тематический авторитет (Topical Authority), кластеризуют контент и анализируют связи (включая эффективный расчет PPR). Понимание этого механизма критично для построения эффективных контент-стратегий.

Термины и определения

Bipartite Graph (Двудольный граф): Граф, узлы которого разделены на два непересекающихся множества (A и B), так что каждое ребро соединяет узел из A с узлом из B. Примеры: Документы (A) и Запросы (B); Пользователи (A) и Интересы (B).
Actor Nodes (A Nodes) / Узлы-акторы: Первый набор узлов (например, Документы, Пользователи). Это узлы, для которых вычисляется схожесть.
Item Nodes (B Nodes) / Узлы-элементы: Второй набор узлов (например, Запросы, Интересы). Это узлы, через которые устанавливается связь между Акторами.
Disjoint Categories (Непересекающиеся категории): Разделение Узлов-элементов (B) так, что каждый узел принадлежит только одной категории (например, Теме).
Lopsided Bipartite Graph (Несбалансированный двудольный граф): Граф, где один набор узлов значительно больше другого (например, миллиарды Запросов и миллионы Документов).
Weighted Category Subgraph (Взвешенный категориальный подграф): Подграф, созданный для одной категории. Содержит только Узлы-акторы (A). Ребра взвешены согласно метрике схожести.
Reduction Operation (Операция редукции/сжатия): Офлайн-процесс преобразования исходного двудольного графа в набор Weighted Category Subgraphs. Выполняет основную часть вычислений заранее.
Aggregation Operation (Операция агрегации): Онлайн-процесс, который быстро комбинирует несколько подграфов для вычисления итогового ранжирования по схожести в ответ на запрос.
Similarity Metric (Метрика схожести): Функция для расчета схожести. Патент детально описывает поддержку Neighbor Intersection, Jaccard coefficient, Adamic-Adar, Katz и Personalized PageRank (PPR).
Targeted Similarity (Целевое сходство): Расчет схожести между Акторами, ограниченный только определенным подмножеством категорий Элементов.

Ключевые утверждения (Анализ Claims)

Патент фокусируется на инфраструктуре и оптимизации вычислений, защищая метод предварительной обработки и агрегации графов.

Claim 1 (Независимый пункт): Описывает основную систему и офлайн-процесс (Редукция).

Система хранит двудольный граф (Узлы A и B).
Система разбивает (partition) каждый узел B на одну из непересекающихся категорий.
Для каждой категории генерируется подграф.
Подграф содержит подмножество узлов A. Узлы включаются, если они связаны с общим соседом (common neighbor node) в наборе B, который принадлежит этой категории.
Ребра в подграфе основаны на этих общих связях.
Система сохраняет подграф в памяти.

Ядром изобретения является метод предварительной обработки графа путем его разделения по категориям и создания компактных подграфов, которые фиксируют связи внутри этих категорий, устраняя необходимость обрабатывать узлы B во время запроса.

Claim 10 (Независимый пункт): Описывает метод выполнения Операции Редукции.

Разделение узлов B на категории.
Для каждой категории: Определение пар узлов A, связанных с общим узлом B в этой категории.
Генерация связи (ребра) в подграфе для этой пары.
Присвоение этой связи веса, определенного метрикой схожести (similarity metric).
Сохранение подграфа.

Это детализирует процесс создания Weighted Category Subgraphs.

Claim 15 (Независимый пункт): Описывает полный цикл обработки (Редукция + Агрегация).

До получения запроса (prior to receiving a query) система генерирует подграфы.
Система получает запрос, идентифицирующий узел A.
Система агрегирует (aggregating) два или более подграфов для определения других узлов A с наивысшим сходством (highest similarity rankings).
Система использует эти узлы для ответа на запрос.

Этот пункт защищает применение предварительно вычисленных данных для быстрого ответа в реальном времени.

Где и как применяется

Изобретение является инфраструктурным и затрагивает этапы индексирования (для подготовки данных) и ранжирования (для использования данных).

INDEXING – Индексирование и извлечение признаков (Офлайн-процессы)
На этом этапе происходит Reduction Operation. Система анализирует исходный двудольный граф (построенный, например, на основе логов запросов, кликов или данных краулинга). Происходит категоризация узлов B и выполняются ресурсоемкие вычисления (патент упоминает возможность использования MapReduce) для генерации Weighted Category Subgraphs. Эти подграфы сохраняются как предварительно рассчитанные признаки.

QUNDERSTANDING – Понимание Запросов
Механизм может использоваться для быстрого определения схожести между запросами (если граф построен как Пользователи <-> Запросы) или связанными сущностями для уточнения интента в рамках конкретной тематики.

RANKING / RERANKING – Ранжирование и Переранжирование
На этих этапах происходит Aggregation Operation. Система может использовать механизм для получения оценок схожести в реальном времени. Например, для оценки схожести документа с авторитетными документами в заданной категории (расчет PPR), для персонализации выдачи или для работы рекомендательных систем (Google Discover).

Входные данные (Офлайн): Двудольный граф; Категоризация узлов B; Метрика схожести.

Выходные данные (Офлайн): Набор взвешенных категориальных подграфов.

Входные данные (Онлайн): Запрос (Узел A, Набор категорий); Соответствующие подграфы.

Выходные данные (Онлайн): Ранжированный список узлов A, схожих с заданным узлом.

На что влияет

Конкретные типы контента и ниши: Влияет на любые данные, моделируемые как двудольный граф. В SEO это анализ связей Документ-Запрос, Сайт-Тема, Пользователь-Интерес. Влияет на оценку контента в рамках тематических кластеров.
Системы рекомендаций и Реклама: Прямое влияние на Google Ads (поиск похожих рекламодателей или связанных запросов), Google Discover, YouTube (рекомендации контента на основе схожести интересов).
Специфические запросы: Позволяет системе быстро адаптировать оценку схожести в зависимости от контекста (категории) запроса (Targeted Similarity).

Когда применяется

Офлайн-процесс (Редукция): Выполняется периодически (в пакетном режиме) или после значительных обновлений исходного двудольного графа.
Онлайн-процесс (Агрегация): Выполняется в реальном времени при обработке запроса, когда системе требуется оценка схожести для ранжирования, кластеризации или рекомендаций.

Пошаговый алгоритм

Процесс А: Офлайн Редукция (Предварительный расчет)

Разбиение на категории: Система анализирует двудольный граф и разбивает второй набор узлов (B, например, Запросы) на непересекающиеся категории (например, Темы).
Выбор метрики: Определяется метрика схожести (например, PPR, Jaccard).
Генерация подграфов (для каждой категории):
1. Идентифицируются все узлы первого набора (A, например, Документы), связанные с узлами B в данной категории.
2. Определяются пары узлов A, которые имеют хотя бы один общий связанный узел B (общий сосед) в этой категории.
3. Для каждой такой пары создается ребро в подграфе категории.
Расчет весов ребер: Вес каждого ребра в подграфе рассчитывается на основе выбранной метрики схожести.
Сохранение: Сгенерированные Weighted Category Subgraphs сохраняются для быстрого доступа.

Процесс Б: Онлайн Агрегация (Ответ на запрос)

Получение запроса: Система получает запрос, указывающий на узел A и набор интересующих категорий.
Извлечение подграфов: Система извлекает соответствующие предварительно рассчитанные подграфы.
Агрегация: Система применяет оператор агрегации для объединения информации из подграфов. Метод агрегации строго зависит от метрики схожести:
- Простые метрики (например, Adamic-Adar): Суммирование весов ребер.
- Сложные метрики (например, PPR): Итеративный алгоритм аппроксимации (iterative aggregation-disaggregation algorithm).
Ранжирование и выдача: Вычисляются итоговые оценки схожести, узлы сортируются, и результат предоставляется системе ранжирования.

Какие данные и как использует

Данные на входе

Патент фокусируется исключительно на использовании структуры графа.

Структурные факторы: Основные данные – это связи (ребра) между узлами A и B в двудольном графе. Топология графа является ключевым фактором.
Весовые факторы: Исходный граф может быть взвешенным (weighted bipartite graph). Веса ребер (например, частота кликов, сила связи) учитываются при расчете метрик, особенно PPR.
Категоризация: Данные о принадлежности узлов B к непересекающимся категориям.

Какие метрики используются и как они считаются

Патент детально описывает адаптацию операций редукции и агрегации для пяти метрик схожести. Веса в подграфах (W) рассчитываются так, чтобы итоговая агрегация давала тот же результат (или его аппроксимацию), что и расчет на полном графе.

1. Neighbor Intersection (Пересечение соседей)

Описание: Количество общих соседей между узлами x и y.

Инфраструктура для масштабируемого анализа сходства: Основной вывод — Google разработал мощную инфраструктуру для выполнения сложных графовых вычислений (включая PPR) в реальном времени на огромных наборах данных. Это позволяет системе мгновенно понимать связи между сущностями.
Предварительные вычисления как основа скорости: Эффективность достигается за счет переноса большей части вычислений в офлайн (Reduction Operation). Система заранее рассчитывает и сохраняет "полуфабрикаты" данных о сходстве в виде категориальных подграфов.
Контекстуальное сходство (Targeted Similarity) критично: Система способна мгновенно определять схожесть в рамках заданных тематик (категорий), а не только глобально. Два сайта могут быть похожи в одном контексте и не похожи в другом.
Гибкость в измерении схожести: Система поддерживает различные способы измерения схожести (от простого Jaccard до сложного PPR), что позволяет Google использовать наиболее подходящую метрику для конкретной задачи (ранжирование, рекомендации, кластеризация).
Сходство определяется через общие связи (Co-occurrence): Фундаментальный принцип: две сущности (A) считаются похожими, если они связаны с общими элементами (B). Это критически важно для SEO: авторитетность и тематичность сайта определяются тем, с какими запросами, темами и сущностями он связан.

Best practices (это мы делаем)

Хотя патент является инфраструктурным, он подтверждает важность стратегий, направленных на построение четких семантических и структурных связей.

Построение тематической авторитетности (Topical Authority): Создавайте контент, который последовательно и плотно связан с определенным набором тем и запросов (категорией). Если ваш сайт (Узел A) сильно связан с набором целевых запросов (Узлы B), он будет иметь сильные связи в соответствующем подграфе и считаться структурно похожим на другие авторитетные сайты в этой категории.
Четкая структура и категоризация контента: Помогайте Google правильно категоризировать ваш контент. Используйте четкую иерархию и навигацию. Это увеличивает вероятность того, что ваши страницы будут корректно обработаны в рамках Disjoint Categories.
Использование Сущностей (Entity-Based SEO): Оптимизируйте контент вокруг сущностей из Knowledge Graph. Если вы связаны с теми же сущностями (Узлы B), что и высокоавторитетные сайты (другие Узлы A), метрики сходства (например, PPR или Adamic-Adar) будут это отражать, так как у вас будут общие соседи.
Анализ тематического пересечения конкурентов (Co-occurrence): Анализируйте, по каким общим запросам ранжируетесь вы и ваши конкуренты (Keyword Gap Analysis). Это пересечение является прямым отражением того, как Google может оценивать вашу схожесть. Увеличивайте пересечение с лидерами ниши.

Worst practices (это делать не надо)

Непоследовательное смешивание тем (Размытие тематики): Создание контента на множество несвязанных тем на одном домене размывает связи в графе и снижает плотность внутри конкретных категорий. Это затрудняет определение четкого сходства с авторитетными ресурсами в конкретной нише.
Изолированный контент: Страницы или разделы сайта, которые слабо связаны с основными тематическими кластерами, будут иметь мало связей в соответствующих подграфах, что приведет к низким показателям схожести с авторитетными узлами.
Фокус на единичных запросах: Оптимизация под отдельные запросы без создания поддерживающего контента для всего тематического кластера не позволит построить сильные связи в тематических подграфах.

Стратегическое значение

Патент подчеркивает стратегический переход Google к анализу связей и структур в графах. Он демонстрирует инвестиции в инфраструктуру, позволяющую проводить сложный анализ сходства в реальном времени. Для SEO это означает, что построение сильного, тематически связного (cohesive) сайта, который четко ассоциируется с определенными сущностями и кластерами запросов, является фундаментальным. Способность Google эффективно вычислять метрики типа Personalized PageRank означает, что "расстояние" до авторитетных источников в тематическом графе является критически важным фактором.

Практические примеры

Сценарий: Оценка Тематического Авторитета в нише

Представим, что Google анализирует граф "Сайты (A) <-> Запросы (B)". Запросы разделены на категории, например, "Горные велосипеды" и "Шоссейные велосипеды".

Офлайн Редукция: Google создает подграф для категории "Горные велосипеды". В этом подграфе сайты связаны, если они оба релевантны одним и тем же запросам в этой теме. Веса рассчитываются с помощью PPR, отражая авторитетность в этой теме.
Онлайн Агрегация (Применение): При ранжировании по запросу "лучший горный велосипед", системе нужно определить наиболее авторитетные сайты именно в этой категории.
Результат: Система мгновенно извлекает подграф "Горные велосипеды". Сайт A, который имеет сильные связи и высокий PPR в этом подграфе, получит преимущество (сигнал Topical Authority) перед сайтом B, который имеет высокий глобальный авторитет, но слабо представлен в этом конкретном тематическом подграфе.

Что такое двудольный граф (Bipartite Graph) в контексте SEO?

Это способ моделирования отношений между двумя разными типами объектов. Самые важные для SEO примеры: Граф "Документы <-> Запросы" (показывает, какие документы релевантны каким запросам) и Граф "Сайты <-> Темы/Сущности" (показывает, какие темы покрывает сайт). Анализ этих графов позволяет Google понять структуру контента и тематические связи.

Описывает ли этот патент конкретный фактор ранжирования?

Нет, это инфраструктурный патент. Он не вводит новый фактор ранжирования, но описывает механизм, который позволяет Google эффективно и быстро вычислять сложные метрики схожести (например, Personalized PageRank, Adamic-Adar) на огромных графах. Эти метрики затем могут использоваться как сигналы в основных алгоритмах ранжирования или рекомендательных системах.

Что такое Targeted Similarity и как "категоризация" влияет на расчет схожести?

Targeted Similarity — это расчет схожести в конкретном контексте. Категоризация (например, разделение запросов по темам) позволяет Google это реализовать. Два сайта могут быть очень похожи в категории "Рецепты выпечки", но совершенно не похожи в категории "Ремонт автомобилей". Патент описывает, как Google может мгновенно "сфокусироваться" на нужной категории при расчете.

Что такое Personalized PageRank (PPR) и почему он важен в этом патенте?

PPR измеряет тематическую или контекстуальную авторитетность узла относительно заданного контекста. Это очень ресурсоемкая метрика для расчета. Этот патент критически важен, потому что он описывает инфраструктуру, которая позволяет Google вычислять сложные метрики, такие как PPR, мгновенно, что необходимо для использования их в реальном времени.

Как этот патент связан с Topical Authority?

Он предоставляет техническую базу для ее измерения. Если Google строит граф "Сайты и Темы", этот механизм позволяет быстро определить, какие сайты похожи друг на друга на основе тем, которые они покрывают (в рамках конкретной категории). Если ваш сайт имеет высокое сходство с уже известными авторитетами в нише, это может служить сильным сигналом вашей тематической авторитетности.

В чем разница между операциями Редукции (Reduction) и Агрегации (Aggregation)?

Операция Редукции выполняется заранее (офлайн). Это трудоемкий процесс анализа всего графа и создания упрощенных, компактных подграфов по категориям. Операция Агрегации выполняется в реальном времени в ответ на запрос. Она использует эти предварительно созданные подграфы для мгновенного расчета итогового сходства.

Что на практике означает "общий сосед" (common neighbor) для двух документов?

Если мы рассматриваем граф "Документы <-> Запросы", то "общий сосед" для двух документов – это запрос, по которому оба документа признаны релевантными. Если мы рассматриваем граф "Документы <-> Сущности", то это сущность, которая присутствует в обоих документах. Чем больше общих соседей, тем выше структурное сходство.

Как SEO-специалист может использовать эти знания на практике?

Необходимо сосредоточиться на создании плотных тематических кластеров контента. Убедитесь, что страницы внутри кластера связаны общими интентами, сущностями и ключевыми словами. Это увеличит количество общих связей в соответствующем тематическом подграфе Google, что приведет к более высокой оценке схожести и авторитетности в данной теме.

Что такое Adamic-Adar и как она применяется?

Adamic-Adar — это метрика сходства, которая придает больший вес общим связям, которые являются редкими или уникальными. Если два сайта связаны через очень популярную тему (например, "Новости"), это дает малый вклад в сходство. Но если они оба связаны через узкоспециализированную тему, это значительно увеличивает их сходство по Adamic-Adar. Это подчеркивает ценность нишевой экспертизы.

Влияет ли этот патент на работу Google Discover или систем рекомендаций?

Да, с высокой вероятностью. Системы рекомендаций напрямую зависят от возможности быстро находить похожий контент или пользователей со схожими интересами (например, в графе Пользователи <-> Интересы). Описанный в патенте механизм идеально подходит для решения таких задач в масштабах Google в реальном времени.

Как Google использует двухмерный индекс и пре-компьютерные пути для ультрабыстрого поиска в Knowledge Graph

Google использует специализированную архитектуру индекса для Knowledge Graph, отличную от веб-индекса. Патент описывает двумерную структуру индекса, которая позволяет обрабатывать сложные запросы к графу (связи сущностей, диапазоны, геолокация) с очень низкой задержкой. Система интегрирует текстовый поиск с графом, предварительно вычисляет сложные пути и использует специальные структуры для оптимизации локального и диапазонного поиска.

US9576007B1
2017-02-21

Knowledge Graph
Индексация
Local SEO

Как Google использует семантические связи внутри контента для переранжирования и повышения разнообразия выдачи

Google использует метод для переоценки и переранжирования поисковой выдачи путем анализа семантических взаимодействий между терминами внутри документов. Система строит графы локальных и глобальных связей, а затем определяет взаимосвязи между самими документами на основе их семантического вклада (даже без гиперссылок). Это позволяет повысить разнообразие выдачи, особенно по неоднозначным запросам.

US7996379B1
2011-08-09

Семантика и интент
Ссылки
SERP

Как Google использует графовое сопоставление для поиска структурированных данных внутри диаграмм и таблиц

Google патентует систему для сопоставления сложных пользовательских запросов (представленных в виде графов) с базовыми моделями данных визуального контента (например, диаграмм или таблиц) на веб-страницах. Это требует от издателей предоставлять свои данные в доступном структурированном формате («Content Metadata Sets»), чтобы поисковая система могла понять и проиндексировать сложные взаимосвязи внутри контента.

US9411890B2
2016-08-09

Семантика и интент
Индексация
Техническое SEO

Как Google оптимизирует вычисление PageRank, используя адаптивную сходимость и матричные операции

Патент Google, описывающий технический метод повышения эффективности расчета итеративных алгоритмов ранжирования, таких как PageRank. Система использует тот факт, что ранги некоторых страниц стабилизируются (сходятся) быстрее, чем других. Определяя эти сошедшиеся ранги, система исключает их из активных вычислений на последующих итерациях, тем самым значительно сокращая общие вычислительные затраты.

US7028029B2
2006-04-11

SERP

Как Google выбирает предлагаемые запросы, анализируя вероятность завершения поиска и коммерческую ценность

Google использует графовую модель для анализа поисковых сессий пользователей. Система определяет, какие уточняющие запросы чаще всего приводят к завершению поиска (становятся «финальным пунктом назначения»). Эти запросы считаются обладающими наибольшей «полезностью» (Utility) и предлагаются пользователю в качестве подсказок или связанных запросов. Система также учитывает коммерческий потенциал этих запросов и может показывать для них релевантные рекламные блоки.

US8751520B1
2014-06-10

SERP
Поведенческие сигналы
Семантика и интент

Как Google динамически перестраивает выдачу, если пользователь игнорирует результаты, связанные с определенной сущностью

Google использует механизм уточнения интента пользователя в реальном времени при обработке неоднозначных запросов. Система группирует результаты поиска по связанным сущностям. Если пользователь демонстрирует отсутствие интереса к одной из групп (например, прокручивает или смахивает результаты), система динамически модифицирует выдачу, понижая или удаляя все результаты, связанные с этой отклоненной сущностью.

US9348945B2
2016-05-24

Семантика и интент
SERP
Поведенческие сигналы

Как Google создает мгновенные интерактивные результаты на SERP, предварительно загружая и персонализируя скрытый контент

Google использует механизм для создания интерактивных блоков ответов (Answer Boxes), таких как Погода или Панели Знаний. Система отправляет пользователю не только видимый результат, но и дополнительный скрытый контент («карточки»), выбранный на основе истории взаимодействий пользователя. При взаимодействии с блоком (свайп или клик) дополнительный контент отображается мгновенно, без отправки нового запроса на сервер.

US9274683B2
2016-03-01

SERP
Персонализация
Поведенческие сигналы

Как Google решает, показывать ли промежуточную страницу (превью) или направлять пользователя сразу на сайт при клике в Поиске по картинкам

Google анализирует, насколько хорошо веб-страница представляет выбранное изображение («image-centricity»). Если изображение на странице качественное, заметное и удовлетворяет интент пользователя (на основе статических и поведенческих данных), Google направляет трафик из Поиска по картинкам напрямую на сайт. В противном случае, Google показывает промежуточный экран (Image Overlay).

US9135317B2
2015-09-15

Поведенческие сигналы
Мультимедиа
Семантика и интент

Как Google использует вовлеченность пользователей на связанных страницах (Reachability Score) для ранжирования основного документа

Google рассчитывает «Оценку Достижимости» (Reachability Score), анализируя, как пользователи взаимодействуют со страницами, на которые ссылается основной документ (внутренние и исходящие ссылки). Если пользователи активно переходят по этим ссылкам (высокий CTR) и проводят время на целевых страницах (высокое время доступа), основной документ получает повышение в ранжировании. Этот механизм измеряет потенциальную глубину и качество пользовательской сессии.

US8307005B1
2012-11-06

Поведенческие сигналы
Ссылки
SERP

Как Google динамически перестраивает SERP в реальном времени, основываясь на взаимодействии пользователя с подзадачами

Google использует специализированные AI-модели для разбивки сложных запросов (задач) на подзадачи. Система отслеживает, с какими подзадачами взаимодействует пользователь, и динамически обновляет выдачу, подгружая больше релевантного контента для этой подзадачи прямо во время скроллинга страницы. Это позволяет уточнять интент пользователя в реальном времени.

US20250209127A1
2025-06-26

SERP
Поведенческие сигналы
Семантика и интент

Как Google выбирает модель визуальной релевантности для сложных запросов в Поиске по картинкам

Google решает проблему ранжирования изображений для сложных или редких запросов, для которых нет специализированной модели релевантности. Система тестирует существующие модели, созданные для частей запроса (подзапросов), и выбирает ту, которая лучше всего соответствует поведению пользователей (кликам) по исходному запросу. Это позволяет улучшить визуальную релевантность в Image Search.

US9152652B2
2015-10-06

Поведенческие сигналы
Мультимедиа
Семантика и интент

Как Google игнорирует часто меняющийся контент и ссылки в нем, определяя "временные" блоки шаблона сайта

Google использует механизм для отделения основного контента от динамического шума (реклама, виджеты, дата). Система сравнивает разные версии одной страницы, чтобы найти часто меняющийся контент. Затем она анализирует HTML-структуру (путь) этого контента и статистически определяет, является ли этот структурный блок "временным" для всего сайта. Такой контент игнорируется при индексации и таргетинге рекламы, а ссылки в нем могут не учитываться при расчете PageRank.

US8121991B1
2012-02-21

Индексация
Техническое SEO
Структура сайта

Как Google оценивает и выбирает контент для Featured Snippets (Блоков с ответами) на основе консенсуса выдачи

Google использует систему для выбора и оценки Featured Snippets. Система анализирует топовые результаты поиска, чтобы предсказать, какие термины должны быть в ответе (Answer Terms). Затем она оценивает отрывки текста, учитывая совпадение с запросом, наличие предсказанных терминов ответа (консенсус топа), качество исходного сайта, форматирование и языковую модель контента.

US9940367B1
2018-04-10

SERP
Семантика и интент
EEAT и качество

Как Google предсказывает, какие сайты будут интересны пользователю на основе его контекста (местоположение, время, интересы) без поискового запроса

Google использует агрегированные данные о поведении пользователей для прогнозирования контента. Система анализирует контекст пользователя (местоположение, время, интересы, историю) и определяет, какие сайты посещают похожие пользователи в аналогичном контексте значительно чаще, чем пользователи в целом. Этот механизм позволяет предлагать релевантный контент без явного запроса (например, в Google Discover).

US9195703B1
2015-11-24

Персонализация
Поведенческие сигналы
Семантика и интент

Как Google кластеризует похожие страницы, анализируя, куда пользователи переходят дальше (Co-visitation)

Google анализирует навигационные пути пользователей для определения схожести документов. Если после просмотра Страницы А и Страницы Б пользователи часто переходят к одному и тому же набору последующих страниц, Google считает Страницу А и Страницу Б похожими и объединяет их в кластер. Этот механизм позволяет определять тематическую близость на основе поведения пользователей.

US8650196B1
2014-02-11

Поведенческие сигналы
SERP
Семантика и интент