Как Google определяет наиболее релевантный раздел структурированного документа (сайта или книги) для показа в выдаче

PRESENTATION OF SEARCH RESULTS BASED ON DOCUMENT STRUCTURE (Представление результатов поиска на основе структуры документа)

US9031898B2
Google LLC
2004-09-27
2015-05-12

Google использует структуру документа (например, иерархию сайта или главы книги) для определения наилучшей точки входа для пользователя. Система анализирует, где именно в структуре сконцентрированы (кластеризованы) ключевые слова из запроса. Вместо показа всего документа, Google может представить конкретный раздел, главу или страницу, которая наиболее точно соответствует запросу, основываясь на плотности и расположении этих совпадений.

Какую проблему решает

Патент решает проблему оптимального представления результатов поиска для больших, структурированных документов (таких как книги, патенты, длинные статьи или веб-сайты). Вместо того чтобы просто возвращать ссылку на весь документ или показывать произвольные сниппеты, система определяет, какая именно часть документа (structural element) – будь то страница, раздел, глава или весь документ – является наиболее релевантной запросу пользователя, и представляет именно эту часть.

Что запатентовано

Запатентована система для идентификации и представления оптимального структурного элемента документа на основе анализа распределения поисковых терминов. Система анализирует, где именно в иерархии документа сконцентрированы совпадения (hits) с запросом. Если совпадения плотно сгруппированы в определенном разделе, система представит этот раздел, а не весь документ.

Как это работает

Система использует структуру документа для определения релевантности на разных уровнях гранулярности. Описаны два основных метода:

Кластеризация (Clustering): Совпадения группируются на основе их физической близости (physical proximity) в документе. Система определяет наименьший структурный элемент (например, раздел или страницу), который охватывает весь кластер совпадений.
Иерархическое дерево и распространение оценок (Tree Representation and Score Propagation): Документ представляется в виде дерева (страницы – листья, разделы – узлы, документ – корень). Страницам с совпадениями присваиваются оценки. Эти оценки суммируются и передаются вверх по иерархии. Если оценка узла (раздела) превышает порог (threshold), этот раздел выбирается для показа, а отдельные страницы внутри него исключаются из рассмотрения.

Актуальность для SEO

Средняя/Высокая. Хотя патент подан в 2004 году (эпоха становления Google Books), описанные в нем принципы фундаментальны для обработки структурированных данных. Эти концепции актуальны для Google Books, Google Patents и, что важно для SEO, для анализа архитектуры веб-сайтов и структурирования длинного контента (например, для генерации ссылок "Перейти к разделу" (Jump To) в SERP). Присутствие Амита Сингхала (Amitabh Singhal) среди изобретателей подчеркивает важность патента для базовых механизмов поиска.

Важность для SEO

Патент имеет значительное влияние (7/10) на стратегию информационной архитектуры (IA) и структурирования контента. Он показывает, что Google может оценивать релевантность не только на уровне страницы, но и на уровне разделов сайта (например, категорий или хабов). Четкая, логичная иерархия сайта помогает Google идентифицировать релевантные структурные элементы. Для длинного контента это подчеркивает важность использования семантических заголовков для определения внутренней структуры документа.

Термины и определения

Structural Elements (Структурные элементы): Компоненты, из которых состоит документ. Примеры включают документ целиком, части (Parts), подразделы (Sub-parts) и страницы (Pages). В контексте веб-сайта это могут быть главная страница, категории, подкатегории и отдельные статьи.
Hierarchical Structure (Иерархическая структура): Организация структурных элементов документа, часто представляемая в виде дерева.
Hit Distribution (Распределение совпадений): Расположение и частота встречаемости поисковых терминов внутри структурных элементов документа.
Clustering (Кластеризация): Процесс группировки совпадений (hits) на основе их близости друг к другу в документе.
Physical Proximity (Физическая близость): Метрика, определяющая, насколько близко расположены два совпадения в документе (например, по номерам страниц или расположению в структуре). Используется для кластеризации.
Tree Representation (Древовидное представление): Модель структуры документа, используемая во втором алгоритме.
Leaf Nodes (Листовые узлы): Нижний уровень иерархии в древовидном представлении, обычно соответствующий страницам или наименьшим структурным единицам.
Higher Level Nodes (Узлы более высокого уровня): Узлы в дереве, представляющие части или разделы документа (например, главы или категории).
Root Node (Корневой узел): Верхний узел дерева, представляющий весь документ или веб-сайт.
Score Propagation (Распространение оценки): Механизм передачи оценок релевантности снизу вверх по иерархическому дереву (от страниц к разделам).
Threshold (Порог): Значение оценки, при превышении которого структурный элемент считается достаточно релевантным для представления в качестве результата.

Ключевые утверждения (Анализ Claims)

Патент описывает два основных подхода к решению задачи: кластеризацию и древовидное скорирование.

Claim 1 (Независимый пункт) – Подход на основе кластеризации: Описывает метод идентификации релевантного структурного элемента.

Система идентифицирует документ, связанный с поисковым термином.
Определяются места вхождения (occurrences) поискового термина в документе.
Вхождения группируются в кластеры на основе их относительного расположения (relative locations).
Важное условие: группировка предпочитает (favoring) кластер, который находится внутри одного структурного элемента, кластеру, который охватывает несколько структурных элементов.
Идентифицируется структурный элемент, охватывающий кластер.
Предоставляется информация, связанная с этим идентифицированным структурным элементом.

Claim 28 (Независимый пункт) – Акцент на наименьшем элементе: Аналогичен Claim 1, но явно указывает на цель выбора.

Система определяет наименьший структурный элемент (smallest structural element), который охватывает каждый из кластеров, и предоставляет информацию, связанную с этим элементом. Это означает, что если кластер умещается на странице, будет показана страница; если он охватывает раздел, будет показан раздел.

Claim 33 (Независимый пункт) – Подход на основе иерархического дерева и оценок: Описывает альтернативный алгоритм с использованием скоринга.

Идентифицируется документ с иерархической структурой (части, страницы).
Создается древовидное представление (Страницы=Листья, Части=Узлы, Документ=Корень).
Листовым узлам (страницам) присваиваются оценки на основе наличия поискового термина.
Оценки для узлов более высокого уровня (частей) определяются на основе оценок связанных с ними листовых узлов (например, суммированием).
Определяется оценка для корневого узла.
Устанавливается порог (threshold), который может зависеть от количества страниц, связанных с узлом.
Выбирается узел (лист, узел высокого уровня или корень) на основе сравнения его оценки с порогом.
Предоставляется информация, относящаяся к выбранному узлу.

Где и как применяется

Изобретение применяется на нескольких этапах поисковой архитектуры, преимущественно влияя на финальное представление результатов.

INDEXING – Индексирование и извлечение признаков
На этом этапе система должна идентифицировать и сохранить иерархическую структуру документа. Для книг это может быть получено от издателя или через OCR. Для веб-сайтов это подразумевает анализ структуры URL, навигации, хлебных крошек и внутренней перелинковки для построения иерархии (дерева сайта).

RANKING – Ранжирование
Основные алгоритмы ранжирования определяют общую релевантность документа запросу и идентифицируют места вхождения поисковых терминов (hits).

RERANKING / METASEARCH – Переранжирование и Смешивание (Представление результатов)
Основное применение патента. После того как документ признан релевантным, система анализирует распределение совпадений (Hit Distribution) внутри его структуры. Алгоритмы (кластеризация или древовидный скоринг) определяют, какой именно структурный элемент (страницу, раздел или весь сайт) следует представить пользователю в качестве основного результата и точки входа.

Входные данные:

Иерархическая структура документа (Hierarchical Structure).
Распределение совпадений (Hit Distribution) поисковых терминов в документе.
Пороговые значения (Thresholds) для кластеризации или скоринга.

Выходные данные:

Идентификатор оптимального структурного элемента для представления в SERP.
Информация для формирования сниппета (например, первая страница раздела или конкретная страница с выделенными терминами).

На что влияет

Конкретные типы контента: Наибольшее влияние оказывается на структурированные документы: книги, патенты, техническую документацию, законодательные акты.
Веб-сайты: Влияет на сайты с четкой иерархической структурой (e-commerce, контентные проекты с категориями и подкатегориями). Алгоритм может определить, показывать ли в выдаче страницу статьи, страницу категории или главную страницу.
Лонгриды: Влияет на длинные статьи или руководства, имеющие внутреннюю структуру (например, определенную через заголовки H2/H3). Система может идентифицировать конкретный раздел как наиболее релевантный.

Когда применяется

Триггеры активации: Алгоритм применяется, когда поисковая система идентифицирует документ как релевантный и этот документ обладает идентифицируемой иерархической структурой.
Условия работы: Эффективность зависит от плотности и расположения ключевых слов. Если термины равномерно распределены по всему документу, система может выбрать корневой элемент. Если термины сконцентрированы в одном месте, система выберет наименьший структурный элемент, охватывающий эту концентрацию.

Пошаговый алгоритм

В патенте описаны два варианта реализации.

Алгоритм А: Кластеризация (Clustering)

Идентификация совпадений: Определяются все вхождения поисковых терминов в документе.
Группировка по близости: Совпадения кластеризуются на основе их физической близости (physical proximity). Пороги близости могут быть фиксированными или пропорциональными размеру документа/раздела.
Применение структурных ограничений: Алгоритм предпочитает формировать кластеры, которые полностью находятся внутри одного структурного элемента, а не пересекают границы разделов.
Идентификация контейнера: Для каждого кластера определяется наименьший структурный элемент (страница, подраздел, раздел), который полностью его охватывает.
Выбор результата: Идентифицированные структурные элементы выбираются для представления в результатах поиска.

Алгоритм Б: Древовидное скорирование (Tree-Based Scoring)

Построение дерева: Определяется древовидная структура документа (Корень, Узлы высокого уровня, Листья).
Начальное присвоение оценок: Листовым узлам (страницам), содержащим совпадения, присваиваются оценки. Оценка может быть бинарной (1 или 0) или взвешенной на основе "важности" совпадения (например, в заголовке, жирном шрифте).
Распространение оценок вверх: Оценки передаются родительским узлам (разделам). Оценка родителя обычно равна сумме оценок его дочерних элементов.
Сравнение с порогом: Оценка родительского узла сравнивается с порогом (threshold).
Принятие решения:
- Если оценка > порога: Родительский узел выбирается как потенциальный результат. Все ранее выбранные дочерние узлы удаляются из списка результатов. Этот узел передает оценку 0 своему родителю (чтобы остановить дальнейшее распространение этой конкретной релевантности).
- Если оценка <= порога: Узел не выбирается. Он передает свою полную оценку вверх своему родителю.
Итерация: Процесс повторяется на следующем уровне иерархии, пока не будет достигнут корень.
Финальный выбор: Структурные элементы, соответствующие выбранным узлам, идентифицируются для представления в поиске.

Какие данные и как использует

Данные на входе

Структурные факторы: Критически важные данные. Информация об иерархической структуре документа (дерево частей, подразделов, страниц). Метаданные, определяющие границы структурных элементов.
Контентные факторы: Текст документа и точное расположение (offset) всех вхождений поисковых терминов.
Факторы форматирования/Важности: В описании алгоритма Б упоминается возможность взвешивания оценок на основе "важности" (importance) совпадения. Это может включать анализ шрифта (размер, жирность) и семантических тегов (заголовки).
Технические факторы: Упоминается использование OCR (Optical Character Recognition) для определения текста и структуры сканированных документов (например, книг).

Какие метрики используются и как они считаются

Physical Proximity (Физическая близость): Используется в Алгоритме А. Метрика для определения возможности объединения двух совпадений в один кластер.
Score (Оценка): Используется в Алгоритме Б. Присваивается листовым узлам. Может быть рассчитана как:
- Бинарная: 1, если термин присутствует; 0, если нет.
- Взвешенная: Функция от важности совпадения (форматирование, позиция).
Propagated Score (Распространенная оценка): Оценка узла высокого уровня, обычно рассчитываемая как сумма оценок его дочерних элементов.
Threshold (Порог): Используется в обоих алгоритмах.
- Для кластеризации: Определяет максимальное расстояние для включения в кластер.
- Для скоринга: Определяет минимальную оценку для выбора узла. Пороги могут быть фиксированными, специфичными для уровня иерархии или функцией от количества страниц, связанных с узлом.

Релевантность оценивается внутри структурных границ: Google не просто ищет ключевые слова на странице, но и анализирует, как эти слова распределены в рамках общей структуры документа или сайта. Система активно пытается найти четко определенный раздел, который является тематическим центром запроса.
Определение оптимальной гранулярности результата: Ключевая цель патента – решить, показывать ли пользователю конкретную страницу, целый раздел (категорию/хаб) или весь сайт. Это решение принимается на основе того, насколько плотно сконцентрированы релевантные совпадения.
Предпочтение четкой структуры (Поддержка Siloing): Алгоритм кластеризации явно предпочитает (favoring) кластеры, которые не пересекают структурные границы. Это подчеркивает важность четкой и логичной информационной архитектуры (IA) и тематического силоирования для SEO.
Механизм иерархического скоринга (Bottom-Up): Алгоритм Б предоставляет конкретную модель того, как релевантность на уровне страниц может агрегироваться в оценку релевантности раздела. Если раздел достигает порога релевантности, он может заменить отдельные страницы в выдаче.
Сигналы важности контента: Патент подтверждает, что сигналы "важности" (importance), такие как заголовки и форматирование (жирный шрифт), могут использоваться для взвешивания оценок релевантности отдельных совпадений.

Best practices (это мы делаем)

Проектирование четкой информационной архитектуры (Silos/Hubs): Создавайте логичную иерархическую структуру сайта. Это помогает Google идентифицировать Structural Elements. Используйте структуру URL, навигацию и хлебные крошки для подкрепления этой иерархии.
Концентрация тематической релевантности: Убедитесь, что контент, относящийся к определенной теме, физически сгруппирован в соответствующем разделе (категории). Это способствует формированию плотных кластеров релевантности (Clustering) внутри этого структурного элемента и согласуется с предпочтением системы не пересекать структурные границы.
Структурирование лонгридов: Используйте семантическую разметку (H1-H6) для определения внутренней иерархии длинных статей. Это позволяет Google рассматривать каждый подзаголовок как потенциальный структурный элемент, который может быть выбран для показа (аналогично Jump To ссылкам).
Оптимизация Хабовых Страниц: Развивайте страницы категорий/хабов. Алгоритм древовидного скоринга показывает, как релевантность дочерних страниц может агрегироваться и помочь хабовой странице достичь порога (threshold) для показа в выдаче по общим запросам.
Использование сигналов важности: Используйте заголовки и выделение текста для ключевых терминов. Патент предполагает, что такие сигналы importance могут увеличивать вес (Score) совпадений.

Worst practices (это делать не надо)

Плоская архитектура сайта: Отсутствие четкой иерархии затрудняет для Google идентификацию структурных элементов и анализ распределения релевантности.
Размытие тематик между разделами: Размещение контента по одной теме в разных, структурно не связанных разделах сайта. Это приводит к рассеиванию сигналов релевантности, мешает формированию плотных кластеров и противоречит предпочтению системы (favoring) кластеров внутри одного элемента.
Игнорирование внутренней структуры контента: Публикация длинных текстов без четкой структуры заголовков. Это не позволяет системе идентифицировать внутренние структурные элементы документа.

Стратегическое значение

Патент подтверждает критическую важность информационной архитектуры для SEO. Он предоставляет модель того, как Google может оценивать авторитетность и релевантность не только отдельных страниц, но и целых разделов сайта. Стратегия построения тематических хабов и силосов напрямую поддерживается описанными механизмами, так как они облегчают кластеризацию релевантности внутри определенных структурных границ. Для контент-стратегии это означает, что структура документа так же важна, как и его содержание.

Практические примеры

Сценарий 1: Выбор между страницей товара и категорией (E-commerce)

Запрос: "Кроссовки Nike Air Max"
Структура сайта: /footwear (Корень раздела) -> /nike (Узел высокого уровня) -> /air-max (Узел низкого уровня) -> Конкретные модели (Листья).
Анализ (Алгоритм Б - Древовидный скоринг): Множество страниц товаров (листьев) содержат этот запрос, получая оценки (Score). Эти оценки передаются вверх к узлу /air-max.
Результат: Оценка узла /air-max превышает порог (threshold), так как релевантность широко распределена по многим товарам в этой категории. Google выбирает страницу категории /air-max как оптимальный структурный элемент для показа.

Сценарий 2: Идентификация релевантного раздела в лонгриде

Запрос: "Побочные эффекты витамина D"
Документ: Длинная статья "Полное руководство по витамину D".
Структура статьи: H1 (Корень) -> H2 Разделы (Узлы): "Преимущества", "Дозировка", "Побочные эффекты", "Источники".
Анализ (Алгоритм А - Кластеризация): Система анализирует распределение терминов "побочные эффекты" и "витамин D".
Результат: Совпадения плотно кластеризованы в разделе H2 "Побочные эффекты". Этот раздел идентифицируется как наименьший структурный элемент, охватывающий кластер. Google показывает этот раздел в качестве точки входа (например, с помощью Jump To ссылки в SERP).

Как этот патент связан с концепцией построения силосов (Silos) и тематических хабов в SEO?

Патент напрямую поддерживает эту концепцию. Силосы и хабы являются Structural Elements веб-сайта. Когда контент тематически сгруппирован в рамках силоса, сигналы релевантности формируют плотные кластеры (Clustering) внутри этой структуры. Алгоритм кластеризации в патенте (Claim 1) явно предпочитает кластеры, которые не пересекают структурные границы. Это означает, что четко определенный силос помогает Google корректно идентифицировать релевантный раздел сайта.

Влияет ли описанный механизм на ранжирование или только на представление результатов (сниппеты)?

Патент в первую очередь фокусируется на представлении результатов – какой именно структурный элемент показать пользователю после того, как документ уже признан релевантным. Однако выбор оптимального структурного элемента (например, выбор хабовой страницы вместо отдельной статьи) де-факто влияет на то, какая страница вашего сайта будет ранжироваться в ТОПе. Таким образом, хотя это механизм представления, он имеет прямые последствия для видимости конкретных страниц.

Как Google определяет иерархическую структуру веб-сайта?

Патент не детализирует это для веб-сайтов, но упоминает получение структуры от издателей или через OCR для книг. Для веб-сайтов Google использует комбинацию сигналов для построения иерархии: структуру URL (каталоги), внутреннюю перелинковку, навигационные меню, хлебные крошки и, возможно, карту сайта XML. Четкость этих сигналов определяет, насколько успешно Google сможет применить описанные в патенте алгоритмы.

Что такое "важность" (importance) совпадения и как ее использовать?

В патенте упоминается, что оценка (Score) совпадения может быть функцией его важности. Указаны примеры: текст жирным шрифтом, текст увеличенного размера или текст, связанный с заголовками. Это подтверждает стандартные SEO-практики использования семантического HTML (теги <strong>, <em>, H1-H6) для выделения ключевых терминов и структурирования контента.

Как работает механизм распространения оценок (Score Propagation) в Алгоритме Б?

Это процесс "снизу вверх". Страницы (листья) получают начальные оценки за наличие ключевых слов. Раздел (родительский узел) суммирует оценки своих страниц. Если сумма превышает порог, раздел выбирается для показа, и он "поглощает" результаты своих страниц. Важно, что после выбора он передает вверх оценку 0, что останавливает дальнейшее распространение этой релевантности и предотвращает автоматический выбор всего сайта.

Что делать, если мой контент не имеет четкой иерархии (например, блог с плоской структурой)?

Если иерархия отсутствует или неясна, система не сможет эффективно применить эти алгоритмы. В этом случае Google, скорее всего, будет рассматривать каждую страницу как отдельный документ или попытается построить структуру на основе других сигналов (например, перелинковки). Для повышения эффективности SEO рекомендуется внедрить четкую иерархическую организацию контента, например, через категории и подкатегории.

Как этот патент применяется к длинным статьям (лонгридам)?

Лонгриды можно рассматривать как структурированные документы, где заголовки H2, H3 и т.д. формируют внутреннюю иерархию. Если запрос пользователя узкоспецифичен (например, "установка драйвера X"), и этот запрос плотно кластеризован в одном из разделов H2 большого руководства, система может идентифицировать этот раздел как оптимальный структурный элемент. Это часто проявляется в виде ссылок "Перейти к разделу" (Jump To) в SERP.

Что важнее: Алгоритм А (Кластеризация) или Алгоритм Б (Дерево)?

Патент представляет их как два возможных варианта реализации (embodiments) одной и той же идеи. Кластеризация фокусируется на физической близости и поиске наименьшего контейнера. Древовидный скоринг предлагает более формализованный метод агрегации релевантности снизу вверх. Вероятно, Google может использовать комбинацию этих подходов или разные методы для разных типов документов (например, Дерево для сайтов, Кластеризацию для книг).

Как определяются пороги (Thresholds) для выбора раздела?

Патент предлагает несколько вариантов. Пороги могут быть фиксированными, специфичными для разных уровней иерархии (например, порог для выбора главы ниже, чем для выбора целой книги) или динамическими – функцией от количества страниц, связанных с узлом (Claim 33). Это означает, что для выбора большого раздела потребуется больше сигналов релевантности, чем для маленького.

Актуален ли этот патент, учитывая его возраст (подача в 2004 году)?

Да, концептуально он актуален. Принципы анализа структуры документа и распределения релевантности являются фундаментальными задачами информационного поиска. Хотя современные системы Google, вероятно, используют более сложные методы (например, нейронные сети и векторные представления) для определения структуры и релевантности, базовая логика иерархического анализа, описанная здесь, остается важной основой.

Как Google сегментирует веб-страницы на семантические блоки (хедер, футер, контент) с помощью анализа геометрии рендеринга

Google использует механизм "псевдо-рендеринга" для анализа геометрической структуры веб-страницы и её разделения на семантически различные области (чанки), такие как основное содержимое, навигация, футер и реклама. Это позволяет системе определять важность контента и ссылок в зависимости от их расположения на странице.

US7913163B1
2011-03-22

Семантика и интент
Структура сайта
Техническое SEO

Как Google анализирует оглавления и визуальную верстку для понимания структуры документа и повышения веса заголовков в ранжировании

Google использует технологию для автоматического определения оглавления (TOC) в цифровых документах (книгах, PDF). Система извлекает названия разделов из TOC и сопоставляет их с заголовками в основном тексте, используя машинное обучение, анализ шрифта и верстки, а также ограничения порядка. Это позволяет Google понять структуру документа и увеличить вес ранжирования для идентифицированных заголовков разделов.

US8549008B1
2013-10-01

Индексация
Техническое SEO

Как Google определяет наиболее релевантную часть документа, игнорируя ключевые слова из Title и URL

Google использует механизм для определения самой важной части страницы по запросу пользователя. Система классифицирует слова запроса на «навигационные» (если они есть в Title или URL) и «информационные». При анализе контента внутри страницы вес «навигационных» слов снижается или обнуляется, позволяя точнее выделить конкретный фрагмент текста, содержащий ответ.

US8005825B1
2011-08-23

Семантика и интент

Как Google использует данные о выделении текста пользователями (явно или неявно) для генерации сниппетов и анализа контента

Google может собирать данные о том, какие фрагменты текста пользователи выделяют на веб-страницах, используя специальные инструменты или просто выделяя текст мышью. Эти данные агрегируются для определения наиболее важных частей документа. На основе этой "популярности" Google может динамически генерировать поисковые сниппеты, включающие наиболее часто выделяемые фрагменты.

US8595619B1
2013-11-26

Поведенческие сигналы
SERP

Как Google автоматически определяет важность различных частей веб-страницы (DOM-узлов) для ранжирования

Google анализирует коллекции похожих структурированных документов (например, товарных карточек) и создает общую модель (DOM). Затем система изучает логи запросов и кликов, чтобы понять, какие части структуры (заголовки, основной контент, реклама) чаще всего содержат ключевые слова из успешных запросов. Этим частям присваивается больший вес при расчете релевантности.

US8538989B1
2013-09-17

Семантика и интент
Индексация
Структура сайта

Как Google ранжирует сущности (например, фильмы или книги), используя популярность связанных веб-страниц и поисковых запросов в качестве прокси-сигнала

Google использует механизм для определения популярности контентных сущностей (таких как фильмы, телешоу, книги), когда прямые данные о потреблении недоступны. Система идентифицирует авторитетные «эталонные веб-страницы» (например, страницы Википедии) и связанные поисковые запросы. Затем она измеряет популярность сущности, анализируя объем трафика на эти эталонные страницы и частоту связанных запросов в поиске, используя эти данные как прокси-сигнал для ранжирования сущности.

US9098551B1
2015-08-04

EEAT и качество
Поведенческие сигналы
SERP

Как Google использует последовательность кликов пользователей (Co-selection) для классификации изображений и фильтрации контента (SafeSearch)

Google анализирует, какие изображения пользователи выбирают последовательно в рамках одной сессии (co-selection). Если Изображение Б часто выбирается сразу после Изображения А (с известной темой), система присваивает Изображению Б ту же тему. Этот механизм использует графовый анализ поведения для уточнения тематики изображений, что критично для повышения релевантности и работы фильтров, таких как SafeSearch.

US8856124B2
2014-10-07

Безопасный поиск
Поведенческие сигналы
Семантика и интент

Как Google использует личные интересы пользователя для понимания неопределенных запросов и персонализации рекомендаций

Google использует механизм для интерпретации неопределенных запросов или команд (например, «Я голоден» или «Мне скучно»), когда контекст неясен. Если система не может определить конкретное намерение пользователя только из текущего контента (например, экрана приложения), она обращается к профилю интересов пользователя (User Attribute Data) и его местоположению, чтобы заполнить пробелы и предоставить персонализированные рекомендации или выполнить действие.

US10180965B2
2019-01-15

Персонализация
Семантика и интент
Local SEO

Как Google использует контекст пользователя для генерации неявных поисковых запросов и проактивного показа результатов

Система Google отслеживает контекст пользователя в реальном времени (набираемый текст, открытые документы, письма). На основе этого контекста автоматически генерируются множественные неявные запросы. Система объединяет результаты из разных источников (локальных и глобальных) и проактивно показывает их пользователю, используя поведенческие данные (клики) для улучшения релевантности.

US7664734B2
2010-02-16

Поведенческие сигналы
Персонализация
Семантика и интент

Как Google использует обучение с подкреплением (Reinforcement Learning) для оптимизации ранжирования и переписывания запросов на основе успешности поисковых сессий

Google использует систему Reinforcement Learning для динамической адаптации поисковых процессов. Система анализирует поисковые сессии (последовательности запросов и кликов) и учится оптимизировать выдачу, чтобы пользователь быстрее находил нужный результат. Это достигается путем корректировки весов факторов ранжирования, переписывания запросов или даже обновления индекса на лету для конкретных ситуаций.

US11157488B2
2021-10-26

Индексация
Поведенческие сигналы
Семантика и интент

Как Google использует "ложные пропуски" (Fake Skips) для точной оценки качества своих правил синонимов

Google анализирует поведение пользователей для оценки качества синонимов, используемых при переписывании запросов. Патент вводит метрику "Fake Skip" (Ложный пропуск). Она фиксируется, если пользователь пропустил результат с синонимом, но кликнул на результат ниже, который также содержит этот синоним и исходный термин. Это позволяет точнее калибровать систему синонимов и не пессимизировать хорошие правила из-за неоднозначного поведения пользователей.

US8909627B1
2014-12-09

Поведенческие сигналы
Семантика и интент
SERP

Как Google рассчитывает репутационную значимость организаций и людей, используя данные из внешних источников для ранжирования

Google использует систему для оценки репутации и престижа сущностей (например, организаций или людей). Система не полагается только на предоставленные данные, а активно ищет «Дополнительные Аспекты» из внешних источников (например, профессиональные сети, СМИ). На основе этих данных рассчитываются две метрики: «Репутационная Значимость» (престиж относительно аналогов) и «Двустороннее Соответствие» (взаимная привлекательность), которые используются для ранжирования результатов поиска и рекомендаций.

US10878048B2
2020-12-29

EEAT и качество
SERP
Knowledge Graph

Как Google использует историю поиска и браузинга пользователя для персонализации и изменения результатов выдачи

Google записывает историю поиска и просмотров пользователя для последующей персонализации выдачи. Система может повышать в ранжировании ранее посещенные сайты, добавлять в текущую выдачу релевантные результаты из прошлых похожих запросов, а также понижать сайты, которые пользователь ранее видел, но проигнорировал. Патент также описывает создание "предпочитаемых локаций" на основе частоты посещений и времени пребывания на сайте.

US9256685B2
2016-02-09

Персонализация
Поведенческие сигналы
SERP

Как Google использует позиционный CTR (Selection Rate) для ранжирования и группировки вертикалей в Универсальном поиске

Google использует механизм для структурирования поисковой выдачи путем группировки результатов по категориям (вертикалям), таким как Новости, Видео или Веб. Система определяет порядок этих категорий, основываясь на ожидаемой частоте кликов (Selection Rate/CTR) тех позиций, которые занимают результаты категории в исходном смешанном ранжировании. Это определяет структуру Универсального поиска (Universal Search).

US8498984B1
2013-07-30

SERP
Поведенческие сигналы

Как Google определяет ключевые аспекты (фасеты) сущности для организации и диверсификации поисковой выдачи

Google использует систему для автоматической идентификации различных «аспектов» (подтем или фасетов) сущности в запросе. Анализируя логи запросов и базы знаний, система определяет, как пользователи исследуют информацию. Затем эти аспекты ранжируются по популярности и разнообразию и используются для организации результатов поиска в структурированном виде (mashup), облегчая пользователю навигацию и исследование темы.

US8458171B2
2013-06-04

Семантика и интент
SERP
Поведенческие сигналы