SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google использует структурированные данные (Schema) для отслеживания вовлеченности пользователей на уровне сущностей, а не только URL

STRUCTURED DATA TO AGGREGATE ANALYTICS (Использование структурированных данных для агрегации аналитики)
  • US20140280133A1
  • Google LLC
  • 2013-10-24
  • 2014-09-18
  • Семантика и интент
  • Поведенческие сигналы
  • Knowledge Graph
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Google может отслеживать поведение пользователей (например, время пребывания на странице и клики) и связывать его с конкретными сущностями (продуктами, людьми, темами), идентифицированными через структурированные данные, а не только с URL-адресом. Это позволяет агрегировать метрики вовлеченности для определенной темы на разных страницах и сравнивать эффективность сайтов.

Описание

Какую проблему решает

Патент решает проблему ограниченности традиционной веб-аналитики, которая обычно привязывается к Uniform Resource Locator (URL). Это затрудняет агрегацию данных о взаимодействии пользователей с конкретной темой или объектом (сущностью), если информация о нем распределена по нескольким разным URL (например, один и тот же продукт на странице категории, странице обзора и странице товара).

Что запатентовано

Запатентована система, которая использует стандартизированные структурированные данные (например, Schema.org) в разметке веб-ресурса для идентификации конкретных сущностей (entities). Система связывает данные о взаимодействии пользователя (user interaction data), такие как клики и время пребывания на странице (dwell time), непосредственно с идентификатором этой сущности (Entity ID), а не только с URL.

Как это работает

Механизм работает следующим образом:

  • Идентификация сущности: Когда пользователь посещает веб-ресурс, система (Entity Server) анализирует его разметку для выявления структурированных данных и определения соответствующего Entity ID.
  • Сбор данных: Система веб-аналитики (Web Analytics System) собирает данные о взаимодействии пользователя (клики, dwell time).
  • Ассоциация: Собранные данные ассоциируются с идентифицированным Entity ID.
  • Агрегация и Бенчмаркинг: Поскольку аналитика привязана к сущности, система может агрегировать данные о взаимодействии с этой сущностью со всех страниц, где она упоминается. Это позволяет проводить сравнение (бенчмаркинг) эффективности разных страниц, посвященных одной и той же сущности.

Актуальность для SEO

Высокая. Понимание контента на уровне сущностей (Knowledge Graph) и использование структурированных данных (Schema.org) являются центральными элементами современного поиска Google. Этот патент описывает механизм того, как Google может измерять вовлеченность пользователей в разрезе конкретных тем и сущностей, что критически важно для оценки качества и релевантности контента.

Важность для SEO

Патент имеет значительное влияние на SEO. Он подчеркивает критическую важность корректного внедрения структурированных данных для того, чтобы Google мог точно определить основную сущность страницы. Кроме того, он явно указывает на то, что Google измеряет dwell time и агрегирует поведенческие метрики на уровне сущностей. Это позволяет Google сравнивать (бенчмаркинг) качество и вовлеченность контента разных сайтов по одним и тем же темам.

Детальный разбор

Термины и определения

Dwell Time (Время пребывания)
Метрика, измеряющая количество времени, которое пользователь проводит за просмотром или взаимодействием с веб-страницей.
Entity (Сущность)
Дискретная единица — человек, место, вещь или идея (например, "Lady Gaga" или конкретная модель камеры). Система хранит информацию о сущностях и их взаимосвязях.
Entity Identifier (Entity ID) (Идентификатор сущности)
Уникальный идентификатор, присваиваемый каждой сущности в системе. Используется для агрегации аналитических данных.
Entity Server (Сервер сущностей)
Компонент системы, который анализирует разметку веб-страницы, извлекает структурированные данные и идентифицирует соответствующие им сущности и их Entity ID.
Frequency (Частота)
Метрика, подсчитывающая количество взаимодействий пользователей (например, посещений или кликов) с веб-ресурсами, связанными с определенной сущностью.
Structured Data (Структурированные данные)
Разметка в коде веб-страницы (например, с использованием HTML, XML и схем вроде Schema.org), которая аннотирует контент и определяет элементы данных. Используется для идентификации сущностей.
User Interaction Data (Данные о взаимодействии пользователя)
Аналитические данные, характеризующие поведение пользователя на ресурсе, включая Dwell Time, Frequency (клики) и пути навигации.
Web Analytics System (Система веб-аналитики)
Компонент, который собирает User Interaction Data и ассоциирует их с соответствующими Entity ID.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает базовый метод работы системы.

  1. Получение данных о первом взаимодействии пользователя (first user interaction data) с веб-ресурсом.
  2. Идентификация структурированных данных (structured data), включенных в этот веб-ресурс.
  3. Идентификация сущности (entity), на которую ссылаются эти структурированные данные.
  4. Ассоциация данных о взаимодействии пользователя с этой сущностью.

Claim 2 (Зависимый от 1): Описывает механизм агрегации данных с разных ресурсов.

  1. Получение данных о втором взаимодействии пользователя с другим веб-ресурсом.
  2. Идентификация структурированных данных и соответствующей сущности на этом другом ресурсе.
  3. Определение, является ли эта сущность той же самой, что и сущность из первого ресурса.
  4. Если ДА, ассоциация данных о втором взаимодействии с этой же сущностью.

Claim 3 (Зависимый от 2): Уточняет механизм идентификации и ассоциации.

Ассоциация данных происходит через привязку к идентификатору сущности (Entity Identifier). Определение того, что сущности одинаковы, происходит путем сравнения их идентификаторов.

Claim 4 (Зависимый от 1): Уточняет тип данных о взаимодействии.

Взаимодействие пользователя — это клик (click) или время пребывания (dwell time).

Claim 9 (Зависимый от 2): Описывает генерацию аналитики.

Генерация аналитических данных для сущности основывается на данных о первом и втором взаимодействиях (т.е. на агрегированных данных).

Claim 11 (Зависимый от 9): Описывает механизм бенчмаркинга (сравнения).

Генерация аналитических данных включает:

  1. Идентификацию аналитических данных для сущности по множеству веб-ресурсов.
  2. Определение среднего значения (average) этих аналитических данных для сущности по всем ресурсам.
  3. Сравнение аналитических данных для одного конкретного веб-ресурса со средним значением для этой сущности.

Где и как применяется

Изобретение затрагивает несколько этапов работы поисковой и аналитической систем.

INDEXING – Индексирование и извлечение признаков
На этом этапе система (Entity Server) должна анализировать веб-ресурсы для извлечения Structured Data. Происходит процесс идентификации сущностей, упомянутых в разметке, и их сопоставление с известными Entity ID. Это требует доступа к базе данных сущностей (аналог Knowledge Graph).

CRAWLING & Data Acquisition – Сканирование и Сбор данных
В контексте патента это относится к сбору данных о поведении пользователей. Система веб-аналитики (Web Analytics System) осуществляет сбор User Interaction Data (клики, dwell time) в реальном времени или близком к нему.

RANKING / RERANKING (Потенциально)
Патент фокусируется на агрегации аналитики, а не на ранжировании. Однако сбор и бенчмаркинг метрик вовлеченности (Dwell Time) на уровне сущностей создает мощный сигнал, который может быть использован системами ранжирования для оценки качества и релевантности контента по конкретным темам.

Входные данные:

  • Веб-ресурс (HTML-код, содержащий Structured Data).
  • Данные о взаимодействии пользователя (клики, время пребывания, пути навигации).
  • База данных сущностей (для резолюции Entity ID).

Выходные данные:

  • Агрегированные аналитические данные (Total/Average Dwell Time, Frequency), привязанные к конкретным Entity ID.
  • Данные о навигации между сущностями.
  • Сравнительные отчеты (бенчмаркинг).

На что влияет

  • Конкретные типы контента: Влияет на любые типы контента, которые могут быть размечены структурированными данными и сопоставлены с сущностями. Особенно сильно влияет на товары (E-commerce), статьи, рецепты, описания людей, мест и организаций.
  • Конкретные ниши или тематики: Наибольшее влияние в E-commerce и контентных проектах, где одни и те же сущности (продукты, темы) обсуждаются на множестве страниц с разными URL.

Когда применяется

  • Условия работы: Алгоритм применяется при взаимодействии пользователя с веб-ресурсом, который содержит распознаваемые системой структурированные данные, ссылающиеся на известную ей сущность.
  • Триггеры активации: Посещение страницы пользователем и наличие на ней Structured Data.

Пошаговый алгоритм

Процесс обработки взаимодействия пользователя:

  1. Получение данных о взаимодействии: Система фиксирует посещение пользователем веб-ресурса и начинает сбор User Interaction Data (например, измерение Dwell Time).
  2. Идентификация структурированных данных: Система анализирует код веб-ресурса для обнаружения Structured Data (например, разметки Schema.org).
  3. Идентификация сущности (Entity Resolution): Извлеченные структурированные данные анализируются для определения того, на какую конкретную сущность они ссылаются. Система сопоставляет данные с базой сущностей и определяет соответствующий Entity ID. (Патент упоминает механизмы дисамбигуации с использованием скоринга и связей между сущностями для точной идентификации).
  4. Ассоциация данных с сущностью: Собранные данные о взаимодействии (Dwell Time, факт посещения/клик) ассоциируются с идентифицированным Entity ID. Если на странице несколько сущностей, данные могут быть ассоциированы с каждой из них.
  5. Отслеживание навигации: Если пользователь переходит на другой ресурс, система фиксирует этот переход, идентифицирует сущности на новом ресурсе и записывает факт навигации между исходной сущностью и целевой сущностью (например, переход от Entity ID 123 к Entity ID 123abc).
  6. Агрегация данных: Данные о взаимодействиях с разных страниц и от разных пользователей агрегируются на уровне Entity ID. Подсчитывается общая частота (Frequency) и общее время пребывания (Total Dwell Time).
  7. Анализ и Бенчмаркинг: Система вычисляет средние метрики (Average Dwell Time) для сущности. Она также может сравнивать показатели конкретной страницы со средними показателями для этой сущности по всем отслеживаемым ресурсам.

Какие данные и как использует

Данные на входе

  • Структурные факторы (Structured Data): Ключевые данные для работы системы. Используются коллекции схем (упоминается Schema.org), реализованные в виде тегов разметки (например, HTML tags, itemprop, itemscope). Система анализирует свойства и значения в разметке.
  • Поведенческие факторы (User Interaction Data):
    • Dwell Time: Время, проведенное пользователем на странице.
    • Clicks/Frequency: Факт посещения или клика на ресурс.
    • Navigation Paths: Последовательность посещения ресурсов и переходы между ними.
  • Контентные факторы: Текст на странице может использоваться для помощи в разрешении неоднозначностей (дисамбигуации) сущностей.

Какие метрики используются и как они считаются

Система вычисляет следующие метрики на уровне сущности (Entity ID):

  • Total Dwell Time: Суммарное время пребывания всех пользователей на всех веб-ресурсах, ассоциированных с данной сущностью.
  • Frequency (Total Visits/Clicks): Общее количество посещений/кликов на все веб-ресурсы, ассоциированные с данной сущностью.
  • Average Dwell Time: Рассчитывается как Total Dwell TimeFrequency.\frac{\text{Total Dwell Time}}{\text{Frequency}}.FrequencyTotal Dwell Time​.
  • Navigation Frequency: Подсчет частоты переходов между двумя конкретными сущностями (Entity A -> Entity B).
  • Benchmarking Metrics: Сравнение Average Dwell Time конкретной страницы со средним значением для этой сущности по всем ресурсам.
  • Метрики распознавания Сущностей: Reference Score (вероятность того, что псевдоним ссылается на Сущность) и Link Score (значимость связи между Сущностями) используются на этапе идентификации.

Выводы

  1. Переход от URL-центричной к Сущностно-центричной аналитике: Патент демонстрирует механизм, позволяющий Google измерять взаимодействие пользователей с темами и объектами (сущностями), абстрагируясь от конкретных URL. Это позволяет более точно оценить интерес и вовлеченность в разрезе тем.
  2. Структурированные данные как ключ к пониманию вовлеченности: Корректное внедрение Structured Data (например, Schema.org) необходимо не только для сниппетов, но и для того, чтобы система могла ассоциировать поведенческие сигналы с конкретными сущностями на странице.
  3. Dwell Time активно измеряется и агрегируется: Патент явно указывает на Dwell Time как на ключевую метрику вовлеченности. Система не просто измеряет его, но и агрегирует на уровне сущностей.
  4. Бенчмаркинг качества контента (Claim 11): Система позволяет проводить сравнение (бенчмаркинг) эффективности разных веб-ресурсов, посвященных одной и той же сущности. Если среднее время пребывания на ваших страницах о Сущности X ниже, чем у конкурентов, это является измеримым показателем более низкой вовлеченности или качества контента.
  5. Анализ путей навигации (User Journey): Система отслеживает не только взаимодействие с отдельными сущностями, но и переходы между ними, что позволяет анализировать пути пользователей и популярность различных навигационных цепочек.

Практика

Best practices (это мы делаем)

  • Комплексное внедрение структурированных данных: Обеспечьте максимально полное и точное внедрение релевантных схем (Schema.org) для всех ключевых типов контента (продукты, статьи, организации, авторы и т.д.). Это гарантирует, что Google сможет идентифицировать сущности и корректно ассоциировать с ними поведенческие данные.
  • Четкое определение основной сущности страницы: Используйте разметку (например, mainEntityOfPage) и уникальные идентификаторы (@id, GTIN для продуктов), чтобы явно указать основную сущность и помочь системе точно связать разметку с конкретным Entity ID.
  • Фокус на повышении вовлеченности (Dwell Time): Поскольку Dwell Time измеряется и используется для бенчмаркинга на уровне сущностей, необходимо работать над качеством контента для удержания внимания пользователя. Используйте качественный, полезный контент, мультимедиа и интерактивные элементы.
  • Оптимизация навигации и внутренней перелинковки: Учитывая, что система отслеживает переходы между сущностями, создавайте логичные и полезные пути навигации, которые помогают пользователю глубже изучить тему. Связывайте родственные сущности (например, продукт с обзором, статью с автором).

Worst practices (это делать не надо)

  • Игнорирование структурированных данных: Отсутствие разметки не позволит системе ассоциировать поведенческие сигналы с сущностями, что затруднит оценку качества контента в контексте темы.
  • Использование вводящей в заблуждение или ошибочной разметки: Попытка манипулировать идентификацией сущностей путем предоставления неверных или некорректных структурированных данных может привести к неверной интерпретации контента и искажению аналитических данных.
  • Фокус на кликбейте (Высокая Frequency, низкий Dwell Time): Стратегии, направленные только на привлечение кликов без обеспечения реальной ценности контента, приведут к низким показателям Dwell Time. При бенчмаркинге такие страницы будут проигрывать ресурсам с высокой вовлеченностью.

Стратегическое значение

Этот патент подтверждает стратегию Google по переходу от анализа "строк к вещам" (from strings to things) и распространяет этот подход на измерение поведенческих факторов. Вовлеченность пользователя (engagement), измеряемая через Dwell Time и привязанная к конкретным сущностям, является измеримым показателем качества и релевантности. Хотя патент описывает систему аналитики, крайне вероятно, что эти агрегированные и сравнительные данные используются как сигналы в алгоритмах ранжирования для оценки того, насколько хорошо сайт удовлетворяет потребность пользователя в контексте конкретной сущности.

Практические примеры

Сценарий: Анализ вовлеченности для E-commerce продукта

Сайт продает камеру "Acme Model XYZ". Эта камера упоминается на трех страницах: Страница категории (URL A), Страница подробного обзора (URL B) и Страница товара (URL C).

  1. Внедрение: На всех трех страницах внедрена разметка Schema.org/Product для камеры "Acme Model XYZ".
  2. Идентификация: Система Google идентифицирует, что все три страницы ссылаются на одну и ту же сущность (Entity ID: XYZ).
  3. Сбор данных:
    • URL A: Dwell Time 10 сек, 1000 посещений.
    • URL B: Dwell Time 120 сек, 500 посещений.
    • URL C: Dwell Time 45 сек, 2000 посещений.
  4. Агрегация: Система агрегирует данные для Entity ID: XYZ. Total Dwell Time = (10*1000) + (120*500) + (45*2000) = 160,000 сек. Total Frequency = 3500.
  5. Анализ: Average Dwell Time для сущности "Acme Model XYZ" на этом сайте = 160000/3500 ≈ 45.7 сек.
  6. Бенчмаркинг: Google сравнивает этот показатель со средним Dwell Time для этой же сущности на сайтах конкурентов. Если у конкурентов средний показатель 60 сек, это сигнал о том, что их контент более вовлекающий.

Вопросы и ответы

Чем этот подход отличается от стандартной аналитики на основе URL?

Стандартная аналитика привязывает данные (посещения, время на сайте) к конкретному URL. Описанный подход привязывает данные к сущности (теме, продукту), идентифицированной через структурированные данные. Это позволяет агрегировать статистику по одной сущности, даже если она упоминается на множестве разных URL, обеспечивая более точное понимание интереса к теме в целом.

Подтверждает ли этот патент, что Google использует Dwell Time для ранжирования?

Патент не утверждает это напрямую, так как фокусируется на агрегации аналитики. Однако он явно описывает механизмы измерения, агрегации и бенчмаркинга (сравнения) Dwell Time на уровне сущностей. Сбор и обработка таких данных делает их мощным сигналом для оценки вовлеченности и качества контента, который логично использовать в алгоритмах ранжирования.

Насколько критично внедрение Schema.org в контексте этого патента?

Критически важно. Структурированные данные (Structured Data), такие как Schema.org, являются основой для работы описанной системы. Без них система не сможет надежно идентифицировать сущности на странице и, следовательно, не сможет ассоциировать поведенческие данные с этими сущностями.

Что такое "бенчмаркинг" (benchmarking) в этом контексте и почему это важно для SEO?

Бенчмаркинг здесь (Claim 11) означает сравнение показателей вовлеченности (например, Average Dwell Time) вашего сайта по конкретной сущности со средними показателями других сайтов по этой же сущности. Это важно, так как позволяет Google определить, чей контент лучше удерживает внимание пользователя при изучении одной и той же темы.

Как система обрабатывает страницы с несколькими сущностями?

Патент указывает, что если на странице идентифицировано несколько сущностей (например, "Lady Gaga", "Tickets", "News"), данные о взаимодействии (Dwell Time, Frequency) могут быть ассоциированы с каждой из этих сущностей. Система увеличивает счетчики для всех релевантных Entity ID.

Какие виды взаимодействия пользователя отслеживаются?

Патент явно упоминает клики (clicks), что соответствует метрике частоты посещений (Frequency), и время пребывания на странице (Dwell Time). Также отслеживаются пути навигации — переходы между страницами и, соответственно, между сущностями.

Как именно Google идентифицирует сущность по структурированным данным?

Система (Entity Server) анализирует свойства и значения в разметке. Она использует эти данные как входные для поиска в индексе сущностей. Патент также упоминает процесс дисамбигуации (разрешения неоднозначности) с использованием оценок уверенности (reference score) и анализа связей между сущностями для точного определения Entity ID.

Что означает отслеживание навигации между сущностями для SEO?

Это означает, что система анализирует путь пользователя (User Journey). Например, она видит, что пользователи часто переходят от сущности "Lady Gaga" к сущности "Tickets". Это подчеркивает важность логичной внутренней перелинковки и создания контентных хабов, которые помогают пользователю перемещаться между связанными темами на вашем сайте.

Эта система предназначена только для аналитики владельца сайта (как Google Analytics) или Google использует ее внутренне?

Патент описывает общую методологию агрегации аналитики. Хотя она может использоваться для предоставления отчетов владельцам сайтов, описанные механизмы (особенно бенчмаркинг между разными ресурсами) предполагают, что Google использует эту систему для внутреннего анализа качества и вовлеченности контента в масштабах всего веба.

Как я могу использовать эту информацию для улучшения моего E-commerce сайта?

Убедитесь, что все ваши товары корректно размечены с помощью Schema.org/Product на всех типах страниц (листинги, карточки товаров, обзоры). Работайте над повышением Dwell Time: добавляйте качественные описания, видеообзоры, отзывы и сравнительные таблицы. Создавайте логичную перелинковку между товарами, аксессуарами и обзорами, чтобы стимулировать переходы между связанными сущностями.

Похожие патенты

Как Google использует структурированные данные для борьбы с дублированием страниц с одинаковыми сущностями (например, фасеты и сортировки)
Google анализирует структурированные данные (например, Schema.org) на веб-страницах, чтобы определить, какие сущности (товары, объекты) на них представлены. Если несколько страниц, особенно с одного сайта, содержат одинаковый набор сущностей (например, листинги с разной сортировкой), Google идентифицирует их как дубликаты. Система понижает или удаляет эти дубликаты из выдачи для повышения разнообразия результатов.
  • US20140280084A1
  • 2014-09-18
  • Семантика и интент

  • SERP

  • Индексация

Как Google использует время взаимодействия пользователя с сайтом (Dwell Time) для расчета оценки качества всего сайта
Google использует агрегированные данные о продолжительности визитов пользователей на сайт для расчета метрики качества этого сайта (Site Quality Score). Система измеряет время взаимодействия (включая Dwell Time — время от клика в выдаче до возврата обратно), фильтрует аномальные визиты и нормализует данные по типам контента. Итоговая оценка используется как независимый от запроса сигнал для ранжирования и принятия решений об индексировании.
  • US9195944B1
  • 2015-11-24
  • Поведенческие сигналы

  • Индексация

  • SERP

Как Google персонализирует поисковую выдачу, анализируя историю кликов и поведение пользователя на сайте
Google использует механизм для персонализации поисковой выдачи на основе истории взаимодействия пользователя с результатами поиска. Система отслеживает, какие сайты пользователь выбирает, как долго он на них остается (Dwell Time), частоту и контекст выбора. Основываясь на этих данных, предпочитаемые пользователем ресурсы повышаются в ранжировании при его последующих запросах.
  • US9037581B1
  • 2015-05-19
  • Персонализация

  • Поведенческие сигналы

  • SERP

Как Google отслеживает, анализирует и использует историю поведения пользователя для персонализации поиска и визуализации активности
Патент Google описывает инфраструктуру для сбора и анализа истории действий пользователя (запросы, клики по органике и рекламе, просмотры страниц). Система использует эти данные, включая метрики вовлеченности вроде «stay-time», для определения «предпочитаемых местоположений» и персонализации выдачи. Также описан метод графической визуализации объема этой активности.
  • US7694212B2
  • 2010-04-06
  • Персонализация

  • Поведенческие сигналы

  • SERP

Как Google связывает документы на основе поведения пользователей, времени взаимодействия и контентной близости для персонализации поиска
Google использует систему для определения "меры ассоциации" между различными документами (статьями, веб-страницами, письмами). Ассоциация рассчитывается на основе того, насколько близко по времени пользователь взаимодействовал с этими документами, насколько похож их контент и совпадают ли метаданные (например, автор). Эти связи используются для понимания пути пользователя и персонализации последующих результатов поиска.
  • US8131754B1
  • 2012-03-06
  • Поведенческие сигналы

  • Персонализация

  • Семантика и интент

Популярные патенты

Как Google использует данные о кликах разных групп пользователей (популяций) для локализации и персонализации ранжирования
Google адаптирует результаты поиска, анализируя, как разные группы пользователей (популяции), определяемые по местоположению, языку или демографии, взаимодействуют с выдачей. Система рассчитывает «Сигнал Популяции» (Population Signal) на основе исторических кликов группы и корректирует ранжирование. Также используется механизм сглаживания для компенсации нехватки данных по конкретным группам.
  • US7454417B2
  • 2008-11-18
  • Персонализация

  • Поведенческие сигналы

  • SERP

Как Google использует структурированные данные для отображения прямых ссылок на песни в результатах поиска (Rich Snippets)
Google улучшает результаты поиска музыки, извлекая детали песен (названия, альбомы, продолжительность) из структурированной разметки (например, HTML5 microdata) на веб-страницах. Это позволяет Google отображать прямые ссылки на конкретные песни (вторичные ссылки) внутри основного блока результатов поиска, при условии соблюдения определенных порогов качества и популярности.
  • US9128993B2
  • 2015-09-08
  • Ссылки

  • SERP

  • Индексация

Как Google запоминает прошлые уточнения поиска пользователя и автоматически перенаправляет его к конечному результату
Google использует механизм персонализации, который отслеживает, как пользователи уточняют свои поисковые запросы. Если пользователь часто вводит общий запрос, а затем выполняет ряд действий (например, меняет запрос или взаимодействует с картой), чтобы добраться до конкретного результата, система запоминает эту последовательность. В будущем, при вводе того же общего запроса, Google может сразу показать конечный результат, минуя промежуточные шаги.
  • US9305102B2
  • 2016-04-05
  • Персонализация

  • Поведенческие сигналы

Как Google извлекает, обрабатывает и индексирует анкорный текст, контекст и атрибуты входящих ссылок для ранжирования целевых страниц
Фундаментальный патент, описывающий инфраструктуру Google для обработки ссылок. Система извлекает анкорный текст, окружающий контекст и атрибуты форматирования (аннотации) из исходных страниц и инвертирует эти данные в структуру "Sorted Anchor Map". Это позволяет индексировать целевую страницу по тексту ссылок, указывающих на нее, используя эту внешнюю информацию как сигнал релевантности.
  • US7308643B1
  • 2007-12-11
  • Ссылки

  • Индексация

  • Техническое SEO

Как Google группирует похожие запросы и поисковые подсказки, определяя интент пользователя через анализ сессий и кликов
Google использует графовую модель (Марковскую цепь) для кластеризации поисковых подсказок и связанных запросов. Система анализирует, какие запросы пользователи вводят в одной сессии и на какие документы они кликают. Это позволяет сгруппировать запросы, ведущие к схожему контенту, и предложить пользователю разнообразный набор подсказок, отражающих разные интенты.
  • US8423538B1
  • 2013-04-16
  • Семантика и интент

  • Поведенческие сигналы

  • SERP

Как Google вычисляет семантическую близость запросов, анализируя поведение пользователей при переформулировках
Google использует механизм для определения семантического расстояния между запросами (Generalized Edit Distance). Вместо подсчета изменений символов система анализирует исторические логи, чтобы понять, как пользователи переформулируют запросы. На основе этих данных вычисляется «стоимость» замены одного термина на другой с помощью Pointwise Mutual Information (PMI), что позволяет генерировать более релевантные подсказки и расширения запросов.
  • US8417692B2
  • 2013-04-09
  • Семантика и интент

  • Поведенческие сигналы

Как Google использует паттерны просмотра пользователей (Co-Visitation) и временную близость для определения тематики нетекстового контента (изображений и видео)
Google использует механизм для понимания контента без текста (изображения, видео), анализируя, какие другие (текстовые) страницы пользователи посещают в рамках той же сессии. Ключевые слова с этих текстовых страниц заимствуются и присваиваются нетекстовому ресурсу. Критически важным фактором является время перехода: чем быстрее пользователь перешел между ресурсами, тем больший вес получают ключевые слова.
  • US8572096B1
  • 2013-10-29
  • Поведенческие сигналы

  • Семантика и интент

  • Мультимедиа

Как Google использует поведение пользователей для определения синонимичности фраз в запросах, связанных с сущностями
Google анализирует поведение пользователей (клики по результатам поиска), чтобы определить, означают ли разные фразы одно и то же, когда они связаны с одним типом сущности (например, «достопримечательности в <Город>» против «места для посещения в <Город>»). Если пользователи кликают на одни и те же документы для разных фраз, система считает эти фразы эквивалентными, что помогает Google понимать синонимы и улучшать результаты поиска.
  • US10073882B1
  • 2018-09-11
  • Семантика и интент

  • Поведенческие сигналы

Как Google классифицирует запросы как навигационные или исследовательские, чтобы регулировать количество показываемых результатов
Google использует систему для динамического определения количества отображаемых результатов поиска. Система классифицирует запрос как навигационный (поиск конкретного места/ресурса) или исследовательский (поиск вариантов). Классификация основана на анализе компонентов оценки релевантности (совпадение по названию vs. категории) и энтропии исторических кликов. При навигационном интенте количество результатов сокращается.
  • US9015152B1
  • 2015-04-21
  • Семантика и интент

  • Поведенческие сигналы

  • Local SEO

Как Google использует исторические данные о кликах (CTR) по категориям для определения доминирующего интента неоднозначных запросов
Google анализирует, на какие категории результатов пользователи кликали чаще всего в прошлом (CTR) по неоднозначному запросу (например, "Pool"). Система определяет доминирующие интенты, выявляя резкие перепады в CTR между категориями или используя иерархию категорий, и повышает в ранжировании результаты, соответствующие наиболее популярным интерпретациям.
  • US8738612B1
  • 2014-05-27
  • Семантика и интент

  • Поведенческие сигналы

  • SERP

seohardcore