SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google использует паттерны просмотра пользователей (co-visitation) для определения связанности документов и улучшения поиска

GENERATING A RELATED SET OF DOCUMENTS FOR AN INITIAL SET OF DOCUMENTS (Генерирование связанного набора документов для исходного набора документов)
  • US8447760B1
  • Google LLC
  • 2009-07-20
  • 2013-05-21
  • Поведенческие сигналы
  • Персонализация
  • Семантика и интент
  • SERP
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Google использует систему для определения того, насколько тесно связаны два документа, основываясь на агрегированных данных о поведении пользователей. Система рассчитывает вероятность того, что пользователь просмотрит Документ B в течение определенного времени после того, как Документ А был показан ему в результатах поиска. Эти данные используются для персонализации выдачи, предложения рекомендаций и улучшения релевантности на основе контекста сессии пользователя.

Описание

Какую проблему решает

Патент решает задачу идентификации документов, которые семантически или тематически связаны друг с другом, используя методы коллаборативной фильтрации, основанные на поведении пользователей, а не только на анализе контента или ссылок. Цель — улучшить качество поиска путем выявления документов, которые пользователи часто просматривают вместе или последовательно во время поисковых сессий. Это позволяет системе предоставлять более релевантные результаты, рекомендации и связанные запросы, учитывая контекст и намерение пользователя в рамках сессии.

Что запатентовано

Запатентована система и метод для генерации набора связанных документов на основе исходного набора. Ядром изобретения является расчет Strength of Relationship Score (Оценки силы связи) между документами. Эта оценка базируется на агрегированных данных о том, как часто пользователи просматривают второй документ в течение определенного окна времени после того, как первый документ был им показан (presented) на странице результатов поиска. Система агрегирует эти индивидуальные оценки для выявления наиболее связанных документов.

Как это работает

Система работает в два основных этапа: сбор данных и применение модели.

  • Сбор данных (Офлайн): Система отслеживает поведение пользователей: какой документ (A) был показан в выдаче, и какой другой документ (B) пользователь просмотрел вскоре после этого. На основе этих данных рассчитывается условная вероятность P(B|A) — вероятность просмотра B при условии показа A.
  • Применение модели (Онлайн/Офлайн): Когда системе предоставляется исходный набор документов (например, история просмотров пользователя или топ выдачи по запросу), она использует предварительно рассчитанные вероятности для оценки кандидатов. Для каждого кандидата рассчитывается Aggregate Strength of Relationship Score путем суммирования индивидуальных оценок связи с каждым из исходных документов.
  • Нормализация: Агрегированная оценка может быть нормализована с учетом общей популярности документа-кандидата P(g), чтобы избежать смещения в сторону глобально популярных, но контекстуально нерелевантных ресурсов.

Актуальность для SEO

Высокая. Анализ поведения пользователей, коллаборативная фильтрация и учет контекста сессии являются фундаментальными компонентами современных поисковых и рекомендательных систем (таких как Google Search и Discover). Понимание взаимосвязей между документами на основе реальных пользовательских путей остается критически важной задачей для улучшения релевантности и персонализации.

Важность для SEO

Патент имеет высокое стратегическое значение для SEO (8/10). Он демонстрирует, что релевантность определяется не только соответствием контента запросу, но и тем, насколько хорошо документ вписывается в более широкий контекст пользовательской сессии и поискового пути. Это подчеркивает важность оптимизации под интент и задачу пользователя в целом (Task Completion), а не только под отдельные ключевые слова. Стратегии, направленные на создание контента, который удовлетворяет несколько связанных потребностей в рамках одной темы (Topical Authority), получают подтверждение своей эффективности.

Детальный разбор

Термины и определения

Aggregate Strength of Relationship Score (Агрегированная оценка силы связи)
Итоговая оценка для документа-кандидата, рассчитанная путем объединения (например, суммирования) индивидуальных Strength of Relationship Scores между этим кандидатом и каждым документом из исходного набора.
Candidate Documents / Second Documents (Документы-кандидаты / Вторые документы)
Документы, для которых оценивается степень связанности с исходным набором.
First Documents (Первые документы / Исходный набор)
Начальный набор документов, для которого система ищет связанные ресурсы. Это могут быть документы из истории пользователя, закладки или топ результатов поиска по запросу.
Model Database (База данных модели)
Хранилище агрегированных данных о поведении пользователей, содержащее предварительно рассчитанные Strength of Relationship Scores для пар документов.
Normalization / P(g) (Нормализация / Популярность документа)
Процесс корректировки агрегированной оценки с учетом общей популярности документа-кандидата (P(g)). Используется для понижения веса глобально популярных документов, которые не являются специфически связанными с исходным набором.
Session (Сессия)
Период времени, в течение которого пользователь взаимодействует с поисковой системой. Может определяться по времени, количеству запросов или тематической связности.
Strength of Relationship Score (Оценка силы связи)
Метрика, определяющая силу связи между двумя документами. Часто реализуется как условная вероятность P(g|i) — вероятность того, что пользователь просмотрит документ g, учитывая, что документ i был показан ему в результатах поиска.
User Selection Data (Данные о выборе пользователя)
Агрегированные данные о поведении пользователей, включающие показы (presentations) результатов поиска и последующие просмотры (views) документов.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод идентификации связанных документов.

  1. Система определяет Strength of Relationship Score между каждым документом-кандидатом и каждым исходным документом.
  2. Расчет основан на агрегации User Selection Data от множества пользователей.
  3. Данные показывают, просмотрел ли пользователь документ-кандидат в течение временного окна после того, как исходный документ был показан (presented) ему на SERP в ответ на запрос.
  4. Оценка силы связи определена как вероятность того, что кандидат будет просмотрен, при условии, что исходный документ был показан в выдаче.
  5. Система рассчитывает Aggregate Strength of Relationship Score для каждого кандидата.
  6. Система выбирает связанные документы на основе этих агрегированных оценок.

Claim 3 (Зависимый от 1): Уточняет вес взаимодействий.

Агрегация данных может включать масштабирование (увеличение веса) данных пользователя, если он просмотрел кандидата после того, как *выбрал* (clicked) исходный документ из SERP, а не просто увидел его.

Claim 6 (Зависимый от 1): Описывает применение для улучшения выдачи (Augmentation).

  1. Документы, релевантные запросу, идентифицируются как исходный набор.
  2. Система генерирует дополненный набор результатов (augmented set), включая в него один или несколько связанных документов, найденных методом из Claim 1.

Claim 8 (Зависимый от 1): Описывает применение для рекомендаций.

  1. Исходный набор выбирается из документов, которые пользователь просматривал в течение определенного периода времени.
  2. Найденные связанные документы представляются пользователю как предложенные (suggested documents).

Claim 10 (Зависимый от 1): Описывает использование предпочтений пользователя.

Система может получать данные о предпочтениях пользователя (например, рейтинги или время просмотра) для исходных документов и использовать их как веса (document weight) при расчете агрегированной оценки. Это позволяет усилить влияние более важных для пользователя документов.

Claim 13 (Зависимый от 1): Описывает применение для предложения запросов.

  1. Исходный набор выбирается на основе запросов, отправленных во время сессии.
  2. Система находит связанные документы.
  3. Система идентифицирует запросы, соответствующие этим связанным документам (используя данные, связывающие запросы и документы).
  4. Эти запросы представляются пользователю как предложенные (suggested queries).

Где и как применяется

Изобретение затрагивает несколько этапов поиска, связывая офлайн-анализ поведения с онлайн-персонализацией и ранжированием.

INDEXING – Индексирование и извлечение признаков
На этом этапе (или в рамках параллельных офлайн-процессов анализа логов) происходит построение Model Database. Система анализирует User Selection Data, вычисляет Strength of Relationship Scores (P(g|i)) между парами документов и сохраняет их.

QUNDERSTANDING – Понимание Запросов
Система анализирует контекст текущей сессии пользователя (просмотренные документы, предыдущие запросы), чтобы определить исходный набор документов для генерации связанных ресурсов (Claim 13).

RANKING / RERANKING – Ранжирование и Переранжирование
Механизм может применяться для модификации ранжирования:

  • Session-based Ranking (FIG. 9): Документы, релевантные текущему запросу, могут быть повышены в выдаче, если они также присутствуют в наборе связанных документов, сгенерированном на основе контекста текущей сессии.
  • Augmentation (Claim 6, FIG. 8): Система может использовать топ результатов стандартного ранжирования как исходный набор, найти связанные документы и подмешать их в выдачу.

METASEARCH – Метапоиск и Смешивание
Применяется для генерации блоков рекомендаций и связанных запросов (Claim 8, Claim 13). Система может предоставлять предложенные документы параллельно с основными результатами поиска.

Входные данные:

  • Исходный набор документов (First Documents).
  • Model Database (предварительно рассчитанные P(g|i)).
  • Опционально: данные о популярности документов P(g).
  • Опционально: веса для исходных документов (предпочтения пользователя).

Выходные данные:

  • Набор связанных документов (Second Documents) с их агрегированными оценками.
  • Опционально: набор связанных запросов.

На что влияет

  • Персонализация и Контекст: Алгоритм напрямую влияет на персонализацию выдачи и учет контекста сессии. Результаты для одного и того же запроса могут меняться в зависимости от предыдущих действий пользователя.
  • Рекомендательные системы: Является основой для систем рекомендаций контента (например, похожие статьи, предложенные документы в тулбаре, потенциально Google Discover).
  • Длиннохвостые запросы и сложные задачи: Влияет на запросы, являющиеся частью сложной информационной задачи, где пользователю требуется изучить несколько ресурсов для ее решения.

Когда применяется

Алгоритм применяется в нескольких сценариях:

  • Во время поисковой сессии: Когда пользователь активно ищет информацию, система может использовать контекст сессии для переранжирования текущих результатов или генерации предложений.
  • При генерации рекомендаций: Когда система предлагает контент на основе истории просмотров или закладок пользователя.
  • При обработке запроса (опционально): Для дополнения стандартной выдачи связанными документами, которые могли быть упущены основными алгоритмами ранжирования.

Пошаговый алгоритм

Процесс А: Построение Модели (Офлайн)

  1. Сбор данных: Отслеживание взаимодействий пользователей. Запись событий вида: Документ I был показан (presented) в SERP; позже, в рамках временного окна/сессии, пользователь просмотрел (viewed) Документ G.
  2. Агрегация: Подсчет частоты совместных просмотров для пар документов (I, G).
  3. Расчет индивидуальных оценок: Вычисление Strength of Relationship Score для каждой пары. Например, расчет условной вероятности P(G|I) = (Количество просмотров G после показа I) / (Общее количество показов I).
  4. Сохранение: Запись оценок в Model Database.

Процесс Б: Генерация Связанных Документов (Онлайн/Офлайн)

  1. Определение исходного набора: Выбор исходных документов (I1, I2, I3...) на основе контекста (история пользователя, текущая сессия, топ выдачи).
  2. Получение оценок для кандидатов: Для каждого потенциального кандидата (G) из корпуса документов извлечение индивидуальных оценок связи с исходными документами (P(G|I1), P(G|I2)...) из Model Database.
  3. Взвешивание (Опционально): Применение весов (Wi) к индивидуальным оценкам, если доступны данные о предпочтениях пользователя для исходных документов.
  4. Агрегация: Расчет Aggregate Strength of Relationship Score S(G). Например, путем суммирования: S(G)=∑iWi⋅P(G∣Ii)S(G) = \Sigma_i W_i \cdot P(G|I_i)S(G)=∑i​Wi​⋅P(G∣Ii​).
  5. Нормализация (Опционально): Корректировка агрегированной оценки с учетом общей популярности кандидата P(G). Например: S′(G)=S(G)/P(G)S'(G) = S(G) / P(G)S(G)=S(G)/P(G).
  6. Выбор: Сортировка кандидатов по итоговой оценке и выбор Топ-N результатов или результатов выше определенного порога.

Какие данные и как использует

Данные на входе

Патент сосредоточен исключительно на использовании поведенческих данных для определения связанности документов.

  • Поведенческие факторы: Это ключевые данные для алгоритма.
    • Показы (Presentations): Данные о том, какие документы были показаны пользователю в результатах поиска.
    • Просмотры (Views): Данные о том, какие документы пользователь фактически просмотрел (перешел по ссылке или загрузил).
    • Клики (Selections): Упоминаются как опциональный сигнал для повышения веса (Claim 3). Если пользователь кликнул на исходный документ перед просмотром кандидата, связь может считаться более сильной.
    • Время просмотра (Dwell Time): Упоминается как опциональный фильтр (Claim 2) или вес (Claim 10). Просмотры могут учитываться, только если время просмотра превышает порог.
    • Данные сессии: Временные метки показов и просмотров для определения того, произошли ли события в рамках одного временного окна или сессии.
  • Пользовательские факторы (Опционально):
    • Язык и Местоположение: Упоминается возможность масштабирования оценок на основе процента пользователей, связанных с определенным языком или локалью, которые просматривали документ-кандидат.

Контентные, ссылочные или технические факторы для расчета связанности в этом патенте не используются.

Какие метрики используются и как они считаются

  • Strength of Relationship Score (P(g|i)): Условная вероятность просмотра документа g при условии показа документа i. Рассчитывается на основе агрегированных данных о совместных просмотрах.
  • Aggregate Strength of Relationship Score (S(g)): Агрегированная оценка. Рассчитывается как сумма или взвешенная сумма индивидуальных оценок: S(g)=∑iwiP(g∣i)S(g) = \sum_{i} w_{i} P(g|i)S(g)=∑i​wi​P(g∣i).
  • Popularity (P(g)): Общая популярность документа-кандидата. Может рассчитываться как (Количество просмотров g) / (Общее количество просмотров всех документов).
  • Normalized Score: Нормализованная оценка. Один из предложенных вариантов расчета: S(g)=∑iwiP(g

    Выводы

    1. Связанность документов определяется поведением пользователей (Co-visitation): Патент описывает механизм коллаборативной фильтрации, где связь между документами устанавливается не на основе их контента или ссылок, а на основе того, как часто пользователи просматривают их последовательно в рамках одной сессии.
    2. Контекст сессии критичен: Система может использовать историю просмотров пользователя или контекст текущей сессии для генерации связанных документов. Это означает, что понимание пути пользователя (User Journey) и его намерений в рамках сессии имеет решающее значение.
    3. Механизм нормализации против глобальной популярности: Использование нормализации по общей популярности документа P(g) является важным защитным механизмом. Он предотвращает доминирование в рекомендациях глобально популярных сайтов (например, Wikipedia или крупных новостных порталов), если они не являются специфически релевантными контексту исходного набора документов.
    4. Гибкость в определении весов: Система может учитывать дополнительные сигналы для взвешивания связей, такие как клики (а не только показы) на исходный документ или время просмотра (Dwell Time). Это позволяет более точно определять значимость взаимодействий.
    5. Многоцелевое применение: Описанный механизм является фундаментальным и применяется для разных задач: улучшения ранжирования по конкретному запросу (Augmentation), персонализации на основе сессии (Session-based Ranking), генерации рекомендаций контента и предложения связанных запросов.

    Практика

    Best practices (это мы делаем)

    • Оптимизация под полный путь пользователя (User Journey): Проектируйте контент и структуру сайта так, чтобы они соответствовали логической последовательности задач пользователя. Если пользователи часто переходят от темы А к теме Б, убедитесь, что ваш сайт качественно покрывает обе темы и облегчает этот переход. Это увеличит вероятность того, что ваши страницы будут иметь высокие Strength of Relationship Scores между собой.
    • Развитие тематического авторитета (Topical Authority): Создание кластеров контента, которые полностью покрывают тему, увеличивает шансы на то, что пользователи будут проводить сессии, включающие несколько ваших страниц. Это укрепляет поведенческие сигналы связанности между вашими документами в модели Google.
    • Стимулирование вовлеченности и глубины просмотра: Используйте качественную внутреннюю перелинковку, блоки «Читайте также» и призывы к действию, чтобы мотивировать пользователей изучать связанный контент. Патент указывает, что клики и время просмотра могут использоваться как веса, поэтому глубокое взаимодействие усиливает сигналы для системы.
    • Анализ следующего шага: При создании контента думайте о том, какой следующий логический шаг предпримет пользователь. Предоставление ответа на этот следующий шаг увеличивает вероятность совместного просмотра (co-visitation) и укрепляет связь в модели.

    Worst practices (это делать не надо)

    • Создание тупиковых страниц (Dead-end pages): Страницы с тонким контентом, которые не предоставляют ценности и не ведут пользователя дальше по его пути решения задачи, не будут генерировать сильных сигналов связанности с другими документами.
    • Фокус на изолированных ключевых словах: Оптимизация страниц под отдельные высокочастотные запросы без учета их места в общей структуре пользовательских сессий становится менее эффективной. Система может предпочесть документы, которые лучше вписываются в контекст сессии.
    • Манипуляции с поведенческими факторами: Попытки искусственно накрутить совместные просмотры могут быть неэффективны из-за механизмов нормализации и агрегации данных по большому числу пользователей. Система ищет естественные паттерны поведения.

    Стратегическое значение

    Патент подтверждает стратегический приоритет Google на понимание и удовлетворение намерений пользователя в контексте всей его задачи (Task Completion), а не только отдельного запроса. Для SEO это означает необходимость смещения фокуса с анализа отдельных страниц на анализ пользовательских путей и сессий. Долгосрочная стратегия должна быть направлена на создание ресурсов, которые становятся предпочтительным источником для решения целого класса задач, что естественным образом приводит к сильным поведенческим сигналам связанности, описанным в патенте.

    Практические примеры

    Сценарий: Оптимизация контент-кластера для сложной покупки (например, выбор ноутбука)

    1. Анализ пути пользователя: Определяем типичные этапы: "лучшие ноутбуки 2025" (Обзор) -> "сравнение MacBook Air и Dell XPS" (Сравнение) -> "Dell XPS отзывы" (Углубление) -> "где купить Dell XPS дешево" (Транзакция).
    2. Создание контента: Создаем качественные страницы для каждого этапа.
    3. Оптимизация связей: Обеспечиваем логичные переходы между страницами. Со страницы Обзора даем ссылки на Сравнения, со Сравнений на Углубленные отзывы.
    4. Ожидаемый результат (по патенту): Пользователи, изучающие тему, часто будут просматривать эти страницы последовательно. В Model Database Google эти страницы получат высокие Strength of Relationship Scores между собой. Когда пользователь введет запрос "сравнение MacBook Air и Dell XPS", система, учитывая контекст сессии (если он ранее искал обзоры), может повысить в ранжировании именно те страницы сравнения, которые часто ведут к успешному завершению задачи (например, к отзывам или покупке).

    Вопросы и ответы

    Как система рассчитывает «Силу связи» (Strength of Relationship Score) между двумя документами?

    Оценка рассчитывается на основе агрегированных данных о поведении пользователей. Конкретно, она определяется как вероятность того, что пользователь просмотрит Документ B в течение определенного времени после того, как Документ А был показан ему в результатах поиска. Это условная вероятность P(B|A), основанная на частоте совместных просмотров (co-visitation) в логах поиска.

    Основан ли этот алгоритм на анализе контента или ссылок?

    Нет. Этот патент описывает метод коллаборативной фильтрации, который полагается исключительно на поведенческие данные (показы и просмотры). Он не анализирует текст документов и не учитывает ссылки между ними для определения связанности. Связь устанавливается, если пользователи часто просматривают эти документы вместе.

    Что такое нормализация по популярности P(g) и зачем она нужна?

    Нормализация — это корректировка оценки связанности с учетом общей популярности документа-кандидата (P(g)). Она нужна, чтобы избежать смещения в сторону глобально популярных ресурсов (например, главной страницы Wikipedia), которые часто просматриваются пользователями независимо от контекста. Нормализация помогает выделить документы, которые специфически связаны с исходным набором, а не просто популярны сами по себе.

    Имеет ли значение, кликнул ли пользователь на первый документ или просто увидел его в выдаче?

    Да. Основной механизм (Claim 1) учитывает показ (presentation) исходного документа. Однако патент (Claim 3) также описывает возможность придавать больший вес (scaling factor) тем связям, где пользователь не просто увидел, а кликнул (selected) на исходный документ перед просмотром второго. Это позволяет считать связь более надежной.

    Как этот патент связан с концепцией Тематического Авторитета (Topical Authority)?

    Патент предоставляет поведенческое обоснование для Topical Authority. Если сайт качественно покрывает тему, пользователи с большей вероятностью будут изучать несколько его страниц в рамках одной сессии для решения своей задачи. Это приводит к формированию сильных связей (высоких Strength of Relationship Scores) между страницами этого сайта в модели Google, что система интерпретирует как признак авторитетности и полезности ресурса в данной теме.

    Может ли этот механизм использоваться для персонализации выдачи?

    Да, это одно из ключевых применений. Система может использовать историю просмотров пользователя или его действия в текущей сессии в качестве исходного набора документов (Claim 8). Затем она находит связанные документы и использует их для переранжирования текущей выдачи (Session-based Ranking) или для генерации персонализированных рекомендаций.

    Как SEO-специалист может оптимизировать сайт с учетом этого патента?

    Ключевая стратегия — оптимизация под полный путь пользователя (User Journey) и обеспечение завершения задачи (Task Completion). Необходимо создавать контент, который логически связан и облегчает пользователю переход от одного этапа решения задачи к другому. Качественная внутренняя перелинковка и структура сайта, соответствующие реальным потребностям пользователей, будут способствовать формированию сильных поведенческих сигналов связанности.

    Что такое «Дополненный набор документов» (Augmented Set of Documents)?

    Это результат применения механизма для улучшения стандартной выдачи (Claim 6). Система берет исходные результаты поиска по запросу, находит документы, которые тесно связаны с этими результатами (на основе поведения пользователей), и подмешивает эти связанные документы в финальную выдачу. Это позволяет улучшить релевантность и полноту SERP.

    Влияет ли время просмотра (Dwell Time) на работу этого алгоритма?

    Да, патент упоминает это как опциональный фактор. Система может учитывать просмотры, только если они длились дольше определенного порога (Claim 2). Также время просмотра исходных документов может использоваться как вес при расчете агрегированной оценки (Claim 10), позволяя более важным (дольше изучаемым) документам сильнее влиять на результат.

    Может ли этот механизм предлагать связанные запросы?

    Да (Claim 13). Система сначала находит документы, связанные с текущей сессией пользователя, а затем определяет, какие запросы чаще всего приводят к этим связанным документам. Эти запросы предлагаются пользователю как рекомендации для дальнейшего поиска, помогая ему глубже изучить тему.

    Похожие патенты

    Как Google использует совместное посещение сайтов в рамках одной сессии (Co-visitation) для классификации ресурсов по темам
    Google анализирует, какие ресурсы пользователи посещают в рамках одной сессии (поисковой или браузерной). Если пользователь посещает известный ресурс по теме А, а затем в той же сессии посещает новый ресурс Б (даже в ответ на другой запрос), система предполагает, что ресурс Б также связан с темой А. Этот механизм позволяет автоматически классифицировать контент на основе реального поведения пользователей.
    • US20140108376A1
    • 2014-04-17
    • Семантика и интент

    • Поведенческие сигналы

    Как Google использует данные о совместном посещении сайтов (Co-Visitation) для персонализации и повышения релевантности выдачи
    Google использует поведенческие данные сообщества пользователей для определения тематической связи между сайтами. Если пользователи часто посещают Сайт А и Сайт Б в течение короткого промежутка времени (Co-Visitation), система создает "Вектор повышения" (Boost Vector). Этот вектор используется для повышения в выдаче тематически связанных сайтов, основываясь на истории посещений пользователя или контексте текущего сайта, улучшая персонализацию и релевантность.
    • US8874570B1
    • 2014-10-28
    • Поведенческие сигналы

    • Персонализация

    • SERP

    Как Google использует поведенческие сигналы и совместные просмотры для генерации рекомендаций контента (например, "Похожие видео" на YouTube)
    Google использует механизм коллаборативной фильтрации для определения связанности контента, анализируя логи взаимодействия пользователей. Система определяет, какой контент пользователи потребляют совместно в рамках одной сессии ("locality of time"). Учитываются только "позитивные взаимодействия" (например, длительный просмотр, высокая оценка). Это позволяет формировать рекомендации на основе реального поведения аудитории, а не только метаданных.
    • US8055655B1
    • 2011-11-08
    • Поведенческие сигналы

    • Персонализация

    Как Google определяет связанность документов с использованием Co-citation, анализа текста вокруг ссылок и паттернов пользовательского доступа
    Google использует методы для ограничения результатов поиска на основе заданного контекста (например, набора URL-адресов или категории). Патент детализирует, как система определяет «связанность» между документами, используя такие методы, как анализ совместного цитирования (co-citation), анализ текста, окружающего ссылки в цитирующих документах, и анализ корреляции паттернов доступа пользователей.
    • US7305380B1
    • 2007-12-04
    • Ссылки

    • SERP

    • Поведенческие сигналы

    Как Google ранжирует персональные документы (письма, файлы), используя обобщенные данные о взаимодействии на уровне признаков
    Google решает проблему ранжирования личных документов (например, электронных писем), для которых нет истории кликов. Вместо анализа кликов по конкретному документу система анализирует взаимодействие на уровне признаков. Она агрегирует данные о том, как миллионы пользователей взаимодействуют с документами, имеющими схожие признаки (например, структуру темы письма или отправителя), и использует эти данные для ранжирования похожих документов в вашем личном поиске.
    • US10394832B2
    • 2019-08-27
    • Поведенческие сигналы

    • Персонализация

    Популярные патенты

    Как Google использует структурированные данные (Schema) для отслеживания вовлеченности пользователей на уровне сущностей, а не только URL
    Google может отслеживать поведение пользователей (например, время пребывания на странице и клики) и связывать его с конкретными сущностями (продуктами, людьми, темами), идентифицированными через структурированные данные, а не только с URL-адресом. Это позволяет агрегировать метрики вовлеченности для определенной темы на разных страницах и сравнивать эффективность сайтов.
    • US20140280133A1
    • 2014-09-18
    • Семантика и интент

    • Поведенческие сигналы

    • Knowledge Graph

    Как Google использует всплески поискового интереса и анализ новостей для обновления Графа Знаний в реальном времени
    Google отслеживает аномальный рост запросов о сущностях (людях, компаниях) как индикатор реального события. Система анализирует свежие документы, опубликованные в этот период, извлекая факты в формате Субъект-Глагол-Объект (SVO). Эти факты используются для оперативного обновления Графа Знаний или добавления блока «Недавно» в поисковую выдачу.
    • US9235653B2
    • 2016-01-12
    • Knowledge Graph

    • Свежесть контента

    • Семантика и интент

    Как Google использует историю навигации и клики по рекламе для генерации ключевых слов, гео-таргетинга и выявления MFA-сайтов
    Патент Google, описывающий три механизма, основанных на анализе поведения пользователей (selection data). Система использует путь навигации пользователя для генерации новых ключевых слов для рекламы, улучшает гео-таргетинг объявлений на основе предпочтений пользователей, а также выявляет низкокачественные сайты (MFA/манипулятивные) по аномально высокому CTR рекламных блоков.
    • US8005716B1
    • 2011-08-23
    • Поведенческие сигналы

    • Семантика и интент

    • Антиспам

    Как Google использует личные данные пользователя (User Model) для понимания его намерений и персонализации выдачи
    Google создает персональную модель пользователя (User Model) на основе его личного контента (письма, контакты, документы). Эта модель используется для определения неявного намерения пользователя (личный поиск или общий) и для аннотирования запроса контекстом из личных данных, чтобы предоставить точные персонализированные результаты.
    • US20150012558A1
    • 2015-01-08
    • Персонализация

    • Семантика и интент

    • Поведенческие сигналы

    Как Google ранжирует и рекомендует источники контента (каналы, профили) на основе внутренних ссылок, аннотаций и кликов по ним
    Google использует механизм для ранжирования и рекомендации источников контента (например, YouTube-каналов или профилей) внутри платформ. Система анализирует, как часто источник упоминается в аннотациях, описаниях и комментариях к контенту, который просматривал пользователь. Ключевым фактором ранжирования является не только количество упоминаний, но и общее число кликов (активаций) по этим ссылкам.
    • US9235625B2
    • 2016-01-12
    • Ссылки

    • Поведенческие сигналы

    • Мультимедиа

    Как Google вычисляет важность сущностей внутри документа, используя контекст, ссылки и поведение пользователей, для улучшения ранжирования
    Google использует систему для определения относительной важности сущностей (люди, места, даты) внутри документа (книги или веб-страницы) независимо от поискового запроса. Важность рассчитывается на основе того, где сущность упомянута (контекст, структура), насколько точно она определена, ссылаются ли на этот раздел внешние источники и как часто его просматривают пользователи. Эти оценки важности сущностей затем используются как сигнал для ранжирования самого документа в результатах поиска.
    • US7783644B1
    • 2010-08-24
    • Поведенческие сигналы

    • Индексация

    • Семантика и интент

    Как Google использует данные веб-поиска и клики пользователей для классификации бизнесов и построения иерархии категорий
    Google анализирует логи веб-поиска (введенные ключевые слова и последующие клики по результатам), чтобы понять, как пользователи интуитивно классифицируют бизнесы. Эти данные используются для автоматического построения динамической иерархической структуры категорий. Эта структура затем применяется для улучшения точности поиска, в частности, для оптимизации моделей распознавания речи в голосовых системах.
    • US7840407B2
    • 2010-11-23
    • Поведенческие сигналы

    • Семантика и интент

    • Структура сайта

    Как Google вычисляет тематический авторитет автора (Author Rank) на основе его вклада в контент
    Google патентует систему для количественной оценки экспертности авторов по конкретным темам. Система анализирует документы, определяет их тематику (Topic) и вес этой тематики (Weight), а затем учитывает долю вклада (Authorship Percentage) каждого автора в раскрытие этой темы. На основе этих данных формируется кумулятивный «Сигнал Авторитета» (Authority Signature) автора, позволяющий идентифицировать экспертов в различных областях.
    • US8458196B1
    • 2013-06-04
    • EEAT и качество

    • Семантика и интент

    Как Google в Автоподсказках (Suggest) предлагает искать запрос в разных вертикалях поиска (Картинки, Новости, Карты)
    Патент описывает механизм "разветвления" (forking) автоподсказок Google Suggest. Система анализирует введенные символы и определяет, в каких вертикалях поиска (Корпусах) — таких как Картинки, Новости или Карты — пользователи чаще всего ищут предложенный запрос. Если корреляция с конкретной вертикалью высока (на основе Corpus Score), система предлагает пользователю искать сразу в ней, наряду со стандартным универсальным поиском.
    • US9317605B1
    • 2016-04-19
    • Семантика и интент

    • SERP

    • Поведенческие сигналы

    Как Google использует персональное дерево интересов пользователя для определения важности слов в запросе и его переписывания
    Google использует иерархический профиль интересов пользователя (Profile Tree), построенный на основе истории поиска и поведения, чтобы определить, какие слова в запросе наиболее важны для конкретного человека. Специфичные интересы (глубокие узлы в дереве) получают больший вес. Это позволяет системе отфильтровать шум в длинных запросах и сгенерировать более точный альтернативный запрос.
    • US8326861B1
    • 2012-12-04
    • Персонализация

    • Семантика и интент

    • Поведенческие сигналы

    seohardcore