SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google использует совместное посещение сайтов в рамках одной сессии (Co-visitation) для классификации ресурсов по темам

ENHANCED DETECTION OF LIKE RESOURCES (Улучшенное обнаружение похожих ресурсов)
  • US20140108376A1
  • Google LLC
  • 2008-11-26
  • 2014-04-17
  • Семантика и интент
  • Поведенческие сигналы
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Google анализирует, какие ресурсы пользователи посещают в рамках одной сессии (поисковой или браузерной). Если пользователь посещает известный ресурс по теме А, а затем в той же сессии посещает новый ресурс Б (даже в ответ на другой запрос), система предполагает, что ресурс Б также связан с темой А. Этот механизм позволяет автоматически классифицировать контент на основе реального поведения пользователей.

Описание

Какую проблему решает

Патент решает проблему масштабируемой и автоматизированной классификации веб-ресурсов (сайтов, страниц, медиафайлов) по тематическим категориям. Ручная категоризация трудоемка. Изобретение предлагает метод автоматического определения тематики ресурса на основе анализа поведения пользователей (совместное посещение или co-visitation), что позволяет группировать похожие ресурсы, например, для целей фильтрации контента (упоминается фильтрация "adult-oriented" контента).

Что запатентовано

Запатентована система, которая использует данные пользовательских сессий (User Sessions) для выявления тематических связей между ресурсами. Система использует существующий набор «Известных ресурсов» (Known Resources), уже связанных с темой, для обнаружения новых «Ресурсов-кандидатов» (Candidate Resources). Если пользователи часто взаимодействуют с известным и новым ресурсом в рамках одной сессии, система усиливает тематическую связь нового ресурса с этой темой, даже если ресурсы были найдены по разным запросам.

Как это работает

Система анализирует логи поисковых сессий и данные браузерных тулбаров (Toolbar Sessions).

  1. Инициализация: Система начинает с набора Known Resources для определенной темы (например, "Спорт").
  2. Мониторинг сессий: Собираются данные о запросах и кликах/просмотрах, сгруппированные в сессии.
  3. Идентификация триггера: Если в сессии обнаруживается доступ к Known Resource, сессия ассоциируется с его темой.
  4. Выбор кандидатов: Другие ресурсы, к которым был получен доступ в той же сессии (даже в ответ на другие запросы), помечаются как Candidate Resources.
  5. Оценка релевантности: Для кандидата увеличивается Оценка релевантности (Relevance Score) к этой теме.
  6. Классификация: Когда Relevance Score превышает порог (за счет агрегации данных многих сессий), кандидат классифицируется по данной теме.

Актуальность для SEO

Высокая. Хотя патент подан в 2008 году и упоминает устаревшие технологии сбора данных (например, тулбары), анализ поведения пользователей в рамках сессий для понимания контекста и тематических связей остается фундаментальным компонентом современных поисковых систем. Концепция использования совместного посещения (co-visitation) для тематической классификации и кластеризации ресурсов актуальна.

Важность для SEO

Патент имеет значительное влияние на SEO (7.5/10). Он не описывает алгоритм ранжирования напрямую, но критически важен для понимания того, как Google автоматически классифицирует тематику сайта (Topical Authority). Патент показывает, что "поведенческое соседство" (сайты, которые ваши пользователи посещают в рамках той же сессии) влияет на восприятие вашего ресурса системой. Правильная классификация влияет на применение алгоритмов качества (например, YMYL) и фильтров (например, SafeSearch).

Детальный разбор

Термины и определения

Candidate Resources (Ресурсы-кандидаты)
Ресурсы, которые были обнаружены в пользовательских сессиях рядом с известными ресурсами и потенциально относятся к той же теме, но еще не классифицированы.
External Classifier (Внешний классификатор)
Вспомогательные системы классификации, используемые в одном из вариантов алгоритма для начальной оценки кандидатов. Могут анализировать текст, изображения, ссылки, HTML-теги, шрифты, цвета, заголовки и URL.
Known Resources (Известные ресурсы)
Набор ресурсов (seed set), которые уже идентифицированы (вручную или автоматически) как принадлежащие к определенной теме. Используются как эталон для поиска новых ресурсов.
Prediction Score (Оценка прогнозирования)
Метрика в итеративном методе. Присваивается Known Resource и рассчитывается как среднее значение Relevance Scores связанных с ним кандидатов. Показывает, насколько хорошо данный ресурс "прогнозирует" тему своих соседей по сессии.
Average Prediction Score (Средняя оценка прогнозирования)
Финальная метрика для Candidate Resource в итеративном методе. Рассчитывается как среднее значение Prediction Scores всех известных ресурсов, с которыми он встречался в сессиях.
Relevance Score / Topic Relevance Score (Оценка релевантности)
Метрика, указывающая степень релевантности ресурса определенной теме. Может увеличиваться при каждом совместном появлении в сессии или рассчитываться внешними классификаторами.
Search Session (Поисковая сессия)
Тип пользовательской сессии, включающий данные о запросах, полученных результатах и взаимодействии с ними.
Toolbar Session (Тулбар-сессия)
Тип пользовательской сессии, данные для которой собираются через плагин (тулбар) в браузере. Включает историю посещенных ресурсов, даже если они были открыты не через поиск.
User Session (Пользовательская сессия)
Группа данных о взаимодействии пользователя с ресурсами, сгруппированная по времени (например, 5 минут) или по активности (пока пользователь не прекратит активность на определенное время).

Ключевые утверждения (Анализ Claims)

Анализ основан на Claim 1, который является независимым и описывает конкретную реализацию метода классификации на основе поведения в рамках сессии с использованием разных запросов.

Claim 1 (Независимый пункт): Описывает метод использования совместных кликов в рамках одной сессии, но по разным запросам, для классификации ресурсов.

  1. Система идентифицирует выбор (клик) первого результата поиска (Первый ресурс) в нескольких сессиях. Этот результат был получен в ответ на Первый запрос (Q1).
  2. Определяется, что Первый ресурс уже ассоциирован с определенной Темой (Topic).
  3. На основании этого, сами сессии также ассоциируются с этой Темой.
  4. В рамках этих же сессий система определяет, что пользователь также выбирал (кликал) Вторые результаты поиска (Вторые ресурсы).
  5. Система увеличивает Topic Relevance Score для этих Вторых ресурсов.
  6. Ключевое условие: Второй результат был получен в ответ на Второй запрос (Q2), который отличается от Первого запроса (Q1).
  7. Идентифицируются Вторые ресурсы, чей Topic Relevance Score превышает пороговое значение, и они ассоциируются с Темой.

Ядро изобретения (согласно Claim 1) — это выявление тематической связи через поведение пользователя, решающего задачу с помощью нескольких разных запросов. Если пользователь кликает на авторитетный сайт по Теме А из Запроса 1, а затем в той же сессии кликает на Сайт Б из Запроса 2, это является сильным сигналом, что Сайт Б также относится к Теме А, даже если Запросы 1 и 2 текстово различаются. Это механизм связи на уровне задачи пользователя.

Где и как применяется

Изобретение в основном применяется в офлайн-процессах обработки данных для улучшения классификации контента.

CRAWLING – Сканирование и Сбор данных (Data Acquisition)
Система требует сбора и хранения больших объемов данных о поведении пользователей (Logs), включая поисковые логи и данные с браузерных тулбаров. Эти данные структурируются в User Sessions.

INDEXING – Индексирование и извлечение признаков
Основной этап применения. Session Processing Module анализирует собранные логи для выявления связей между ресурсами. Результатом является присвоение ресурсам тематической классификации (ассоциации с Topic) и расчет метрик (Relevance Score). Эти данные сохраняются и прикрепляются к документам в индексе как признаки (features).

QUNDERSTANDING – Понимание Запросов
Патент также описывает вычисление весов тем (Topic Weights) для терминов запроса. Если запрос постоянно приводит к результатам из набора Known Resources, термины этого запроса ассоциируются с темой.

RANKING / RERANKING (Косвенно)
Результаты классификации могут использоваться на этапах ранжирования как сигнал релевантности или на этапе переранжирования для фильтрации выдачи (например, SafeSearch).

Входные данные:

  • Логи пользовательских сессий (запросы, результаты, клики, таймстемпы).
  • Начальный набор Known Resources (Seed Set) для разных тем.
  • (Опционально) Выходные данные External Classifiers.

Выходные данные:

  • Расширенный набор Known Resources.
  • Relevance Scores для ресурсов по отношению к темам.
  • Тематическая классификация ресурсов.

На что влияет

  • Тематическая классификация сайтов: Основное влияние — это способность системы автоматически определять и кластеризировать сайты по темам на основе поведения пользователей.
  • Конкретные ниши или тематики: Особенно полезно для идентификации и фильтрации чувствительных тематик. В патенте прямо упоминается использование метода для идентификации "adult-oriented" контента и общих тем, например, "Спорт". Также важно для определения авторитетности в YMYL-тематиках.
  • Новые сайты: Позволяет быстро определить тематику нового сайта, наблюдая за тем, как он интегрируется в сессии пользователей, посещающих уже известные сайты.

Когда применяется

  • При каких условиях работает алгоритм: Алгоритм работает в офлайн-режиме (batch processing) при анализе накопленных логов.
  • Триггеры активации (для анализа сессии): Активируется, когда в рамках одной пользовательской сессии происходит доступ к Known Resource. Это делает всю сессию релевантной для анализа по этой теме.
  • Условия для повышения оценки (Claim 1): Ресурс-кандидат был выбран в той же сессии, что и Known Resource, и был найден по запросу, отличающемуся от запроса, по которому был найден Known Resource.

Пошаговый алгоритм

Патент описывает два основных варианта алгоритма: простой (на основе подсчета совместной встречаемости) и сложный итеративный (с использованием классификаторов).

Вариант А: Простой метод (на основе совместной встречаемости, Claim 1)

  1. Сбор и обработка логов: Обработка данных из Logs и разделение их на User Sessions.
  2. Обнаружение известного ресурса: Определение, был ли в рамках сессии получен доступ к ресурсу из набора Known Resources для Темы X.
  3. Выбор кандидатов: Если да, то другие ресурсы, к которым был доступ в этой сессии, добавляются в список Candidate Resources для Темы X. (В Claim 1 добавляется условие, что ресурсы должны быть найдены по разным запросам).
  4. Увеличение оценки: Для каждого добавленного кандидата увеличивается его Relevance Score к Теме X на предопределенную величину (например, +0.1).
  5. Агрегация и Проверка порога: Оценки агрегируются по всем сессиям. Проверяется, превышает ли Relevance Score кандидата установленный порог.
  6. Классификация: Если порог превышен, ресурс переносится в Known Resources для Темы X.

Вариант Б: Итеративный метод (Label Propagation)

Этот метод комбинирует поведенческие связи и анализ контента.

  1. Идентификация связей: Определение пар (Known Resource K, Candidate Resource C), которые совместно встречались в сессиях.
  2. Начальная оценка кандидатов: Для каждого Candidate Resource C генерируется начальный Relevance Score (RS) с помощью External Classifiers (анализ текста, изображений и т.д.).
  3. Расчет Prediction Score (для K): Для каждого Known Resource K рассчитывается Prediction Score (PS). Это среднее значение RS всех кандидатов C, которые встречались вместе с K. PS(K)=Average(RS(Ci))PS(K) = Average(RS(C_i)).
  4. Расчет Average Prediction Score (для C): Для каждого Candidate Resource C рассчитывается Average Prediction Score (APS). Это среднее значение PS всех известных ресурсов K, которые встречались вместе с C. APS(C)=Average(PS(Kj))APS(C) = Average(PS(K_j)).
  5. Проверка порога и Классификация: Если APS кандидата C удовлетворяет пороговому значению (например, 0.6), он ассоциируется с темой.

Какие данные и как использует

Данные на входе

Система в первую очередь полагается на поведенческие данные.

  • Поведенческие факторы:
    • Логи сессий (User Sessions): Ключевые данные. Включают последовательность действий пользователя.
    • Запросы (Queries): Тексты запросов, введенных пользователем в рамках сессии.
    • Клики/Доступ (Accessed/Selected): Данные о том, какие ресурсы были выбраны из результатов поиска или просмотрены (через тулбар).
    • Временные метки: Используются для определения границ сессии.
  • Системные данные:
    • Known Resources (Seed Sets): Предварительно классифицированные наборы ресурсов по темам.
  • Контентные/Структурные/Мультимедиа факторы: В итеративном методе (Вариант Б) используются External Classifiers, которые анализируют контент кандидатов: текст, изображения, ссылки, HTML-теги, шрифты, цвета, заголовки, URL.

Какие метрики используются и как они считаются

  • Relevance Score: Оценка релевантности ресурса теме. В простом методе увеличивается инкрементально при совместной встречаемости. В сложном методе генерируется External Classifiers.
  • Prediction Score: Метрика для Known Resource (см. формулу в Алгоритме Б).
  • Average Prediction Score: Финальная метрика для Candidate Resource (см. формулу в Алгоритме Б).
  • Topic Weight (для терминов запроса): Метрика, показывающая, насколько часто определенный термин запроса приводит к результатам из Known Resources.
  • Пороговые значения (Thresholds): Используются для принятия решения о переводе кандидата в статус известного ресурса.

Выводы

  1. Автоматическая классификация через поведение (Co-visitation): Google активно использует поведенческие сигналы (совместные клики и просмотры) для автоматической классификации тематики сайтов. Это позволяет системе понять, о чем сайт, даже если контентные сигналы неоднозначны.
  2. Сессия как тематический контекст: User Session является ключевой единицей анализа. Присутствие в сессии Known Resource задает тематический контекст для всех остальных взаимодействий в этой сессии.
  3. Значимость кросс-запросного поведения (Claim 1): Особенно сильным сигналом является ситуация, когда пользователь взаимодействует с ресурсами по разным запросам в рамках одной сессии. Это связывает ресурсы на уровне задачи пользователя, а не только на уровне ключевых слов.
  4. Итеративные методы и Label Propagation: Патент описывает сложный механизм (Вариант Б), который использует комбинацию внешних классификаторов (анализ контента) и анализа связей (поведение) для повышения точности, что напоминает алгоритмы распространения меток (Label Propagation).
  5. Аудитория определяет тематику: Тематика сайта определяется не только его контентом, но и тем, кто его посещает и какие другие авторитетные сайты эти пользователи посещают в рамках той же сессии.

Практика

Best practices (это мы делаем)

  • Построение Topical Authority и охват семантики: Создавайте контент, который полностью покрывает тему и отвечает на смежные вопросы пользователя в рамках его задачи. Это увеличивает вероятность того, что ваш сайт станет частью тематических сессий, где присутствуют другие авторитетные Known Resources.
  • Фокус на привлечении и удержании целевой аудитории: Привлекайте пользователей, которые активно интересуются вашей темой и также посещают эталонные сайты в этой нише. Это формирует правильные поведенческие паттерны (co-visitation), которые свяжут ваш сайт с нужной темой.
  • Оптимизация под задачи пользователя (Task Completion): Фокусируйтесь на том, чтобы помочь пользователю решить его задачу целиком. Понимание пути пользователя (User Journey) помогает вписать сайт в тематические сессии и укрепляет его классификацию.
  • Поддержание четкого тематического фокуса: Убедитесь, что контент и структура сайта четко соответствуют заявленной тематике. Это поможет как External Classifiers (в Варианте Б), так и поведенческим алгоритмам правильно классифицировать сайт.

Worst practices (это делать не надо)

  • Смешивание несвязанных тем: Создание сайта, охватывающего много разных тем, может привести к размытию классификации. Если ресурс является кандидатом для нескольких разных тем, он может быть исключен из всех (как указано в патенте для разрешения конфликтов).
  • Привлечение нецелевого трафика и Кликбейт: Привлечение пользователей, не заинтересованных в вашей основной теме, создает шумные поведенческие паттерны. Это может "размывать" тематический профиль сайта в данных User Sessions и затруднять классификацию.
  • Игнорирование "плохого соседства" в UGC: Размещение пользовательского контента (UGC), который радикально отличается от основной темы сайта, может привести к нежелательной классификации всего сайта, так как External Classifiers могут сработать на UGC, а поведенческие сигналы распространят эту классификацию.

Стратегическое значение

Патент подтверждает, что Google интерпретирует тематику и назначение сайта не только через контент и ссылки, но и через то, как реальные пользователи его используют в контексте своих сессий. Стратегически важно сместить фокус с оптимизации под ключевые слова на оптимизацию под тематические сессии и задачи пользователя (User Journey). Построение авторитетного ресурса, который естественно вписывается в поисковый путь пользователя наряду с другими качественными сайтами по теме, является ключом к правильной тематической классификации.

Практические примеры

Сценарий: Классификация нового блога о походах (Hiking)

  1. Исходные данные: Google знает, что сайт REI.com является Known Resource по теме "Hiking/Outdoors". Новый сайт NewHiker.com является Candidate Resource.
  2. Пользовательская сессия:
    • Пользователь ищет "лучшие треккинговые ботинки" (Q1).
    • Кликает на REI.com (R1). Сессия маркируется как "Hiking".
    • Возвращается в поиск и ищет "маршруты походов в Йосемити" (Q2, отличается от Q1).
    • Кликает на NewHiker.com (R2).
  3. Действие системы: Session Processing Module фиксирует совместный выбор R1 и R2 в рамках сессии "Hiking" по разным запросам (условие Claim 1 выполнено).
  4. Результат: Topic Relevance Score для NewHiker.com по теме "Hiking" увеличивается. После накопления достаточного количества таких сессий, NewHiker.com будет классифицирован как ресурс по теме "Hiking".

Вопросы и ответы

Влияет ли описанный механизм напрямую на ранжирование?

Патент описывает механизм классификации, а не ранжирования. Однако точная тематическая классификация является критически важным входным сигналом для систем ранжирования. Если ваш сайт не классифицирован как релевантный определенной теме, ему будет сложно ранжироваться по запросам в этой теме. Также классификация используется для фильтрации (например, SafeSearch) и применения специфических алгоритмов качества (например, для YMYL).

Что такое "Known Resource" и как им стать?

Known Resource — это ресурс, который система уже уверенно классифицировала по определенной теме. Он служит эталоном (seed set). Чтобы стать таким эталоном, необходимо долгосрочно работать над созданием качественного контента, полностью раскрывать тему (Topical Authority) и привлекать целевую аудиторию, формируя устойчивые положительные сигналы ранжирования и поведения.

Как Google определяет границы пользовательской сессии (User Session)?

Патент предлагает несколько методов. Сессия может быть определена как последовательность запросов, которая прекращается после периода бездействия (например, 5-10 минут). Также сессия может быть ограничена фиксированным временным интервалом (например, данные за 5 минут или за день) или определяться входом и выходом пользователя из системы.

В Claim 1 указано, что запросы должны быть разными (Q1 ≠ Q2). Это обязательно?

Claim 1 защищает именно этот конкретный механизм — связь через последовательные, но разные запросы. Это считается сильным сигналом тематической связи на уровне задачи пользователя. Однако в общем описании патента (Description) рассматриваются и другие сценарии, например, когда ресурсы появляются в одной выдаче или просто посещаются в рамках одного временного окна (Toolbar Session).

Что произойдет, если мой сайт посещают в сессиях, связанных с разными темами?

Патент предусматривает механизмы разрешения конфликтов. Если ресурс является кандидатом для нескольких несвязанных тем (например, "Бейсбол" и "Атланта"), он может быть исключен из всех, если система не может однозначно определить основную тему. Для SEO это подчеркивает важность четкого тематического позиционирования.

Использует ли этот алгоритм анализ контента на странице?

Основной механизм (Claim 1) базируется на поведении пользователей. Однако в альтернативном варианте (Вариант Б) патент описывает использование External Classifiers (анализ текста, изображений, ссылок) для получения начальных оценок релевантности, которые затем уточняются через анализ сессий. Таким образом, контент используется для валидации.

Что означает, если мой сайт часто посещают вместе с авторитетными сайтами по моей теме?

Это очень позитивный сигнал (co-visitation). Согласно патенту, это приводит к увеличению Topic Relevance Score вашего сайта для данной темы. Если ваш сайт регулярно появляется в сессиях, где присутствуют авторитетные Known Resources, система классифицирует ваш сайт как тематически релевантный.

Что такое «Toolbar Session» и актуально ли это сейчас?

Toolbar Session — это сессия, данные для которой собирались через плагин (например, Google Toolbar). Хотя тулбары сейчас менее популярны, Google имеет другие источники аналогичных данных, такие как браузер Chrome, данные Android и данные аккаунтов Google, которые могут использоваться для формирования подобных сессий и понимания поведения пользователей вне поисковой выдачи.

Как SEO-специалист может повлиять на этот механизм?

Опосредованно. Вы можете повлиять на него, создавая контент, который естественным образом вписывается в поисковый путь целевой аудитории. Это означает полное покрытие темы, ответ на смежные вопросы и обеспечение высокого уровня удовлетворенности пользователя, чтобы он продолжал свою тематическую сессию, включая ваш сайт.

Как работает итеративный метод классификации (Вариант Б)?

Это метод повышения точности (Label Propagation). Сначала внешние классификаторы (текст, картинки) дают начальную оценку кандидатам. Затем эти оценки усредняются и присваиваются известным ресурсам (Prediction Score), показывая качество их окружения. Наконец, эти оценки известных ресурсов усредняются и присваиваются обратно кандидатам (Average Prediction Score). Это позволяет учесть не только контент, но и качество связей в поведенческом графе.

Похожие патенты

Как Google использует паттерны просмотра пользователей (co-visitation) для определения связанности документов и улучшения поиска
Google использует систему для определения того, насколько тесно связаны два документа, основываясь на агрегированных данных о поведении пользователей. Система рассчитывает вероятность того, что пользователь просмотрит Документ B в течение определенного времени после того, как Документ А был показан ему в результатах поиска. Эти данные используются для персонализации выдачи, предложения рекомендаций и улучшения релевантности на основе контекста сессии пользователя.
  • US8447760B1
  • 2013-05-21
  • Поведенческие сигналы

  • Персонализация

  • Семантика и интент

Как Google использует данные о совместном посещении сайтов (Co-Visitation) для персонализации и повышения релевантности выдачи
Google использует поведенческие данные сообщества пользователей для определения тематической связи между сайтами. Если пользователи часто посещают Сайт А и Сайт Б в течение короткого промежутка времени (Co-Visitation), система создает "Вектор повышения" (Boost Vector). Этот вектор используется для повышения в выдаче тематически связанных сайтов, основываясь на истории посещений пользователя или контексте текущего сайта, улучшая персонализацию и релевантность.
  • US8874570B1
  • 2014-10-28
  • Поведенческие сигналы

  • Персонализация

  • SERP

Как Google использует анализ совместных поисковых сессий для выявления запросов о неприемлемом или запрещенном контенте
Google анализирует поисковые сессии пользователей для обучения классификатора, выявляющего запросы о неприемлемом контенте (например, насилии, CSAM, терроризме). Система отслеживает, какие еще запросы вводил пользователь незадолго до или после ввода уже известного "плохого" запроса. Это позволяет автоматически расширять базу данных для фильтрации и модерации поисковой выдачи.
  • US9959354B2
  • 2018-05-01
  • Безопасный поиск

  • Поведенческие сигналы

  • Семантика и интент

Как Google использует паттерны просмотра пользователей (Co-Visitation) и временную близость для определения тематики нетекстового контента (изображений и видео)
Google использует механизм для понимания контента без текста (изображения, видео), анализируя, какие другие (текстовые) страницы пользователи посещают в рамках той же сессии. Ключевые слова с этих текстовых страниц заимствуются и присваиваются нетекстовому ресурсу. Критически важным фактором является время перехода: чем быстрее пользователь перешел между ресурсами, тем больший вес получают ключевые слова.
  • US8572096B1
  • 2013-10-29
  • Поведенческие сигналы

  • Семантика и интент

  • Мультимедиа

Как Google использует поведенческие сигналы и совместные просмотры для генерации рекомендаций контента (например, "Похожие видео" на YouTube)
Google использует механизм коллаборативной фильтрации для определения связанности контента, анализируя логи взаимодействия пользователей. Система определяет, какой контент пользователи потребляют совместно в рамках одной сессии ("locality of time"). Учитываются только "позитивные взаимодействия" (например, длительный просмотр, высокая оценка). Это позволяет формировать рекомендации на основе реального поведения аудитории, а не только метаданных.
  • US8055655B1
  • 2011-11-08
  • Поведенческие сигналы

  • Персонализация

Популярные патенты

Как Google использует данные о поведении пользователей и длительность кликов для улучшения и переписывания поисковых запросов
Google использует систему для автоматического переписывания запросов пользователей. Система анализирует миллионы прошлых поисковых сессий, чтобы определить, как пользователи уточняли свои запросы и насколько они были удовлетворены результатами (измеряя длительность кликов). На основе этого рассчитывается «Ожидаемая полезность» (Expected Utility) для предложенных вариантов запросов, что позволяет Google предлагать пользователю те формулировки, которые с наибольшей вероятностью приведут к качественному ответу.
  • US7617205B2
  • 2009-11-10
  • Поведенческие сигналы

  • Семантика и интент

  • SERP

Как Google использует околоссылочный текст и заголовки (Web Quotes) для индексирования страниц и генерации сниппетов
Google анализирует текст на страницах, ссылающихся на целевой документ, извлекая «Web Quotes». Это не только текст абзаца, окружающего ссылку, но и текст из ближайших заголовков. Эти цитаты ранжируются по качеству ссылающегося источника (например, PageRank) и используются для индексирования целевой страницы (даже если этих слов на ней нет) и для формирования сниппета в результатах поиска.
  • US8495483B1
  • 2013-07-23
  • Индексация

  • Ссылки

  • SERP

Как Google использует последовательность кликов пользователей (Co-selection) для классификации изображений и фильтрации контента (SafeSearch)
Google анализирует, какие изображения пользователи выбирают последовательно в рамках одной сессии (co-selection). Если Изображение Б часто выбирается сразу после Изображения А (с известной темой), система присваивает Изображению Б ту же тему. Этот механизм использует графовый анализ поведения для уточнения тематики изображений, что критично для повышения релевантности и работы фильтров, таких как SafeSearch.
  • US8856124B2
  • 2014-10-07
  • Безопасный поиск

  • Поведенческие сигналы

  • Семантика и интент

Как Google генерирует «синтетический анкорный текст», анализируя структуру и контекст ссылающихся страниц
Google анализирует структурно похожие страницы, ссылающиеся на различные ресурсы. Определяя, где известные поисковые запросы (Seed Queries) появляются в структуре этих ссылающихся страниц (например, в заголовках или Title), Google создает шаблоны. Эти шаблоны затем используются для извлечения текста из аналогичных мест на других страницах, создавая «синтетический описательный текст» (аналог анкорного текста) для целевых ресурсов. Это улучшает ранжирование, даже если фактический анкорный текст низкого качества.
  • US9208232B1
  • 2015-12-08
  • Ссылки

  • Структура сайта

  • Семантика и интент

Как Google использует LLM для генерации поисковых сводок (SGE), основываясь на контенте веб-сайтов, и итеративно уточняет ответы
Google использует Большие Языковые Модели (LLM) для создания сводок (AI-ответов) в результатах поиска. Для повышения точности и актуальности система подает в LLM не только запрос, но и контент из топовых результатов поиска (SRDs). Патент описывает, как система выбирает источники, генерирует сводку, проверяет факты, добавляет ссылки на источники (linkifying) и аннотации уверенности. Кроме того, система может динамически переписывать сводку, если пользователь взаимодействует с одним из источников.
  • US11769017B1
  • 2023-09-26
  • EEAT и качество

  • Ссылки

  • SERP

Как Google автоматически дополняет запросы пользователя терминами из его недавней истории поиска для уточнения интента
Google использует механизм для улучшения релевантности результатов путем анализа недавней истории поиска пользователя. Если текущий запрос похож на предыдущие, система определяет ключевые контекстные термины, которые часто повторялись в истории (устойчивый интент), но отсутствуют в текущем запросе. Эти термины автоматически добавляются к запросу, чтобы предоставить более точные и персонализированные результаты.
  • US9449095B1
  • 2016-09-20
  • Семантика и интент

  • Персонализация

  • Поведенческие сигналы

Как Google использует гибридную классификацию и данные о кликах пользователей для точного определения тематики контента
Google использует многоэтапный процесс для классификации контента в детальные иерархические категории. Система комбинирует традиционные методы классификации с анализом поисковых запросов и кликов пользователей (подтвержденных результатов поиска). Это позволяет точно определить узкоспециализированную тематику документа, фильтруя нерелевантные категории и взвешивая релевантность на основе TF-IDF и глубины иерархии.
  • US8145636B1
  • 2012-03-27
  • Семантика и интент

  • Поведенческие сигналы

Как Google использует машинное обучение для оптимизации обхода Knowledge Graph и поиска связанных концепций
Google оптимизирует обход Knowledge Graph для эффективного поиска семантически связанных фраз. Вместо анализа всех связей сущности система использует ML-модели для выбора только тех отношений (свойств), которые вероятнее всего приведут к ценным результатам. Этот выбор основан на истории поисковых запросов и контексте пользователя, что позволяет экономить вычислительные ресурсы и повышать релевантность предложений.
  • US10140286B2
  • 2018-11-27
  • Knowledge Graph

  • Семантика и интент

  • Персонализация

Как Google использует данные о поведении пользователей по похожим запросам для ранжирования новых или редких запросов
Google использует механизм для улучшения ранжирования запросов, по которым недостаточно данных о поведении пользователей (например, кликов). Система находит исторические запросы, семантически похожие на исходный, и «заимствует» их поведенческие данные. Степень сходства рассчитывается с учетом важности терминов, синонимов и порядка слов. Эти заимствованные данные используются для корректировки рейтинга документов по исходному запросу.
  • US9009146B1
  • 2015-04-14
  • Поведенческие сигналы

  • Семантика и интент

  • SERP

Как Google использует внешние данные для оценки репутации сущностей и их взаимной привлекательности в вертикальном поиске
Google использует систему для улучшения вертикального поиска (например, вакансий, недвижимости) путем оценки взаимной привлекательности двух разных типов сущностей (например, соискателя и вакансии). Система агрегирует данные из внешних источников для выявления скрытых атрибутов и расчета «Репутационной значимости» каждой сущности. На основе этих данных определяется метрика «Двухстороннего соответствия», которая используется для ранжирования.
  • US10853432B2
  • 2020-12-01
  • Семантика и интент

  • SERP

  • Поведенческие сигналы

seohardcore