SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google использует данные о поведении пользователей внутри документов (время чтения разделов, закладки) для улучшения ранжирования

SYSTEMS AND MEDIA FOR UTILIZING ELECTRONIC DOCUMENT USAGE INFORMATION WITH SEARCH ENGINES (Системы и носители для использования информации об использовании электронных документов в поисковых системах)
  • US8005811B2
  • Google LLC
  • 2008-07-01 (Продолжение заявки от 2005-01-11)
  • 2011-08-23
  • Поведенческие сигналы
  • SERP
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Google может собирать и анализировать данные о том, как пользователи взаимодействуют с электронными документами (например, PDF, DOC, HTML). Система отслеживает, какие разделы или страницы просматриваются дольше всего или добавляются в закладки. Эта агрегированная информация используется для повышения в ранжировании документов, чьи ключевые слова находятся в наиболее используемых (и, следовательно, ценных) разделах.

Описание

Какую проблему решает

Патент решает проблему неоптимальной релевантности стандартных поисковых систем, которые опираются преимущественно на анализ ключевых слов. Основные проблемы, которые устраняет изобретение:

  • Неспособность поисковых систем точно определить наиболее ценную или релевантную часть (раздел, страницу) внутри большого электронного документа.
  • Сложность для пользователя в поиске нужной информации после перехода к объемному документу.
  • Уязвимость к манипуляциям, таким как "keyword spamming" (перенасыщение ключевыми словами), когда частота слов не отражает реальную ценность контента для пользователей.

Что запатентовано

Запатентована система и метод использования информации об использовании электронных документов (Electronic Document Usage Information) для улучшения результатов поиска. Система собирает данные о том, как пользователи взаимодействуют с контентом внутри документов (время просмотра разделов, закладки, печать), агрегирует эти данные от множества пользователей и использует их как сигнал для оценки ценности и релевантности конкретных частей документа. Поисковая система использует эти сигналы для корректировки ранжирования.

Как это работает

Система работает путем сбора и анализа поведенческих данных на уровне документа:

  1. Сбор данных: Специальный модуль (Usage Tracking Module), который может быть интегрирован в программы для чтения документов (Document Reader, например, браузеры, Adobe Reader), отслеживает активность пользователя: время, проведенное на конкретной странице/разделе, создание закладок, печать. Система фильтрует неактивное время (Active Viewing).
  2. Агрегация: Собранные данные передаются на сервер-агрегатор (Aggregator Server), который суммирует информацию от множества пользователей для каждого документа, создавая профиль использования (Document Utilization Information).
  3. Использование в поиске: Поисковая система получает эти агрегированные данные. При ранжировании система повышает рейтинг документа, если ключевые слова запроса находятся в той части документа, которая, согласно профилю использования, просматривается пользователями дольше всего.

Актуальность для SEO

Высокая. Принципы использования поведенческих факторов (user engagement, dwell time) для оценки качества и релевантности контента являются фундаментальными для современных поисковых систем. Концепция оценки релевантности не всего документа целиком, а его отдельных частей (связано с Passage Ranking), крайне актуальна в 2025 году. Хотя реализация сбора данных могла эволюционировать (например, через браузер Chrome вместо сторонних модулей), базовая идея остается критически важной.

Важность для SEO

Патент имеет высокое значение (8/10). Он описывает конкретный механизм, при котором поведенческие сигналы, такие как время взаимодействия с контентом (dwell time) и активность пользователя (закладки), напрямую используются для оценки релевантности и корректировки позиций в выдаче. Это подчеркивает важность оптимизации пользовательского опыта, структуры контента и удержания внимания пользователя на ключевых разделах страницы или документа.

Детальный разбор

Термины и определения

Active Viewing (Активный просмотр)
Состояние, при котором пользователь активно взаимодействует с документом. Система отфильтровывает неактивное время (простой, работа в другом приложении) для повышения точности данных.
Aggregator Server (Сервер-агрегатор)
Сервер, который собирает Usage Information от множества пользователей и обрабатывает ее для создания Document Utilization Information.
Bookmark Information (Информация о закладках)
Данные о создании или удалении закладок в определенных местах документа. Используется как индикатор ценности контента.
Document Reader (Программа для чтения документов)
Программное обеспечение для отображения электронного документа (например, Adobe Reader, Microsoft Word, браузер).
Document Utilization Information (Информация об использовании документа)
Агрегированные данные об использовании документа многими пользователями. В Claims 1 и 5 конкретно определяется как «количество времени, в течение которого пользователи получали доступ к определенным разделам» документа.
Electronic Document (Электронный документ)
Цифровой контент. Примеры включают PDF, DOC, HTML, JPEG, электронные книги, статьи, веб-страницы.
Usage Information (Информация об использовании)
Сырые данные, собранные на стороне клиента об активности одного пользователя: время просмотра страниц/разделов, создание закладок, печать, отправка по email.
Usage Tracking Module (Модуль отслеживания использования)
Компонент на стороне клиента, который отслеживает взаимодействие пользователя с электронным документом.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает метод использования данных о поведении пользователей в поисковой системе.

  1. Система получает поисковый запрос с ключевыми словами.
  2. Система получает Document Utilization Information для документов, подлежащих поиску. Эта информация определена как данные о том, сколько времени пользователи провели за доступом к определенным разделам (particular sections) этих документов.
  3. Генерация результатов поиска основывается как на запросе, так и на полученной Document Utilization Information.
  4. Механизм генерации включает изменение позиции конкретного документа в результатах поиска на основе его использования по сравнению с другими документами.
  5. Ключевой механизм ранжирования: Позиция документа улучшается (improving the position), если система определяет, что ключевое слово из запроса включено в раздел документа, к которому пользователи обращались в течение более длительного периода времени (accessed by users a longer period of time), чем к другим разделам этого документа.
  6. Результаты передаются пользователю.

Ядро изобретения — использование метрики времени доступа (вовлеченности) к конкретным разделам для корректировки ранжирования. Если ключевое слово находится в разделе, который пользователи долго читали, это сильный сигнал релевантности.

Claim 5 (Независимый пункт): Описывает архитектуру поискового сервера (систему), реализующего этот метод.

  1. Включает модули коммуникации с пользователем и Aggregator Server.
  2. Search Algorithm Module генерирует результаты, используя запрос и Document Utilization Information.
  3. Модуль реализует ту же логику ранжирования, что и в Claim 1: улучшение позиции, если ключевое слово найдено в разделе с более длительным временем доступа пользователей.

Где и как применяется

Изобретение затрагивает этапы сбора данных, индексирования и ранжирования, используя поведенческие сигналы для уточнения релевантности.

CRAWLING / INDEXING – Сбор данных и Индексирование
Система предполагает инфраструктуру для сбора поведенческих данных (Usage Tracking Modules и Aggregator Servers), отличную от стандартного краулинга. На этапе индексирования Indexer Module может использовать эти данные для:

  • Взвешивания терминов: Патент предполагает, что ключевые слова могут быть обозначены (designating keywords) на основе частоты, взвешенной по использованию раздела, содержащего это ключевое слово. Слово в часто используемом разделе получает больший вес.
  • Аннотирования документов: Ассоциация частей документа с показателями использования.

RANKING – Ранжирование
Основное применение патента. Search Algorithm Module использует Document Utilization Information как фактор ранжирования. Система оценивает не только наличие ключевых слов, но и контекст их расположения относительно "ценных" (наиболее используемых) частей документа, как описано в Claim 1.

RERANKING – Переранжирование
На этапе формирования выдачи система может использовать эти данные для улучшения представления результатов, например, указывая в сниппете ссылку непосредственно на наиболее используемую часть документа (deep linking).

Входные данные:

  • Поисковый запрос (ключевые слова).
  • Стандартный индекс контента.
  • Document Utilization Information (агрегированные данные о времени просмотра разделов, закладках) от Aggregator Server.

Выходные данные:

  • Отранжированный список результатов поиска, где позиции скорректированы с учетом поведенческих данных.

На что влияет

  • Типы контента: Наибольшее влияние на электронные документы, для которых возможно отслеживание внутреннего использования (PDF, DOC, eBooks, сложные HTML-страницы). Особенно актуально для лонгридов, инструкций, научных статей.
  • Специфические запросы: Влияет на информационные запросы, где ответ содержится глубоко внутри объемного документа.
  • Борьба со спамом: Механизм снижает эффективность "keyword spamming", так как простое наличие ключевых слов в неиспользуемых разделах не даст преимущества.

Когда применяется

Алгоритм применяется во время выполнения поискового запроса.

  • Триггеры активации: Наличие агрегированных поведенческих данных (Document Utilization Information) для релевантных документов.
  • Условия работы: Система должна быть способна сопоставить данные об использовании с конкретными разделами или страницами документа и определить наличие ключевых слов в этих разделах.

Пошаговый алгоритм

Процесс состоит из трех основных фаз: Сбор данных, Агрегация и Выполнение поиска.

Фаза А: Сбор данных (Клиентская сторона)

  1. Обнаружение использования: Usage Tracking Module обнаруживает использование электронного документа (время просмотра страницы, печать).
  2. Проверка активности (Active Viewing): Система определяет, активно ли пользователь просматривает документ, исключая время простоя (например, если нет ввода пользователя, активна заставка или фокус на другом приложении).
  3. Обнаружение закладок: Фиксируется создание или удаление закладок в определенных местах документа.
  4. Передача данных: Собранная Usage Information передается на Aggregator Server.

Фаза Б: Агрегация (Aggregator Server)

  1. Получение и агрегация данных: Сервер получает данные от разных пользователей и суммирует их для одного и того же документа на уровне страниц или разделов.
  2. Создание профиля использования: Генерируется Document Utilization Information, отражающая относительную ценность различных частей документа (например, гистограмма времени просмотра по страницам).
  3. Определение ключевых слов (Опционально): Система может переопределить ключевые слова документа, придавая больший вес словам, которые часто встречаются в наиболее используемых разделах.
  4. Передача в поисковую систему: Агрегированные данные передаются на Search Engine Server.

Фаза В: Выполнение поиска (Search Engine Server)

  1. Получение запроса: Поисковая система получает запрос от пользователя.
  2. Получение данных об использовании: Система получает агрегированную Document Utilization Information.
  3. Генерация результатов и корректировка ранжирования: Search Algorithm Module генерирует результаты. Ранжирование корректируется: система повышает рейтинг документа, если ключевые слова запроса находятся в разделах, которые пользователи просматривают дольше всего (согласно Claim 1).
  4. Формирование выдачи: Система передает отранжированные результаты пользователю.

Какие данные и как использует

Данные на входе

Основной фокус патента – на поведенческих факторах, собираемых на уровне взаимодействия с документом.

  • Поведенческие факторы (Behavioral Factors):
    • Время просмотра (Dwell Time/Time Spent): Время, которое пользователь активно тратит на просмотр определенной страницы или раздела документа.
    • Закладки (Bookmarks): Создание или удаление закладок в определенных местах документа.
    • Взаимодействие: Печать (Printing) раздела, открытие, закрытие, отправка документа по email.
  • Контентные факторы:
    • Ключевые слова: Наличие и расположение ключевых слов в документе (используется в сочетании с поведенческими данными).
  • Технические факторы (для фильтрации):
    • Данные об активности пользователя (ввод), статус других приложений, статус заставки – используются для определения Active Viewing.
  • Пользовательские факторы (Опционально):
    • Патент упоминает возможность анализа данных по типу или классу пользователя (например, эксперты, новички) для создания специализированных профилей использования.

Какие метрики используются и как они считаются

  • Относительное время использования раздела: Ключевая метрика ценности раздела (Claims 1 и 5). Рассчитывается путем агрегации времени, проведенного пользователями на этом разделе, и сравнения его с другими разделами того же документа. Время простоя исключается с помощью механизма Active Viewing.
  • Частота закладок (Bookmark Frequency): Процент пользователей, добавивших определенную страницу/раздел в закладки.
  • Взвешенная частота ключевых слов (Weighted Keyword Frequency): Патент предлагает рассчитывать значимость ключевого слова с учетом веса (использования) раздела, в котором оно находится. Слово, часто встречающееся на самой просматриваемой странице, может быть важнее слова, которое чаще встречается в документе в целом.
  • Общее использование документа: Совокупное время использования документа всеми пользователями. Может использоваться для ранжирования документов относительно друг друга.

Выводы

  1. Поведенческие данные как прямой сигнал релевантности: Патент описывает механизм, где агрегированные данные о поведении пользователей (user engagement, dwell time) используются как прямой индикатор ценности контента для корректировки ранжирования.
  2. Гранулярность оценки на уровне разделов: Оценка производится не только на уровне документа, но и на уровне его отдельных частей (страниц, разделов). Это позволяет поисковой системе определять наиболее ценные сегменты контента, что тесно связано с концепцией Passage Ranking.
  3. Контекст расположения ключевых слов критичен: Ключевое утверждение (Claim 1) прямо указывает: если ключевое слово находится в разделе, который пользователи просматривают дольше всего, позиция документа улучшается. Релевантность определяется не только наличием слова, но и его расположением в "ценном" (с точки зрения поведения пользователей) контексте.
  4. Борьба с манипуляциями (Keyword Spamming): Использование реальных поведенческих данных снижает эффективность переспама. Перенасыщение ключевыми словами разделов, которые пользователи пропускают, не даст эффекта.
  5. Важность структуры и удержания внимания: Для SEO критически важно не только привлечь пользователя на страницу, но и удержать его внимание на ключевых разделах, содержащих целевые запросы.
  6. Обеспечение качества данных: Включены механизмы для повышения точности собираемых данных, такие как обнаружение Active Viewing для исключения времени простоя.

Практика

Best practices (это мы делаем)

  • Оптимизация удержания внимания (Dwell Time Optimization): Создавать контент, который вовлекает пользователя и стимулирует его тратить время на изучение материала. Использовать качественный текст, форматирование и мультимедиа для увеличения времени взаимодействия с ключевыми разделами.
  • Анализ поведения пользователей внутри страницы: Использовать инструменты аналитики (тепловые карты, карты скроллинга) для понимания того, какие части страницы/документа наиболее востребованы. Убедиться, что эти разделы оптимизированы под целевые запросы и содержат ключевую информацию.
  • Улучшение структуры и навигации (для HTML и PDF): Для длинных документов использовать анкорные ссылки и четкое оглавление (Table of Contents). Это помогает пользователям находить нужную информацию и способствует более длительному взаимодействию с релевантными разделами.
  • Оптимизация PDF-документов: К PDF-файлам (whitepapers, инструкции) следует относиться как к веб-страницам. Обеспечивать высокое качество контента и удобство чтения для стимулирования вовлеченности (длительное чтение, добавление в закладки).
  • Размещение ключевой информации в зонах высокой вовлеченности: Убедитесь, что ответы на основные запросы и целевые ключевые слова расположены в тех разделах контента, которые генерируют наибольшую вовлеченность.

Worst practices (это делать не надо)

  • Keyword Spamming и "Вода": Создание объемного контента с низкой информационной плотностью или перенасыщение ключевыми словами. Если пользователи быстро пропускают эти разделы, система понизит их ценность, и вес ключевых слов будет снижен.
  • Введение в заблуждение (Кликбейт): Использование заголовков, которые привлекают трафик, но не соответствуют содержанию. Это приведет к короткому времени взаимодействия и низким показателям использования, что негативно скажется на ранжировании.
  • Сложная структура и плохое форматирование: Публикация "стены текста" или плохо структурированных PDF, в которых сложно ориентироваться. Это снижает вероятность того, что пользователи найдут и потратят время на изучение ключевых разделов.

Стратегическое значение

Патент подтверждает стратегический приоритет Google на использовании поведенческих факторов для оценки качества и релевантности. Он демонстрирует, что оценка контента становится все более гранулярной, переходя от уровня домена и страницы к уровню отдельных разделов и пассажей. Внимание пользователя (Attention) является измеримым сигналом ценности. Долгосрочная SEO-стратегия должна фокусироваться на создании контента, который не просто соответствует интенту запроса, но и обеспечивает глубокое вовлечение пользователя.

Практические примеры

Сценарий 1: Оптимизация длинной статьи (HTML-документа)

  1. Задача: Продвинуть статью "Полное руководство по уходу за орхидеями" по запросу "почему желтеют листья у орхидеи".
  2. Анализ: С помощью карты скроллинга и анализа времени взаимодействия выясняется, что пользователи быстро прокручивают введение и останавливаются на разделе "Проблемы и решения", тратя на него в среднем 2 минуты.
  3. Действия согласно патенту: Убедиться, что раздел "Проблемы и решения" содержит точную фразу "почему желтеют листья у орхидеи" и дает исчерпывающий ответ. Улучшить форматирование этого раздела для еще большего удержания (списки причин, фото).
  4. Ожидаемый результат: Система фиксирует, что ключевой запрос находится в разделе с наибольшим временем взаимодействия (longer period of time). Согласно Claim 1, позиция документа по этому запросу улучшается.

Сценарий 2: Ранжирование технического руководства в формате PDF

  1. Ситуация: Компания публикует 50-страничное техническое руководство в формате PDF. Раздел «Устранение неполадок» находится на страницах 40-45.
  2. Как работает механизм (Гипотетическое применение): Если система отслеживает использование PDF (например, через Chrome PDF Viewer), она определяет, что пользователи проводят значительное время на страницах 40-45 и часто добавляют их в закладки.
  3. Ожидаемый результат: Когда пользователь ищет решение проблемы (например, «ошибка код 123 [продукт]»), ключевые слова из запроса обнаруживаются в этом высокоценном разделе PDF. Система повышает рейтинг этого PDF в выдаче, так как ключевые слова находятся в разделе с длительным временем доступа, и потенциально дает прямую ссылку на этот раздел.

Вопросы и ответы

Что такое "Document Utilization Information" и чем она отличается от стандартных поведенческих факторов?

Document Utilization Information — это агрегированные данные о том, как множество пользователей взаимодействуют с конкретным документом. Ключевое отличие от стандартных метрик (вроде CTR или общего времени на сайте) заключается в гранулярности. Она показывает не просто факт использования документа, а то, какие именно страницы или разделы внутри него оказались наиболее ценными (дольше просматривались, чаще добавлялись в закладки).

Как именно время, проведенное на разделе документа, влияет на ранжирование согласно патенту?

В патенте (Claim 1) прямо указан механизм: если ключевое слово из поискового запроса находится в том разделе документа, который пользователи просматривают в течение более длительного периода времени, чем другие разделы, то позиция этого документа в результатах поиска улучшается. Это означает, что система использует время взаимодействия (dwell time) как прокси для оценки ценности и релевантности этого конкретного раздела.

Применяется ли этот патент только к PDF и DOC файлам?

Нет. Хотя PDF и DOC часто упоминаются в качестве примеров, патент определяет Electronic Document очень широко, включая HTML, JPEG, GIF, TIFF, электронные книги и веб-страницы. Описанные принципы в равной степени применимы к обычным веб-страницам (HTML), особенно к длинным статьям или сложным страницам, где можно выделить отдельные разделы и отслеживать взаимодействие с ними.

Как Google может собирать эти данные? Нужно ли устанавливать специальный софт?

Патент описывает инфраструктуру, включающую Usage Tracking Module на стороне клиента, и предлагает вознаграждение (Usage Credits) за участие. В современных условиях Google может собирать аналогичные данные через свои продукты: браузер Chrome (включая встроенный просмотрщик PDF), приложения Google Docs/Drive, а также через данные Google Analytics. Установка дополнительного стороннего ПО сейчас, скорее всего, не требуется.

Как этот патент связан с Passage Ranking (Индексированием пассажей)?

Патент тесно связан с концепцией Passage Ranking. Passage Ranking позволяет Google оценивать релевантность отдельных пассажей (частей) страницы. Этот патент предоставляет один из механизмов для определения того, какие именно пассажи являются наиболее ценными, используя для этого поведенческие данные. Если пассаж долго изучается пользователями, он является сильным кандидатом для ранжирования.

Учитывает ли система разницу между активным и пассивным просмотром (Active Viewing)?

Да. В патенте описан механизм проверки того, активно ли пользователь просматривает документ. Система может использовать тайм-ауты при отсутствии ввода, отслеживать активность в других приложениях или активацию скринсейвера, чтобы исключить время простоя из расчета Document Utilization Information. Это повышает точность данных об использовании.

Влияет ли добавление страницы в закладки на ранжирование?

Да, согласно описанию патента, создание закладок (Bookmarks) является одним из типов Usage Information, который собирается и агрегируется. Закладка рассматривается как явное свидетельство того, что пользователь находит информацию в данном месте ценной. Это используется как один из сигналов для повышения релевантности раздела или документа.

Может ли этот механизм бороться с Keyword Spamming?

Да, это одна из заявленных целей патента. Поскольку система придает вес только тем ключевым словам, которые находятся в активно используемых разделах, простое перенасыщение текста ключевыми словами в разделах, которые пользователи пропускают (например, в футере или в "водянистых" абзацах), не даст эффекта. Ценность ключевого слова определяется контекстом его использования.

Что такое «Определение ключевых слов» (Designating Keywords), основанное на использовании документа?

Это процесс определения важных терминов документа не только по их частоте (как в TF-IDF), но и с учетом популярности раздела, где они встречаются. Слово, которое появляется 5 раз на самой просматриваемой странице, может быть признано более важным ключевым словом, чем слово, которое появляется 10 раз на страницах, которые пользователи пропускают.

Какое влияние этот патент оказывает на стратегию создания лонгридов?

Лонгриды должны быть структурированы так, чтобы постоянно поддерживать вовлеченность пользователя. Если пользователи читают только введение, а основную часть пролистывают, ценность контента будет оценена низко. Важно использовать качественное форматирование, мультимедиа и сильное повествование, чтобы максимизировать время активного чтения ключевых разделов.

Похожие патенты

Как Google использует данные о выделении текста пользователями (явно или неявно) для генерации сниппетов и анализа контента
Google может собирать данные о том, какие фрагменты текста пользователи выделяют на веб-страницах, используя специальные инструменты или просто выделяя текст мышью. Эти данные агрегируются для определения наиболее важных частей документа. На основе этой "популярности" Google может динамически генерировать поисковые сниппеты, включающие наиболее часто выделяемые фрагменты.
  • US8595619B1
  • 2013-11-26
  • Поведенческие сигналы

  • SERP

Как Google использует контекст и анализ офлайн-поведения (Read Ranking) для соединения физических документов с цифровыми копиями
Система идентифицирует цифровой контент по сканированному фрагменту из физического мира, используя не только текст, но и обширный контекст (время, местоположение, историю пользователя). Патент также вводит концепцию «Read Ranking» — отслеживание популярности физических документов на основе того, что люди сканируют, как потенциальный сигнал ранжирования.
  • US20110295842A1
  • 2011-12-01
  • Поведенческие сигналы

  • Персонализация

  • Семантика и интент

Как Google связывает документы на основе поведения пользователей, времени взаимодействия и контентной близости для персонализации поиска
Google использует систему для определения "меры ассоциации" между различными документами (статьями, веб-страницами, письмами). Ассоциация рассчитывается на основе того, насколько близко по времени пользователь взаимодействовал с этими документами, насколько похож их контент и совпадают ли метаданные (например, автор). Эти связи используются для понимания пути пользователя и персонализации последующих результатов поиска.
  • US8131754B1
  • 2012-03-06
  • Поведенческие сигналы

  • Персонализация

  • Семантика и интент

Как Google использует агрегированные поведенческие данные для маркировки результатов поиска и подсказок индикаторами ожидаемых действий
Google анализирует агрегированные данные о том, что пользователи делают после клика по результату поиска или подсказке (например, покупка, сохранение, бронирование). Если определенное действие статистически значимо для конкретного результата, Google добавляет к нему визуальный индикатор (значок или бейдж), чтобы помочь другим пользователям понять вероятный исход клика.
  • US11132406B2
  • 2021-09-28
  • Поведенческие сигналы

  • SERP

Как Google использует персональные выделения контента и поведение чтения для гиперперсонализации поисковой выдачи
Google отслеживает, какой текст пользователи выделяют на веб-страницах и как они читают контент (включая скорость прокрутки и потенциально отслеживание взгляда). Эта информация используется для глубокой персонализации будущих поисковых запросов: система аннотирует знакомые результаты, использует содержание выделенного текста для подбора другого релевантного контента и автоматически возвращает пользователя к последнему просмотренному фрагменту.
  • US11514126B2
  • 2022-11-29
  • Персонализация

  • Поведенческие сигналы

  • SERP

Популярные патенты

Как Google использует язык интерфейса пользователя и поведенческие сигналы для определения языковой релевантности документа
Google определяет, для носителей каких языков релевантен документ, анализируя агрегированные данные о кликах. Система изучает, какой языковой интерфейс поиска (например, google.fr или google.de) использовали пользователи, кликнувшие на результат. Учитывая поведенческие факторы, такие как время пребывания на странице (Dwell Time) и позиция клика, Google рассчитывает Оценку Языковой Релевантности. Это позволяет определить целевую аудиторию страницы независимо от языка ее контента.
  • US9208231B1
  • 2015-12-08
  • Мультиязычность

  • Поведенческие сигналы

  • SERP

Как Google перенаправляет пользователей на «идеальные» запросы (KHRQ), анализируя поведение и удовлетворенность
Google анализирует логи запросов, чтобы определить «известные высокоранжированные запросы» (KHRQ) — те, которые пользователи вводят часто и которыми остаются довольны (редко переформулируют или долго изучают результаты). Система вычисляет вероятность того, что исходный запрос пользователя лучше заменить на KHRQ, основываясь на сходстве запросов и исторических цепочках переформулировок. Это позволяет направлять пользователей к наиболее эффективным формулировкам.
  • US7870147B2
  • 2011-01-11
  • Семантика и интент

  • Поведенческие сигналы

  • SERP

Как Google переносит вес поведенческих сигналов (кликов) между связанными запросами для улучшения ранжирования
Google улучшает ранжирование по редким или новым запросам, для которых недостаточно собственных данных, используя поведенческие сигналы (Clickthrough Data) из связанных запросов. Если пользователи часто вводят запросы последовательно, система идентифицирует связь и переносит данные о кликах с одного запроса на другой, позволяя документам с высоким engagement ранжироваться выше по всему кластеру.
  • US7505964B2
  • 2009-03-17
  • Поведенческие сигналы

  • SERP

Как Google использует историю местоположений для определения физической активности пользователя и гиперперсонализации поиска
Google анализирует историю перемещений пользователя (местоположения и скорость), чтобы определить его текущую физическую активность (например, поход, шоппинг) и способ передвижения (например, пешком, на автобусе). Эта информация используется для радикальной персонализации: система корректирует ранжирование результатов, изменяет запросы и формирует подсказки, чтобы они соответствовали контексту реальных действий пользователя.
  • US20150006290A1
  • 2015-01-01
  • Поведенческие сигналы

  • Персонализация

  • Local SEO

Как Google находит, оценивает и показывает «интересные факты» о сущностях в поиске
Google идентифицирует «уникальные» или «интересные» факты о сущностях, анализируя документы, на которые ссылаются с использованием триггеров (например, «fun facts»). Система извлекает предложения, кластеризует их для поиска лучшей формулировки и оценивает качество факта на основе авторитетности источника, уникальности терминов и топикальности. Эти факты затем показываются в выдаче в виде специальных блоков.
  • US11568274B2
  • 2023-01-31
  • Knowledge Graph

  • Семантика и интент

  • EEAT и качество

Как Google комбинирует поведенческие сигналы из разных поисковых систем для улучшения ранжирования
Google использует механизм для улучшения ранжирования путем объединения данных о поведении пользователей (клики и время взаимодействия) из разных поисковых систем (например, Веб-поиск и Поиск по Видео). Если в основной системе данных недостаточно, система заимствует данные из другой, применяя весовой коэффициент и фактор сглаживания для контроля смещения и обеспечения релевантности.
  • US8832083B1
  • 2014-09-09
  • Поведенческие сигналы

  • SERP

Как Google предсказывает ваш следующий запрос на основе контента, который вы просматриваете, и истории поиска других пользователей
Google использует систему контекстной информации, которая анализирует контент на экране пользователя (например, статью или веб-страницу) и предсказывает, что пользователь захочет искать дальше. Система не просто ищет ключевые слова на странице, а использует исторические данные о последовательностях запросов (Query Logs). Она определяет, что другие пользователи искали после того, как вводили запросы, связанные с текущим контентом, и предлагает эти последующие запросы в качестве рекомендаций.
  • US20210232659A1
  • 2021-07-29
  • Семантика и интент

  • Поведенческие сигналы

  • Персонализация

Как Google корректирует позиционную предвзятость (Position Bias) при обучении моделей ранжирования на кликах пользователей
Google использует механизм для устранения позиционной предвзятости (Position Bias) при обучении моделей ранжирования (Learning to Rank). Система анализирует, на какой позиции находился кликнутый результат, и присваивает этому клику вес важности. Клики по нижним позициям получают больший вес, чем клики по ТОП-1. Это позволяет модели учиться определять истинную релевантность, а не просто копировать существующий порядок выдачи.
  • US20210125108A1
  • 2021-04-29
  • Поведенческие сигналы

  • SERP

Как Google выбирает каноническую (основную) версию документа, основываясь на авторитетности источника и полноте контента
Google использует систему для выбора канонической (основной) версии документа среди его дубликатов. Система присваивает «приоритет авторитетности» каждой версии, основываясь на источнике (например, официальный издатель) и праве публикации. Основной версией выбирается та, которая имеет высокий авторитет и является полной. При отсутствии идеального варианта выбирается версия с наибольшим объемом информации (например, самая длинная или с наибольшим PageRank).
  • US8095876B1
  • 2012-01-10
  • EEAT и качество

  • Техническое SEO

  • Ссылки

Как Google в Autocomplete динамически выбирает между показом общих категорий и конкретных подсказок в зависимости от «завершенности запроса»
Google анализирует «меру завершенности запроса» (Measure of Query Completeness) по мере ввода текста пользователем. Если намерение неясно и существует много вариантов продолжения (низкая завершенность, высокая энтропия), система предлагает общие категории (например, «Регионы», «Бизнесы»). Если намерение становится ясным (высокая завершенность, низкая энтропия), система переключается на конкретные подсказки или сущности.
  • US9275147B2
  • 2016-03-01
  • Семантика и интент

  • Поведенческие сигналы

  • Персонализация

seohardcore