Как Google использует машинное обучение для прогнозирования желаемого типа контента (Web, Images, News) и формирования смешанной выдачи (Universal Search)

DETERMINATION OF A DESIRED REPOSITORY (Определение желаемого репозитория)

US7584177B2
Google LLC
2005-06-29
2009-09-01

Google анализирует исторические журналы поиска (пользователь, запрос, клики), чтобы обучить модель машинного обучения. Эта модель предсказывает вероятность того, что пользователь хочет получить результаты из определенного репозитория (например, Картинки или Новости). Google использует эти прогнозы, чтобы решить, в каких индексах искать и как смешивать результаты на финальной странице выдачи (Universal Search).

Какую проблему решает

Патент решает проблему неоптимального пользовательского опыта, когда поисковая система имеет несколько репозиториев контента (Веб-страницы, Картинки, Новости, Товары), но по умолчанию предоставляет результаты только из одного (обычно веб-поиска). Пользователи часто ищут специализированный контент (например, изображения), не переключаясь вручную на соответствующий интерфейс. Цель изобретения — автоматически определить, какой тип контента (repository) на самом деле желает пользователь, и предоставить соответствующие результаты.

Что запатентовано

Запатентована система, которая использует модель машинного обучения для прогнозирования того, какой репозиторий контента предпочитает пользователь для данного запроса и контекста. Модель обучается на исторических данных журналов поиска (Log Data). Эта система позволяет поисковой машине автоматически выбирать и смешивать результаты из различных вертикалей, формируя Универсальный Поиск (Universal Search).

Как это работает

Система работает в двух фазах: офлайн-обучение и онлайн-применение.

Офлайн-обучение: Журналы поиска обрабатываются в виде троек (u, q, r): пользователь (u), запрос (q) и репозиторий (r). Система определяет «метку» (Label) для каждой тройки — желал ли пользователь этот контент (обычно на основе клика). Извлекаются признаки (Features), и обучается модель для прогнозирования вероятности желания.
Онлайн-применение: Когда поступает новый запрос, система использует обученную модель для расчета оценки (Score) для каждого доступного репозитория. Эти оценки используются для принятия решений: в каких репозиториях выполнять поиск и/или как отображать и смешивать результаты из разных репозиториев на странице выдачи.

Актуальность для SEO

Высокая. Этот патент описывает фундаментальную концепцию Универсального поиска (Universal Search) или смешанного поиска (Blended Search). Хотя конкретные модели машинного обучения, упомянутые в патенте (например, логистическая регрессия), вероятно, заменены более сложными нейронными сетями, сама идея прогнозирования желаемого типа контента на основе запроса и контекста пользователя остается центральной для современной архитектуры поиска Google.

Важность для SEO

Патент имеет критическое значение для SEO (8.5/10). Он объясняет механизм, который определяет композицию SERP и видимость различных типов контента. Если модель предсказывает, что пользователь хочет картинки, стандартные веб-результаты могут быть понижены. Это подчеркивает необходимость понимания доминирующего интента (типа контента) для ключевых запросов и оптимизации активов для соответствующих вертикалей (Image SEO, News SEO, Video SEO).

Термины и определения

Feature (Признак): Извлеченная характеристика экземпляра данных (u, q, r), используемая моделью машинного обучения. Примеры включают страну пользователя, язык запроса, время суток или агрегированные статистические данные (например, общий CTR для репозитория).
Instance (Экземпляр): Единица данных, используемая для обучения модели. В контексте патента это тройка (u, q, r).
Label (Метка): Целевая переменная для обучения модели. Указывает, желал ли пользователь u информацию из репозитория r при запросе q. Обычно определяется фактом выбора (клика) пользователем результата из этого репозитория.
Log Data (Лог данные): Исторические данные о прошлых поисковых сессиях, используемые для обучения модели.
Model (Модель): Статистическая или ML модель, обученная на исторических данных для прогнозирования вероятности того, что пользователь желает информацию из определенного репозитория.
Repository (Репозиторий): Хранилище определенного типа данных или вертикаль поиска. Примеры: Web Page Repository, Image Repository, Product Repository, News Repository.
Score (Оценка): Выходное значение модели. Может быть вероятностью (probability) или значением уверенности (confidence value), отражающим вероятность того, что пользователь желает информацию из данного репозитория.
Triple (u, q, r) (Тройка (u, q, r)): Представление данных журнала поиска. 'u' — информация о пользователе, 'q' — информация о запросе, 'r' — информация о репозитории.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает комплексный процесс, включающий обучение модели и ее применение в поиске (вариант с поиском по всем репозиториям).

Хранение данных журнала (log data), связанных с прошлыми поисками.
Генерация правил для модели на основе этих данных. Модель принимает на вход информацию о конкретном запросе и пользователе и выдает Score, отражающий вероятность того, что конкретный репозиторий содержит желаемую информацию.
Получение нового поискового запроса от пользователя.
Выполнение поиска по нескольким репозиториям для идентификации наборов результатов.
Определение Score для каждого репозитория путем ввода информации о запросе и пользователе в модель.
Выбор одного из репозиториев на основе рассчитанного Score.
Генерация и предоставление документа с результатами поиска на основе набора результатов из выбранного репозитория.

Claim 4 (Зависимый): Детализирует процесс обучения модели, фокусируясь на маркировке данных.

Генерация правил модели включает определение метки (Label) для каждой тройки данных (u, q, r). Метка содержит информацию о том, содержит ли репозиторий r информацию, которая удовлетворяет запросу q, предоставленному пользователем u (т.е. был ли результат желаемым/кликнутым).

Claim 7, 8, 9 (Зависимые): Описывают логику смешивания (Blending) и отображения результатов из нескольких репозиториев.

Генерация документа с результатами поиска включает выбор наборов результатов из двух или более репозиториев на основе их Scores. Эти наборы результатов располагаются в документе на основе их Scores. Результаты из репозитория с более высоким Score размещаются на более заметном месте (more prominent location), чем результаты из репозитория с более низким Score.

Claim 11 (Зависимый): Описывает оптимизацию эффективности поиска (вариант с выборочным поиском).

Система выбирает группу репозиториев для поиска на основе их Scores (рассчитанных до поиска). Поиск выполняется только по этой выбранной группе репозиториев, а не по всем доступным.

Где и как применяется

Изобретение является ключевым компонентом для реализации Универсального поиска и затрагивает несколько этапов.

QUNDERSTANDING – Понимание Запросов
На этом этапе происходит офлайн-обучение модели на основе анализа логов. В режиме реального времени запрос и контекст пользователя обрабатываются для извлечения признаков (Features), которые подаются на вход модели. Это форма классификации интента, сфокусированная на определении желаемого типа контента.

RANKING – Ранжирование / METASEARCH – Метапоиск и Смешивание
Основное применение патента. Система должна решить, какие вертикали (репозитории) активировать (Triggering) и как их объединить (Blending). Патент описывает два основных варианта реализации:

Оптимизация отображения (Path A): Поиск выполняется во всех репозиториях. Модель используется *после* поиска для определения того, какие результаты отображать и как их смешивать.
Оптимизация поиска (Path B): Модель используется *до* выполнения поиска для прогнозирования Scores. Поиск выполняется только в репозиториях с высокими оценками. Это экономит ресурсы.

Патент также упоминает гибридный подход: использование «приблизительной основной модели» (approximate main model) с дешевыми признаками для выбора репозиториев для поиска (Path B), а затем использование «полной основной модели» (full main model) с дорогими признаками (включая анализ полученных документов) для финального смешивания.

Входные данные:

Информация о пользователе (u).
Информация о запросе (q).
Характеристики репозиториев (r).
(Опционально для полной модели) Документы, полученные в результате поиска.

Выходные данные:

Scores для каждого репозитория, прогнозирующие желание пользователя.
Решение о том, какие репозитории искать.
Решение о том, как смешивать и отображать результаты (макет SERP).

На что влияет

Специфические запросы: Наибольшее влияние оказывается на запросы с четким интентом по типу контента. Например, визуально-ориентированные запросы (активация Image Repository), запросы, связанные с покупками (Product Repository), или запросы о текущих событиях (News Repository).
Все типы контента: Влияет на видимость стандартных веб-страниц, так как они могут быть вытеснены блоками из специализированных репозиториев, если модель предсказывает более высокую вероятность желания специализированного контента.

Когда применяется

Триггеры активации: Алгоритм применяется для определения оптимальной композиции SERP для большинства запросов. Активация поиска в конкретной вертикали и отображение ее результатов происходят, когда Score для этой вертикали превышает определенный порог или является наивысшим среди всех репозиториев.
Особые случаи (Exploration Policy): Патент упоминает «политику исследования», при которой система может намеренно показывать результаты из субоптимального репозитория небольшому проценту пользователей для сбора дополнительных данных для обучения модели.

Пошаговый алгоритм

Процесс А: Офлайн-обучение модели

Сбор данных: Накопление журналов поиска (Log Data).
Представление данных: Представление данных журнала как наборов экземпляров (Instances) в виде троек (u, q, r).
Определение меток: Для каждого экземпляра определяется метка (Label) — желал ли пользователь u информацию из репозитория r при запросе q (например, был ли клик).
Определение признаков: Для каждого экземпляра извлекаются признаки (Features) — контекстуальные, пользовательские, запрос-зависимые и агрегированные.
Генерация модели: Обучение модели (например, логистической регрессии) на основе экземпляров, меток и признаков для прогнозирования P(desire | u, q, show_r).

Процесс Б: Онлайн-применение (Вариант 1: Поиск по всем репозиториям)

Получение запроса и информации о пользователе.
Выполнение поиска: Поиск выполняется параллельно по всем (или многим) репозиториям.
Расчет оценок: Информация о пользователе и запросе (и, возможно, о полученных результатах для полной модели) подается на вход модели. Рассчитывается Score для каждого репозитория.
Предоставление результатов: Система решает, какие результаты включить в выдачу и как их расположить (Blending), основываясь на Scores. Например, показывать только репозиторий с наивысшей оценкой или смешивать несколько.

Процесс В: Онлайн-применение (Вариант 2: Выборочный поиск)

Получение запроса и информации о пользователе.
Идентификация репозиториев для поиска: Информация о пользователе и запросе подается на вход модели (возможно, приблизительной). Модель рассчитывает Score для каждого репозитория. Выбираются репозитории для поиска (например, Топ-2 или те, что выше порога).
Выполнение поиска: Поиск выполняется только в идентифицированных репозиториях.
Предоставление результатов: Полученные результаты предоставляются пользователю. Макет отображения также может зависеть от рассчитанных Scores (например, порядок блоков).

Какие данные и как использует

Данные на входе

Патент детализирует признаки (Features), используемые для обучения модели, которые основаны на тройке (u, q, r).

Пользовательские факторы (u):

Страна пользователя.
Язык пользователя или язык страны пользователя.
Идентификатор cookie.
IP-адрес (используется для геолокации).
Предыдущие запросы пользователя (упомянуты в описании Log Data).

Временные факторы (u/q):

Время суток, когда пользователь отправил запрос.
День недели.

Запрос-зависимые факторы (q):

Язык запроса.
Каждый термин в запросе q.

Контентные факторы (r) (Опционально):

Эти признаки требуют выполнения поиска и являются вычислительно дорогими (computationally expensive). Используются в «полной модели».

Документы из репозитория r, которые были показаны пользователю u.
Каждый из терминов в этих документах.
Каждый из терминов в заголовках этих документов.

Поведенческие факторы (Агрегированные статистики):

Эти данные критически важны для обучения и используются как признаки.

Доля запросов, которые были отправлены в интерфейс репозитория r.
Доля запросов, содержащих термин из запроса q, которые были отправлены в интерфейс репозитория r.
Общий уровень кликов (Click Rate / CTR) для запросов, отправленных в интерфейс репозитория r.
CTR для запросов в интерфейс репозитория r для конкретного пользователя u.
CTR для запросов в интерфейс репозитория r для пользователей из той же страны, что и u.
CTR для конкретного запроса q, отправленного в интерфейс репозитория r.

Какие метрики используются и как они считаются

Метка (Label): Бинарная переменная, указывающая на желание пользователя. Рассчитывается на основе того, выбрал ли (кликнул) пользователь документ из данного репозитория.
Оценка (Score): Выход модели. Вероятность того, что пользователь u желает информацию из репозитория r при запросе q:

Фундамент Универсального Поиска: Патент описывает базовый механизм, позволяющий Google смешивать результаты из разных вертикалей (репозиториев) на одной странице выдачи. Система решает задачу классификации интента по типу контента.
Принятие решений на основе данных о поведении: Ключевым элементом является обучение модели машинного обучения на реальных пользовательских данных (логах). То, как пользователи взаимодействуют с результатами (клики), напрямую определяет, какие типы контента будут показаны в будущем для схожих запросов и контекстов.
Прогнозирование желаемого формата контента: Система не просто оценивает релевантность контента, она прогнозирует вероятность того, что пользователь *желает* увидеть определенный формат (например, картинки вместо текста).
Важность контекста (Персонализация и Ситуативность): Модель использует тройку (u, q, r), что означает, что решение принимается не только на основе запроса (q), но и на основе контекста пользователя (u) — его местоположения, языка, истории поиска и времени суток. Выдача может выглядеть по-разному для разных пользователей по одному и тому же запросу.
Гибкость реализации и оптимизация ресурсов: Патент предусматривает гибкость в том, когда применять модель: до поиска (для экономии ресурсов, решая, *где* искать) или после поиска (для определения, *что* и *как* показывать), а также гибридные подходы с использованием упрощенных и полных моделей.

Best practices (это мы делаем)

Оптимизация под вертикали (Vertical SEO): Необходимо рассматривать SEO не только как оптимизацию веб-страниц, но и как оптимизацию для всех релевантных репозиториев. Если анализ SERP показывает присутствие блоков Картинок, Видео, Новостей или Товаров, необходимо применять соответствующие стратегии (Image SEO, Video SEO и т.д.), чтобы максимизировать видимость.
Анализ доминирующего интента по типу контента: Для ключевых запросов необходимо определить, какой тип контента предпочитают пользователи. Если модель Google стабильно отдает предпочтение изображениям для запроса (высокий Score для Image Repository), фокусироваться нужно на создании и оптимизации качественных изображений.
Создание контента в предпочтительном формате: Если пользователи систематически выбирают видео-результаты для определенной темы, создание текстового лонгрида может быть менее эффективным. Необходимо создавать контент в том формате, который модель Google считает наиболее желаемым для данной аудитории и запроса.
Улучшение поведенческих сигналов (CTR): Поскольку модель обучается на исторических кликах (Labels и Click Rates), оптимизация сниппетов во всех вертикалях (заголовки, миниатюры видео/изображений) для повышения CTR критически важна. Это дает положительные сигналы для обучения модели.

Worst practices (это делать не надо)

Игнорирование специализированных вертикалей: Фокусироваться исключительно на оптимизации для «10 синих ссылок» в тематиках, где пользователи явно предпочитают другой тип контента (например, пытаться ранжировать текстовую страницу по запросу "схема двигателя BMW X5", когда пользователи ищут изображения).
Несоответствие формата интенту: Создание контента, который не соответствует формату, предпочитаемому пользователями для данного запроса. Система отдаст приоритет репозиторию с подходящим форматом.

Стратегическое значение

Этот патент заложил основу для перехода от статической выдачи к динамической, смешанной выдаче (Universal Search). Он подтверждает, что Google стремится предоставить наиболее подходящий *формат* ответа, а не только наиболее релевантный текстовый документ. Стратегически это означает, что SEO-специалисты должны быть экспертами в мультиформатном контенте и понимать, как пользовательское поведение и контекст формируют ландшафт SERP в их нише.

Практические примеры

Сценарий 1: Визуальный интент (Пример из патента)

Запрос: "Sunset" (Закат).
Обработка: Пользователь вводит запрос в стандартный интерфейс.
Прогноз Модели: Модель анализирует исторические данные и определяет, что для этого запроса пользователи массово кликают на изображения. Score для Image Repository = 0.91, для Web Page Repository = 0.45.
Действие Системы (Смешивание): Google решает смешать выдачу, но отдать приоритет картинкам (согласно Claim 9).
Результат (SERP): Блок с изображениями показывается на самом верху (more prominent location), вытесняя стандартные веб-результаты.

Сценарий 2: Новостной интент (Пример из патента)

Запрос: "Iraq War" (Иракская война).
Обработка: Пользователь вводит запрос.
Прогноз Модели: Модель определяет, что пользователи ищут актуальную информацию. Score для News Repository значительно выше, чем для Web Page Repository.
Действие Системы: Google активирует поиск в новостном репозитории и смешивает выдачу.
Результат (SERP): Блок "Top Stories" (Главные новости) или результаты из News Repository показываются на приоритетной позиции.

Что является самым важным фактором для определения того, какой репозиторий выберет Google?

На основе патента, самым важным фактором является прогнозируемая вероятность того, что пользователь желает контент из этого репозитория. Эта вероятность (Score) рассчитывается моделью машинного обучения, которая обучается на исторических данных о том, на что пользователи кликали (Label) в ответ на определенные запросы (q) в определенном контексте (u).

Учитывает ли эта система персонализацию?

Да, система явно учитывает персонализацию. Входные данные для модели включают информацию о пользователе (u), такую как cookie ID, местоположение (IP, страна), язык и историю предыдущих запросов. Это означает, что для одного и того же запроса модель может предсказать разные желаемые репозитории для разных пользователей.

Как этот патент связан с Universal Search (Универсальным поиском)?

Этот патент описывает фундаментальный механизм работы Universal Search. Он предоставляет метод для принятия решений о том, когда и как смешивать результаты из разных вертикалей (Веб, Картинки, Новости и т.д.) на одной странице выдачи, основываясь на прогнозируемом желании пользователя.

Может ли Google решить вообще не показывать стандартные веб-результаты?

Да, патент описывает такую возможность. Если правило гласит, что нужно предоставлять результаты только из репозитория с наивысшим Score (Claim 1), и этот Score принадлежит, например, Image Repository, то пользователю могут быть показаны только результаты из этого репозитория.

Как Google решает, какой блок показать выше: Картинки или Новости?

Решение принимается на основе выходных оценок (Scores) модели. Если Score для Image Repository выше, чем для News Repository, блок картинок будет показан на более заметной позиции (more prominent location), как указано в Claim 9. Порядок блоков напрямую коррелирует с прогнозируемой вероятностью желания пользователя.

Что такое «приблизительная» и «полная» модели, упомянутые в патенте?

Патент описывает стратегию оптимизации ресурсов. «Приблизительная модель» (approximate main model) использует дешевые признаки (которые легко вычислить до поиска) для быстрого решения, в каких репозиториях искать. «Полная модель» (full main model) использует дорогие признаки (например, анализ содержания найденных документов), которые требуют выполнения поиска, для финального решения о смешивании и отображении.

Как SEO-специалист может повлиять на то, чтобы его контент попал в нужный репозиторий?

Необходимо создавать контент в формате, соответствующем репозиторию (изображения, новости, товары), и оптимизировать его согласно лучшим практикам для данной вертикали. Также важно убедиться, что контент удовлетворяет интент пользователя и стимулирует клики, так как это поведение используется для обучения модели.

Что такое "политика исследования" (Exploration Policy), упомянутая в патенте?

Это механизм для сбора данных об эффективности разных репозиториев. Система может намеренно показывать результаты из субоптимального репозитория небольшому проценту пользователей, даже если модель предсказывает низкий Score. Это позволяет Google тестировать новые вертикали и собирать данные для дообучения модели.

Использует ли Google эту технологию сегодня?

Концептуально — да, это основа современной смешанной выдачи. Однако реализация, скорее всего, значительно эволюционировала. Упомянутые в патенте 2005 года методы (например, логистическая регрессия) почти наверняка заменены передовыми моделями глубокого обучения, но задача осталась той же: предсказать желаемый тип контента.

Что делать, если мой контент релевантен, но Google показывает другой тип контента в топе?

Это указывает на то, что модель Google определила, что пользователи предпочитают другой формат контента для этого запроса. В этом случае необходимо пересмотреть стратегию: либо создать и оптимизировать контент в том формате, который предпочитает Google (например, видео или изображения), либо сфокусироваться на запросах, где ваш текущий формат контента является доминирующим.

Как Google использует машинное обучение для ранжирования в Поиске по Картинкам, динамически взвешивая сигналы изображения и посадочной страницы

Google использует модель машинного обучения для ранжирования изображений, которая совместно обрабатывает признаки запроса, самого изображения и посадочной страницы, на которой оно размещено. Это позволяет системе динамически определять важность визуальных характеристик изображения и контекста страницы в зависимости от конкретного запроса, улучшая релевантность выдачи.

US20200201915A1
2020-06-25

Мультимедиа
SERP

Как Google использует историю поведения пользователя для персонализации выбора и ранжирования вертикальных блоков (Universal Search)

Google отслеживает, с какими типами специализированных результатов (Новости, Картинки, Карты и т.д.) взаимодействует пользователь. На основе этой истории поведения строится персональная вероятностная модель, которая предсказывает, какие вертикали предпочтет пользователь в будущем. Система использует эти предсказания для выбора, оценки и ранжирования блоков вертикального поиска в выдаче.

US9305088B1
2016-04-05

Персонализация
Поведенческие сигналы
SERP

Как Google использует статистику поиска и кликов по разным вертикалям (Web, Картинки, Видео) для определения предпочтительного типа контента и ранжирования в Универсальном Поиске

Google анализирует, в каких вертикалях (корпусах) пользователи чаще ищут определенный запрос и на какие типы результатов они кликают в смешанной выдаче. Система вычисляет "Меру относительной релевантности" для каждого корпуса и использует её для повышения результатов из наиболее предпочтительного корпуса, учитывая язык, страну пользователя и актуальные тренды.

US8359309B1
2013-01-22

SERP
Поведенческие сигналы
Мультимедиа

Как Google формирует универсальную выдачу (Universal Search), смешивая и ранжируя результаты из разных вертикалей поиска

Патент описывает фундаментальный механизм "Универсального Поиска". Google одновременно ищет информацию по запросу в разных категориях (Веб, Новости, Товары, Картинки). Система ранжирует не только документы, но и сами категории по релевантности запросу, определяя, какие результаты объединить в единую выдачу и насколько заметно (Prominence) они будут представлены.

US7447678B2
2008-11-04

SERP

Как Google использует машинное обучение и поведенческие данные для прогнозирования полезности документов и решает, что включать в поисковый индекс

Google использует модель машинного обучения для определения, какие документы включать в поисковый индекс. Модель обучается на исторических данных о кликах и показах, чтобы предсказать будущую «оценку полезности» (Utility Score) документа. Документы ранжируются по этой оценке, а также с учетом других факторов (например, PageRank, стоимость индексации, свежесть, квоты), и лучшие из них попадают в индекс.

US8255386B1
2012-08-28

Индексация
Поведенческие сигналы

Как Google использует географическое положение и историю поведения пользователей для разрешения неоднозначных запросов

Google применяет механизм для интерпретации неоднозначных поисковых запросов, которые имеют несколько географических или категориальных значений. Система определяет доминирующий интент, анализируя, как пользователи в том же регионе ранее уточняли похожие запросы и насколько они были удовлетворены результатами. На основе этих локализованных данных (гистограмм и метрик неудовлетворенности) выбирается наиболее вероятная интерпретация, и выдача фильтруется соответственно.

US8478773B1
2013-07-02

Семантика и интент
Персонализация
Поведенческие сигналы

Как Google автоматически распознает сущности в тексте и связывает их в Knowledge Graph с помощью динамических поисковых ссылок

Google использует автоматизированную систему для поддержания связей между сущностями (объектами) в своем хранилище фактов (Knowledge Graph). Система сканирует текст, статистически определяет значимые фразы и сверяет их со списком известных объектов. При совпадении создается динамическая «поисковая ссылка» вместо фиксированного URL. Это позволяет Google постоянно обновлять связи по мере добавления новых знаний.

US8260785B2
2012-09-04

Knowledge Graph
Семантика и интент
Ссылки

Как Google использует близость цитирований (ссылок) для кластеризации результатов поиска

Google может группировать результаты поиска, анализируя, как документы ссылаются друг на друга. Система оценивает силу связи между документами, проверяя контекстуальную близость общих цитирований. Ссылки, расположенные в одном предложении (co-citation) или абзаце, имеют значительно больший вес, чем ссылки, просто присутствующие в документе. Это позволяет формировать точные тематические кластеры, отсеивая группы со слабыми связями.

US8612411B1
2013-12-17

Ссылки
SERP

Как Google использует данные о кликах разных групп пользователей (популяций) для локализации и персонализации ранжирования

Google адаптирует результаты поиска, анализируя, как разные группы пользователей (популяции), определяемые по местоположению, языку или демографии, взаимодействуют с выдачей. Система рассчитывает «Сигнал Популяции» (Population Signal) на основе исторических кликов группы и корректирует ранжирование. Также используется механизм сглаживания для компенсации нехватки данных по конкретным группам.

US7454417B2
2008-11-18

Персонализация
Поведенческие сигналы
SERP

Как Google использует внешние сигналы (соцсети, новости, блоги) для верификации реальной популярности контента и фильтрации накруток

Google верифицирует популярность контента (например, видео) проверяя, упоминается ли он на внешних источниках: блогах, новостных сайтах и в социальных сетях. Это позволяет формировать списки "популярного", отражающие подлинный широкий интерес, отфильтровывая контент с искусственно завышенными просмотрами или узконишевой популярностью. Система также учитывает географическую релевантность внешних упоминаний.

US9465871B1
2016-10-11

Антиспам
SERP
Ссылки

Как Google использует машинное обучение и данные о длительности сессий для выявления битых Deep Links в мобильных приложениях

Google использует систему машинного обучения для анализа того, как долго пользователи взаимодействуют с контентом в приложении после перехода по Deep Link (Presentation Duration). Анализируя распределение этих временных интервалов, система классифицирует ссылку как рабочую или битую без необходимости прямого сканирования контента. Это позволяет Google удалять неработающие ссылки из индекса.

US10628511B2
2020-04-21

Ссылки
Индексация
Поведенческие сигналы

Как Google обрабатывает клики по ссылкам на мобильные приложения (App Deep Links) в результатах поиска

Google использует механизм клиентской обработки результатов поиска, ведущих в нативные приложения. Если у пользователя не установлено нужное приложение, система на устройстве автоматически подменяет ссылку приложения (App Deep Link) на эквивалентный веб-URL. Это гарантирует доступ к контенту через браузер и обеспечивает бесшовный пользовательский опыт.

US10210263B1
2019-02-19

Ссылки
SERP

Как Google алгоритмически определяет и верифицирует языковые версии страниц, анализируя ссылки, контент и частоту обновлений

Google использует систему для автоматической идентификации связанных версий контента (например, переводов). Система анализирует ссылки между страницами и ищет «индикаторы связи» (названия языков в анкорах или флаги). Обнаруженная связь затем верифицируется с помощью машинного перевода и сравнения контента, а также анализа частоты обновлений. Это позволяет Google показывать пользователю наиболее подходящую языковую или региональную версию в поиске.

US8892596B1
2014-11-18

Мультиязычность
Ссылки
SERP

Как Google использует анализ сущностей в результатах поиска для подтверждения интента и продвижения авторитетного контента

Google анализирует сущности (Topics/Entities) и их типы, общие для топовых результатов поиска, чтобы определить истинный интент запроса. Если интент подтверждается этим тематическим консенсусом выдачи, система продвигает "авторитетные кандидаты" (например, полные фильмы). Если консенсуса нет, продвижение блокируется для предотвращения показа нерелевантных результатов.

US9213745B1
2015-12-15

Семантика и интент
EEAT и качество
SERP

Как Google рассчитывает «сигнал конкурентоспособности» (Competition Signal) страниц на основе анализа кликов, показов и времени взаимодействия

Google оценивает качество страниц, анализируя их «победы» и «поражения» в поисковой выдаче. Система сравнивает, как часто пользователи выбирают данный URL вместо других и как долго они взаимодействуют с контентом по сравнению с конкурентами (Dwell Time). На основе этих данных рассчитывается корректирующий фактор, который повышает или понижает позиции страницы, отражая её относительную конкурентоспособность и удовлетворенность пользователей.

US9020927B1
2015-04-28

Поведенческие сигналы
SERP
EEAT и качество