SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google классифицирует веб-страницы и персонализирует выдачу, используя историю запросов и поведенческие данные

GENERATING IMPROVED DOCUMENT CLASSIFICATION DATA USING HISTORICAL SEARCH RESULTS (Генерация улучшенных данных классификации документов с использованием исторических результатов поиска)
  • US8185544B2
  • Google LLC
  • 2009-04-08
  • 2012-05-22
  • Персонализация
  • Поведенческие сигналы
  • SERP
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Google использует итеративный метод для тематической классификации веб-страниц, не анализируя их контент напрямую. Система анализирует исторические логи запросов и данные о кликах. Классификация известных страниц переносится на запросы, в результатах которых они появляются, а затем классификация этих запросов переносится на новые страницы. Эти данные используются для построения профилей пользователей и персонализации поисковой выдачи.

Описание

Какую проблему решает

Патент решает проблему масштабируемой и точной классификации огромного количества информационных элементов (information items, например, веб-страниц) в интернете. Многие страницы не классифицированы или классифицированы неверно, а традиционные методы, основанные на анализе контента, могут быть ресурсоемкими. Отсутствие точной классификации мешает предоставлять релевантные результаты и персонализированные сервисы (customized services).

Что запатентовано

Запатентована система для генерации классификационных данных (classification data) для изначально неклассифицированных документов путем использования исторических данных поиска (historical query information) и классификационных данных уже известных документов (seed classification data). Суть изобретения заключается в итеративном процессе "распространения" (spreading) классификации: от известных документов к запросам, а затем от запросов к неизвестным документам, основываясь на их совместном появлении в результатах поиска и поведении пользователей.

Как это работает

Система работает в два основных этапа распространения классификации:

  • Этап 1 (Документы → Запросы): Система анализирует логи запросов. Для конкретного запроса она агрегирует классификацию известных документов в его результатах для создания профиля запроса (Query Profile). Агрегация взвешивается на основе релевантности документа запросу (IR score, позиция в выдаче) и поведения пользователей (click data, navigation rate).
  • Этап 2 (Запросы → Документы): Для неклассифицированного документа система находит все запросы, в результатах которых он появлялся, и агрегирует их профили для создания профиля документа. Эта агрегация также взвешивается на основе релевантности документа каждому запросу.

Этот процесс может повторяться итеративно. Полученные данные используются для построения профилей пользователей (User Profiles) и персонализации поисковой выдачи.

Актуальность для SEO

Высокая. Тематическая классификация документов и понимание сущностей лежат в основе современного поиска, Topical Authority и персонализации. Описанный механизм, использующий логи запросов и поведенческие сигналы для классификации контента без прямого анализа его содержимого, остается крайне актуальным для понимания того, как Google масштабно определяет тематику ресурсов.

Важность для SEO

Патент имеет высокое стратегическое значение (8/10). Он описывает механизм, позволяющий Google определять тематику страницы на основе того, по каким запросам она ранжируется и как пользователи с ней взаимодействуют, а не только на основе анализа текста. Это подчеркивает критическую важность ранжирования по релевантным запросам и получения положительных поведенческих сигналов (кликов) для корректной тематической классификации сайта системой.

Детальный разбор

Термины и определения

Classification Data (Классификационные данные)
Данные, описывающие тематику или категорию информационного элемента (документа, запроса, пользователя). Представляются в виде разреженного вектора (sparse vector) или списка категорий (Category list), состоящего из пар "Идентификатор Категории" и "Вес" (Category ID, Weight).
Historical Query Information (Историческая информация о запросах)
Логи поисковых запросов. Включают User ID, термины запроса, список результатов (URL IDs), данные о показе (Impression Data) и данные о кликах (Click Data).
Impression Data (Данные о показе)
Данные, связанные с отображением результата поиска. Включают IR Score (оценку релевантности) и Position Data (позицию результата в выдаче).
Information Item (Информационный элемент)
Любая единица информации, доступная по идентификатору (например, URL), такая как веб-страница или веб-сайт.
Information Classification Seed Database (База данных исходной классификации)
Хранилище предварительно сгенерированных классификационных данных для начального набора документов. Используется как отправная точка для процесса распространения классификации.
Navigation Rate (Частота переходов)
Метрика популярности URL. Определяется как отношение количества выборов данного URL к общему количеству выборов всех URL в результатах поиска по одному и тому же запросу за определенный период.
Query Profile (Профиль запроса)
Классификационные данные, присвоенные конкретному запросу. Генерируется путем агрегации профилей документов, показанных в результатах этого запроса.
Spreading (Распространение)
Процесс переноса классификационных данных от классифицированных элементов к неклассифицированным через промежуточные звенья (запросы).
User Profile (Профиль пользователя)
Классификационные данные, описывающие поисковые интересы пользователя. Генерируется путем агрегации профилей документов, которые пользователь выбирал в результатах поиска.

Ключевые утверждения (Анализ Claims)

Патент описывает итеративный процесс распространения классификации. Ключевые независимые пункты (Claims 1 и 11) описывают два этапа этого процесса.

Claim 1 (Независимый пункт): Этап 1 - От документов к запросам.

Описывает метод генерации классификационных данных для неклассифицированных элементов (вторые элементы) на основе классифицированных (первые элементы) и исторических логов запросов, с фокусом на генерацию классификации запросов:

  1. Система получает доступ к логам запросов и к исходной классификации (seed data).
  2. Процесс генерации включает:
    • Идентификацию набора запросов.
    • Генерацию классификации для этого набора запросов (Ядро Claim 1).
    • Генерацию классификации для документа путем комбинирования классификаций этих запросов.
  3. Детализация генерации классификации запросов:
    • Для запроса идентифицируются классифицированные документы в его результатах.
    • Классификация этих документов взвешивается на основе: IR scores, позиций в выдаче (search results' positions) и взаимодействия с пользователем (user interaction).
    • Взвешенные данные агрегируются для получения классификации запроса (Query Profile).

Claim 11 (Независимый пункт): Этап 2 - От запросов к документам.

Описывает тот же общий процесс, что и Claim 1, но фокусируется на деталях генерации классификации документов на основе классификации запросов:

  1. (Шаги аналогичны Claim 1).
  2. Детализация генерации классификации документа путем комбинирования классификаций запросов (Ядро Claim 11):
    • Для каждого запроса, где документ был результатом:
    • Классификация запроса (Query Profile) взвешивается на основе релевантности документа этому запросу: IR score документа, его позиция в выдаче и взаимодействие пользователя с этим документом.
    • Взвешенные классификации запросов агрегируются для получения классификации документа.

Claim 12 (Зависимый от 11): Уточняет, что при взвешивании классификации запроса может учитываться количество слов в запросе. (Длинные, более специфичные запросы могут получать больший вес).

Где и как применяется

Изобретение затрагивает несколько этапов поиска, работая преимущественно в офлайн-режиме для генерации данных и в онлайн-режиме для их применения.

INDEXING – Индексирование и извлечение признаков
Основное применение патента. Это процесс, происходящий офлайн (batch processing), который анализирует исторические данные для генерации новых признаков (тегов классификации) для документов и запросов.

  • Система использует Information Classification Seed Database как отправную точку и обрабатывает Query Log Database.
  • Результаты сохраняются в Information Classification Database (профили документов) и, опционально, в Query Profile Database. Эти данные становятся частью индекса.
  • Также на этом этапе генерируются User Profiles на основе классифицированных документов, которые пользователи посещали.

RANKING / RERANKING – Ранжирование и Переранжирование
Сгенерированные данные используются на этапе ранжирования или переранжирования для персонализации выдачи (customized services).

  • При запросе система извлекает User Profile пользователя.
  • Стандартные результаты поиска оцениваются путем сравнения их классификационных данных с User Profile пользователя.
  • Результаты переупорядочиваются (re-ordered) для повышения позиций тех документов, чья классификация наиболее близка интересам пользователя.

Входные данные:

  • Historical Query Information (Логи запросов).
  • Information Classification Seed Database (Исходные данные классификации).

Выходные данные:

  • Information Classification Database (Расширенные профили документов).
  • Query Profile Database (Профили запросов).
  • User Profile Database (Профили пользователей).

На что влияет

  • Типы контента: Влияет на все типы контента (information items), которые появляются в результатах поиска, включая веб-страницы и целые веб-сайты.
  • Специфические запросы: Механизм генерации профилей запросов особенно важен для понимания неоднозначных запросов. Патент отмечает, что специфичность запроса (измеряемая длиной запроса или сходством результатов) может влиять на вес его профиля при классификации документов.

Когда применяется

  • Генерация классификации (Офлайн): Происходит как периодический процесс обработки данных (batch job) для обновления баз данных классификации и профилей пользователей. Используются исторические данные за определенный период (например, последние шесть месяцев).
  • Персонализация (Онлайн): Происходит в реальном времени при обработке запроса пользователя, если для него существует User Profile.

Пошаговый алгоритм

Процесс генерации классификационных данных является итеративным и состоит из двух фаз распространения.

Фаза 1: Распространение классификации от Документов к Запросам (URL → Query)

  1. Сбор данных: Получение исторических логов запросов и исходных данных классификации (Seed Data).
  2. Инициализация обработки запросов: Для каждой записи в логе запросов (или для каждого уникального запроса):
  3. Идентификация релевантных документов: Определение списка URL в результатах поиска, имеющих исходную классификацию.
  4. Взвешивание классификации документов: Применяются критерии взвешивания. Вес определяется релевантностью URL запросу, используя IR score, позицию в выдаче, Navigation Rate и Click Data. Высокорелевантные и кликабельные URL получают больший вес.
  5. Агрегация: Взвешенные классификационные данные документов агрегируются для формирования Профиля Запроса (Query Profile).

Фаза 2: Распространение классификации от Запросов к Документам (Query → URL)

  1. Инициализация обработки документов: Для каждого URL (особенно неклассифицированного):
  2. Идентификация связанных запросов: Определение всех запросов, в результатах которых появлялся данный URL.
  3. Взвешивание профилей запросов: Для каждого связанного запроса его Query Profile взвешивается. Вес определяется:
    1. Насколько релевантен был данный URL этому конкретному запросу (используя IR score, позицию, клики).
    2. Специфичностью самого запроса (например, длина запроса или средняя попарная косинусная близость (average pairwise cosine similarities) результатов).
  4. Агрегация: Взвешенные Профили Запросов агрегируются для формирования Профиля Документа.
  5. Нормализация и Фильтрация: Агрегированные данные нормализуются (например, делением на сумму весов запросов). Если количество запросов, связанных с URL, ниже порога, профиль может не генерироваться.
  6. Хранение: Сгенерированные Профили Документов сохраняются.

Итерация: Фазы 1 и 2 могут повторяться, при этом результаты предыдущей итерации используются в качестве исходных данных для следующей.

(Дополнительно) Фаза 3: Генерация Профилей Пользователей

  1. Идентификация активности пользователя: Определяются все URL, на которые пользователь кликал.
  2. Агрегация профилей: Профили кликнутых URL агрегируются для создания User Profile. При агрегации может учитываться частота и давность кликов.

Какие данные и как использует

Данные на входе

Система полагается в первую очередь на поведенческие и системные данные, а не на анализ контента.

  • Поведенческие факторы: Критически важны для взвешивания.
    • Click Data: Информация о том, был ли выбран результат пользователем.
    • Navigation Rate: Относительная частота выбора URL по сравнению с другими результатами по тому же запросу.
    • Логи запросов (Historical Query Information): Используются для определения совместного появления документов и запросов.
  • Системные данные (Факторы релевантности):
    • IR Score (Information Retrieval Score): Предварительно рассчитанная оценка релевантности документа запросу.
    • Position Data: Позиция документа в результатах поиска.
  • Исходные данные классификации (Seed Data):
    • Information Classification Seed Database: Предварительная классификация начального набора документов.

Какие метрики используются и как они считаются

  • Вес релевантности документа запросу: Ключевая метрика для обоих этапов распространения. Рассчитывается как функция от IR Score, Position Data, Click Data и Navigation Rate. Документы на верхних позициях с высокими показателями кликабельности получают больший вес.
  • Вес специфичности запроса (Query Weight): Метрика, используемая на Этапе 2. Рассчитывается на основе количества терминов в запросе или на основе сходства (например, average cosine similarity) классификационных векторов результатов поиска. Более специфичные запросы получают больший вес.
  • Профиль (Query Profile, URL Profile, User Profile): Представляет собой разреженный вектор категорий и их весов. Генерируется путем взвешенной агрегации.
  • Оценка персонализации: При использовании данных для персонализации рассчитывается сходство между User Profile и URL Profile. Патент упоминает использование косинусного расстояния (cosine) или скалярного произведения (dot product) векторов.

Выводы

  1. Классификация без анализа контента: Ключевой вывод заключается в том, что Google может генерировать точную тематическую классификацию документов (Classification Data), не анализируя их содержимое напрямую. Система опирается на структуру связей между документами и запросами в исторических логах поиска.
  2. Поведенческие факторы как основа классификации: Релевантность (IR Score, позиция) и поведение пользователей (Click Data, Navigation Rate) являются определяющими факторами (весами) в процессе классификации. То, на что кликают пользователи, определяет тематику контента в глазах системы.
  3. Принцип совместного появления (Co-occurrence): Классификация распространяется через совместное появление в SERP. Если неклассифицированная страница постоянно появляется в результатах поиска по запросам, которые система классифицировала в определенной теме, и получает клики, эта страница наследует эту классификацию.
  4. Итеративное улучшение и масштабируемость: Процесс является итеративным. Начав с небольшого набора исходных данных (Seed Data), система может быстро классифицировать огромный массив документов и запросов, улучшая точность с каждой итерацией и по мере поступления новых данных поиска.
  5. Фундамент для персонализации: Конечной целью генерации этой классификации является предоставление персонализированных сервисов. Точная классификация документов позволяет системе строить детальные профили интересов пользователей (User Profiles) и адаптировать выдачу под них.

Практика

Best practices (это мы делаем)

  • Фокус на Topical Authority и четкое тематическое позиционирование: Необходимо убедиться, что страницы сайта четко отвечают на запросы определенной тематики. Это увеличивает вероятность того, что система корректно классифицирует ваши страницы на основе Query Profiles запросов, по которым они ранжируются.
  • Оптимизация под релевантные и специфичные запросы: Для корректной классификации критически важно ранжироваться высоко (высокий IR Score и Position Data) по релевантным запросам. Кроме того, так как специфичные запросы (long-tail) могут иметь больший вес, фокус на них помогает укрепить тематическую классификацию.
  • Стимулирование положительных поведенческих сигналов (CTR): Так как Click Data и Navigation Rate напрямую используются для взвешивания при распространении классификации, критически важно оптимизировать сниппеты (Title, Description) для повышения CTR по целевым запросам. Получение кликов подтверждает и усиливает связь между запросом и документом.
  • Анализ совместного появления в выдаче (Co-occurrence): Изучайте, с какими сайтами ваш ресурс появляется в выдаче. Если ваш ресурс появляется рядом с авторитетными сайтами той же тематики, это способствует корректной классификации через механизм, описанный в патенте.

Worst practices (это делать не надо)

  • Размытие тематики страницы (Mixed Topics): Создание страниц, пытающихся охватить слишком много разных тем. Это может привести к тому, что страница будет ассоциироваться с разнообразными, слабо связанными профилями запросов, что затруднит формирование четкого классификационного профиля документа.
  • Использование кликбейта или привлечение нецелевого трафика: Если страница получает клики по запросам, не соответствующим ее основной теме, система может ассоциировать ее с неправильными категориями, что приведет к неверной классификации и ухудшению ранжирования по целевым запросам.
  • Игнорирование оптимизации сниппетов и UX: Низкий CTR или плохой пользовательский опыт (влияющий на Navigation Rate) при высоких позициях может снизить вес связи между запросом и документом. Это означает, что профиль запроса будет слабее влиять на профиль документа, замедляя или искажая его классификацию.

Стратегическое значение

Этот патент подтверждает, что тематическая классификация в Google не ограничивается анализом текста на странице. Поисковая система активно использует данные о том, как пользователи ищут и что они выбирают, чтобы понять, о чем контент на самом деле. Это подчеркивает переход от чисто текстовой релевантности к поведенческой и тематической релевантности. Долгосрочная SEO-стратегия должна быть направлена на создание устойчивой ассоциации между сайтом и его целевой тематикой в экосистеме поиска, что достигается через стабильное ранжирование и вовлечение пользователей по профильным запросам.

Практические примеры

Сценарий: Классификация новой страницы о породе собак "Сиба-ину".

  1. Исходное состояние: У Google уже есть классифицированные страницы о Сиба-ину (например, Википедия, сайты клубов собаководства) с профилем: "Домашние животные", "Собаки".
  2. Этап 1 (Документы → Запросы): Пользователи ищут "уход за сиба-ину". В результатах появляются классифицированные страницы. Система генерирует Query Profile для запроса "уход за сиба-ину", наследуя категории "Домашние животные", "Собаки".
  3. Появление новой страницы: Ваша новая страница начинает ранжироваться по запросу "уход за сиба-ину", допустим, на 8 позиции.
  4. Взаимодействие: Пользователи начинают кликать на вашу страницу (положительный Click Data).
  5. Этап 2 (Запросы → Документы): Система генерирует профиль для вашей новой страницы. Она агрегирует Query Profile запроса "уход за сиба-ину". Вес этого профиля при переносе зависит от позиции (8) и CTR вашей страницы.
  6. Результат: Ваша новая страница получает классификацию "Домашние животные", "Собаки", основываясь на контексте поиска и поведении пользователей. Чем выше страница ранжируется и чем чаще на неё кликают, тем быстрее и точнее будет классификация.

Вопросы и ответы

Означает ли этот патент, что анализ контента (ключевых слов) больше не важен?

Нет, анализ контента по-прежнему критически важен. Контент и ключевые слова помогают поисковой системе рассчитать начальный IR Score и определить, по каким запросам страница должна ранжироваться. Однако этот патент показывает, что для тематической классификации (определения категории страницы) Google может полагаться на поведенческие данные и совместное появление в выдаче, а не только на текст.

Какова роль кликов (CTR) и поведенческих факторов в этом патенте?

Клики (Click Data) и Navigation Rate играют центральную роль в качестве критерия взвешивания на обоих этапах. На Этапе 1 клики на документ усиливают влияние его профиля на профиль запроса. На Этапе 2 клики на документ по определенному запросу усиливают влияние профиля этого запроса на профиль документа. Высокий CTR подтверждает и усиливает тематическую связь между запросом и документом.

Как этот механизм влияет на новые сайты или страницы?

Новые страницы изначально не классифицированы. Чтобы система их классифицировала по этому методу, они должны начать появляться в результатах поиска по определенным запросам и получать клики. Это подчеркивает важность начальной SEO-оптимизации для получения первых показов и трафика, что запустит процесс поведенческой классификации.

Что такое исходные данные классификации (Seed Data) и откуда они берутся?

Seed Data — это набор документов, которые уже имеют надежную классификацию. Патент не уточняет их источник, но на практике это могут быть авторитетные ресурсы (например, Википедия), данные из Knowledge Graph, результаты других алгоритмов классификации или ручная разметка. Они служат отправной точкой для всего процесса распространения.

Как система определяет специфичность запроса и зачем это нужно?

Специфичность может определяться длиной запроса (длинные запросы обычно более специфичны) или сходством результатов поиска (если все результаты об одном, запрос специфичен). Профили более специфичных запросов могут получать больший вес при классификации документов, так как они дают более точный тематический сигнал по сравнению с общими или неоднозначными запросами.

Может ли этот механизм привести к неверной классификации?

Да. Если страница начнет ранжироваться высоко и получать клики по запросам, не соответствующим её основной тематике (например, из-за временного тренда или кликбейта), система может присвоить ей неверную классификацию. Однако итеративный характер процесса и использование данных от множества пользователей направлены на коррекцию таких ошибок со временем.

Как этот патент связан с Topical Authority?

Он напрямую связан. Topical Authority подразумевает глубокое покрытие темы. Этот патент предоставляет механизм, с помощью которого Google может оценить и присвоить тематические категории всему контенту сайта. Если большинство страниц сайта стабильно классифицируются в рамках одной тематики через этот поведенческий механизм, авторитет сайта в этой теме усиливается.

Влияет ли этот механизм на классификацию целых сайтов?

Да. Патент упоминает, что information item может быть веб-сайтом. Классификация сайта может быть сгенерирована путем агрегации классификационных данных его страниц. При этом могут учитываться популярность страниц (клики) и их положение в иерархии сайта (например, количество уровней от главной страницы).

Какова конечная цель этой системы классификации?

Конечная цель, указанная в патенте, — предоставление customized services, в первую очередь персонализированного поиска. Для этого система использует сгенерированную классификацию документов для построения профилей пользователей (User Profiles) на основе того, контент каких категорий они потребляют, и затем повышает в выдаче результаты, соответствующие этим категориям.

Что важнее для взвешивания: позиция в выдаче или CTR?

Патент перечисляет IR Score, позицию и взаимодействие пользователя (клики/CTR) как критерии взвешивания, не указывая их относительную важность. Вероятно, используется комбинация. Патент отмечает, что результаты, выбранные пользователем, могут быть назначены с наивысшим возможным весом или получить предопределенное повышение (boost) к весу, основанному на позиции.

Похожие патенты

Как Google персонализирует рекомендации популярных запросов на основе истории поиска и браузинга пользователя
Google анализирует глобальные тренды поисковых запросов и сопоставляет их с индивидуальной историей пользователя (посещенные сайты, прошлые запросы, категории интересов). Если популярный запрос соответствует выявленным интересам пользователя, он будет рекомендован. Система также применяет фильтры, исключающие запросы, которые пользователь вводил недавно.
  • US9443022B2
  • 2016-09-13
  • Персонализация

  • Поведенческие сигналы

  • Свежесть контента

Как Google автоматически категоризирует локальный контент и историю пользователя для контекстного поиска по неявным запросам
Патент Google, описывающий технологию для локального (Desktop) или персонализированного поиска. Система отслеживает взаимодействие пользователя с контентом (события) и использует «схемы событий» для автоматической категоризации файлов, электронных писем и истории просмотров. Эти категории затем используются для предоставления релевантных результатов в ответ на неявные запросы, генерируемые системой на основе текущего контекста пользователя.
  • US7788274B1
  • 2010-08-31
  • Персонализация

  • Поведенческие сигналы

  • Local SEO

Как Google использует историю поиска, поведение и многофакторные профили пользователей для персонализации поисковой выдачи
Google создает детальные профили пользователей на основе истории запросов, взаимодействия с результатами (клики, время просмотра) и анализа контента посещенных страниц. Эти профили (включающие интересы по терминам, категориям и ссылкам) используются для корректировки стандартных оценок ранжирования. Степень персонализации динамически регулируется уровнем уверенности системы в профиле (Confidence Score).
  • US9298777B2
  • 2016-03-29
  • Персонализация

  • Поведенческие сигналы

  • SERP

Как Google определяет тематику и интент запроса, анализируя контент уже ранжирующихся страниц в выдаче
Google использует метод классификации запросов, который анализирует не сам текст запроса, а контент (URL, заголовки, сниппеты) страниц, находящихся в топе выдачи по этому запросу. Сравнивая набор терминов из этих результатов с эталонными профилями разных тематик или типов контента (Новости, Видео, Картинки), система определяет интент пользователя и решает, какие вертикали поиска активировать.
  • US8756218B1
  • 2014-06-17
  • Семантика и интент

  • SERP

Как Google персонализирует результаты поиска в зависимости от сайта, с которого отправлен запрос
Google анализирует совокупные поисковые запросы и последующие клики пользователей, инициирующих поиск с определенного веб-сайта. На основе этих данных создается «Профиль Веб-сайта», отражающий коллективные интересы его аудитории. Этот профиль используется для переранжирования будущих результатов: один и тот же запрос, отправленный с разных сайтов, даст разную выдачу, адаптированную под контекст источника.
  • US8078607B2
  • 2011-12-13
  • Персонализация

  • Поведенческие сигналы

  • SERP

Популярные патенты

Как Google использует тематические списки предпочтительных и нежелательных сайтов (Editorial Opinion) для корректировки ранжирования
Google может заранее определять "Темы запросов" (Query Themes) и назначать для них списки "Предпочтительных" (Favored) и "Нежелательных" (Non-Favored) источников. Если запрос пользователя соответствует теме, система корректирует ранжирование: повышает предпочтительные источники и понижает нежелательные, используя "Параметр редакторского мнения" (Editorial Opinion Parameter).
  • US7096214B1
  • 2006-08-22
  • EEAT и качество

  • Антиспам

  • SERP

Как Google оценивает качество изображений, комбинируя визуальные характеристики, распознанный контент и социальные сигналы для ранжирования
Google использует систему для автоматического определения качества изображений, анализируя три класса характеристик: техническое качество (резкость, экспозиция), содержание (объекты, лица, ландшафты) и социальную популярность (просмотры, шеры, рейтинги). Система присваивает баллы этим характеристикам, взвешивает их (учитывая репутацию пользователей, оставивших отзывы) и формирует общий рейтинг для выбора лучших изображений.
  • US9858295B2
  • 2018-01-02
  • Мультимедиа

  • Поведенческие сигналы

  • SERP

Как Google использует машинное обучение и поведенческие данные для прогнозирования полезности документов и решает, что включать в поисковый индекс
Google использует модель машинного обучения для определения, какие документы включать в поисковый индекс. Модель обучается на исторических данных о кликах и показах, чтобы предсказать будущую «оценку полезности» (Utility Score) документа. Документы ранжируются по этой оценке, а также с учетом других факторов (например, PageRank, стоимость индексации, свежесть, квоты), и лучшие из них попадают в индекс.
  • US8255386B1
  • 2012-08-28
  • Индексация

  • Поведенческие сигналы

Как Google использует исторические данные о кликах по Сущностям для ранжирования нового или редко посещаемого контента
Google решает проблему «холодного старта» для новых страниц, у которых нет собственных поведенческих данных. Система агрегирует историю кликов на уровне Сущностей (Entities). Если сущности, упомянутые на новой странице, исторически имеют высокий CTR по целевому запросу, страница получает бустинг в ранжировании, наследуя поведенческие сигналы через эти сущности.
  • US10303684B1
  • 2019-05-28
  • Поведенческие сигналы

  • Семантика и интент

  • SERP

Как Google автоматически определяет связанные домены (например, международные версии сайта) и переранжирует их для повышения локальной релевантности и разнообразия выдачи
Google использует автоматическую систему для идентификации доменов, принадлежащих одной организации (аффилированных доменов), анализируя ссылки между ними и сходство их имен (SLD). Когда в результатах поиска появляется несколько таких доменов, система может понизить или поменять местами их позиции. Это делается для того, чтобы показать пользователю наиболее локально релевантную версию сайта и увеличить разнообразие организаций в топе выдачи.
  • US9178848B1
  • 2015-11-03
  • Local SEO

  • SERP

  • Ссылки

Как Google использует язык интерфейса пользователя и поведенческие сигналы для определения языковой релевантности документа
Google определяет, для носителей каких языков релевантен документ, анализируя агрегированные данные о кликах. Система изучает, какой языковой интерфейс поиска (например, google.fr или google.de) использовали пользователи, кликнувшие на результат. Учитывая поведенческие факторы, такие как время пребывания на странице (Dwell Time) и позиция клика, Google рассчитывает Оценку Языковой Релевантности. Это позволяет определить целевую аудиторию страницы независимо от языка ее контента.
  • US9208231B1
  • 2015-12-08
  • Мультиязычность

  • Поведенческие сигналы

  • SERP

Как Google позволяет пользователям "углубиться" в контент установленного мобильного приложения прямо из веб-выдачи
Google использует этот механизм для интеграции контента из нативных приложений в веб-поиск. Если приложение установлено у пользователя и система определяет высокую релевантность его контента запросу, в выдачу добавляется специальный элемент (например, "Больше результатов из приложения X"). Клик по этому элементу запускает новый поиск, показывая множество deep links только из этого приложения, не покидая интерфейс поиска.
  • US10579687B2
  • 2020-03-03
  • SERP

  • Семантика и интент

  • Ссылки

Как Google определяет структурно похожие запросы (sibling queries) для автоматического обучения NLP-моделей
Google использует метод для идентификации "родственных запросов" (sibling queries) — запросов с одинаковой структурой интента, но разными переменными (например, "погода в Москве" и "погода в Париже"). Система сравнивает шаблоны использования этих запросов в логах, основываясь на поведении пользователей, чтобы понять их взаимосвязь без традиционного NLP. Это позволяет автоматически генерировать масштабные наборы данных для обучения ИИ.
  • US11379527B2
  • 2022-07-05
  • Семантика и интент

  • Поведенческие сигналы

Как Google рассчитывает «сигнал конкурентоспособности» (Competition Signal) страниц на основе анализа кликов, показов и времени взаимодействия
Google оценивает качество страниц, анализируя их «победы» и «поражения» в поисковой выдаче. Система сравнивает, как часто пользователи выбирают данный URL вместо других и как долго они взаимодействуют с контентом по сравнению с конкурентами (Dwell Time). На основе этих данных рассчитывается корректирующий фактор, который повышает или понижает позиции страницы, отражая её относительную конкурентоспособность и удовлетворенность пользователей.
  • US9020927B1
  • 2015-04-28
  • Поведенческие сигналы

  • SERP

  • EEAT и качество

Как Google Assistant адаптирует выдачу на лету, позволяя пользователям навигировать по результатам и запоминать предпочтения по источникам и темам
Google использует механизм для диалоговых систем (например, Google Assistant), позволяющий пользователям взаимодействовать с поисковой выдачей через естественный язык. Система предоставляет результаты последовательно и адаптирует порядок выдачи в ответ на команды навигации (например, «Вернись к новости о Кафе»). Кроме того, система фиксирует отношение пользователя к атрибутам контента (например, «Не показывай новости из Источника 1») и использует эти данные для фильтрации или изменения ранжирования в текущих и будущих сессиях.
  • US10481861B2
  • 2019-11-19
  • Персонализация

  • Семантика и интент

  • Поведенческие сигналы

seohardcore