SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google классифицирует запросы в бизнес-категории с помощью статистических моделей и разнообразных данных для обучения

SEARCH QUERY CATEGORIZATION FOR BUSINESS LISTINGS SEARCH (Категоризация поисковых запросов для поиска по бизнес-листингам)
  • US20100191768A1
  • Google LLC
  • 2010-04-08
  • 2010-07-29
  • Семантика и интент
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Google использует систему для автоматического определения релевантных бизнес-категорий (например, «Желтые страницы») для поискового запроса. Система основана на статистической модели (например, Naïve Bayes), которая обучается на различных источниках данных: каталогах, веб-сайтах компаний, логах запросов и рекламном трафике. Это позволяет сопоставлять запросы с категориями, даже если они не имеют общих слов.

Описание

Какую проблему решает

Патент решает проблему неточного сопоставления поисковых запросов с релевантными бизнес-категориями (по типу «Желтых страниц»). Традиционные методы, основанные на прямом совпадении ключевых слов в запросе и названии категории, часто неэффективны. Например, запрос «проявка пленки» должен соответствовать категории «фотоуслуги», хотя у них нет общих слов. Использование простых синонимов также не решает проблему из-за контекстуальной зависимости терминов (например, «пленка» может относиться к кино, фотографии или химии). Цель изобретения — более эффективно классифицировать поисковые запросы в одну или несколько подходящих бизнес-категорий.

Что запатентовано

Запатентована система автоматического построения модели классификации категорий (Category Classification Model) на основе обучающих данных из различных источников. Система использует статистическую модель (в частности, упоминается классификатор на основе Naïve Bayes) для изучения ассоциаций между терминами поисковых запросов и бизнес-категориями. Это позволяет определять вероятность принадлежности запроса к той или иной категории.

Как это работает

Система работает в двух режимах: обучение и классификация в реальном времени.

  1. Обучение (Training mode): Система собирает обучающие данные из разных источников (каталоги, веб-сайты, логи запросов). Эти данные представляют собой пары «запрос — категория». На основе этих данных строится Category Model, которая хранит статистические вероятности ассоциации терминов с категориями. При использовании веб-документов для обучения может применяться Inverse Document Frequency (IDF) для взвешивания важности терминов.
  2. Классификация (Run-time classification mode): Когда поступает пользовательский запрос, компонент классификации (Classification Component) использует обученную модель для расчета вероятности принадлежности этого запроса к каждой из возможных категорий. Выбираются и возвращаются пользователю категории с наибольшей вероятностью.

Актуальность для SEO

Средняя. Хотя базовые принципы категоризации запросов и использования разнообразных данных для обучения остаются актуальными (особенно в локальном и коммерческом поиске), конкретные методы, описанные в патенте (например, Naïve Bayes), вероятно, уступили место более сложным нейросетевым моделям (таким как Трансформеры) в современных системах Google. Однако патент дает фундаментальное понимание того, как Google решает задачу сопоставления запросов с коммерческими категориями.

Важность для SEO

Патент имеет высокое значение для понимания основ Local SEO и коммерческого поиска. Он демонстрирует, что Google не полагается только на ключевые слова в названии бизнеса или категории, а строит сложные статистические ассоциации между запросами и категориями, используя данные из всего интернета и поведение пользователей. Это подчеркивает важность наличия на сайте бизнеса богатого семантического контента, который помогает поисковой системе правильно классифицировать компанию, даже если этот контент не содержит точных формулировок целевых запросов.

Детальный разбор

Термины и определения

Category Classification Component (Компонент классификации категорий)
Программный модуль, который реализует статистическую модель для сопоставления поисковых запросов с бизнес-категориями. Работает в режиме обучения и в режиме классификации в реальном времени.
Category Model (Модель категорий)
Структура данных, хранящая ассоциации между поисковыми запросами (терминами) и бизнес-категориями. В контексте патента хранит набор вероятностей (например, P[Xi] и P[Y|Xi]), рассчитанных на основе обучающих данных.
Directory Listings (Списки каталогов)
Один из источников обучающих данных, например, списки «Желтых страниц». Содержат бизнес-категории и связанные с ними названия компаний.
Inverse Document Frequency (IDF, Обратная частота документа)
Метрика, используемая для оценки важности термина. Термины, которые встречаются реже в коллекции документов, имеют более высокий IDF. Используется для взвешивания терминов при обучении модели на веб-документах.
Naïve Bayes Classifier (Наивный байесовский классификатор)
Статистический классификатор, основанный на теореме Байеса с «наивным» предположением о независимости атрибутов (терминов в запросе). Используется для расчета вероятности принадлежности запроса к категории.
Training Data (Обучающие данные)
Набор данных, используемый для построения Category Model. Включает примеры поисковых запросов, связанных с их корректными категориями. Источники включают Directory Listings, Categorized web sites, Query traffic data и Advertisement traffic data.

Ключевые утверждения (Анализ Claims)

Примечание: В предоставленном тексте патента доступен только Claim 1. Claims 2-32 аннулированы (canceled). Анализ основан на Claim 1 и его интерпретации через Description.

Claim 1 (Независимый пункт): Описывает метод определения категорий, релевантных поисковому запросу.

  1. Система получает поисковый запрос.
  2. Запрос вводится в компонент классификации (classification component).
  3. Этот компонент включает модель категорий (category model), которая была обучена (trained) с использованием обучающих данных (training data).
  4. Обучающие данные получены из одного или нескольких источников информации, которые связывают термины с категориями.
  5. Система получает одну или несколько категорий от компонента классификации в ответ на поисковый запрос.
  6. Система передает (transmitting) эти одну или несколько категорий.

Ядро изобретения заключается в использовании обученной статистической модели (как указано в Description, например, Naïve Bayes) для классификации запросов, причем обучение происходит на разнообразных источниках данных (не только на названиях категорий или бизнеса). Это позволяет системе изучать сложные ассоциации, выходящие за рамки простого совпадения текста или синонимов.

Где и как применяется

Изобретение применяется на этапе понимания запроса и влияет на формирование выдачи, особенно в контексте локального или коммерческого поиска (Business Listings Search).

QUNDERSTANDING – Понимание Запросов
Основное применение патента. Category Classification Component анализирует входящий запрос в реальном времени (run-time classification mode) для определения его коммерческой или локальной направленности и сопоставления с предопределенными бизнес-категориями. Это помогает системе понять интент пользователя (например, ищет ли он услугу или конкретную компанию).

INDEXING / Офлайн-процессы
Система также работает в режиме обучения (training mode) офлайн. На этом этапе происходит сбор Training Data из различных источников (каталоги, веб-сайты) и построение/обновление Category Model. Рассчитываются статистические вероятности и IDF для терминов.

RANKING / METASEARCH
Результаты классификации (определенные категории) используются для извлечения и ранжирования релевантных бизнес-листингов. Если запрос классифицирован как «Итальянские рестораны», система будет искать и ранжировать бизнесы в этой категории.

Входные данные:

  • В режиме обучения: Training Data (пары категория-запрос/термины) из источников: Directory Listings, Categorized web sites, Misc. pre-classified business data, Query traffic data, Advertisement traffic data.
  • В режиме классификации: Поисковый запрос пользователя (набор терминов).

Выходные данные:

  • В режиме обучения: Обученная Category Model (набор статистических вероятностей).
  • В режиме классификации: Одна или несколько наиболее вероятных бизнес-категорий для данного запроса.

На что влияет

  • Специфические запросы: Наибольшее влияние оказывается на запросы с локальным и коммерческим интентом, где пользователь ищет бизнес, услугу или продукт (например, «Olive Garden», «проявка пленки», «сантехник рядом»).
  • Конкретные типы контента: Влияет на ранжирование бизнес-листингов (например, результаты локального поиска, Google Maps, профили компаний).
  • Конкретные ниши или тематики: Все ниши, представленные в бизнес-каталогах (рестораны, отели, услуги, ритейл и т.д.).

Когда применяется

  • Условия работы: Алгоритм применяется при обработке поискового запроса для определения его принадлежности к бизнес-категориям.
  • Триггеры активации: Вероятно, активируется для всех запросов или для запросов, которые система предварительно идентифицирует как имеющие потенциальный коммерческий/локальный интент. Патент не указывает конкретных триггеров, предполагая, что классификация выполняется в ответ на ввод запроса пользователем.

Пошаговый алгоритм

Процесс разделен на две основные фазы: Обучение и Работа в реальном времени.

Фаза 1: Обучение (Training)

  1. Сбор обучающих данных: Система получает Training Data из одного или нескольких источников (Каталоги, Категоризированные веб-сайты, Прочие бизнес-данные). Данные представляют собой наборы категорий (X) и связанных с ними запросов/терминов (Y).
  2. Предварительная обработка (Веб-документы): При использовании данных с веб-сайтов система может рассчитывать Inverse Document Frequency (IDF) для терминов. Термины с более высоким IDF получают больший вес.
  3. Построение модели категорий (Train Category Model): Система обучает статистический классификатор (например, Naïve Bayes). Это включает расчет и сохранение в Category Model следующих вероятностей:
    • P[Xi] (Априорная вероятность категории): Оценивается как количество обучающих образцов в категории Xi, деленное на общий размер обучающей выборки.
    • P[Y'|Xi] (Вероятность термина Y' в категории Xi): Оценивается как количество вхождений термина Y' в категории Xi, деленное на общее количество вхождений термина во всех категориях (с учетом весов IDF, если применимо).

Фаза 2: Работа в реальном времени (Run-time operation)

  1. Получение запроса: Система получает поисковый запрос пользователя (Y), состоящий из набора терминов.
  2. Генерация результатов по категориям (Generate category results): Компонент классификации рассчитывает вероятность принадлежности запроса Y к каждой категории Xi, используя Category Model.
    • Для Naïve Bayes расчет ведется по формуле (упрощенно, ищется максимум числителя): P[Y∣Xi]⋅P[Xi]P[Y|X_{i}] \cdot P[X_{i}]P[Y∣Xi​]⋅P[Xi​].
    • P[Y|Xi] рассчитывается как произведение вероятностей отдельных терминов в запросе (предполагая их независимость). Например, для запроса "Olive Garden": P["Olive"|Xi] * P["Garden"|Xi].
  3. Выбор категории: Выбирается категория Xi с наибольшим рассчитанным значением вероятности.
  4. Возврат результатов: Система возвращает выбранные категории пользователю.
  5. Динамическое обновление (Опционально): Система может обновлять Category Model на основе взаимодействия пользователя с результатами поиска (Query traffic data) или рекламой (Advertisement traffic data). Например, если пользователь ввел «пленка» и кликнул на результат из категории «Фотоуслуги», вероятность P[«пленка»|«Фотоуслуги»] может быть увеличена.

Какие данные и как использует

Данные на входе

Патент детально описывает источники обучающих данных:

  • Структурные данные (Каталоги): Directory Listings (например, Желтые страницы) и Misc. pre-classified business data (например, ресторанные гиды, потребительские отчеты). Используются названия бизнесов и их предопределенные категории.
  • Контентные факторы (Веб-сайты): Categorized web sites. Используется текст с веб-сайтов компаний, чья категория уже известна. Это позволяет системе изучать терминологию, используемую в конкретной нише.
  • Поведенческие факторы (Логи):
    • Query traffic data: Данные о том, какие результаты (и из каких категорий) пользователи выбирают после ввода определенных запросов. Используется для уточнения вероятностей для неоднозначных терминов.
    • Advertisement traffic data: Данные о кликах по рекламе. Если пользователь кликает на рекламу определенной категории после ввода запроса, это считается сигналом связи между запросом и категорией.

Какие метрики используются и как они считаются

  • Статистические Вероятности (Naïve Bayes): Ключевые метрики, хранящиеся в Category Model.
    • P[Xi]: Априорная вероятность категории.
    • P[Y|Xi]: Вероятность запроса при условии категории.
    • Расчет ведется по теореме Байеса: P[Xi∣Y]=P[Y∣Xi]⋅P[Xi]∑jP[Y∣Xj]⋅P[Xj].P[X_{i}|Y]=\frac{P[Y|X_{i}]\cdot P[X_{i}]}{\sum_{j}P[Y|X_{j}]\cdot P[X_{j}]}.P[Xi​∣Y]=∑j​P[Y∣Xj​]⋅P[Xj​]P[Y∣Xi​]⋅P[Xi​]​.
  • Inverse Document Frequency (IDF): Используется для взвешивания терминов при обучении на веб-документах. Одна из приведенных формул: log⁡(Jf+1)\log(\frac{J}{f+1})log(f+1J​), где J — общее количество документов в коллекции, а f — количество документов, в которых встречается термин.

Выводы

  1. Классификация запросов — это статистическая задача: Google рассматривает определение категории запроса как задачу классификации текста, решенную с помощью статистических моделей (Naïve Bayes). Система не ищет прямые совпадения, а рассчитывает вероятности на основе изученных ассоциаций.
  2. Важность разнообразных обучающих данных: Ключевым аспектом изобретения является использование широкого спектра данных для обучения модели: от структурированных каталогов до неструктурированного текста на веб-сайтах и поведения пользователей (клики по результатам и рекламе). Это обеспечивает широкое покрытие и точность.
  3. Использование контента сайта для классификации бизнеса: Текст на сайте компании (Categorized web sites) напрямую используется для обучения классификатора. Система анализирует термины на сайте и связывает их с категорией бизнеса, используя IDF для определения наиболее значимых слов.
  4. Обратная связь от пользователей улучшает классификацию: Система использует данные о трафике запросов и рекламы для динамического обновления модели и разрешения неоднозначностей. Поведение пользователей напрямую влияет на то, как система классифицирует будущие запросы.
  5. Семантика важнее ключевых слов: Механизм позволяет системе понимать семантическую связь между запросом и категорией, даже если они не имеют общих слов, за счет анализа того, какие слова статистически часто ассоциируются с этой категорией в обучающих данных.

Практика

Best practices (это мы делаем)

  • Насыщение контента сайта релевантной семантикой: Поскольку контент веб-сайтов используется для обучения классификатора, крайне важно использовать на сайте разнообразную и релевантную терминологию, характерную для вашей ниши. Описывайте услуги и продукты подробно. Это поможет системе статистически связать ваш сайт с правильной категорией.
  • Использование редких и специфичных терминов (IDF): Патент подчеркивает использование IDF для взвешивания терминов. Не избегайте использования узкоспециализированных терминов, которые точно описывают ваш бизнес. Они могут иметь больший вес при классификации, так как реже встречаются в других тематиках.
  • Оптимизация под поведенческие факторы: Так как Query traffic data используется для обучения, важно создавать привлекательные сниппеты, которые мотивируют пользователей кликать на ваш результат по релевантным запросам. Высокий CTR по целевым запросам может укрепить ассоциацию вашего сайта (и категории) с этими запросами в модели Google.
  • Согласованность данных в каталогах и на сайте: Убедитесь, что ваш бизнес правильно и последовательно категоризирован во внешних каталогах и справочниках (Directory Listings), так как они являются первичным источником обучающих данных. Информация на вашем сайте должна подтверждать эту категоризацию.

Worst practices (это делать не надо)

  • Размытие тематики сайта: Попытка охватить слишком много разных направлений бизнеса на одном сайте может запутать классификатор. Статистические сигналы будут смешанными, что затруднит точное определение основной категории.
  • Использование только высокочастотных общих терминов: Создание контента, состоящего только из общих слов, не поможет классификатору. Отсутствие специфичных терминов (с высоким IDF) снижает возможность точно идентифицировать нишу.
  • Игнорирование оптимизации Google Business Profile (GBP): Хотя патент напрямую не упоминает GBP, он описывает систему для Business Listings Search. Некорректный выбор категорий в GBP или расхождение информации в нем с данными на сайте противоречит принципам, заложенным в патенте.

Стратегическое значение

Патент подтверждает, что для успешного продвижения в локальном и коммерческом поиске недостаточно просто иметь ключевые слова в названии или тексте. Google стремится понять суть бизнеса на основе совокупности сигналов из разных источников. Стратегически это означает, что SEO должно фокусироваться на построении четкого и последовательного семантического образа бизнеса в интернете. Контент на сайте должен быть не просто «оптимизирован под ключи», а служить источником знаний о том, чем занимается компания, помогая поисковой системе правильно её классифицировать.

Практические примеры

Сценарий: Помощь классификатору в определении узкой специализации бизнеса

Ситуация: Компания занимается реставрацией старинных фотографий. Владелец хочет, чтобы сайт появлялся по запросам типа «восстановление фото», но также и по более специфическим, например, «ремонт дагеротипов».

Действия на основе патента:

  1. Проверка внешних каталогов (Directory Listings): Убедиться, что компания зарегистрирована в релевантных категориях, таких как «Фотоуслуги» или, если доступно, «Реставрационные услуги».
  2. Анализ контента сайта (Categorized web sites & IDF): Создать на сайте подробные страницы услуг и блог. Активно использовать специфическую терминологию: «дагеротип», «амбротип», «тинтайп», «эмульсия», «архивное хранение». Эти редкие термины (высокий IDF) помогут классификатору статистически связать сайт с узкой нишей реставрации, отличая его от обычной фотопечати.
  3. Оптимизация сниппетов (Query traffic data): Убедиться, что Title и Description четко указывают на специализацию, чтобы привлекать клики от пользователей, ищущих именно реставрацию. Например: «Реставрация дагеротипов и амбротипов в Москве | Архивное качество».

Ожидаемый результат: Модель классификации Google изучает ассоциации между специфическими терминами на сайте и категорией бизнеса. Это повышает вероятность того, что запросы, содержащие эти термины (или даже семантически связанные с ними), будут классифицированы правильно, и бизнес будет показан в результатах.

Вопросы и ответы

Как именно система определяет категорию, если в запросе нет слов из названия категории?

Система использует статистическую модель (например, Naïve Bayes), обученную на большом объеме данных. Она знает, какие слова статистически часто ассоциируются с определенной категорией. Например, если в обучающих данных слова «пленка», «проявка» и «печать» часто встречались у бизнесов из категории «Фотоуслуги», система присвоит высокую вероятность этой категории для запроса «проявка пленки», даже если слово «фотоуслуги» отсутствует.

В патенте упоминается Naïve Bayes. Значит ли это, что Google до сих пор его использует?

Патент описывает Naïve Bayes как один из примеров реализации. Учитывая дату публикации (2010 год) и развитие технологий NLP, весьма вероятно, что современные системы Google используют гораздо более сложные модели (например, основанные на архитектуре Трансформер). Однако базовые принципы — использование статистических ассоциаций и обучение на разнообразных данных — остаются актуальными.

Как контент на моем сайте влияет на то, как Google классифицирует мой бизнес?

Контент вашего сайта является одним из ключевых источников обучающих данных (Categorized web sites). Система анализирует текст на вашем сайте и связывает используемые термины с категорией вашего бизнеса. Чем точнее и подробнее контент описывает вашу деятельность, тем лучше классификатор поймет вашу специализацию.

Что такое Inverse Document Frequency (IDF) и почему это важно для SEO?

IDF — это метрика, которая определяет важность слова. Чем реже слово встречается в интернете в целом, тем выше его IDF. Патент указывает, что при анализе контента сайта термины с высоким IDF могут получать больший вес. Для SEO это означает, что использование узкоспециализированной терминологии, точно описывающей ваш бизнес, помогает выделиться и точнее классифицироваться.

Как поведение пользователей влияет на классификацию запросов согласно патенту?

Патент описывает использование Query traffic data и Advertisement traffic data для обновления модели. Если пользователи вводят определенный запрос и затем кликают на результаты или рекламу из конкретной категории, система усиливает связь между этим запросом и категорией. Это подчеркивает важность высокого CTR и релевантности сниппетов.

Стоит ли регистрироваться во множестве внешних каталогов?

Да, патент указывает Directory Listings (например, Желтые страницы) как важный источник обучающих данных. Регистрация в релевантных и авторитетных каталогах с правильным выбором категории помогает предоставить системе точные данные для обучения классификатора и укрепляет понимание вашего бизнеса.

Что делать, если Google неправильно классифицирует запросы, по которым я хочу ранжироваться?

Необходимо усилить сигналы, связывающие ваш бизнес с нужной категорией. Проанализируйте контент вашего сайта: достаточно ли он подробно описывает услуги, используя специфическую терминологию (высокий IDF)? Убедитесь в правильности категорий во внешних каталогах. Также работайте над повышением CTR по этим запросам, чтобы показать системе через Query traffic data, что ваш результат релевантен.

Применяется ли этот патент только к локальному поиску?

Патент сфокусирован на Business Listings Search, что тесно связано с локальным поиском (например, рестораны, услуги). Однако описанные принципы классификации запросов в коммерческие категории применимы шире, включая eCommerce и B2B, где необходимо сопоставить запрос с категориями товаров или услуг.

Может ли этот механизм привести к тому, что запрос будет отнесен к нескольким категориям?

Да. Статистическая модель рассчитывает вероятности для всех возможных категорий. Если несколько категорий имеют высокие вероятности, система может вернуть их все. Например, запрос «фильм» может иметь вероятности для категорий «Кинотеатры», «Фотопленка» и «Химическое оборудование», и система может вернуть результаты из нескольких из них.

Как бороться с неоднозначностью запросов (например, «ключ» как инструмент и «ключ» как источник воды)?

Система разрешает неоднозначность, анализируя все слова в запросе и их совместные вероятности. Если запрос просто «ключ», система может вернуть несколько категорий. Если запрос «гаечный ключ», совместная вероятность будет выше для категории «Инструменты». Также используется обратная связь от пользователей (Query traffic data), чтобы понять, какой смысл чаще всего ищут пользователи.

Похожие патенты

Как Google использует поведение пользователей в веб-поиске для динамической категоризации локальных бизнесов
Google динамически формирует категории для бизнесов, основываясь на том, как пользователи ищут их (используемые ключевые слова и клики) в веб-поиске и голосовом поиске. Эти данные формируют иерархическое понимание типов бизнеса. Эта структура затем используется для повышения точности распознавания названий компаний в голосовых запросах.
  • US8041568B2
  • 2011-10-18
  • Local SEO

  • Поведенческие сигналы

  • Семантика и интент

Как Google использует данные веб-поиска и клики пользователей для классификации бизнесов и построения иерархии категорий
Google анализирует логи веб-поиска (введенные ключевые слова и последующие клики по результатам), чтобы понять, как пользователи интуитивно классифицируют бизнесы. Эти данные используются для автоматического построения динамической иерархической структуры категорий. Эта структура затем применяется для улучшения точности поиска, в частности, для оптимизации моделей распознавания речи в голосовых системах.
  • US7840407B2
  • 2010-11-23
  • Поведенческие сигналы

  • Семантика и интент

  • Структура сайта

Как Google определяет тематику и интент запроса, анализируя контент уже ранжирующихся страниц в выдаче
Google использует метод классификации запросов, который анализирует не сам текст запроса, а контент (URL, заголовки, сниппеты) страниц, находящихся в топе выдачи по этому запросу. Сравнивая набор терминов из этих результатов с эталонными профилями разных тематик или типов контента (Новости, Видео, Картинки), система определяет интент пользователя и решает, какие вертикали поиска активировать.
  • US8756218B1
  • 2014-06-17
  • Семантика и интент

  • SERP

Как Google классифицирует веб-страницы и персонализирует выдачу, используя историю запросов и поведенческие данные
Google использует итеративный метод для тематической классификации веб-страниц, не анализируя их контент напрямую. Система анализирует исторические логи запросов и данные о кликах. Классификация известных страниц переносится на запросы, в результатах которых они появляются, а затем классификация этих запросов переносится на новые страницы. Эти данные используются для построения профилей пользователей и персонализации поисковой выдачи.
  • US8185544B2
  • 2012-05-22
  • Персонализация

  • Поведенческие сигналы

  • SERP

Как Google использует query-specific модели для переранжирования изображений на основе их визуальных характеристик в реальном времени
Google использует систему для корректировки ранжирования изображений непосредственно в момент запроса (онлайн). Для популярных запросов система заранее обучает индивидуальные модели релевантности на основе исторических данных о кликах. При получении нового запроса система активирует наиболее подходящую модель и использует визуальные характеристики (цвет, текстура) для переоценки и переранжирования результатов, обеспечивая точное соответствие визуального контента интенту пользователя.
  • US10311096B2
  • 2019-06-04
  • Мультимедиа

  • SERP

  • Поведенческие сигналы

Популярные патенты

Как Google улучшает результаты поиска, подбирая похожие "идеальные" запросы из логов и структурированных данных
Google идентифицирует запросы, которые стабильно показывают высокое вовлечение пользователей (CTR, долгие клики), и генерирует синтетические запросы из структурированных данных (например, частотного анкорного текста). Когда пользователь вводит похожий, но потенциально плохо сформулированный запрос, Google использует эти "аугментирующие запросы" для предоставления более качественных и релевантных результатов.
  • US9128945B1
  • 2015-09-08
  • SERP

  • Поведенческие сигналы

  • EEAT и качество

Как Google использует историю уточнений запросов для выявления и повышения авторитетных сайтов по широким запросам
Google анализирует последовательности запросов пользователей, чтобы понять, как они уточняют свои поисковые намерения. Если пользователи часто переходят от широкого или неточного запроса к более конкретному, который ведет на авторитетный ресурс, Google связывает этот ресурс с исходным широким запросом. Это позволяет показывать авторитетный сайт выше в выдаче, даже если пользователь сформулировал запрос неточно.
  • US8326826B1
  • 2012-12-04
  • Семантика и интент

  • Поведенческие сигналы

  • EEAT и качество

Как Google рассчитывает «сигнал конкурентоспособности» (Competition Signal) страниц на основе анализа кликов, показов и времени взаимодействия
Google оценивает качество страниц, анализируя их «победы» и «поражения» в поисковой выдаче. Система сравнивает, как часто пользователи выбирают данный URL вместо других и как долго они взаимодействуют с контентом по сравнению с конкурентами (Dwell Time). На основе этих данных рассчитывается корректирующий фактор, который повышает или понижает позиции страницы, отражая её относительную конкурентоспособность и удовлетворенность пользователей.
  • US9020927B1
  • 2015-04-28
  • Поведенческие сигналы

  • SERP

  • EEAT и качество

Как Google собирает и структурирует данные о поведении пользователей в Поиске по картинкам (включая ховеры, клики и 2D-позицию)
Патент Google описывает инфраструктуру для детального сбора данных в Поиске по картинкам. Система фильтрует общие логи, фиксируя не только клики, но и наведение курсора (ховеры), длительность взаимодействия и точное 2D-расположение (строка/столбец) изображения на выдаче. Эти данные агрегируются в Модель Запросов Изображений для оценки релевантности.
  • US8898150B1
  • 2014-11-25
  • Поведенческие сигналы

  • SERP

  • Мультимедиа

Как Google корректирует позиционную предвзятость (Position Bias) при обучении моделей ранжирования на кликах пользователей
Google использует механизм для устранения позиционной предвзятости (Position Bias) при обучении моделей ранжирования (Learning to Rank). Система анализирует, на какой позиции находился кликнутый результат, и присваивает этому клику вес важности. Клики по нижним позициям получают больший вес, чем клики по ТОП-1. Это позволяет модели учиться определять истинную релевантность, а не просто копировать существующий порядок выдачи.
  • US20210125108A1
  • 2021-04-29
  • Поведенческие сигналы

  • SERP

Как Google запоминает прошлые уточнения поиска пользователя и автоматически перенаправляет его к конечному результату
Google использует механизм персонализации, который отслеживает, как пользователи уточняют свои поисковые запросы. Если пользователь часто вводит общий запрос, а затем выполняет ряд действий (например, меняет запрос или взаимодействует с картой), чтобы добраться до конкретного результата, система запоминает эту последовательность. В будущем, при вводе того же общего запроса, Google может сразу показать конечный результат, минуя промежуточные шаги.
  • US9305102B2
  • 2016-04-05
  • Персонализация

  • Поведенческие сигналы

Как Google определяет ключевые аспекты (фасеты) сущности для организации и диверсификации поисковой выдачи
Google использует систему для автоматической идентификации различных «аспектов» (подтем или фасетов) сущности в запросе. Анализируя логи запросов и базы знаний, система определяет, как пользователи исследуют информацию. Затем эти аспекты ранжируются по популярности и разнообразию и используются для организации результатов поиска в структурированном виде (mashup), облегчая пользователю навигацию и исследование темы.
  • US8458171B2
  • 2013-06-04
  • Семантика и интент

  • SERP

  • Поведенческие сигналы

Как Google использует контекст пользователя для генерации неявных поисковых запросов и проактивного показа результатов
Система Google отслеживает контекст пользователя в реальном времени (набираемый текст, открытые документы, письма). На основе этого контекста автоматически генерируются множественные неявные запросы. Система объединяет результаты из разных источников (локальных и глобальных) и проактивно показывает их пользователю, используя поведенческие данные (клики) для улучшения релевантности.
  • US7664734B2
  • 2010-02-16
  • Поведенческие сигналы

  • Персонализация

  • Семантика и интент

Как Google использует исторические данные о кликах (CTR) по категориям для определения доминирующего интента неоднозначных запросов
Google анализирует, на какие категории результатов пользователи кликали чаще всего в прошлом (CTR) по неоднозначному запросу (например, "Pool"). Система определяет доминирующие интенты, выявляя резкие перепады в CTR между категориями или используя иерархию категорий, и повышает в ранжировании результаты, соответствующие наиболее популярным интерпретациям.
  • US8738612B1
  • 2014-05-27
  • Семантика и интент

  • Поведенческие сигналы

  • SERP

Как Google использует время просмотра (Watch Time) и поведение пользователей для расчета независимой от запроса оценки качества видео
Google рассчитывает независимый от запроса сигнал качества (Q) для видео, анализируя корреляции между поведенческими метриками: временем просмотра, рейтингами и количеством просмотров. Система использует математические функции (Predictor и Voting) для моделирования качества и определения достоверности данных, а также активно фильтрует спам в рейтингах. Этот сигнал Q затем используется для ранжирования видео в поиске.
  • US8903812B1
  • 2014-12-02
  • Поведенческие сигналы

  • SERP

  • Антиспам

seohardcore