SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google классифицирует запросы о медиа (фильмы, книги, музыка), используя данные из разных вертикалей поиска и поведенческие сигналы

IDENTIFYING MEDIA QUERIES (Идентификация медиа-запросов)
  • US8768910B1
  • Google LLC
  • 2012-04-13
  • 2014-07-01
  • Семантика и интент
  • Поведенческие сигналы
  • Мультимедиа
  • SERP
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Google использует многофакторную модель для определения, относится ли запрос к медиа-контенту (фильмам, книгам, музыке). Система анализирует результаты товарного поиска, предлагаемые подсказки (candidate queries), частоту запроса в специализированных вертикалях (Search Probability Ratio) и наличие специфичных ключевых слов. Это позволяет точнее определить интент пользователя и показать релевантные специализированные блоки или товарные предложения.

Описание

Какую проблему решает

Патент решает задачу точной классификации поисковых запросов для определения, связан ли запрос с конкретным типом медиа-продукта (фильмы, книги, музыка, ТВ-шоу, видеоигры). Цель — отличить общий запрос от запроса с медиа-интентом (Media Query), чтобы поисковая система могла предоставить специализированные результаты, такие как ссылки на покупку, информацию о продукте или релевантную рекламу (result document).

Что запатентовано

Запатентована система и метод для идентификации медиа-запросов с использованием кросс-вертикальных сигналов и поведенческих данных. Система комбинирует данные из индекса товарного поиска (Products Search Index), анализ предлагаемых вариантов запросов (Candidate Queries, например, подсказки), сравнение с предварительно созданными списками ключевых слов (Keyword Lists) и расчет соотношения вероятности поиска (Search Probability Ratio, SPR) между веб-поиском и специализированными вертикалями.

Как это работает

Система работает в несколько этапов:

  • Сбор данных: Для входящего запроса система получает результаты из товарного поиска и определяет доминирующую категорию (например, "Фильмы"). Параллельно извлекаются Candidate Queries.
  • Сравнение и анализ: Проверяется, совпадает ли категория с Candidate Queries и содержат ли Candidate Queries ключевые слова из списка, специфичного для данной медиа-категории (например, "DVD").
  • Расчет SPR: Вычисляется Search Probability Ratio (SPR), который сравнивает частоту запроса в специализированном поиске (например, по книгам или новостям) с частотой в общем веб-поиске.
  • Классификация: На основе комбинации этих сигналов (и, возможно, дополнительных эвристик, таких как распознавание имен) система рассчитывает общую оценку (Overall Score) и принимает решение, является ли запрос медиа-запросом.
  • Действие: Если запрос идентифицирован как Media Query, система предоставляет специализированный результирующий документ.

Актуальность для SEO

Высокая. Классификация запросов и определение интента пользователя (Query Understanding) являются фундаментальными задачами современных поисковых систем. Хотя методы анализа текста эволюционировали (BERT, MUM), общая логика использования перекрестных сигналов из разных индексов (товары, веб) и анализа поведения пользователей (подсказки, логи запросов) для точной классификации остается крайне актуальной.

Важность для SEO

Патент имеет значительное влияние (7/10) на SEO, особенно для сайтов в нишах развлечений и E-commerce. Он не описывает алгоритмы ранжирования "синих ссылок", но раскрывает механизмы классификации интента, которые напрямую определяют композицию SERP (Metasearch). Понимание этих механизмов критически важно для оптимизации видимости в специализированных блоках и корректной интерпретации запросов, связанных с медиа-контентом.

Детальный разбор

Термины и определения

Candidate Queries (Кандидатские запросы)
Термины или фразы, связанные с исходным запросом. Могут включать подсказки (suggestions), предлагаемые пользователю при вводе запроса, или уточнения (refinements), которые пользователи добавляют к запросу вскоре после его отправки.
Media Category Keyword List (Список ключевых слов медиа-категории)
Предварительно сгенерированный список слов, тесно связанных с определенной категорией медиа. Например, для категории "Фильмы" это могут быть "DVD", "Blu-ray", "cast" (актерский состав), "movie".
Media Query (Медиа-запрос)
Поисковый запрос, который система классифицировала как относящийся к определенному типу медиа-контента.
Products Search Index (Индекс товарного поиска)
Специализированный индекс, содержащий информацию о документах, связанных с продуктами (товарами) и их категориями.
Search Probability Ratio (SPR) (Соотношение вероятности поиска)
Метрика, рассчитываемая путем деления Second Ratio на First Ratio. First Ratio отражает относительную частоту запроса в веб-поиске. Second Ratio отражает относительную частоту запроса в специализированном поиске.
Specialized Search Engine (Специализированная поисковая система)
Вертикальный поиск, сфокусированный на определенном типе информации (например, Товары, Книги, Новости, Изображения).

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод идентификации медиа-запроса, комбинирующий данные товарного поиска и анализ частотности.

  1. Система получает запрос.
  2. Получает результаты из Products Search Index.
  3. Определяет категорию этих результатов.
  4. Идентифицирует Candidate Queries.
  5. Проверяет, совпадает ли категория с одним из Candidate Queries.
  6. Определяет First Ratio (на основе частоты в веб-поиске).
  7. Определяет Second Ratio (на основе частоты в специализированном поиске, связанном с медиа или новостями).
  8. Идентифицирует запрос как связанный с типом медиа, если категория совпала (шаг 5) И основываясь на First Ratio и Second Ratio (т.е. SPR).
  9. Предоставляет специализированный result document.

Claim 3 (Зависимый от 1): Добавляет обязательную проверку по списку ключевых слов.

Идентификация происходит, только если выполнены условия Claim 1 И Candidate Queries совпадают со словами в Keyword List для данного типа медиа.

Claim 16 (Независимый пункт): Описывает альтернативную систему, полагающуюся на Keyword List и SPR, без обязательного использования товарного индекса для определения категории.

  1. Система получает запрос и идентифицирует Candidate Queries.
  2. Проверяется, совпадают ли Candidate Queries со словами в Keyword List (связанном с категорией медиа).
  3. Определяются First Ratio и Second Ratio.
  4. Запрос идентифицируется как медиа-запрос, если есть совпадение с Keyword List И основываясь на First Ratio и Second Ratio.
  5. Предоставляется result document.

Где и как применяется

Изобретение применяется преимущественно на этапе понимания запроса для классификации интента.

QUNDERSTANDING – Понимание Запросов
Это основной этап применения патента. Система в реальном времени анализирует входящий запрос, используя данные из различных источников, чтобы классифицировать его как Media Query и определить его тип. Также на этом этапе (в офлайн-режиме) генерируются Media Category Keyword Lists.

INDEXING – Индексирование и извлечение признаков
Система использует данные, хранящиеся в Products Search Index и других специализированных индексах (Книги, Новости). Точность категоризации продуктов в этих индексах критически важна для работы алгоритма. Также собираются и обрабатываются логи запросов для расчета SPR.

METASEARCH – Метапоиск и Смешивание
Результатом работы алгоритма является принятие решения о показе специализированного result document. Это напрямую влияет на смешивание результатов (Universal Search) и формирование SERP, активируя показ товарных блоков, рекламы или других вертикальных результатов.

Входные данные:

  • Исходный поисковый запрос.
  • Результаты из Products Search Index и их категории.
  • Candidate Queries (подсказки, уточнения).
  • Media Category Keyword Lists.
  • Логи запросов веб-поиска и специализированного поиска (для SPR).
  • (Опционально) Результаты веб-поиска и списки имен.

Выходные данные:

  • Классификация запроса (Media Query или нет) и тип медиа.
  • Специализированный result document в SERP.

На что влияет

  • Конкретные ниши или тематики: Ниши развлечений (фильмы, музыка, книги, видеоигры, ТВ-шоу) и связанный с ними E-commerce.
  • Специфические запросы: Запросы, содержащие названия медиа-сущностей или имена авторов/исполнителей, особенно неоднозначные запросы.
  • Типы контента: Страницы продуктов, обзоры, базы данных (IMDB, Goodreads).

Когда применяется

  • Условия работы: Алгоритм активируется для запросов, которые потенциально могут быть связаны с медиа-продуктами.
  • Триггеры и пороги: Финальная классификация зависит от выполнения ряда условий и достижения пороговых значений для различных метрик: Overall Score, SPR, количество совпадений с Keyword List, количество распознанных имен в запросе.

Пошаговый алгоритм

Патент описывает несколько взаимосвязанных процессов и вариантов реализации.

Процесс А: Офлайн-генерация списка ключевых слов (Media Category Keyword List)

  1. Идентификация исходных запросов: Определяются частые запросы к товарному поиску, результаты по которым связаны с определенной медиа-категорией (например, Фильмы).
  2. Сбор Кандидатских Запросов: Для этих запросов собираются Candidate Queries (подсказки) из веб-поиска.
  3. Генерация и сортировка: Извлекаются уникальные ключевые слова из Candidate Queries и сортируются по частоте.
  4. Фильтрация: Выбираются Топ-N слов. Удаляются стоп-слова и термины, не уникальные для данной категории.
  5. Формирование списка: Сохраняется Media Category Keyword List.

Процесс Б: Онлайн-классификация запроса (Основной вариант)

  1. Получение запроса.
  2. Анализ товарных результатов: Идентифицируются результаты из Products Search Index. Определяется доминирующая Категория.
  3. Получение Кандидатских Запросов: Идентифицируются Candidate Queries.
  4. Оценка вероятности (Media Query Check): Определяется, является ли запрос, вероятно, медиа-запросом. Используется один из методов или их комбинация:
    • Метод 1 (Проверка совпадений): Проверяется совпадение Категории с Candidate Queries И совпадение Candidate Queries с Keyword List. Если оба условия выполнены, запрос идентифицируется как Media Query или Possible Media Query.
    • Метод 2 (Скоринг):
      1. Score 1: На основе товарных результатов (концентрация Категории).
      2. Score 2: На основе совпадения с Keyword List и Категорией.
      3. Score 3: На основе Search Probability Ratio (SPR).
      4. Score 4: На основе веб-результатов (наличие авторитетных сайтов по теме).
      5. Вычисляется Overall Score (агрегация). Если он превышает порог, запрос идентифицируется как Media Query или Possible Media Query.
  5. Действие: Если запрос идентифицирован как Media Query, предоставляется специализированный result document.

Процесс В: Дополнительная верификация (для Possible Media Queries)

Если уверенность системы недостаточна (Possible Media Query), могут применяться дополнительные проверки:

  1. Проверка SPR: Рассчитывается SPR. Если он превышает порог (например, для книг) или ниже порога (например, для старых фильмов, доступных для покупки), классификация подтверждается.
  2. Проверка на несколько имен (для Фильмов): Определяется количество отдельных имен в запросе. Если превышает порог, классификация подтверждается.
  3. Проверка по списку имен (для Музыки): Проверяется, совпадает ли имя в запросе со списком известных исполнителей. Если совпадает, классификация подтверждается.

Какие данные и как использует

Данные на входе

  • Поведенческие факторы:
    • Журналы запросов (Query Logs) веб-поиска и специализированных вертикалей (Товары, Книги, Новости). Используются для расчета SPR и офлайн-генерации Keyword Lists.
    • Candidate Queries (подсказки, уточнения). Используются как индикатор коллективного интента.
  • Контентные/Товарные факторы: Данные из Products Search Index, в частности, категоризация товаров.
  • Веб-данные: Результаты веб-поиска используются для анализа присутствия авторитетных сайтов (co-occurring websites).
  • Структурные факторы (запроса): Детекция сущностей (имен) в тексте запроса.

Какие метрики используются и как они считаются

  • First Ratio (R1): Относительная частота запроса в веб-поиске. R1=Частота запроса в WebВсе запросы в WebR1 = \frac{\text{Частота запроса в Web}}{\text{Все запросы в Web}}R1=Все запросы в WebЧастота запроса в Web​.
  • Second Ratio (R2): Относительная частота запроса в специализированном поиске. R2=Частота запроса в Спец. поискеВсе запросы в Спец. поискеR2 = \frac{\text{Частота запроса в Спец. поиске}}{\text{Все запросы в Спец. поиске}}R2=Все запросы в Спец. поискеЧастота запроса в Спец. поиске​.
  • Search Probability Ratio (SPR): SPR=R2R1SPR = \frac{R2}{R1}SPR=R1R2​. Высокий SPR указывает на сильную связь запроса со специализированной тематикой.
  • Keyword Match Score: Оценка совпадения Candidate Queries с Keyword List. Может быть количеством совпадений или суммой весов совпавших слов (патент упоминает взвешивание).
  • Overall Score: Агрегированная оценка (например, взвешенная сумма) различных баллов (Product Results Score, Keyword Match Score, SPR, Web Results Score).

Выводы

  1. Кросс-индексная классификация интента: Google активно использует сигналы из одного индекса (например, товарного, книжного, новостного) для интерпретации запроса в контексте другого (веб-поиска). То, как сущность категоризирована в одной вертикали, напрямую влияет на понимание связанных с ней запросов в основном поиске.
  2. Поведенческие сигналы как ключевой индикатор интента: Candidate Queries (подсказки/уточнения) и логи запросов (для SPR) являются критически важными. Они показывают, как пользователи ассоциируют термины и в каком контексте (веб vs. вертикаль) они ищут информацию.
  3. Автоматическая генерация словарей интентов: Система полагается на автоматически сгенерированные Keyword Lists, созданные путем анализа поведения пользователей. Это позволяет системе адаптироваться к изменениям языка и появлению новых терминов, связанных с медиа.
  4. SPR как мера специализации: Search Probability Ratio является конкретной метрикой для определения того, насколько запрос "принадлежит" определенной вертикали.
  5. Специфичные эвристики для разных категорий: Помимо общих механизмов, Google использует специфичные правила классификации, такие как обнаружение нескольких имен для фильмов или проверка по спискам исполнителей для музыки, что позволяет повысить точность классификации для разных типов медиа.

Практика

Best practices (это мы делаем)

  • Обеспечение точной категоризации в товарных фидах и микроразметке: Критически важно для E-commerce. Так как система использует Products Search Index для определения категории запроса, необходимо передавать точную информацию о категории медиа-продуктов (книги, диски) в Google Merchant Center и использовать детальную разметку Schema.org (Product, Book, Movie и т.д.).
  • Использование тематически релевантной лексики: При создании контента используйте терминологию, которая естественно ассоциируется с категорией и часто появляется в Candidate Queries. Например, для фильмов используйте термины "cast", "director", "blu-ray release date". Это помогает контенту соответствовать интенту, определенному через Keyword Lists.
  • Оптимизация под сущности (Имена и Названия): Четко указывайте и размечайте имена актеров, авторов, исполнителей. Распознавание имен (особенно нескольких имен или имен из списков) является сильным сигналом для классификации запросов о фильмах и музыке.
  • Анализ композиции SERP и подсказок: Изучайте Candidate Queries для целевых запросов. Это позволит понять, как Google классифицирует интент и какие термины он ассоциирует с данной медиа-категорией, что поможет в адаптации контент-стратегии.

Worst practices (это делать не надо)

  • Неоднозначный контент без контекста: Публикация контента с неоднозначными названиями без четкого указания типа медиа (например, через разметку или контекст) затруднит классификацию запросов, ведущих на ваш сайт.
  • Игнорирование товарной оптимизации при продаже медиа: Отсутствие оптимизированного товарного фида при продаже физических медиа-носителей лишает Google важного источника данных для классификации связанных запросов как Media Queries.
  • Игнорирование вертикального поиска: Рассматривать веб-поиск в изоляции от других вертикалей (Google Books, Google News). Присутствие и активность в этих вертикалях влияет на расчет SPR и общее понимание системой связанных запросов.

Стратегическое значение

Патент подтверждает стратегию Google на глубокое понимание интента пользователя через анализ поведения и данных из различных вертикалей. Для SEO это означает, что успех в вертикальном поиске (например, качественный продуктовый фид) напрямую влияет на то, как Google интерпретирует и обрабатывает связанные запросы в веб-поиске. Это подчеркивает необходимость комплексной стратегии, охватывающей все релевантные индексы Google.

Практические примеры

Сценарий 1: Классификация неоднозначного запроса (Книга vs Фильм)

  1. Запрос: Пользователь вводит "Dune".
  2. Анализ товарных результатов: Система находит в Products Search Index результаты в категориях "Книги" и "Фильмы". Определяется доминирующая категория на основе баллов, например, "Книги".
  3. Candidate Queries: Подсказки включают "Dune book", "Dune movie cast", "Dune author".
  4. Проверка совпадений: Категория ("Книги") совпадает с подсказкой ("book"). Подсказки содержат слова из Keyword List для книг ("book", "author").
  5. Расчет SPR: Система сравнивает частоту запроса в Google Books и Web Search. Допустим, SPR высокий.
  6. Результат: Запрос классифицируется как Media Query (Книга). Google показывает специализированный блок с возможностью покупки книги (Result Document).

Сценарий 2: Использование эвристики для фильмов (Распознавание имен)

  1. Запрос: "Mel Gibson and Danny Glover".
  2. Предварительная классификация: Запрос идентифицируется как Possible Media Query (Фильм) на основе анализа подсказок и товарных результатов (например, DVD серии "Lethal Weapon").
  3. Дополнительная верификация (Эвристика): Система применяет специфическую проверку для фильмов (Процесс В.2). Она распознает два отдельных имени: "Mel Gibson" и "Danny Glover".
  4. Результат: Количество имен (2) превышает порог (например, > 1). Запрос подтверждается как Media Query (Фильм). В выдаче отображаются результаты о фильмах с участием этих актеров.

Вопросы и ответы

Что такое Search Probability Ratio (SPR) и почему он важен?

SPR — это метрика, которая сравнивает относительную частоту запроса в специализированном поиске (например, Google Books) с его частотой в общем веб-поиске. Высокий SPR указывает на то, что запрос гораздо чаще используется в контексте этой специализации. Это мощный сигнал для Google, подтверждающий специфический вертикальный интент пользователя, что помогает точно классифицировать запрос как Media Query.

Как Google генерирует списки ключевых слов (Media Category Keyword Lists)?

Это автоматический офлайн-процесс. Google анализирует частые запросы в товарном поиске, относящиеся к определенной категории (например, Фильмам). Затем он собирает поисковые подсказки (Candidate Queries) для этих запросов. Ключевые слова извлекаются из подсказок, сортируются по частоте и фильтруются, чтобы оставить только те, что наиболее характерны и уникальны для этой категории (например, "DVD", "cast").

Что такое Candidate Queries и как они используются?

Candidate Queries — это в первую очередь поисковые подсказки (suggestions) или уточнения (refinements), которые пользователи часто добавляют к исходному запросу. Они используются как источник контекста и индикатор коллективного интента. Если подсказки содержат название категории или ключевые слова из Keyword List, это увеличивает уверенность системы в классификации запроса как медиа-запроса.

Как этот патент влияет на E-commerce сайты, продающие медиа-контент?

Влияние значительное. Система использует Products Search Index как основной источник для определения категории запроса. Это подчеркивает критическую важность качественных и точно категоризированных товарных фидов для Google Merchant Center. Кроме того, успешная идентификация запроса как Media Query запускает показ специализированных результатов, часто включающих товарные предложения (PLA) или рекламу.

Как система обрабатывает неоднозначные запросы (например, книга и фильм с одинаковым названием)?

Система анализирует совокупность сигналов для определения доминирующего интента. Она оценит, какая категория преобладает в товарном поиске, какие Candidate Queries чаще встречаются ("book" или "movie"), и рассчитает SPR для разных вертикалей. В результате она может классифицировать запрос как один из типов или, как указано в патенте, предоставить результат, основанный на обоих типах медиа.

Использует ли Google анализ результатов веб-поиска для классификации медиа-запросов?

Да. В одном из вариантов реализации (в рамках модели скоринга) система анализирует результаты веб-поиска на предмет наличия авторитетных сайтов, ассоциированных с медиа-категорией (например, IMDB для фильмов). Присутствие таких сайтов в выдаче увеличивает уверенность в классификации.

Что означают специализированные эвристики для фильмов и музыки?

Это дополнительные правила для повышения точности в конкретных категориях. Для фильмов используется обнаружение нескольких отдельных имен в запросе (например, имена двух актеров), что считается сильным сигналом. Для музыки используется проверка наличия имени из запроса в заранее подготовленном списке известных исполнителей или групп.

Может ли запрос быть классифицирован как Media Query без использования товарного индекса?

Да. Альтернативный метод, описанный в Claim 16, полагается на совпадение Candidate Queries с Keyword List и расчет SPR, без обязательного шага по анализу товарных результатов для определения категории. Это позволяет классифицировать запросы даже при отсутствии прямых товарных соответствий в индексе.

Как SEO-специалист может использовать знание об этом патенте для оптимизации сайта с обзорами фильмов?

Необходимо обеспечить наличие на страницах терминологии, которая соответствует Keyword Lists и часто появляется в Candidate Queries: "cast", "director", "reviews", "release date". Также важно четко указывать и размечать имена актеров и съемочной группы (используя Schema.org), так как распознавание имен является сигналом для классификации. Повышение авторитетности сайта также поможет.

Что происходит, если система классифицирует запрос только как "Возможный медиа-запрос" (Possible Media Query)?

Если уверенность системы недостаточна (например, баллы близки к порогу), запрос помечается как Possible Media Query. В этом случае система запускает дополнительные процессы верификации (Процесс В), такие как детальный анализ SPR или применение специфических эвристик (например, распознавание имен), чтобы подтвердить или опровергнуть классификацию.

Похожие патенты

Как Google использует данные веб-поиска для распознавания сущностей в специализированных вертикалях (на примере поиска медиаконтента)
Google использует двухэтапный процесс для ответа на описательные запросы в специализированных поисках (например, поиск фильмов по сюжету). Сначала система ищет информацию в основном веб-индексе, анализирует топовые результаты для выявления релевантных сущностей (названий фильмов), а затем использует эти сущности для поиска в специализированной базе данных.
  • US9063984B1
  • 2015-06-23
  • Семантика и интент

  • Мультимедиа

  • Индексация

Как Google использует вероятностное тематическое моделирование для ранжирования видео и медиаконтента с недостатком текста
Google применяет вероятностную модель для улучшения поиска медиаконтента, такого как видео, где текстовых данных мало. Система определяет скрытые темы (Domain Topics) запроса P(T|Q) и находит контент, релевантный этим темам P(R|T). Это позволяет ранжировать видео, даже если оно не содержит ключевых слов из запроса, используя данные о кликах и базы знаний для установления связей.
  • US8620951B1
  • 2013-12-31
  • Семантика и интент

  • Мультимедиа

  • SERP

Как Google использует категоризацию контента и запросов для уточнения релевантности и ранжирования результатов
Google использует систему для улучшения ранжирования, комбинируя стандартную текстовую релевантность с оценкой соответствия категории. Система определяет, насколько сильно документ принадлежит к определенным категориям и насколько сильно запрос соответствует этим же категориям. Если и документ, и запрос сильно совпадают по категории, результат получает повышение в ранжировании. Это особенно важно для E-commerce и контента с четкой структурой.
  • US7814085B1
  • 2010-10-12
  • Семантика и интент

  • SERP

Как Google определяет тематику и интент запроса, анализируя контент уже ранжирующихся страниц в выдаче
Google использует метод классификации запросов, который анализирует не сам текст запроса, а контент (URL, заголовки, сниппеты) страниц, находящихся в топе выдачи по этому запросу. Сравнивая набор терминов из этих результатов с эталонными профилями разных тематик или типов контента (Новости, Видео, Картинки), система определяет интент пользователя и решает, какие вертикали поиска активировать.
  • US8756218B1
  • 2014-06-17
  • Семантика и интент

  • SERP

Как Google классифицирует интент запросов (например, поиск порнографии), анализируя историю использования фильтров (SafeSearch)
Google использует данные о том, как часто пользователи включают или отключают фильтры контента (например, SafeSearch) при вводе конкретного запроса. Анализируя нормализованное соотношение фильтрованных и нефильтрованных поисковых операций, система классифицирует запрос как целенаправленно ищущий определенный тип контента (например, adult). Эта классификация затем используется для повышения или понижения релевантности соответствующего контента в выдаче.
  • US9152701B2
  • 2015-10-06
  • Семантика и интент

  • Безопасный поиск

  • Поведенческие сигналы

Популярные патенты

Как Google персонализирует Sitelinks и сниппеты, используя интересы пользователя и тренды для прямого перехода на нужные страницы
Google использует механизм для динамического обогащения результатов поиска, особенно при навигационных запросах. Система анализирует сущности (продукты, категории) на целевом сайте и сравнивает их с известными интересами пользователя и текущими трендами. При совпадении Google отображает персонализированные прямые ссылки (например, динамические Sitelinks) на эти конкретные разделы или товары прямо в выдаче.
  • US20140188927A1
  • 2014-07-03
  • Персонализация

  • SERP

  • Ссылки

Как Google определяет структурно похожие запросы (sibling queries) для автоматического обучения NLP-моделей
Google использует метод для идентификации "родственных запросов" (sibling queries) — запросов с одинаковой структурой интента, но разными переменными (например, "погода в Москве" и "погода в Париже"). Система сравнивает шаблоны использования этих запросов в логах, основываясь на поведении пользователей, чтобы понять их взаимосвязь без традиционного NLP. Это позволяет автоматически генерировать масштабные наборы данных для обучения ИИ.
  • US11379527B2
  • 2022-07-05
  • Семантика и интент

  • Поведенческие сигналы

Как Google вычисляет семантическую близость запросов, анализируя поведение пользователей при переформулировках
Google использует механизм для определения семантического расстояния между запросами (Generalized Edit Distance). Вместо подсчета изменений символов система анализирует исторические логи, чтобы понять, как пользователи переформулируют запросы. На основе этих данных вычисляется «стоимость» замены одного термина на другой с помощью Pointwise Mutual Information (PMI), что позволяет генерировать более релевантные подсказки и расширения запросов.
  • US8417692B2
  • 2013-04-09
  • Семантика и интент

  • Поведенческие сигналы

Как Google использует историю навигации и клики по рекламе для генерации ключевых слов, гео-таргетинга и выявления MFA-сайтов
Патент Google, описывающий три механизма, основанных на анализе поведения пользователей (selection data). Система использует путь навигации пользователя для генерации новых ключевых слов для рекламы, улучшает гео-таргетинг объявлений на основе предпочтений пользователей, а также выявляет низкокачественные сайты (MFA/манипулятивные) по аномально высокому CTR рекламных блоков.
  • US8005716B1
  • 2011-08-23
  • Поведенческие сигналы

  • Семантика и интент

  • Антиспам

Как Google использует атрибуты пользователей и показатели предвзятости (Bias Measures) для персонализации ранжирования
Google анализирует, как разные группы пользователей (сегментированные по атрибутам, таким как интересы или демография) взаимодействуют с документами. Система вычисляет «показатель предвзятости» (Bias Measure), который показывает, насколько чаще или реже определенная группа взаимодействует с документом по сравнению с общей массой пользователей. При поиске Google определяет атрибуты пользователя и корректирует ранжирование, повышая или понижая документы на основе этих показателей предвзятости.
  • US9436742B1
  • 2016-09-06
  • Персонализация

  • Поведенческие сигналы

  • SERP

Как Google выбирает Sitelinks, анализируя визуальное расположение и структуру DOM навигационных меню
Google использует механизм для генерации Sitelinks путем рендеринга страницы и анализа DOM-структуры. Система определяет визуальное расположение (координаты X, Y) гиперссылок и группирует их на основе визуальной близости и общих родительских элементов. Sitelinks выбираются исключительно из доминирующей группы (например, главного меню), а ссылки из других групп игнорируются.
  • US9053177B1
  • 2015-06-09
  • SERP

  • Ссылки

  • Структура сайта

Как Google определяет, когда показывать обогащенный результат для сущности, и использует консенсус веба для исправления данных
Google использует механизм для определения того, когда запрос явно относится к конкретной сущности (например, книге). Если один результат значительно доминирует над другими по релевантности, система активирует «обогащенный результат». Этот результат агрегирует данные из разных источников (структурированные данные, веб-страницы, каталоги товаров) и использует наиболее популярные варианты данных из интернета для проверки и исправления информации о сущности.
  • US8577897B2
  • 2013-11-05
  • SERP

  • Семантика и интент

  • EEAT и качество

Как Google определяет язык поискового запроса, используя язык интерфейса, статистику слов и поведение пользователей
Google использует вероятностную модель для точной идентификации языка поискового запроса. Система комбинирует три ключевых фактора: статистику частотности слов в разных языках, язык интерфейса пользователя (например, Google.fr) и исторические данные о том, на какие результаты пользователи кликали ранее. Это позволяет корректно обрабатывать многоязычные и неоднозначные запросы для применения правильных синонимов и стемминга.
  • US8442965B2
  • 2013-05-14
  • Мультиязычность

  • Поведенческие сигналы

Как Google предсказывает, какие сайты будут интересны пользователю на основе его контекста (местоположение, время, интересы) без поискового запроса
Google использует агрегированные данные о поведении пользователей для прогнозирования контента. Система анализирует контекст пользователя (местоположение, время, интересы, историю) и определяет, какие сайты посещают похожие пользователи в аналогичном контексте значительно чаще, чем пользователи в целом. Этот механизм позволяет предлагать релевантный контент без явного запроса (например, в Google Discover).
  • US9195703B1
  • 2015-11-24
  • Персонализация

  • Поведенческие сигналы

  • Семантика и интент

Как Google использует клики по изображениям для определения схожести запросов и картинок (Поведенческая схожесть)
Google анализирует поведение пользователей в поиске по картинкам, чтобы определить схожесть двух запросов (или двух изображений). Если пользователи часто кликают на одни и те же изображения в ответ на разные запросы, эти запросы считаются похожими. Этот механизм (Коллаборативная фильтрация) позволяет находить связи независимо от языка или типа запроса (текст/изображение) и используется для генерации рекомендаций.
  • US8280881B1
  • 2012-10-02
  • Поведенческие сигналы

  • Семантика и интент

  • Мультимедиа

seohardcore