Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Google

    Как Google классифицирует запросы как медиа-контент (фильмы, книги, музыку), используя данные товарного поиска, подсказки и обязательную верификацию через распознавание имен

    IDENTIFYING MEDIA QUERIES (Идентификация медиа-запросов)
    • US9251262B1
    • Google LLC
    • 2016-02-02
    • 2012-04-13
    2012 Индексация Мультимедиа Патенты Google Семантика и интент

    Google использует многоступенчатую систему для определения, ищет ли пользователь медиа-контент. Система анализирует результаты из товарного индекса, поисковые подсказки (Candidate Queries) и списки ключевых слов. Если эти сигналы указывают на медиа-интент, система запускает обязательную дополнительную верификацию, например, путем распознавания имен актеров или артистов в запросе, для финальной классификации.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает задачу точной идентификации поисковых запросов, относящихся к медиа-объектам (фильмы, ТВ-шоу, книги, видеоигры, музыка), когда они вводятся в интерфейс общего веб-поиска. Цель — улучшить понимание намерений пользователя для предоставления специализированных результатов или функций SERP (например, блоков для покупки медиа), соответствующих типу искомого медиа-контента.

    Что запатентовано

    Запатентована система классификации запросов, использующая комбинацию сигналов для определения того, является ли запрос медиа-запросом (Media Query). Система анализирует результаты специализированного поиска (Products Search Index), поисковые подсказки (Candidate Queries) и списки ключевых слов (Media Keyword Lists). Ключевым элементом изобретения, защищенным в этом патенте, является многоступенчатый процесс, включающий обязательную дополнительную верификацию, в частности, использование распознавания имен (актеров, авторов) в запросе для окончательного подтверждения медиа-интента.

    Как это работает

    Система работает в несколько этапов:

    • Получение данных: Для входящего запроса система получает результаты из товарного индекса и определяет их категорию. Параллельно она получает Candidate Queries (подсказки) из веб-поиска.
    • Первичная оценка и Скоринг: Система проверяет совпадение категории товара с подсказками и наличие ключевых слов из соответствующего Media Keyword List. Может рассчитываться общий балл (Overall Score).
    • Предварительная классификация: Если условия выполнены или балл превышает порог, запрос идентифицируется как Possible Media Query (Возможный медиа-запрос).
    • Обязательная Верификация (согласно Claims): Система определяет, что требуется дополнительная проверка. Она анализирует текст запроса на наличие имен (например, актеров или музыкантов).
    • Финальная классификация: Если имена обнаружены (и их количество удовлетворяет порогу), запрос окончательно классифицируется как Media Query.
    • Вывод: Система предоставляет специализированный результат (result document), например, блок с медиа-товарами.

    Актуальность для SEO

    Высокая. Точная классификация интента запроса остается критически важной задачей для поисковых систем. Использование сигналов из разных индексов (веб, товары) и анализ поведения пользователей (через подсказки) для понимания сущностей полностью соответствует текущим подходам Google. Акцент на распознавании имен подчеркивает важность Entity-Oriented Search.

    Важность для SEO

    Патент имеет высокое значение для SEO-специалистов, работающих с медиа-контентом, издательствами и E-commerce. Он раскрывает механизмы классификации интента, подчеркивая критическую роль данных из товарного поиска и распознавания сущностей (имен). Понимание этих механизмов позволяет оптимизировать товарные фиды и структурированные данные, чтобы гарантировать правильную идентификацию связанных запросов и повысить шансы на попадание в специализированные блоки выдачи.

    Детальный разбор

    Термины и определения

    Candidate Queries (Кандидатские запросы)
    Термины или фразы, предлагаемые поисковой системой в качестве дополнения или уточнения к исходному запросу. Могут включать поисковые подсказки (suggestions), синонимы или уточнения (refinements).
    Media Query (Медиа-запрос)
    Поисковый запрос, который система идентифицировала как относящийся к определенному типу медиа-контента (фильм, книга, музыка, ТВ-шоу и т.д.).
    Media Keyword List / Media Category Keyword List (Список ключевых слов медиа-категории)
    Заранее сгенерированный список слов, тесно связанных с определенной категорией медиа. Например, для фильмов: «DVD», «blu-ray», «cast», «movie». Генерируется офлайн на основе анализа Candidate Queries.
    Possible Media Query (Возможный медиа-запрос)
    Промежуточный статус запроса, который прошел первичную проверку, но требует дополнительной верификации.
    Products Search Index (Индекс товарного поиска)
    Специализированный индекс, содержащий информацию о товарах, их категориях и связанных с ними документах.
    Overall Score (Общая оценка)
    Агрегированная метрика, используемая для оценки вероятности того, что запрос является медиа-запросом, на основе различных сигналов (Scores).
    Search Probability Ratio (SPR) (Коэффициент вероятности поиска)
    Метрика, сравнивающая относительную частотность запроса в специализированном поиске с общим веб-поиском. (Упоминается в спецификации как возможный сигнал, но не фигурирует в Claims этого патента).

    Ключевые утверждения (Анализ Claims)

    Анализ сосредоточен на независимых пунктах (Claims 1, 9, 15) патента US9251262B1. Важно отметить, что этот патент является продолжением (continuation) более ранней заявки, и его защищенное ядро сфокусировано на многоступенчатом процессе с обязательной верификацией через распознавание имен.

    Claim 1 (Независимый пункт): Описывает метод идентификации медиа-запроса с верификацией.

    1. Система получает запрос.
    2. Идентифицируются Candidate Queries и Media Keyword List.
    3. На основе подсказок и списка ключевых слов запрос классифицируется как Possible Media Query.
    4. Система определяет, что требуется дополнительная верификация (additional verification), прежде чем окончательно классифицировать запрос как Media Query.
    5. В рамках верификации система определяет, что запрос содержит одно или несколько имен (one or more names).
    6. На основании того, что запрос содержит имена, он окончательно идентифицируется как Media Query.
    7. Предоставляется результирующий документ.

    Claim 9 (Независимый пункт): Описывает систему, реализующую логику, аналогичную Claim 1. Последовательность та же: первичная идентификация -> требование верификации -> верификация через обнаружение имен в запросе -> финальная классификация.

    Claim 15 (Независимый пункт): Описывает метод, комбинирующий скоринг и верификацию через распознавание имен.

    1. Система получает запрос.
    2. Рассчитываются первый и второй баллы (First Score, Second Score).
    3. Рассчитывается общий балл (Overall Score) на их основе.
    4. Если Overall Score удовлетворяет порогу, запрос определяется как Possible Media Query.
    5. После этого система определяет, что запрос содержит некоторое количество имен (Quantity of Names).
    6. На основании того, что запрос содержит имена, он идентифицируется как Media Query.
    7. Предоставляется результирующий документ.

    Ядро изобретения заключается в использовании распознавания сущностей (имен людей) как финального шага верификации для подтверждения медиа-интента, после того как другие сигналы указали на такую возможность.

    Где и как применяется

    Изобретение применяется преимущественно на этапе понимания запросов для классификации интента и определения того, какие специализированные результаты следует отображать.

    INDEXING – Индексирование и извлечение признаков
    На этом этапе происходит подготовка данных: индексация и категоризация медиа-товаров для Products Search Index. Также в офлайн-режиме генерируются Media Keyword Lists и формируются списки известных имен (актеров, музыкантов).

    QUNDERSTANDING – Понимание Запросов
    Основной этап применения патента. Система работает как классификатор запросов.

    1. Офлайн-процессы: Генерация Media Keyword Lists на основе анализа логов запросов и подсказок.
    2. Онлайн-процессы: При получении запроса система извлекает данные из товарного индекса и подсказки, проводит скоринг и многоступенчатую классификацию. Ключевым этапом является верификация через распознавание имен для подтверждения статуса Media Query.

    METASEARCH – Метапоиск и Смешивание
    Результат классификации напрямую влияет на этот этап. Если запрос классифицирован как Media Query, система активирует соответствующие вертикали (например, Покупки, Книги) и генерирует специализированные блоки результатов (result document), которые затем смешиваются с основной веб-выдачей.

    Входные данные:

    • Исходный поисковый запрос.
    • Результаты из Products Search Index и их категории.
    • Candidate Queries (поисковые подсказки).
    • Media Keyword Lists.
    • Списки известных имен (актеров, музыкантов).

    Выходные данные:

    • Классификация запроса (Media Query или нет) и его тип (фильм, книга и т.д.).
    • Сигнал для генерации специализированного результирующего документа.

    На что влияет

    • Конкретные типы контента и ниши: Наибольшее влияние оказывается на контент, связанный с медиа: фильмы, книги, музыка, ТВ-шоу, видеоигры. Это затрагивает сайты издателей, агрегаторы рецензий и интернет-магазины, продающие медиа-продукцию.
    • Специфические запросы: Влияет на информационные и транзакционные запросы, содержащие названия медиа-объектов или имена связанных людей (актеров, авторов, исполнителей).

    Когда применяется

    Алгоритм применяется при обработке запросов в общем веб-поиске.

    • Триггеры активации: Активация происходит, когда система обнаруживает потенциальные сигналы медиа-интента, например, через анализ товарных результатов или подсказок.
    • Условия верификации: Ключевым условием, согласно защищенным Claims, является необходимость дополнительной верификации после того, как запрос помечен как Possible Media Query. Эта верификация основана на обнаружении имен в запросе.
    • Пороговые значения: Применяются пороги для скоринга (Overall Score > Threshold) и для верификации (Quantity of Names > Threshold).

    Пошаговый алгоритм

    Процесс А: Офлайн-генерация Media Keyword List (для конкретной категории)

    1. Идентификация запросов: Определить наиболее частые запросы, поданные в товарный поиск, результаты которых связаны с определенной медиа-категорией.
    2. Сбор подсказок: Для этих запросов идентифицировать Candidate Queries, предлагаемые веб-поиском.
    3. Извлечение и Сортировка: Сгенерировать список уникальных ключевых слов из подсказок и отсортировать их по частоте появления.
    4. Фильтрация: Выбрать наиболее частые слова и удалить те, которые не относятся исключительно к данной медиа-категории (стоп-слова или общие термины).
    5. Формирование списка: Сформировать и сохранить Media Keyword List для категории.

    Процесс Б: Онлайн-классификация и верификация запроса (Основано на Claims 1, 9, 15)

    1. Получение запроса: Получить поисковый запрос от пользователя.
    2. Получение данных: Идентифицировать товарные результаты из Products Search Index (и их категорию) и Candidate Queries.
    3. Предварительная оценка (Скоринг): Рассчитать Overall Score. Согласно Claim 15, он включает как минимум:
      • First Score: Например, на основе товарных результатов и доминирующей категории.
      • Second Score: Например, на основе совпадения Candidate Queries с Media Keyword List (может учитывать веса слов).
    4. Первичная классификация: Сравнить Overall Score с порогом. Если он выше (или если выполнены условия Claim 1), классифицировать запрос как Possible Media Query.
    5. Определение необходимости верификации: Система определяет, что требуется дополнительная верификация для подтверждения статуса Media Query.
    6. Верификация через распознавание имен:
      • Определить количество отдельных имен (например, актеров, музыкантов) в тексте запроса с помощью методов NER.
      • Сравнить количество имен с пороговым значением.
    7. Финальная классификация: Если количество имен удовлетворяет порогу, запрос окончательно идентифицируется как Media Query.
    8. Предоставление результата: Предоставить специализированный результирующий документ (например, блок с медиа-товарами).

    Какие данные и как использует

    Данные на входе

    • Контентные/Структурные факторы (Товарный индекс): Категории товаров, названия товаров, извлеченные из Products Search Index. Эти данные используются для расчета First Score.
    • Поведенческие факторы: Candidate Queries (подсказки, уточнения) — отражают коллективное поведение пользователей. Используются для расчета Second Score и генерации Media Keyword Lists.
    • Сущностные факторы (Entity Recognition): Текст запроса анализируется для распознавания именованных сущностей (имен людей). Это ключевой элемент верификации, описанный в Claims.
    • Системные данные: Media Keyword Lists, списки известных имен.

    Какие метрики используются и как они считаются

    • First Score: Основан на товарных результатах. Рассчитывается на основе концентрации топовых результатов в определенной медиа-категории или на основе их оценок релевантности (упоминается как Category Score в спецификации).
    • Second Score: Основан на совпадении Candidate Queries или терминов запроса с Media Keyword List. Может учитывать веса (weight values) слов в списке.
    • Overall Score: Агрегированная метрика, например, взвешенная сумма или среднее значение First Score, Second Score и, возможно, других оценок, упомянутых в спецификации (например, Third Score на основе SPR, Fourth Score на основе веб-результатов и авторитетных доменов).
    • Quantity of Separate Names (Количество отдельных имен): Количество уникальных имен, распознанных в тексте запроса с использованием методов NER (Named Entity Recognition).
    • Пороги (Thresholds): Используются для принятия решений: порог для Overall Score (для классификации как Possible Media Query) и порог для Quantity of Separate Names (для финальной верификации).

    Выводы

    1. Критичность данных из специализированных индексов: Google активно использует данные из своих специализированных индексов (в частности, Products Search Index) для понимания интента запросов в общем веб-поиске. Категоризация товаров напрямую влияет на классификацию запроса.
    2. Поведенческие сигналы как основа классификации: Поисковые подсказки (Candidate Queries) играют центральную роль. То, как пользователи уточняют запросы (например, добавляя «DVD» или «cast»), используется для генерации Media Keyword Lists и для оценки интента в реальном времени (Second Score).
    3. Многоступенчатая классификация и верификация: Система не полагается на один сигнал. Она использует скоринг для предварительной классификации (Possible Media Query) и применяет дополнительные этапы верификации для подтверждения.
    4. Важность распознавания сущностей (Имен): Независимые пункты формулы изобретения (Claims 1, 9, 15) этого патента подчеркивают, что распознавание имен (актеров, авторов, артистов) является ключевым и обязательным шагом верификации для подтверждения медиа-интента. Это подтверждает стратегическую важность Entity-Oriented SEO.
    5. Контекстуальная адаптация: Хотя финальные Claims сфокусированы на именах, спецификация патента описывает и другие методы (например, SPR, анализ веб-результатов), что указывает на то, что Google использует адаптивную логику классификации в зависимости от типа медиа и доступных сигналов.

    Практика

    Best practices (это мы делаем)

    • Обеспечение полноты и точности товарных фидов: Для E-commerce критически важно передавать точные данные в Google Merchant Center. Правильная категоризация товаров напрямую помогает Google рассчитать First Score и идентифицировать связанные запросы как Media Query, так как Products Search Index является ключевым источником данных.
    • Использование микроразметки для сущностей и связей (Entity SEO): Тщательно размечайте медиа-контент с помощью Schema.org (Movie, Book, MusicAlbum, TVSeries). Особое внимание уделяйте связанным людям — актерам (actor), авторам (author), исполнителям (artist). Поскольку распознавание имен является ключевым шагом верификации интента (согласно Claims), четкое указание этих сущностей критически важно.
    • Оптимизация под «медиа-ключевые слова» (Candidate Queries): Анализируйте поисковые подсказки для названий медиа-объектов в вашей нише (например, «cast», «review», «soundtrack», «hardcover»). Интегрируйте эти термины в контент и структуру сайта, чтобы соответствовать сигналам, которые ищет классификатор (Second Score).
    • Создание страниц для связанных сущностей: Создавайте авторитетные страницы для актеров, авторов и исполнителей. Это усиливает вашу связь с медиа-тематикой и улучшает способность Google распознавать эти имена в контексте ваших продуктов.

    Worst practices (это делать не надо)

    • Некорректная категоризация товаров: Указание неверных категорий в товарных фидах может привести к тому, что Google не сможет правильно классифицировать интент запросов, связанных с вашими товарами, исключая их из специализированных блоков.
    • Игнорирование связанных сущностей (Людей): Фокусироваться только на названии медиа-продукта и игнорировать информацию о создателях (актерах, авторах). Учитывая, что распознавание имен используется для верификации согласно Claims этого патента, отсутствие этой информации снижает надежность сигналов.
    • Манипулирование подсказками: Попытки искусственно повлиять на Candidate Queries с целью изменения классификации запроса. Это рискованно и неэффективно, так как система использует множество сигналов и многоступенчатую верификацию.

    Стратегическое значение

    Патент подтверждает стратегию Google на глубокое понимание сущностей и интентов через кросс-анализ данных из разных источников (Web, Products) и поведенческих сигналов. Для SEO это означает, что оптимизация должна быть комплексной. Данные, предоставляемые через товарные фиды и структурированные данные о сущностях (особенно именах), напрямую влияют на то, как Google интерпретирует запросы в основном поиске. Это критически важно для видимости в специализированных блоках выдачи.

    Практические примеры

    Сценарий: Оптимизация карточки фильма на сайте агрегаторе или в онлайн-кинотеатре

    1. Задача: Убедиться, что Google классифицирует запросы по названию фильма и именам актеров как Media Query (Movie type).
    2. Действия на основе патента:
      • Товарные данные (если применимо): Если сайт продает билеты или подписку, убедиться, что эти товары корректно категоризированы в товарном фиде (влияние на First Score).
      • Структурированные данные и Сущности: Внедрить разметку Schema.org/Movie. Обязательно указать всех ключевых актеров (actor) и режиссера (director). Это критично для этапа верификации через распознавание имен.
      • Контент и Подсказки: Создать разделы на странице, соответствующие Candidate Queries: «Актеры и роли» (Cast), «Трейлеры» (Trailer), «Отзывы» (Review). Это влияет на Second Score.
    3. Ожидаемый результат: Google более уверенно классифицирует связанные запросы. Например, запрос, содержащий имена двух актеров из фильма, пройдет верификацию по количеству имен (Quantity of Names > Threshold) и будет идентифицирован как Media Query. Сайт повышает шансы на отображение в специализированных блоках (Knowledge Panel, карусели фильмов).

    Вопросы и ответы

    Что такое Candidate Queries и почему они так важны в этом патенте?

    Candidate Queries — это поисковые подсказки, уточнения или синонимы, которые Google предлагает пользователю. Они критически важны, так как служат основным источником для генерации Media Keyword Lists (офлайн) и используются для оценки интента запроса в реальном времени (Second Score). Анализируя, какие слова пользователи добавляют к названию (например, «DVD», «cast»), система определяет тип медиа.

    Как Google использует данные из Google Shopping (Products Search Index) для понимания запроса?

    Система выполняет поиск по входящему запросу в Products Search Index и анализирует топовые результаты. Если значительная часть этих результатов относится к определенной медиа-категории (например, «Книги»), это служит сильным сигналом (First Score), что исходный запрос, вероятно, является Media Query этого типа. Точность категоризации в товарном фиде здесь играет ключевую роль.

    Почему в этом конкретном патенте (US9251262B1) уделяется так много внимания распознаванию имен (Name Recognition)?

    Этот патент является продолжением (continuation) более ранней заявки. Его защищенные Claims (1, 9, 15) специально сфокусированы на использовании распознавания имен (актеров, авторов, артистов) как обязательного этапа верификации. Если система предварительно идентифицировала запрос как Possible Media Query, обнаружение имен или превышение порога по их количеству в запросе позволяет окончательно подтвердить медиа-интент.

    Что означает статус «Possible Media Query»?

    Это промежуточный статус, означающий, что система обнаружила сигналы медиа-интента (например, Overall Score превысил порог), но уверенность недостаточна для финальной классификации. В этом случае система запускает дополнительные процедуры верификации, такие как распознавание имен, чтобы подтвердить или опровергнуть интент.

    Что такое Media Keyword List и как я могу узнать, какие слова туда входят?

    Это внутренние списки Google, содержащие слова, тесно связанные с категорией (например, «DVD», «hardcover»). Они генерируются путем анализа подсказок к популярным медиа-запросам. SEO-специалист может смоделировать этот процесс: проанализируйте подсказки для большого числа названий фильмов/книг и выделите часто повторяющиеся уточняющие слова — это и будут вероятные кандидаты для Media Keyword List.

    Влияет ли этот патент на ранжирование моего сайта?

    Напрямую на алгоритмы ранжирования он не влияет. Однако он критически влияет на Понимание Запроса (Query Understanding). Если запрос классифицирован как Media Query, Google активирует другие алгоритмы ранжирования и запускает генерацию специализированных блоков выдачи (SERP Features). Правильная оптимизация под этот классификатор определяет вашу возможность конкурировать в этой выдаче и попадать в эти блоки.

    Что делать интернет-магазину, чтобы воспользоваться этим механизмом?

    Ключевое действие — обеспечить максимальное качество данных в товарном фиде для Google Merchant Center. Точная категоризация медиа-товаров (книг, дисков) поможет Google правильно интерпретировать связанные запросы (First Score). Это повысит вероятность того, что Google покажет ваши товары в специализированных блоках (result document), когда запрос будет классифицирован как Media Query.

    Как этот патент связан с микроразметкой Schema.org?

    Патент напрямую не упоминает Schema.org, но она критически важна для реализации описанных механизмов. Разметка Movie, Book или MusicAlbum помогает Google понять категорию. Особенно важна разметка связанных людей (актеров, авторов), так как распознавание имен используется для финальной верификации медиа-интента.

    Что такое Search Probability Ratio (SPR) и используется ли он?

    SPR — это метрика, сравнивающая популярность запроса в специализированном поиске и в общем веб-поиске. SPR детально описан в спецификации патента как один из методов верификации или компонентов скоринга (Third Score). Однако он не фигурирует в финальных защищенных Claims этого конкретного патента, которые сфокусированы на верификации через имена.

    Применяется ли одинаковая логика для фильмов и книг?

    Общий подход схож (анализ товаров, подсказок, скоринг), но методы верификации могут отличаться. В спецификации приводятся примеры, где для книг может использоваться SPR, а для фильмов и музыки — распознавание имен актеров или артистов. Финальные Claims этого патента защищают именно метод верификации через имена.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.