Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Google

    Как Google использует результаты веб-поиска для понимания описательных запросов о фильмах и сериалах

    METHODS, SYSTEMS, AND MEDIA FOR PROVIDING A MEDIA SEARCH ENGINE (Методы, системы и носители для обеспечения работы поисковой системы медиаконтента)
    • US20230394048A1
    • Google LLC
    • 2023-12-07
    • 2013-03-15
    2013 Knowledge Graph Мультимедиа Патенты Google Семантика и интент

    Google использует двухэтапный процесс для ответа на описательные запросы о медиаконтенте (например, по сюжету или персонажам). Сначала система выполняет веб-поиск по запросу. Затем она анализирует топовые веб-страницы, чтобы определить, какие фильмы или сериалы (медиа-сущности) упоминаются чаще всего. Эти сущности используются для поиска в специализированной базе медиаконтента.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает проблему обработки неструктурированных (unstructured) или описательных поисковых запросов, направленных на поиск медиаконтента. Стандартные базы медиаданных часто не индексируют сюжеты или характеристики персонажей. В результате поиск по запросам вроде «little girl assassin» (маленькая девочка-убийца) или «conscientious serial killer» (добросовестный серийный убийца) не дает релевантных результатов при прямом поиске. Изобретение улучшает понимание интента пользователя, используя обширные данные веба для интерпретации запроса.

    Что запатентовано

    Запатентована система двухэтапного поиска, которая использует общий веб-индекс (corpus of web resources) как промежуточный слой для интерпретации описательного медиа-запроса. Суть изобретения — в анализе топовых веб-результатов для извлечения Media Entities (медиа-сущностей, например, названий фильмов) и определении консенсуса относительно того, какая сущность соответствует запросу. Затем эта сущность используется для точного поиска в специализированной базе (corpus of media assets).

    Как это работает

    Система работает путем последовательного использования двух разных корпусов данных:

    • Этап 1: Интерпретация через Веб. Система получает описательный запрос (например, «little girl sniper») и выполняет поиск по общему веб-индексу.
    • Этап 2: Извлечение и Оценка Сущностей. Анализируется подмножество наиболее релевантных веб-результатов. Из них извлекаются Media Entities. Каждой сущности присваивается Topic Score (оценка темы), основанная на частоте ее появления (occurrence) в этих результатах. Выбирается сущность с наивысшей оценкой (консенсус).
    • Этап 3: Поиск Медиа. Выбранная сущность используется как новый запрос для поиска в специализированной базе медиаконтента.
    • Этап 4: Ранжирование и Выдача. Найденные медиа-активы ранжируются (опционально с учетом Media Quality Score) и предоставляются пользователю.

    Актуальность для SEO

    Высокая. Хотя этот документ является продолжением (Continuation) заявок, поданных начиная с 2013 года, описанные механизмы крайне актуальны. Способность поисковых систем понимать естественный язык, интерпретировать сложные описательные запросы и связывать их с конкретными сущностями является ключевым направлением развития современного поиска.

    Важность для SEO

    Влияние на SEO значительное (7.5/10). Патент демонстрирует, как Google использует контент веб-сайтов для интерпретации запросов и обучения своих систем. Это критически важно для сайтов в нишах медиа, обзоров и энциклопедий. Если ваш сайт авторитетно и четко связывает описания (сюжеты, темы) с конкретными сущностями (фильмами, сериалами), он будет использоваться Google на первом этапе этого процесса, становясь важным источником данных для интерпретирующего движка.

    Детальный разбор

    Термины и определения

    Corpus of Web Resources (Корпус веб-ресурсов)
    Первый корпус данных. Общий веб-индекс, включающий HTML-документы, изображения, видео и т.д. Используется для интерпретации исходного запроса.
    Corpus of Media Assets (Корпус медиа-активов)
    Второй корпус данных. Специализированная база данных медиаконтента (фильмы, телепрограммы, VOD). Используется для поиска финального результата по извлеченной сущности.
    Media Entity (Медиа-сущность)
    Структурированный идентификатор контента: название фильма/сериала, имя актера, режиссера, категория или другая характеристика. Извлекается из веб-ресурсов.
    Relevancy Score (Оценка релевантности)
    Стандартная оценка, присваиваемая результатам веб-поиска (Этап 1), показывающая, насколько хорошо ресурс соответствует исходному запросу.
    Topic Score / Entity Score (Тематическая оценка / Оценка сущности)
    Ключевая метрика патента. Присваивается извлеченной Media Entity. Основана на частоте встречаемости (occurrence) этой сущности в топовых результатах веб-поиска. Отражает консенсус веба относительно интерпретации запроса.
    Entity Table (Таблица сущностей)
    Структура данных, которая связывает идентификаторы веб-ресурсов (например, URL) с конкретными Media Entities, которые обсуждаются на этих ресурсах. Может быть создана заранее путем анализа (crawling/analyzing) веб-ресурсов.
    Media Quality Score (Оценка качества медиа)
    Метрика для финального ранжирования медиа-активов. Может включать качество видео/аудио (Q1, Q2), популярность контента (Q3, например, click rate) и его доступность (Q4).
    Keyword Information и Contextual Information
    Ключевые слова и контекстная информация, извлеченные из топовых веб-результатов, используемые для определения Media Entities.

    Ключевые утверждения (Анализ Claims)

    Патент является продолжением (Continuation) более ранних заявок. Анализ основан на независимом пункте Claim 1 и ключевых зависимых пунктах.

    Claim 1 (Независимый пункт): Описывает базовый механизм системы поиска.

    1. Система получает запрос (query) на поиск медиа-активов.
    2. Определяется информация о сущностях (entity information). Это происходит на основе информации о ключевых словах (keyword information), которая, в свою очередь, определяется из результатов поиска (search results), релевантных запросу.
    3. Выбирается конкретная сущность (entity). Критерий выбора — встречаемость (occurrence) этой сущности в этих результатах поиска.
    4. Система обеспечивает представление медиа-актива, соответствующего выбранной сущности, в ответ на исходный запрос.

    Ядром изобретения является использование результатов первичного поиска (веб-поиска) как источника для определения истинного намерения пользователя. Ключевым фактором выбора сущности является частота ее встречаемости (occurrence), что соответствует Topic Score.

    Claim 5 (Зависимый): Описывает модификацию запроса.

    Система может переписать запрос (rewrites the query), вставив один или несколько медиа-терминов (например, «movie», «video»), до того как выполнять поиск в корпусе веб-ресурсов.

    Claim 6 (Зависимый): Детализирует механизм расчета Topic Score.

    Система присваивает Topic Score на основе встречаемости и увеличивает (incrementing) его, если определяется, что страница результата поиска относится к данной сущности. Сущность выбирается на основе этого Topic Score.

    Claim 8 (Зависимый): Описывает финальное ранжирование.

    Для идентифицированных медиа-активов определяется оценка качества (quality score), и подмножество результатов фильтруется на основе этой оценки.

    Claim 9 (Зависимый): Упоминает использование предварительно рассчитанных данных.

    Система обращается к Entity Table, которая связывает идентификатор веб-ресурса (например, ссылку на сайт) с сущностью.

    Где и как применяется

    Этот патент описывает сложный процесс, который связывает веб-поиск и вертикальный медиа-поиск, затрагивая несколько этапов архитектуры.

    INDEXING – Индексирование и извлечение признаков
    Для работы системы необходимы предварительные вычисления. Веб-ресурсы индексируются, и из них извлекаются Media Entities. Эта информация сохраняется в Entity Table, связывающей URL с сущностями.

    QUNDERSTANDING – Понимание Запросов
    Это основная область применения. Весь описанный процесс — это метод глубокого понимания описательного запроса. Вместо прямой интерпретации система использует результаты веб-поиска как источник данных для определения интента (Entity Seeking). Также включает возможную модификацию запроса (rewriting).

    RANKING – Ранжирование (Многоэтапный процесс)
    Процесс включает несколько фаз ранжирования и поиска:

    1. Фаза 1 (Веб-поиск): Поиск по Corpus of Web Resources. Расчет Relevancy Scores.
    2. Фаза 2 (Интерпретация): Анализ топовых веб-результатов. Расчет Topic Scores для извлеченных сущностей. Это мост между двумя корпусами.
    3. Фаза 3 (Медиа-поиск): Поиск по Corpus of Media Assets с использованием выбранной сущности.

    RERANKING – Переранжирование
    Финальные результаты (медиа-активы) могут быть переранжированы с использованием Media Quality Score (популярность, качество видео, доступность).

    Входные данные:

    • Исходный описательный медиа-запрос.
    • Данные из Веб-индекса и Relevancy Scores.
    • Данные из Entity Table (связь URL и сущностей).
    • Данные из Базы медиаконтента.
    • Media Quality Scores.

    Выходные данные:

    • Отранжированный список медиа-активов, соответствующих исходному запросу.

    На что влияет

    • Специфические запросы: Наибольшее влияние на описательные, тематические или неточные запросы, где пользователь не использует точное название (поиск по сюжету, актеру в контексте роли, теме).
    • Конкретные ниши: Критически важно для ниш развлечений, медиа, кино и ТВ. Патент также упоминает применимость для поиска людей, продуктов, мест, спортивных команд, брендов и т.д.
    • Типы контента: Влияет на веб-страницы, обсуждающие медиа-сущности (обзоры, списки, энциклопедические статьи). Эти страницы используются системой на первом этапе для интерпретации запроса.

    Когда применяется

    • Триггеры активации: Алгоритм активируется при получении медиа-запроса. Логично предположить, что он применяется, когда запрос классифицируется как описательный (descriptive) или неструктурированный (unstructured query), и когда прямой поиск по медиа-базе не дает качественных результатов.
    • Условия работы: Механизм эффективен, когда в веб-индексе существует достаточно информации, связывающей описательные термины с конкретными Media Entities.

    Пошаговый алгоритм

    Детальное описание процесса обработки запроса.

    1. Получение запроса: Система получает медиа-запрос (например, «маленькая девочка снайпер»).
    2. Модификация запроса (Опционально): Запрос может быть переписан для включения медиа-терминов (например, добавление слова «фильм»).
    3. Первичный поиск (Веб): Выполняется поиск по Corpus of Web Resources.
    4. Идентификация веб-результатов: Определяются веб-результаты и их Relevancy Score.
    5. Выборка результатов: Выбирается подмножество топовых веб-результатов на основе Relevancy Score (например, Топ-N).
    6. Извлечение сущностей: Из выбранного подмножества определяются Media Entities. Это включает анализ keyword information и contextual information на страницах или использование Entity Table.
    7. Расчет Topic Score: Каждой Media Entity присваивается Topic Score на основе частоты ее встречаемости в подмножестве веб-результатов. Упоминается использование хеш-таблицы (hash table) для подсчета упоминаний.
    8. Выбор ведущей сущности: Выбираются Media Entities с наивысшим Topic Score.
    9. Вторичный поиск (Медиа): Формируется новый запрос на основе выбранных сущностей. Выполняется поиск по Corpus of Media Assets.
    10. Идентификация медиа-активов: Определяются конкретные медиа-активы.
    11. Ранжирование медиа-активов (Опционально): Определяется Media Quality Score для каждого актива (популярность, качество, доступность). Активы ранжируются.
    12. Финальная выборка и представление: Выбирается подмножество лучших медиа-активов и представляется пользователю. Результаты могут смешиваться с веб-результатами.

    Какие данные и как использует

    Данные на входе

    Система использует данные из открытого веба для понимания связи между запросом и сущностями.

    • Контентные факторы: Текст веб-страниц из первичной выдачи. Система анализирует keyword information и contextual information для идентификации Media Entities. Важно наличие названий фильмов, имен актеров и контекста, связывающего их с терминами запроса. Упоминается возможность использования кластеризации ключевых слов (clustering keywords) для определения сущностей.
    • Структурные факторы: Используется Entity Table, которая связывает URL с сущностями. Это предполагает, что система анализирует структуру или использует предварительно извлеченные данные для определения основных сущностей страницы.
    • Поведенческие факторы: Упоминается использование популярности (popularity) и частоты кликов (click rate) как части Media Quality Score (Q3) для ранжирования финальных медиа-результатов. Также упоминается использование click-through rate для обучения системы (learning techniques) с целью корректировки ранжирования (повышения или понижения медиа-актива).
    • Мультимедиа факторы: Технические характеристики медиа-актива (разрешение, битрейт аудио/видео) используются в Media Quality Score (Q1, Q2).

    Какие метрики используются и как они считаются

    • Relevancy Score: Стандартная метрика веб-поиска. Используется для выбора Топ-N результатов для анализа сущностей.
    • Topic Score (Entity Score): Ключевая метрика интерпретации. Рассчитывается для каждой Media Entity.
      Метод расчета: Подсчет количества веб-страниц в Топ-N выдачи, которые упоминают или описывают данную сущность. Упоминается использование хеш-таблиц (hash table) и инкрементации счетчика (count value). Topic Score может также учитывать Relevancy Score страниц, на которых найдена сущность.
    • Media Quality Score: Метрика для финального ранжирования медиа-активов. Агрегирует показатели: Q1 (качество видео), Q2 (качество аудио), Q3 (популярность/CTR), Q4 (доступность).

    Выводы

    1. Google использует веб-контент как слой интерпретации запросов. Патент демонстрирует конкретный механизм, где результаты веб-поиска служат источником знаний для понимания описательных запросов. Google ищет «консенсус» среди топовых веб-страниц, чтобы определить, какая сущность соответствует неточному запросу.
    2. Критичность связи «Описание → Сущность». Для SEO это означает, что веб-страницы должны четко устанавливать связь между описательными терминами (сюжеты, темы, характеристики) и конкретными структурированными сущностями (названиями, именами).
    3. Механизм Topic Score (Консенсус). Идентификация сущности основана на частоте ее упоминания (occurrence) в топовых результатах. Сущность, которая упоминается чаще на более релевантных страницах, побеждает. Это подчеркивает важность авторитетности и полноты описания сущности.
    4. Двухэтапный поиск (Cross-Corpus Search). Система выполняет два независимых поиска в разных корпусах (Веб и Медиа), связывая их через извлеченную сущность. Это стандартный паттерн для вертикального поиска, использующего веб-данные для обогащения.
    5. Зависимость от предварительных вычислений. Упоминание Entity Table показывает, что Google стремится заранее определить основные сущности веб-страниц во время индексации для ускорения обработки запросов.

    Практика

    Best practices (это мы делаем)

    • Оптимизация под сущности (Entity Optimization). Убедитесь, что страницы, посвященные конкретным сущностям (фильмам, продуктам, персонам), содержат исчерпывающую описательную информацию (сюжет, темы, характеристики). Это позволяет Google использовать вашу страницу для интерпретации описательных запросов и корректно формировать Entity Table.
    • Создание контента для описательных и тематических запросов. Разрабатывайте контент, который напрямую отвечает на естественные запросы. Например, статьи типа «Лучшие фильмы о [тема]» или «Сериалы с [тип персонажа]». В таких материалах критически важно четко перечислять и описывать соответствующие Media Entities.
    • Повышение заметности сущностей (Entity Prominence). Убедитесь, что основная сущность страницы четко идентифицирована (в заголовках, основном тексте). Используйте микроразметку (Schema.org для Movie, TVSeries), чтобы помочь системе точно идентифицировать Media Entity.
    • Развитие Topical Authority. Чем авторитетнее ваш сайт в нише, тем выше вероятность, что он попадет в топовые веб-результаты (Этап 1) по описательным запросам (высокий Relevancy Score) и будет использован для расчета Topic Score.

    Worst practices (это делать не надо)

    • Тонкий контент без контекста (Thin Content). Страницы с минимальным описанием или только списком характеристик бесполезны для этого алгоритма, так как не предоставляют достаточной contextual information для связи описательного запроса с сущностью.
    • Размытие фокуса страницы (Entity Ambiguity). Создание страниц, которые упоминают множество сущностей без четкого выделения основной темы или без достаточного контекста. Это затрудняет извлечение сущностей и может привести к некорректному расчету Topic Score.
    • Игнорирование естественного языка и синонимов. Фокусировка только на официальных описаниях и игнорирование того, как пользователи реально ищут и описывают контент (например, популярные тропы, фанатские термины).

    Стратегическое значение

    Патент подтверждает стратегическую важность Entity-First SEO и переход от «Strings to Things». Google использует контент открытого веба для обучения своих систем и понимания связей между естественным языком и сущностями. Веб-сайты, которые предоставляют качественные, полные и хорошо структурированные данные о сущностях и их взаимосвязях с темами, становятся ценным источником знаний для поисковой системы.

    Практические примеры

    Сценарий: Оптимизация сайта с обзорами фильмов под описательные запросы

    1. Анализ запросов: SEO-специалист определяет популярный описательный запрос, например, «фильм где серийный убийца следует кодексу».
    2. Цель: Сделать так, чтобы Google использовал сайт для идентификации сущности «Dexter» (Декстер) по этому запросу.
    3. Действия (Контент): Создается страница, посвященная сериалу «Декстер». В тексте многократно и естественно используются фразы, связывающие сущность с описанием: «Декстер известен своим строгим кодексом», «Сюжет фокусируется на серийном убийце, который убивает только плохих людей».
    4. Действия (Структура): Создается дополнительная статья «Топ-10 сериалов о серийных убийцах с моральным кодексом», где «Декстер» занимает ведущее место. Используется разметка Schema.org/TVSeries.
    5. Ожидаемый результат: При обработке запроса «фильм где серийный убийца следует кодексу» эти страницы попадают в Топ-N веб-выдачи (Этап 1). Система извлекает сущность «Dexter» из этих страниц. За счет частоты упоминания на авторитетных сайтах, сущность «Dexter» получает высокий Topic Score (Этап 2). Google предоставляет пользователю результаты по медиа-активу «Dexter» (Этап 3).

    Вопросы и ответы

    Что такое Media Entity в контексте этого патента?

    Media Entity — это структурированный идентификатор единицы контента, например, название фильма, сериала, имя актера или режиссера. Это то, что система пытается определить из неточного описательного запроса пользователя, анализируя результаты веб-поиска.

    Как рассчитывается Topic Score и почему он важен?

    Topic Score (оценка сущности) рассчитывается на основе частоты (occurrence) упоминания конкретной Media Entity в топовых результатах веб-поиска по исходному запросу. Это ключевая метрика патента: она определяет консенсус веба. Сущность с самым высоким Topic Score считается наиболее вероятным ответом и используется для дальнейшего поиска медиаконтента.

    Что такое Corpus of Web Resources и Corpus of Media Assets?

    Это два разных индекса. Corpus of Web Resources — это общий веб-индекс (как в стандартном поиске Google). Corpus of Media Assets — это специализированная база данных медиаконтента (например, база Google TV или стриминговых сервисов). Система сначала ищет в первом, чтобы понять запрос, а затем во втором, чтобы найти ответ.

    Какое значение этот патент имеет для SEO-специалистов?

    Он подчеркивает, как Google использует контент вашего сайта для понимания связей между естественным языком и сущностями. Если вы создаете контент, который четко связывает описания (сюжеты, темы) с конкретными сущностями (фильмами, продуктами), ваш сайт помогает Google интерпретировать сложные запросы и, следовательно, имеет больше шансов ранжироваться по ним на первом этапе поиска.

    Что такое Entity Table и как она формируется?

    Entity Table — это база данных, которая связывает веб-ресурсы (URL) с сущностями, которые на них обсуждаются. Она формируется заранее, в процессе индексирования (Indexing), путем анализа (crawling/analyzing) контента страниц. Google определяет основные сущности и сохраняет эту связь для быстрого доступа (table lookup operation) во время обработки запросов.

    Может ли система модифицировать исходный запрос пользователя?

    Да, патент описывает опциональный шаг (Claim 5), на котором система может переписать запрос (rewrite the media search query), например, добавив термины вроде «фильм» или «видео». Это помогает сфокусировать первичный веб-поиск на медиа-контексте и получить более качественные результаты для анализа сущностей.

    Что такое Media Quality Score и влияет ли он на SEO?

    Media Quality Score используется на финальном этапе для ранжирования найденных медиа-активов. Он включает техническое качество видео/аудио, популярность (click rate) и доступность. Напрямую на SEO веб-страниц он не влияет, но важен для оптимизации самого медиаконтента (например, на YouTube или стриминговых платформах).

    Применяется ли этот механизм только к фильмам?

    Нет. Хотя основные примеры касаются фильмов и ТВ, в описании указано, что механизмы могут применяться для поиска людей (актеров, режиссеров), мест, продуктов, спортивных команд, брендов, организаций. Это универсальный механизм для связи описательных запросов с сущностями в специализированных базах данных.

    Как я могу оптимизировать свой сайт, чтобы он использовался системой для расчета Topic Score?

    Нужно стать авторитетным источником по теме и ранжироваться высоко по описательным запросам (высокий Relevancy Score). Это достигается созданием качественного контента, который подробно описывает сущности и связывает их с релевантными темами и естественными описательными фразами. Чем четче на сайте определена сущность, тем больше его вклад в Topic Score.

    Использует ли система поведенческие факторы (CTR) в ранжировании?

    Да. Патент упоминает использование популярности (например, click rate) как части Media Quality Score для ранжирования *финальных медиа-активов* (второй этап поиска). Также упоминается использование машинного обучения (learning techniques) на основе click-through rate для корректировки ранжирования. Это подтверждает использование поведенческих факторов в вертикальном медиа-поиске.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.