SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google связывает всплески поисковых запросов с ТВ-трансляциями для показа контекстной информации в реальном времени

SYSTEMS AND METHODS THAT MATCH SEARCH QUERIES TO TELEVISION SUBTITLES (Системы и методы сопоставления поисковых запросов с телевизионными субтитрами)
  • US9578358B1
  • Google LLC
  • 2014-07-18
  • 2017-02-21
  • Свежесть контента
  • Семантика и интент
  • Персонализация
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Google отслеживает внезапные всплески частоты поисковых запросов и сопоставляет их с субтитрами (или аудиодорожкой) транслируемых в этот момент телепрограмм. Это позволяет системе понять, какой именно момент в эфире вызвал интерес пользователей, и проактивно предоставить связанную информацию зрителям через «вторые экраны» (например, смартфоны).

Описание

Какую проблему решает

Патент решает задачу предоставления своевременной и высокорелевантной дополнительной информации пользователям, которые смотрят телевизионные программы и одновременно используют мобильное устройство (концепция «второго экрана» – Second Screen). Система улучшает понимание того, что именно интересует зрителей в конкретный момент трансляции, не полагаясь на общие демографические данные, предположения или инвазивные опросы.

Что запатентовано

Запатентована система, которая в реальном времени идентифицирует всплески поисковой активности (Search Query Spikes) и коррелирует их с контентом транслируемых телепрограмм. Корреляция достигается путем сопоставления терминов или концептов из группы «всплесковых» запросов с субтитрами (Subtitle Terms) или распознанным аудио, которые появились в эфире незадолго до всплеска. Цель – проактивно предоставить релевантную информацию зрителям программы.

Как это работает

Система работает в несколько этапов:

  • Группировка запросов: Эквивалентные запросы (выражающие один и тот же Linguistic Concept) объединяются в группы (Query Groups).
  • Детекция всплесков: Мониторинг частоты запросов в реальном времени. Всплеск фиксируется, если частота группы запросов резко превышает средний уровень.
  • Корреляция: Сопоставление терминов/концептов из всплеска с субтитрами (или аудио), которые появились в эфире в определенном временном окне непосредственно перед всплеском.
  • Идентификация зрителей: Определение пользователей, которые смотрят данную программу (например, через приложение или аудио-фингерпринтинг).
  • Доставка информации: Отправка результатов поиска, связанных со всплеском, на устройства этих пользователей.
  • Оптимизация: Использование данных о всплесках из ранних часовых поясов для мгновенной (проактивной) доставки информации в поздних часовых поясах.

Актуальность для SEO

Высокая. Потребность в контекстуальной информации в реальном времени и использование мобильных устройств во время просмотра медиаконтента остаются актуальными трендами. Технологии анализа данных в реальном времени и автоматического распознавания контента (ACR) активно развиваются и интегрируются в экосистемы (например, Google Assistant).

Важность для SEO

Патент имеет ограниченное прямое влияние на классическое SEO (4/10). Он не описывает механизмы ранжирования веб-страниц в органической выдаче. Однако он критически важен для понимания того, как Google интерпретирует тренды в реальном времени (Real-Time Search / QDF), группирует семантически близкие запросы (Equivalent Queries) на основе сущностей и связывает данные из разных источников (поисковые логи и медиаконтент).

Детальный разбор

Термины и определения

Search Query Spike (Всплеск поисковых запросов)
Внезапное и значительное увеличение частоты подачи группы эквивалентных запросов за короткий промежуток времени, превышающее пороговое значение по сравнению со средней частотой.
Equivalent Queries / Query Group (Эквивалентные запросы / Группа запросов)
Набор поисковых запросов, которые система считает эквивалентными, несмотря на различия в формулировках (например, "life on Mars" и "Martian life").
Subtitle Terms (Термины субтитров)
Текстовые данные, полученные из субтитров телепрограммы. Патент также упоминает возможность генерации этих данных с помощью распознавания речи (voice recognition algorithms) из аудиодорожки.
Second Screen Application (Приложение «второго экрана»)
Приложение на клиентском устройстве (смартфон, планшет), используемое одновременно с просмотром телевизора и предоставляющее дополнительную информацию о программе.
Linguistic Concept (Лингвистический концепт)
Концептуальная сущность (упоминаются также как Knowledge Graph Entities), которая может быть выражена разными наборами терминов. Используется для группировки запросов и сопоставления с субтитрами.
Correlation (Корреляция)
Установление связи между Search Query Spike и конкретным местом (Location) в видеопрограмме на основе совпадения терминов/концептов и временной близости (субтитры появились незадолго до всплеска).

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной процесс идентификации всплесков и проактивной доставки информации с учетом часовых поясов.

  1. Система идентифицирует Search Query Spike от пользователей в первом часовом поясе (Time Zone 1). Всплеск – это превышение частоты группы эквивалентных запросов над средним значением на пороговую величину.
  2. Система коррелирует этот всплеск с транслируемой видеопрограммой. Корреляция происходит путем сопоставления терминов из запросов с Subtitle Terms, появившимися в программе в определенном месте (first location) в течение заданного времени (predefined time) непосредственно перед всплеском.
  3. Система получает уведомление от устройства пользователя (в Time Zone 1) о его интересе к программе (т.е. он ее смотрит).
  4. Система отправляет результаты поиска, соответствующие запросам из всплеска, на это устройство (в Time Zone 1).
  5. Ключевой элемент (Time Zone Optimization): Система отправляет эти же результаты поиска на устройство пользователя во втором, более позднем часовом поясе (Time Zone 2). Доставка происходит синхронно с моментом трансляции соответствующего контента (current location) в этом втором поясе.

Система использует данные о всплеске, зафиксированном ранее (в Time Zone 1), чтобы предоставить информацию позже (в Time Zone 2) мгновенно, без задержки, необходимой для детекции нового всплеска.

Claim 3 и 4 (Зависимые): Уточняют методы определения эквивалентности запросов.

  • Claim 3: Запросы эквивалентны, если упорядоченная последовательность терминов одного запроса существенно идентична (substantially identical) последовательности другого (учет порядка слов, незначительных вариаций и опечаток).
  • Claim 4: Запросы эквивалентны, если они выражают один и тот же Linguistic Concept, даже если используют разные термины.

Claim 6 (Зависимый): Уточняет способ определения интереса пользователя. Система получает аудиопоток с пользовательского устройства и коррелирует его с аудиодорожкой видеопрограммы (механизм аудио-фингерпринтинга).

Claim 7 и 8 (Зависимые): Уточняют методы сопоставления запросов и субтитров. Они аналогичны Claims 3 и 4: сопоставление может происходить либо через существенно идентичные упорядоченные последовательности терминов (Claim 7), либо через совпадение Linguistic Concept (Claim 8).

Claim 10 (Зависимый): Описывает использование корреляции для улучшения результатов поиска для других пользователей.

  1. Система получает второй запрос от другого пользователя, который совпадает с запросами из идентифицированного всплеска.
  2. Используя установленную корреляцию между всплеском и видеопрограммой, система выбирает список документов, которые ассоциированы с этой видеопрограммой и релевантны второму запросу.
  3. Этот список отправляется второму пользователю. Это может влиять на формирование SERP по трендовым запросам.

Где и как применяется

Изобретение затрагивает сбор данных и понимание запросов для обеспечения контекстного и проактивного поиска.

CRAWLING – Сканирование и Сбор данных (Data Acquisition)
На этом этапе система собирает и обрабатывает данные о телепрограммах: расписание трансляций (Broadcast Data), метаданные и, что критически важно, потоки субтитров (Subtitle Data) или аудио в реальном времени.

QUNDERSTANDING – Понимание Запросов
Основное применение патента. Система обрабатывает логи поисковых запросов в реальном времени (Search Query Log). Происходит:

  1. Группировка: Запросы объединяются в Query Groups на основе эквивалентности (семантика, Linguistic Concepts).
  2. Детекция трендов: Мониторинг частот и идентификация Search Query Spikes (используя Spike Identification Module).
  3. Контекстуализация: Сопоставление всплесков с внешними данными (субтитрами) для понимания причины всплеска (используя Search Term Matching Module).

RANKING / METASEARCH (Contextual Delivery)
Система определяет контекст пользователя (просмотр ТВ-программы) с помощью Television Program Determination Module. Вместо формирования стандартной SERP, система использует результаты анализа для проактивной доставки контента через Media Supplement Module. Также, согласно Claim 10, корреляция может влиять на выбор документов в основном ранжировании для трендовых запросов.

Входные данные:

  • Логи поисковых запросов: термины, таймстампы, геолокация, часовые пояса.
  • Данные о телепрограммах: поток субтитров или аудио, расписание трансляций.
  • Данные от клиентских устройств: уведомления о просмотре программы, аудиопотоки (для фингерпринтинга).

Выходные данные:

  • Результаты поиска или сами «всплесковые» запросы, отправляемые на клиентские устройства.
  • Сохраненные данные о корреляции всплесков и программ для использования в других часовых поясах и для улучшения основного поиска (Claim 10).

На что влияет

  • Специфические запросы: Влияет на информационные и уточняющие запросы, связанные с событиями в реальном времени, транслируемыми по ТВ (трендовые запросы, QDF).
  • Конкретные типы контента: Влияет на пользовательский опыт при просмотре ТВ-шоу, новостей, спортивных событий.
  • Географические ограничения: Система явно учитывает часовые пояса для оптимизации доставки контента при поэтапной трансляции (например, Восток-Запад США).

Когда применяется

  • Условия работы: Алгоритм работает в реальном времени во время трансляции видеопрограмм.
  • Триггеры активации: Детекция Search Query Spike, когда частота группы запросов превышает заданный порог (predefined threshold percentage) по сравнению со средней частотой (Average Query Frequency).
  • Дополнительное условие: Успешная корреляция всплеска с субтитрами, появившимися в эфире в течение заданного временного окна (predefined time) до начала всплеска.

Пошаговый алгоритм

Процесс А: Подготовка (Офлайн/Предварительно)

  1. Группировка запросов: Анализ логов поиска для объединения эквивалентных запросов в Query Groups с использованием методов семантического анализа (Linguistic Concepts) и сопоставления последовательностей.
  2. Расчет базовых метрик: Определение средней (Average Query Frequency) и, возможно, максимальной (Max Query Frequency) частоты для каждой группы.

Процесс Б: Обработка в реальном времени (Первый часовой пояс)

  1. Сбор данных: Получение потока поисковых запросов и потока субтитров/аудио транслируемых программ. Параллельное получение данных об активности пользователей (какие программы они смотрят).
  2. Детекция всплеска: Мониторинг частоты Query Groups. Идентификация Search Query Spike, когда текущая частота превышает установленный порог.
  3. Корреляция с контентом: Сопоставление терминов или Linguistic Concepts из «всплесковой» группы с субтитрами, появившимися в эфире незадолго до всплеска. Фиксация связи между всплеском и конкретным местом в программе.
  4. Доставка контента: Отправка результатов поиска по «всплесковым» запросам на устройства пользователей, которые смотрят данную программу.
  5. Сохранение корреляции: Запись данных о связи всплеска и программы для последующего использования.

Процесс В: Обработка в реальном времени (Последующие часовые пояса)

  1. Мониторинг трансляции: Отслеживание трансляции той же программы в новом часовом поясе.
  2. Проактивная доставка: Когда трансляция достигает места, ранее вызвавшего всплеск (на основе сохраненной корреляции), система мгновенно (без ожидания нового всплеска) отправляет результаты поиска пользователям в этом часовом поясе, смотрящим программу.

Какие данные и как использует

Данные на входе

  • Поведенческие факторы: Логи поисковых запросов (Search Query Log) являются основным источником данных для обнаружения всплесков и анализа интересов аудитории.
  • Временные факторы: Критически важны. Используются таймстампы запросов, таймкоды субтитров и время трансляции. Система использует временные окна для детекции всплесков и корреляции (например, субтитры за X минут до всплеска).
  • Географические факторы: Используются часовые пояса пользователей (User Time Zone) и регионы трансляции (Broadcast Time Zone) для корректной корреляции и оптимизации доставки контента.
  • Контентные факторы (ТВ): Субтитры (Subtitle Terms) или распознанный текст из аудиодорожки. Также могут использоваться метаданные программ (Program Profile).
  • Пользовательские факторы: Данные об активности пользователя (просмотр программы), полученные через приложение, Set Top Box или аудио-фингерпринтинг (audio stream).

Какие метрики используются и как они считаются

  • Average/Maximum Query Frequency: Средняя и максимальная частота запросов для Query Group за определенный период. Используются как базовый уровень.
  • Query Frequency During Spike: Текущая частота запросов группы.
  • Threshold Percentage/Amount: Пороговое значение, на которое текущая частота должна превысить базовый уровень для детекции всплеска.
  • Методы анализа текста (NLP) и Метрики эквивалентности/корреляции:
    • Оценка совпадения упорядоченных последовательностей терминов (substantially identical ordered sequence).
    • Оценка совпадения Linguistic Concepts (семантическая близость, распознавание сущностей).

Выводы

  1. Связывание внешних событий и поиска: Патент описывает конкретный механизм, позволяющий Google программно связывать события во внешнем мире (ТВ-трансляции) с коллективным поисковым поведением пользователей (Search Query Spikes) в реальном времени.
  2. Приоритет концептов (сущностей) над ключевыми словами: Ключевое значение имеет способность системы группировать запросы и сопоставлять контент на основе Linguistic Concepts (сущностей), а не только буквального совпадения терминов. Это позволяет точно детектировать всплески интереса к теме, даже если пользователи используют разные формулировки.
  3. Real-Time Анализ Трендов (QDF): В основе механизма лежит способность системы мгновенно обнаруживать изменения в частоте запросов и реагировать на них, что является реализацией принципов QDF (Query Deserves Freshness).
  4. Контекстный и проактивный поиск: Демонстрируется переход к проактивному поиску. Система определяет контекст пользователя (просмотр ТВ) и предугадывает его информационные потребности, доставляя контент до того, как пользователь введет запрос.
  5. Оптимизация доставки информации: Механизм использования данных из разных часовых поясов позволяет устранить задержку между событием и реакцией системы, обеспечивая мгновенное предоставление информации в последующих трансляциях.

Практика

Практическое применение в SEO

Патент в первую очередь описывает инфраструктуру для проактивного поиска и работы Ассистентов/«вторых экранов», а не механизмы ранжирования веб-сайтов. Прямое влияние на стандартные SEO-практики ограничено, но есть важные стратегические выводы.

Best practices (это мы делаем)

  • Мониторинг и реагирование на тренды (Real-Time SEO / News SEO): Понимание того, как Google детектирует всплески интереса (Search Query Spikes), критично для новостных сайтов. Необходимо максимально быстро реагировать на события, вызывающие массовый интерес (спортивные матчи, политические дебаты, премьеры), создавая релевантный контент.
  • Оптимизация под сущности и концепты (Entity SEO): Патент явно указывает на использование Linguistic Concepts (сущностей) для группировки запросов. SEO-стратегия должна фокусироваться на раскрытии сущностей и их связей (Knowledge Graph), а не на конкретных ключевых фразах.
  • Использование синонимов и разнообразной лексики: Поскольку система агрегирует эквивалентные запросы (например, «жизнь на Марсе» и «Марсианская жизнь»), использование в контенте богатой лексики и синонимов повышает вероятность соответствия различным формулировкам запросов внутри одной Query Group.
  • Структурированные данные для медиаконтента: Для видеоконтента и онлайн-трансляций предоставление точных субтитров и метаданных может помочь системам корректно интерпретировать контент и связать его с запросами пользователей.

Worst practices (это делать не надо)

  • Игнорирование семантики и сущностей: Фокусировка исключительно на буквальном вхождении ключевых слов делает стратегию менее эффективной, так как Google оперирует на уровне концептов и агрегирует запросы по смыслу.
  • Медленная реакция на тренды: Для сайтов, работающих в нишах, связанных с реальными событиями, медленная публикация контента означает потерю трафика по «горячим» запросам, которые Google активно отслеживает и идентифицирует через механизмы, подобные описанному.

Стратегическое значение

Патент подтверждает стратегический приоритет Google на понимание контекста пользователя и причин возникновения запроса. Система стремится не просто ответить на введенный текст, но и понять, какое внешнее событие его вызвало. Это еще одно доказательство важности семантического и сущностного поиска, а также движения в сторону проактивного предоставления информации (Proactive Search), где система предвосхищает запрос пользователя.

Практические примеры

Сценарий: Real-Time SEO во время спортивного события с учетом часовых поясов

  1. Событие в эфире (Восточное побережье, 20:00): Во время трансляции футбольного матча комментатор упоминает редкий термин (например, «Semi-Automated Offside»). Термин появляется в субтитрах.
  2. Реакция пользователей и Google (20:01): Зрители начинают искать объяснение. Google фиксирует Search Query Spike и коррелирует его с моментом трансляции.
  3. Действие SEO-специалиста: Спортивный сайт быстро публикует статью, объясняющую термин, оптимизированную под сущность (правило, технология).
  4. Результат (Восточное побережье, 20:02): Сайт получает трафик. Google проактивно показывает информацию зрителям матча через «вторые экраны».
  5. Событие в эфире (Западное побережье, 20:00 по местному времени): Трансляция идет с задержкой. Когда комментатор упоминает термин, Google, используя данные с Восточного побережья, мгновенно (без ожидания нового всплеска) предоставляет информацию зрителям на Западном побережье.

Вопросы и ответы

Как Google определяет, что два разных запроса эквивалентны?

Патент описывает два основных метода. Первый – это существенное совпадение упорядоченной последовательности терминов (учитывает порядок слов, игнорирует мелкие различия или опечатки). Второй, более продвинутый метод – это совпадение Linguistic Concept (лингвистического концепта или сущности). Это означает, что запросы считаются эквивалентными, если они выражают одну и ту же идею, даже если используют совершенно разные слова.

Влияет ли этот патент на ранжирование в обычном поиске Google?

Напрямую – минимально. Патент фокусируется на проактивной доставке информации на «вторые экраны». Однако в патенте (Claim 10) упоминается возможность использования этой корреляции для выбора документов, связанных с видеопрограммой, в ответ на обычные поисковые запросы других пользователей. Это может косвенно влиять на выдачу по трендовым запросам (QDF).

Что такое «Linguistic Concept» в контексте патента и почему это важно для SEO?

Linguistic Concept – это то, что в SEO принято называть сущностью (Entity) или концептом. Патент упоминает их как Knowledge Graph Entities. Это важно, потому что система группирует запросы и сопоставляет их с контентом на уровне этих концептов, а не ключевых слов. Это подтверждает необходимость оптимизации контента под сущности (Entity SEO).

Как система узнает, что я смотрю телевизор и какую именно программу?

Патент описывает несколько способов получения уведомления (notification) от пользовательского устройства. Это может быть явное уведомление от специализированного приложения («второго экрана») или ТВ-приставки. Также упоминается получение аудиопотока (audio stream) с микрофона устройства и его корреляция с аудиодорожкой программы (аудио-фингерпринтинг) для автоматического определения контента.

Какова задержка между событием в эфире и реакцией системы?

В первом часовом поясе есть задержка, необходимая для того, чтобы пользователи успели ввести запросы, а система – задетектировать всплеск и провести корреляцию (упоминаются окна в 30 секунд, минуту, 5 минут). Однако ключевая особенность патента в том, что для последующих часовых поясов эта задержка устраняется: система показывает информацию мгновенно, синхронно с эфиром, используя данные, собранные ранее.

Использует ли система только субтитры для понимания ТВ-контента?

Нет. Хотя патент фокусируется на субтитрах (Subtitle Terms), в описании явно упоминается возможность применения алгоритмов распознавания речи (voice recognition algorithms) непосредственно к аудиодорожке ТВ-контента для генерации текстового потока. Также возможно использование обоих источников одновременно.

Как это связано с QDF (Query Deserves Freshness)?

Этот механизм является одним из способов реализации QDF в реальном времени. Система идентифицирует запросы, которые внезапно стали популярными (заслуживают свежести) из-за внешнего события (ТВ-трансляции). Понимание этого механизма помогает SEO-специалистам понять, как Google выявляет горячие тренды.

Что дает механизм использования разных часовых поясов?

Он позволяет превратить реактивную систему в проактивную. Вместо того чтобы ждать, пока пользователи в новом регионе начнут искать информацию (и только потом реагировать), система уже знает, что вызовет интерес, и предоставляет информацию мгновенно, улучшая пользовательский опыт.

Какие типы контента выигрывают от этого механизма?

В первую очередь выигрывает контент, связанный с событиями в реальном времени: новости, спорт, развлекательные шоу, политические дебаты. Сайты, способные быстро создавать качественный контент в ответ на эти события, получат преимущество в видимости по трендовым запросам, которые могут быть доставлены пользователям проактивно.

Как SEO-специалисту использовать знание об этом механизме?

Необходимо сфокусироваться на двух аспектах. Первый – это скорость реакции на тренды (Real-Time SEO), так как система очень быстро идентифицирует всплески интереса. Второй – это семантическая оптимизация контента под сущности (Linguistic Concepts) и использование разнообразной лексики, так как Google агрегирует эквивалентные запросы на основе концептов, а не ключевых слов.

Похожие патенты

Как Google использует всплески поисковых запросов для идентификации трендовых «моментов» в ТВ-трансляциях и прямых эфирах
Google анализирует всплески поисковых запросов в реальном времени и сопоставляет их с транслируемым медиаконтентом (например, телешоу или спортивными событиями). Сопоставляя термины запроса с метаданными (субтитрами) или анализируя аудио-отпечатки с устройств пользователей, Google определяет точный «момент», вызвавший интерес, и упаковывает его в автоматический «Гид по моментам».
  • US20170214954A1
  • 2017-07-27
  • Поведенческие сигналы

  • Мультимедиа

  • Семантика и интент

Как Google использует контекст просмотра ТВ для модификации поисковых запросов в реальном времени
Google анализирует время, местоположение и содержание поискового запроса пользователя, сопоставляя их с данными о телепрограммах, транслируемых в данный момент. Если система предполагает, что запрос связан с просматриваемой передачей, она автоматически дополняет исходный запрос терминами из этой передачи для предоставления более релевантных результатов.
  • US8839303B2
  • 2014-09-16
  • Семантика и интент

  • Персонализация

  • SERP

Как Google автоматически генерирует и выполняет поисковые запросы на основе того, что пользователь смотрит или слушает
Google патентует систему проактивного поиска для "второго экрана". Анализируя исторические данные, система определяет, что пользователи ищут во время просмотра контента (фильма, матча). Когда новый пользователь смотрит этот контент, система распознает его (например, по звуку) и автоматически выполняет релевантные запросы в нужный момент, показывая свежие результаты без ручного ввода.
  • US10545954B2
  • 2020-01-28
  • Свежесть контента

  • Семантика и интент

  • Мультимедиа

Как Google идентифицирует контент на одном устройстве (например, ТВ) и проактивно отправляет свежие и трендовые результаты поиска на другое (например, смартфон)
Google использует технологию "отпечатков контента" для идентификации того, что пользователь смотрит или слушает на первом устройстве. Система автоматически генерирует связанный поисковый запрос и отправляет на второе устройство "динамические текущие результаты". Приоритет отдается наиболее свежей, часто обновляемой и трендовой информации, создавая новый канал для дистрибуции контента.
  • US9875242B2
  • 2018-01-23
  • Свежесть контента

  • Мультимедиа

Как Google использует контент, который вы смотрите (например, на ТВ), для автоматического переписывания и персонализации ваших поисковых запросов
Google может анализировать контент (фильмы, шоу, аудио), который пользователь потребляет на одном устройстве (например, ТВ), и использовать эту информацию как контекст для уточнения последующих поисковых запросов. Система распознает аудиовизуальный контекст и автоматически дополняет неоднозначные запросы пользователя, чтобы предоставить более релевантные результаты, в том числе на связанных устройствах (например, смартфоне).
  • US9244977B2
  • 2016-01-26
  • Персонализация

  • Семантика и интент

  • Поведенческие сигналы

Популярные патенты

Как Google генерирует блок "Похожие вопросы" (People Also Ask) на основе анализа кликов и поведения пользователей
Google анализирует топовые результаты по исходному запросу и определяет "Тематические запросы" (Topic Sets) — прошлые запросы, по которым пользователи кликали на эти результаты. Затем система ищет популярные вопросы, соответствующие этим темам, фильтрует дубликаты на основе общности кликов и показывает их в блоке PAA для дальнейшего исследования темы.
  • US9213748B1
  • 2015-12-15
  • SERP

  • Семантика и интент

  • Поведенческие сигналы

Как Google автоматически распознает сущности в тексте и связывает их в Knowledge Graph с помощью динамических поисковых ссылок
Google использует автоматизированную систему для поддержания связей между сущностями (объектами) в своем хранилище фактов (Knowledge Graph). Система сканирует текст, статистически определяет значимые фразы и сверяет их со списком известных объектов. При совпадении создается динамическая «поисковая ссылка» вместо фиксированного URL. Это позволяет Google постоянно обновлять связи по мере добавления новых знаний.
  • US8260785B2
  • 2012-09-04
  • Knowledge Graph

  • Семантика и интент

  • Ссылки

Как Google идентифицирует и верифицирует локальные бизнесы для показа карт и адресов в органической выдаче
Google использует этот механизм для улучшения органических результатов. Система определяет, связана ли веб-страница с одним конкретным бизнесом. Затем она верифицирует ее локальную значимость, проверяя, ссылаются ли на нее другие топовые результаты по тому же запросу. Если страница верифицирована, Google дополняет стандартную «синюю ссылку» интерактивными локальными данными, такими как адреса и превью карт.
  • US9418156B2
  • 2016-08-16
  • Local SEO

  • SERP

  • Ссылки

Как Google использует машинное обучение и поведенческие данные для прогнозирования полезности документов и решает, что включать в поисковый индекс
Google использует модель машинного обучения для определения, какие документы включать в поисковый индекс. Модель обучается на исторических данных о кликах и показах, чтобы предсказать будущую «оценку полезности» (Utility Score) документа. Документы ранжируются по этой оценке, а также с учетом других факторов (например, PageRank, стоимость индексации, свежесть, квоты), и лучшие из них попадают в индекс.
  • US8255386B1
  • 2012-08-28
  • Индексация

  • Поведенческие сигналы

Как Google использует время пребывания на странице (Dwell Time) для оценки качества и корректировки ранжирования
Google анализирует продолжительность визитов пользователей на страницы из результатов поиска (Dwell Time). Система рассчитывает метрику, сравнивающую количество «длинных кликов» (длительных визитов) с общим количеством кликов для конкретного документа по конкретному запросу. Этот показатель используется как сигнал качества, независимый от позиции в выдаче, для повышения или понижения документа в ранжировании.
  • US8661029B1
  • 2014-02-25
  • Поведенческие сигналы

  • SERP

Как Google снижает влияние ссылок с аффилированных сайтов и PBN для борьбы с манипуляциями в ранжировании
Патент Google описывает систему ранжирования, которая идентифицирует группы сайтов под общим контролем (аффилированные узлы или PBN). Система резко снижает вес ссылок внутри такой группы и ограничивает общее влияние группы на другие сайты, учитывая только одну, самую сильную ссылку от всей группы. Также описывается механизм "Доверенных авторитетов", чьи ссылки передают максимальный вес независимо от количества исходящих ссылок.
  • US8719276B1
  • 2014-05-06
  • Антиспам

  • Ссылки

  • Техническое SEO

Как Google в Autocomplete динамически выбирает между показом общих категорий и конкретных подсказок в зависимости от «завершенности запроса»
Google анализирует «меру завершенности запроса» (Measure of Query Completeness) по мере ввода текста пользователем. Если намерение неясно и существует много вариантов продолжения (низкая завершенность, высокая энтропия), система предлагает общие категории (например, «Регионы», «Бизнесы»). Если намерение становится ясным (высокая завершенность, низкая энтропия), система переключается на конкретные подсказки или сущности.
  • US9275147B2
  • 2016-03-01
  • Семантика и интент

  • Поведенческие сигналы

  • Персонализация

Как Google использует анализ параллельных анкорных текстов и кликов пользователей для перевода запросов и кросс-язычного поиска
Google использует механизм для автоматического перевода запросов с одного языка или набора символов на другой. Система создает вероятностный словарь, анализируя, как анкорные тексты на разных языках ссылаются на одни и те же страницы (параллельные анкоры). Вероятности перевода затем уточняются на основе того, на какие результаты кликают пользователи. Это позволяет осуществлять кросс-язычный поиск (CLIR).
  • US8706747B2
  • 2014-04-22
  • Мультиязычность

  • Семантика и интент

  • Ссылки

Как Google использует вероятностные модели и анализ пользовательского выбора (кликов) для обучения систем ранжирования
Патент Google описывает метод эффективного ранжирования контента (видео или результатов поиска) с использованием парных сравнений. Система моделирует качество как вероятностное распределение и оптимизирует сбор данных. Этот механизм может применяться для интерпретации кликов в поисковой выдаче как сигналов предпочтения, учитывая позицию результата и доверие к пользователю.
  • US8688716B1
  • 2014-04-01
  • SERP

  • Поведенческие сигналы

Как Google группирует похожие запросы и поисковые подсказки, определяя интент пользователя через анализ сессий и кликов
Google использует графовую модель (Марковскую цепь) для кластеризации поисковых подсказок и связанных запросов. Система анализирует, какие запросы пользователи вводят в одной сессии и на какие документы они кликают. Это позволяет сгруппировать запросы, ведущие к схожему контенту, и предложить пользователю разнообразный набор подсказок, отражающих разные интенты.
  • US8423538B1
  • 2013-04-16
  • Семантика и интент

  • Поведенческие сигналы

  • SERP

seohardcore