SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google фильтрует статичные кадры и тишину из живых трансляций перед индексацией контента

DETECTION OF INACTIVE BROADCASTS DURING LIVE STREAM INGESTION (Обнаружение неактивных трансляций во время приема живого потока)
  • US8938089B1
  • Google LLC
  • 2012-06-26
  • 2015-01-20
  • Индексация
  • Мультимедиа
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Патент описывает инфраструктурный механизм для повышения эффективности систем сопоставления контента (таких как Content ID). Система в реальном времени анализирует входящие живые аудио- и видеопотоки, вычисляет цифровые отпечатки и сравнивает их внутри скользящего временного окна. Если отпечатки слишком похожи (например, статичное изображение или тишина), система помечает этот сегмент как неактивный и предотвращает его добавление в индекс, экономя ресурсы и снижая количество ложных срабатываний.

Описание

Какую проблему решает

Патент решает проблему неэффективности индексирования живых трансляций (Live Stream Ingestion). При приеме живого потока (например, спортивного мероприятия) часто возникают паузы, во время которых транслируется статичное изображение (заставка) или тишина. Индексирование такого «неактивного» контента не несет ценности для систем сопоставления контента (Audio & Video Matching System), но при этом увеличивает затраты на хранение и вычислительные ресурсы, а также повышает вероятность ложных срабатываний при поиске совпадений.

Что запатентовано

Запатентована система для автоматического обнаружения и исключения из индекса статичных или неактивных сегментов во время приема живого потока. Система непрерывно генерирует аудио- и видеоотпечатки (fingerprints) и анализирует их схожесть внутри скользящих временных окон. Если уровень схожести превышает порог, сегмент классифицируется как неактивный и не индексируется.

Как это работает

Система работает в реальном времени во время приема потока:

  • Генерация отпечатков: Непрерывно создаются аудио- и видеоотпечатки с определенной частотой дискретизации.
  • Упаковка в окна: Отпечатки группируются в наборы на основе общих последовательных перекрывающихся временных окон (common successive overlapping time windows).
  • Оценка статичности: Для каждого окна вычисляются оценки схожести (Similarity Scores) между всеми парами отпечатков внутри окна (например, с использованием Hamming similarity). Для аудио также проверяется наличие тишины (низкая средняя амплитуда).
  • Валидация и Индексация: Если схожесть слишком высока, отпечатки в этом окне помечаются как недействительные (invalidate). В индекс (Fingerprint Index) добавляются только действительные отпечатки, относящиеся к активной трансляции.

Актуальность для SEO

Высокая (для инфраструктуры). По мере роста объемов видеоконтента и живых трансляций (особенно на YouTube), эффективность обработки и индексирования становится критически важной. Этот патент описывает базовый механизм фильтрации шума и нерелевантных данных на этапе приема контента, что остается актуальной инженерной задачей.

Важность для SEO

Патент имеет минимальное значение (1/10) для традиционных SEO-стратегий. Он описывает внутренние процессы Google, связанные с инфраструктурой приема и индексирования медиаконтента (видео и аудио), а не с алгоритмами ранжирования веб-страниц или самого видео. Патент не содержит прямых рекомендаций для SEO. Он полезен для общего понимания того, как Google оптимизирует свои системы индексации медиафайлов.

Детальный разбор

Термины и определения

Audio & Video Matching System (Система сопоставления аудио и видео)
Система (например, Content ID), которая использует индекс отпечатков для идентификации дубликатов или защищенного авторским правом контента в загружаемых пользователями файлах.
Audio/Video Fingerprints (Аудио/Видео отпечатки)
Уникальные компактные цифровые сигнатуры, извлеченные из медиаконтента. Они представляют собой функцию набора контрольных точек (interest points), таких как спектральные события (аудио) или гистограммы локальных признаков (видео).
Common Successive Overlapping Time Windows (Общие последовательные перекрывающиеся временные окна)
Метод сегментации потока. Анализ проводится в скользящем окне (например, 10 минут). Каждое следующее окно перекрывается с предыдущим (например, 0-10 мин, 0:01-10:01 мин и т.д.), что позволяет оптимизировать вычисления.
Fingerprint Index (Индекс отпечатков)
База данных, содержащая действительные аудио- и видеоотпечатки, используемая для сопоставления контента.
Hamming Similarity (Схожесть Хэмминга)
Метрика для сравнения двух отпечатков. Используется для определения того, насколько похожи два сегмента контента внутри временного окна.
Live Stream Ingestion (Прием живого потока)
Процесс получения и обработки аудиовизуального контента в реальном времени от источника трансляции.
Similarity Scores (Оценки схожести)
Числовые значения, отражающие степень сходства между наборами отпечатков внутри временного окна.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод обнаружения неактивных сегментов в живом потоке.

  1. Система получает живой поток.
  2. Динамически и непрерывно генерируются видео- и аудиоотпечатки с соответствующими периодами дискретизации.
  3. Отпечатки упаковываются в наборы на основе общих последовательных перекрывающихся временных окон.
  4. Вычисляется набор оценок видео схожести (video similarity scores) для наборов видеоотпечатков.
  5. Вычисляется набор оценок аудио схожести (audio similarity scores) для наборов аудиоотпечатков.
  6. Система динамически инвалидирует (помечает как недействительные) один или более видео- и аудиоотпечатков для соответствующих временных окон. Ключевое условие: инвалидация происходит на основе хотя бы одного из наборов оценок (либо видео, либо аудио схожести).

Если хотя бы один из каналов (аудио или видео) признан статичным, весь сегмент (и аудио, и видео отпечатки) помечается как недействительный.

Claim 7 и 16 (Зависимые): Уточняют методы оценки аудио схожести.

  1. Оценка аудио схожести может базироваться на Hamming similarities (обнаружение статичного тона).
  2. ИЛИ оценка может базироваться на обнаружении тишины (detection of silence), что в патенте определяется как очень низкая средняя амплитуда звуковой волны.

Claim 9 и 17 (Зависимые): Описывают результат процесса валидации.

  1. Действительные (не инвалидированные) аудио- и видеоотпечатки добавляются в Fingerprint Index.
  2. Альтернативно, недействительные отпечатки удаляются из индекса.

Где и как применяется

Изобретение является инфраструктурным и применяется на ранних этапах обработки медиаконтента.

CRAWLING – Сканирование и Сбор данных (Data Acquisition)
На этом этапе система осуществляет прием живого потока (Live Stream Ingestion). Это специфическая форма сбора данных, отличающаяся от стандартного краулинга веб-страниц.

INDEXING – Индексирование и извлечение признаков (Feature Extraction)
Это основной этап применения патента. Процесс включает:

  1. Извлечение Признаков (Feature Extraction): Генерация Audio/Video Fingerprints из входящего потока.
  2. Фильтрация и Валидация: Анализ извлеченных признаков на предмет статичности (вычисление Similarity Scores) и принятие решения о том, какие признаки следует сохранить в индексе. Система действует как фильтр качества для Fingerprint Index.

Патент не затрагивает этапы Понимания Запросов, Ранжирования, Метапоиска или Переранжирования.

Входные данные:

  • Живой аудио- и видеопоток (Stream Ingestion).
  • Параметры конфигурации (периоды дискретизации аудио и видео, длина временного окна, пороги схожести).

Выходные данные:

  • Наборы действительных (valid) аудио- и видеоотпечатков.
  • Обновленный Fingerprint Index в системе сопоставления контента.

На что влияет

Патент влияет исключительно на инфраструктуру и эффективность систем индексирования и сопоставления медиаконтента.

  • Конкретные типы контента: Влияет только на обработку живых видеотрансляций (Live Streams).
  • Эффективность системы: Снижает нагрузку на хранилище и вычислительные ресурсы за счет уменьшения размера Fingerprint Index.
  • Качество сопоставления: Повышает точность систем сопоставления (например, Content ID), уменьшая количество ложных срабатываний, которые могли бы возникнуть при сопоставлении с неактивным контентом (заставками, тишиной).

Патент не влияет на SEO, ранжирование, специфические ниши или тематики контента.

Когда применяется

  • Условия работы: Алгоритм работает непрерывно в реальном времени во время приема любой живой трансляции, которая подлежит индексации для последующего сопоставления.
  • Триггеры активации (для инвалидации сегмента):
    • Когда все пары видеоотпечатков внутри временного окна имеют Hamming similarity выше заданного порога (например, 0.5).
    • ИЛИ когда все пары аудиоотпечатков внутри окна имеют Hamming similarity выше порога.
    • ИЛИ когда средняя амплитуда аудиосигнала внутри окна ниже порога (обнаружение тишины).

Пошаговый алгоритм

Процесс обработки живого потока:

  1. Прием потока: Система получает входящий живой аудиовизуальный поток.
  2. Параллельная генерация отпечатков:
    • Видео компонент непрерывно генерирует Video Fingerprints с заданной частотой (например, 4 раза в секунду).
    • Аудио компонент непрерывно генерирует Audio Fingerprints с заданной частотой (например, 10 раз в секунду).
  3. Упаковка в перекрывающиеся окна: Отпечатки группируются в наборы, соответствующие скользящему временному окну (например, 10 минут). При поступлении новых отпечатков формируется новое окно, перекрывающееся с предыдущим.
  4. Оценка статичности видео:
    • Вычисляется Hamming similarity для всех пар видеоотпечатков в текущем окне.
    • Оптимизация: используются результаты расчетов из предыдущего окна, вычисляется схожесть только для новых отпечатков.
    • Если схожесть всех пар превышает Порог V, окно помечается как статичное по видео.
  5. Оценка статичности аудио:
    • Вычисляется Hamming similarity для всех пар аудиоотпечатков (аналогично видео). Если схожесть превышает Порог А, окно помечается как статичное по аудио (статичный тон).
    • ИЛИ проверяется средняя амплитуда аудиоотпечатков. Если она ниже Порога S, окно помечается как статичное по аудио (тишина).
  6. Валидация отпечатков: Если окно помечено как статичное ЛИБО по видео, ЛИБО по аудио, все аудио- и видеоотпечатки, связанные с этим окном, помечаются как недействительные (invalidated).
  7. Индексация: Отпечатки, которые не были помечены как недействительные (т.е. действительные отпечатки), добавляются в Fingerprint Index для использования системой сопоставления контента.

Какие данные и как использует

Данные на входе

Патент фокусируется исключительно на обработке сырых аудиовизуальных данных и извлеченных из них признаков. Он не использует стандартные SEO-факторы.

  • Мультимедиа факторы:
    • Сырой видеопоток: Используется для извлечения контрольных точек (interest points) и генерации Video Fingerprints. Упоминаются такие признаки, как гистограммы локальных признаков, цветовые гистограммы, граничные признаки и т.д.
    • Сырой аудиопоток: Используется для генерации Audio Fingerprints. Упоминаются признаки, основанные на уникальных спектральных событиях (пики, начало пиков). Также используется амплитуда звуковой волны.

Контентные, технические, ссылочные, поведенческие, временные, структурные, географические или пользовательские факторы в этом патенте не используются.

Какие метрики используются и как они считаются

  • Video/Audio Similarity Scores: Агрегированные оценки схожести внутри временного окна.
  • Hamming Similarity: Основной метод вычисления схожести между двумя отдельными отпечатками.
  • Пороги схожести (Thresholds): Предварительно определенные значения (например, 0.5). Если Hamming similarity превышает порог для всех пар в окне, окно считается статичным.
  • Mean Amplitude (Средняя амплитуда): Метрика для аудио. Вычисляется для каждого аудиоотпечатка. Если средняя амплитуда очень низкая, это указывает на тишину.
  • Методы оптимизации вычислений: Используется принцип перекрывающихся окон для повторного использования результатов вычисления схожести из предыдущего окна, что позволяет избежать полного пересчета метрик для каждого нового окна.

Выводы

Патент описывает внутренние инфраструктурные процессы Google без прямых рекомендаций для SEO. Основные выводы для понимания работы систем Google:

  1. Фокус на эффективности индексации медиа: Google активно оптимизирует процесс индексации видео и аудио, фильтруя неинформативный контент (статику, тишину) на самых ранних этапах приема данных.
  2. Индексируются только значимые изменения: Система гарантирует, что в Fingerprint Index попадают только те сегменты, где происходит достаточное изменение аудиовизуальной информации. Статичный контент игнорируется.
  3. Комплексная оценка статичности: Статичность определяется независимо для аудио и видео каналов, используя разные метрики (Hamming similarity для обоих, плюс амплитуда для аудио).
  4. Принцип «ИЛИ» для фильтрации: Если хотя бы один из каналов (аудио ИЛИ видео) признан статичным, весь сегмент (оба типа отпечатков) исключается из индекса.
  5. Инфраструктурный характер: Патент не имеет отношения к алгоритмам ранжирования, факторам качества контента или E-E-A-T. Он решает инженерную задачу масштабирования систем сопоставления контента.

Практика

Патент является инфраструктурным и не дает практических выводов для традиционного SEO. Анализ ниже применим в основном к Video SEO (VSEO) и управлению контентом на платформах типа YouTube.

Best practices (это мы делаем)

  • Обеспечение динамичности контента (VSEO): При создании видеоконтента, особенно если он предназначен для живых трансляций, следует минимизировать длинные статичные заставки или периоды тишины, если важно, чтобы этот контент был полноценно проиндексирован системами сопоставления.
  • Понимание ограничений Content ID: Если вы используете длинные статичные сегменты в своих видео, этот патент объясняет, почему система Content ID может не идентифицировать совпадения с этим конкретным сегментом – он может быть просто не включен в Fingerprint Index.

Worst practices (это делать не надо)

  • Попытки «обмануть» индексацию статикой: Не имеет смысла пытаться манипулировать этим механизмом в целях SEO, так как он не влияет на ранжирование.

Стратегическое значение

Стратегическое значение для SEO минимально. Патент подтверждает, что Google рассматривает индексацию медиаконтента как сложную инженерную задачу и вкладывает ресурсы в повышение эффективности и качества своих индексов на инфраструктурном уровне. Это подчеркивает масштаб операций Google по обработке видео.

Практические примеры

Практических примеров для SEO нет, так как патент не влияет на поисковую оптимизацию.

Пример работы инфраструктуры (не SEO):

Сценарий: Индексация живой трансляции концерта

  1. Событие: Идет прямая трансляция концерта. В перерыве между песнями на экране 5 минут показывается логотип группы, звук отсутствует.
  2. Обработка: Система генерирует отпечатки. В течение этих 5 минут видеоотпечатки идентичны (логотип), аудиоотпечатки показывают тишину.
  3. Анализ: В скользящем временном окне Similarity Scores для видео превышают порог (из-за Hamming similarity), а средняя амплитуда аудио ниже порога.
  4. Результат: Система помечает этот 5-минутный сегмент как неактивный. Отпечатки не добавляются в Fingerprint Index. Когда концерт возобновляется, отпечатки снова начинают добавляться в индекс.

Вопросы и ответы

Влияет ли этот патент на ранжирование видео в поиске Google или на YouTube?

Нет, этот патент не описывает алгоритмы ранжирования. Он описывает инфраструктурный процесс фильтрации контента во время его приема (Live Stream Ingestion). Цель изобретения — повысить эффективность систем сопоставления контента (таких как Content ID), а не определить, какое видео показать выше в результатах поиска.

Что такое «Fingerprint Index» и как он связан с поисковым индексом?

Fingerprint Index — это специализированная база данных, хранящая цифровые отпечатки аудио- и видеоконтента. Он используется преимущественно для идентификации дубликатов и защиты авторских прав (Content ID). Это отдельный индекс, не связанный напрямую с основным веб-индексом Google, который хранит информацию о веб-страницах и используется для ранжирования.

Если мое видео содержит много статичных кадров, будет ли оно хуже ранжироваться?

Этот патент не дает оснований так полагать. Алгоритмы ранжирования используют другие факторы (релевантность, качество, вовлеченность). Однако, согласно этому патенту, статичные сегменты могут быть исключены из Fingerprint Index, что повлияет только на возможность системы находить копии этих сегментов.

Что система считает «статичным» контентом?

Система идентифицирует два типа статики. Первый — это неизменное изображение или повторяющийся звуковой тон. Это определяется с помощью Hamming similarity: если все отпечатки внутри временного окна очень похожи друг на друга, сегмент считается статичным. Второй тип (только для аудио) — это тишина, определяемая по низкой средней амплитуде звука.

Как система обрабатывает ситуацию, когда видео статично, а звук нет (например, музыка на фоне заставки)?

Согласно Claim 1, инвалидация происходит, если хотя бы один из каналов признан статичным. Если видео статично (Video Similarity Scores высоки), а аудио нет, система все равно должна инвалидировать и аудио, и видео отпечатки для этого окна. Патент указывает, что это предотвращает индексацию неактивных трансляций.

Какова длина временного окна для анализа?

Патент не указывает точную длину, но приводит примеры (например, 10 минут). Длина окна является настраиваемым параметром. Важно, что окна являются перекрывающимися (скользящими), что позволяет системе непрерывно оценивать поток и оптимизировать вычисления.

Применяется ли этот механизм к обычным загружаемым видео, а не только к живым трансляциям?

Патент специфически описывает применение в контексте Live Stream Ingestion (приема живого потока). Хотя технически подобный механизм фильтрации может быть применен и к офлайн-обработке загружаемых файлов, в патенте фокус сделан именно на обработке данных в реальном времени во время трансляции.

Какие практические выводы может сделать SEO-специалист из этого патента?

Для традиционного SEO выводов нет. Для VSEO (Video SEO) основной вывод заключается в понимании того, как Google обрабатывает медиафайлы на инфраструктурном уровне. Это знание помогает понять ограничения систем типа Content ID, но не дает инструментов для влияния на ранжирование.

Использует ли система машинное обучение для определения статичности?

Патент не упоминает сложные модели машинного обучения. Описанный механизм основан на прямом вычислении метрик схожести (Hamming similarity) и сравнении их с жестко заданными порогами, а также на анализе амплитуды звука. Это относительно простой и вычислительно эффективный подход, подходящий для обработки потоков в реальном времени.

Может ли этот механизм ошибочно отфильтровать полезный контент?

Теоретически, да. Например, если контент по своей природе очень однороден (например, видео с медленно меняющимся пейзажем и тихим эмбиентным звуком), он может быть ошибочно классифицирован как статичный, если его Similarity Scores превысят пороги. Настройка порогов является ключевой для баланса между эффективностью фильтрации и полнотой индекса.

Похожие патенты

Как Google использует "стену видео" с низкой частотой кадров для быстрого предпросмотра и обнаружения свежего контента
Google использует интерфейс "стена видео", отображающий множество роликов одновременно в виде версий с низкой частотой кадров (например, 1 кадр в секунду). Это позволяет пользователям быстро оценить содержание видео без когнитивной перегрузки. Система также может отображать и кластеризовать видео, которые загружаются в реальном времени, улучшая обнаружение свежего контента и событий.
  • US8935725B1
  • 2015-01-13
  • Мультимедиа

  • Свежесть контента

Как Google управляет инфраструктурой Content ID и приоритизирует сопоставление контента на основе недавних событий
Этот патент описывает инфраструктуру, которую Google использует для крупномасштабных систем сопоставления медиа (таких как Content ID). В нем подробно рассказывается, как Google распределяет масштабную задачу сравнения пользовательских видео с защищенными авторским правом эталонными файлами между различными центрами обработки данных. Ключевой особенностью является возможность приоритизации задач сопоставления на основе актуальности живых событий (например, спортивных матчей, концертов) для быстрого выявления несанкционированных загрузок ценного, чувствительного ко времени контента.
  • US9690629B1
  • 2017-06-27
  • Мультимедиа

  • Свежесть контента

Как Google использует трехэтапную систему фингерпринтинга (Content ID) для обнаружения дубликатов видео и аудио
Google использует масштабируемую систему для обнаружения полных или частичных совпадений в видео и аудио контенте. Система генерирует компактные цифровые отпечатки (фингерпринты) и применяет трехэтапный процесс: быстрый поиск кандидатов с помощью Locality-Sensitive Hashing (LSH), точная классификация с использованием машинного обучения и объединение результатов. Это позволяет идентифицировать контент даже при изменении качества или скорости воспроизведения.
  • US8238669B2
  • 2012-08-07
  • Мультимедиа

  • Индексация

Как Google создает видео-нарезки (Composite Videos) на лету, используя текстовый запрос и анализ аудиодорожек
Google может анализировать аудиодорожки (транскрипты) видео для идентификации конкретных сегментов, где произносятся слова из запроса пользователя. Система автоматически объединяет эти сегменты из разных видео в одно новое сводное видео (Composite Video). Для выбора сегментов используются метрики релевантности, популярности и свежести исходного контента.
  • US9672280B2
  • 2017-06-06
  • Мультимедиа

  • Индексация

  • Семантика и интент

Как Google использует поведенческие сигналы и совместные просмотры для генерации рекомендаций контента (например, "Похожие видео" на YouTube)
Google использует механизм коллаборативной фильтрации для определения связанности контента, анализируя логи взаимодействия пользователей. Система определяет, какой контент пользователи потребляют совместно в рамках одной сессии ("locality of time"). Учитываются только "позитивные взаимодействия" (например, длительный просмотр, высокая оценка). Это позволяет формировать рекомендации на основе реального поведения аудитории, а не только метаданных.
  • US8055655B1
  • 2011-11-08
  • Поведенческие сигналы

  • Персонализация

Популярные патенты

Как Google использует ссылки, которыми делятся в почте, блогах и мессенджерах, как сигнал для корректировки ранжирования
Google запатентовал механизм (User Distributed Search), который учитывает, как пользователи делятся ссылками в коммуникациях (почта, блоги, мессенджеры). Если автор включает ссылку в сообщение, это дает ей первоначальную модификацию в ранжировании. Если получатели переходят по этой ссылке, её Ranking Score увеличивается ещё больше. Оба сигнала используются для влияния на позиции документа в будущей выдаче.
  • US8862572B2
  • 2014-10-14
  • Поведенческие сигналы

  • Ссылки

Как Google использует всплески поискового интереса и анализ новостей для обновления Графа Знаний в реальном времени
Google отслеживает аномальный рост запросов о сущностях (людях, компаниях) как индикатор реального события. Система анализирует свежие документы, опубликованные в этот период, извлекая факты в формате Субъект-Глагол-Объект (SVO). Эти факты используются для оперативного обновления Графа Знаний или добавления блока «Недавно» в поисковую выдачу.
  • US9235653B2
  • 2016-01-12
  • Knowledge Graph

  • Свежесть контента

  • Семантика и интент

Как Google использует связанные запросы и временный «бустинг» для обнаружения и тестирования релевантных документов, которые ранжируются низко
Патент описывает механизм улучшения поиска путем перемещения документов на более высокие позиции. Google идентифицирует документы, которые высоко ранжируются по связанным запросам (например, с синонимами, уточнениями или исправленными ошибками), но низко по исходному запросу, и повышает их. Цель — протестировать истинную релевантность этих документов и собрать пользовательский отклик (клики) для улучшения будущего ранжирования.
  • US8521725B1
  • 2013-08-27
  • Поведенческие сигналы

  • SERP

  • Семантика и интент

Как Google использует историю поиска, поведение и многофакторные профили пользователей для персонализации поисковой выдачи
Google создает детальные профили пользователей на основе истории запросов, взаимодействия с результатами (клики, время просмотра) и анализа контента посещенных страниц. Эти профили (включающие интересы по терминам, категориям и ссылкам) используются для корректировки стандартных оценок ранжирования. Степень персонализации динамически регулируется уровнем уверенности системы в профиле (Confidence Score).
  • US9298777B2
  • 2016-03-29
  • Персонализация

  • Поведенческие сигналы

  • SERP

Как Google вычисляет тематический авторитет автора (Author Rank) на основе его вклада в контент
Google патентует систему для количественной оценки экспертности авторов по конкретным темам. Система анализирует документы, определяет их тематику (Topic) и вес этой тематики (Weight), а затем учитывает долю вклада (Authorship Percentage) каждого автора в раскрытие этой темы. На основе этих данных формируется кумулятивный «Сигнал Авторитета» (Authority Signature) автора, позволяющий идентифицировать экспертов в различных областях.
  • US8458196B1
  • 2013-06-04
  • EEAT и качество

  • Семантика и интент

Как Google использует распределение кликов в выдаче для определения брендовых (навигационных) и общих (тематических) запросов
Google анализирует поведение пользователей в поисковой выдаче для классификации интента запроса. Если клики сконцентрированы на одном результате (низкое разнообразие, высокая частота), запрос классифицируется как навигационный или брендовый (Data-Creator Targeting). Если клики распределены по разным сайтам, запрос считается общим (Content Targeting). Эта классификация используется для адаптации поисковой выдачи.
  • US20170068720A1
  • 2017-03-09
  • Семантика и интент

  • Поведенческие сигналы

  • SERP

Как Google идентифицирует, связывает и индексирует концепции (фразы) для понимания тем документов
Фундаментальный патент Google, описывающий переход от индексирования слов к индексированию концепций (фраз). Система определяет «хорошие фразы» на основе частотности и их способности прогнозировать появление других фраз (Information Gain). Документы индексируются не только по содержащимся в них фразам, но и по наличию связанных фраз, что позволяет системе определять основные и второстепенные темы документа, а также контекстуально оценивать анкорный текст ссылок.
  • US7536408B2
  • 2009-05-19
  • Индексация

  • Семантика и интент

  • Ссылки

Как Google определяет, когда показывать обогащенный результат для сущности, и использует консенсус веба для исправления данных
Google использует механизм для определения того, когда запрос явно относится к конкретной сущности (например, книге). Если один результат значительно доминирует над другими по релевантности, система активирует «обогащенный результат». Этот результат агрегирует данные из разных источников (структурированные данные, веб-страницы, каталоги товаров) и использует наиболее популярные варианты данных из интернета для проверки и исправления информации о сущности.
  • US8577897B2
  • 2013-11-05
  • SERP

  • Семантика и интент

  • EEAT и качество

Как Google итеративно распознает сущности на страницах и рассчитывает их важность с помощью PageRank
Google использует итеративный процесс для распознавания и устранения неоднозначности сущностей (людей, мест, понятий) в документах. Система начинает с известных фактов, находит упоминающие сущность документы, анализирует сопутствующие термины для уточнения модели распознавания и автоматически обнаруживает новые признаки. Патент также описывает расчет важности сущности путем суммирования PageRank ссылающихся документов, взвешенного на вероятность ссылки.
  • US8122026B1
  • 2012-02-21
  • Семантика и интент

  • Ссылки

  • Knowledge Graph

Как Google использует клики пользователей для определения составных фраз (N-грамм) в запросах
Google анализирует, какие результаты поиска выбирают пользователи, чтобы понять, являются ли последовательные слова в запросе единой фразой (например, "Нью Йорк") или отдельными терминами. Если пользователи преимущественно кликают на результаты, содержащие эту последовательность как неразрывную фразу, система определяет ее как составную (Compound) и использует это знание для улучшения ранжирования и понимания запроса.
  • US8086599B1
  • 2011-12-27
  • Семантика и интент

  • Поведенческие сигналы

  • SERP

seohardcore