Как Google использует структурные разрывы (смены сцен и тишину) для идентификации дубликатов видео и организации видео-поиска

ENDPOINT BASED VIDEO FINGERPRINTING (Фингерпринтинг видео на основе конечных точек)

US8611422B1
Google LLC
2007-06-19
2013-12-17

Google использует систему фингерпринтинга видео, которая анализирует не пиксели, а временные метки структурных разрывов — смены сцен (shot boundaries) и моменты тишины (silent points). Это позволяет идентифицировать дубликаты или похожий контент даже при различиях в кодировании, разрешении или частоте кадров, что используется для удаления нарушений авторских прав и организации результатов видео-поиска.

Какую проблему решает

Патент решает проблему управления огромными библиотеками видео, например, на сайтах видеохостинга. Основные задачи — автоматическая идентификация неавторизованных копий защищенного авторским правом контента и обнаружение дубликатов для экономии места хранения и организации поисковой выдачи. Традиционные методы (например, хеширование файлов или сравнение отдельных кадров) неэффективны, так как они не могут идентифицировать видео с небольшими различиями в сжатии, разрешении, частоте кадров или времени начала/окончания.

Что запатентовано

Запатентована система и метод создания робастных цифровых отпечатков (фингерпринтов) для видеофайлов. В отличие от анализа пикселей, система фокусируется на временных метках структурных разрывов (discontinuities) в видеопотоке (смена сцен — shot boundaries) и/или аудиопотоке (точки тишины — silent points). Эти структурные характеристики устойчивы к изменениям в кодировании и форматировании видео.

Как это работает

Система работает следующим образом:

Нормализация: Входящее видео конвертируется в стандартный формат (например, снижается частота кадров и разрешение).
Обнаружение разрывов: Система анализирует видеоряд для поиска границ сцен и аудиодорожку для поиска моментов тишины.
Кодирование: Временные метки этих разрывов кодируются в компактное представление (например, битовый вектор, где '1' означает разрыв в данном кадре).
Сегментация: Закодированные данные разделяются на множество перекрывающихся сегментов. Каждый сегмент является фингерпринтом. Перекрытие позволяет находить совпадения, даже если видео обрезано.
Индексация и Сравнение: Фингерпринты индексируются с использованием эффективных методов хеширования (min-hash, LSH) для быстрого поиска совпадений в большой базе данных.

Актуальность для SEO

Высокая. Управление видеоконтентом, борьба с пиратством (например, через систему Content ID на YouTube) и дедупликация данных остаются критически важными задачами для Google. Описанная технология обеспечивает надежный и масштабируемый способ идентификации видеоконтента на основе его структуры.

Важность для SEO

Патент имеет значительное влияние на Video SEO (VSEO), особенно на платформах вроде YouTube. Он не описывает ранжирование веб-страниц, но критически важен для понимания того, как Google идентифицирует уникальность видеоконтента. Система напрямую влияет на управление авторскими правами (Content ID), каноникализацию видео (объединение дубликатов) и организацию результатов поиска по видео. Для VSEO это подчеркивает абсолютную необходимость создания структурно уникального контента.

Термины и определения

Discontinuity (Разрыв): Точка во времени в аудиовизуальном контенте, где происходит значительное структурное изменение (например, смена сцены или начало тишины).
Endpoint (Конечная точка): Кадр, соответствующий временному расположению разрыва.
Fingerprint (Фингерпринт / Цифровой отпечаток): Компактное представление (например, битовая последовательность), представляющее структурные характеристики разрывов в определенном сегменте видео.
Fingerprint Sequence (Последовательность фингерпринтов): Упорядоченный набор фингерпринтов, представляющий все видео целиком.
Locality Sensitive Hashing (LSH): Метод хеширования, используемый на этапе индексации для эффективного поиска похожих элементов. Позволяет быстро находить похожие сигнатуры без прямого сравнения со всей базой.
Min-hash: Техника хеширования, применяемая к фингерпринту для генерации его сигнатуры (Signature). Уменьшает размерность данных, сохраняя при этом информацию о схожести.
Shot (Сцена/План): Непрерывная последовательность видеокадров, снятая одной камерой.
Shot Boundary (Граница сцены): Точка перехода между двумя разными сценами. Может быть резкой сменой плана (cut), затуханием (fade) или наплывом (dissolve).
Silent Point (Точка тишины): Временная метка в аудиопотоке, где громкость падает ниже определенного порога на определенное время.
Signature / Signature Blocks (Сигнатура / Блоки сигнатуры): Результат процесса индексации (например, min-hash). Сигнатура используется для быстрого сравнения фингерпринтов. Она может быть разделена на блоки для использования в LSH.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод создания фингерпринта для видео.

Идентификация множества разрывов (discontinuities) в аудиовизуальном контенте видео.
Генерация закодированного представления (encoded data representation) последовательности кадров. Кадры с разрывами (конечные точки) получают одно значение (например, 1), кадры без разрывов — другое (например, 0). Значения расположены в последовательности, соответствующей кадрам видео.
Сегментация этого представления на множество частично перекрывающихся сегментов (partially overlapping segments). Последовательные сегменты представляют контент, который перекрывается на один или более кадров.
Генерация фингерпринта для каждого сегмента.
Сохранение фингерпринтов.

Ядром изобретения является создание временного ряда, показывающего, где происходят структурные изменения, и последующее разделение этого представления на перекрывающиеся блоки (фингерпринты). Это обеспечивает устойчивость к различиям во времени начала/окончания видео.

Claim 9 (Независимый пункт): Описывает метод управления цифровой видео библиотекой. Он включает шаги из Claim 1 и добавляет индексацию.

(Шаги 1-4 аналогичны Claim 1: идентификация разрывов, кодирование, сегментация с перекрытием, генерация последовательности фингерпринтов).
Индексация последовательности видео фингерпринтов.
Сохранение индексированных фингерпринтов.

Этот пункт защищает применение технологии для управления большими массивами данных, что требует эффективной индексации.

Claim 12, 13, 14 (Зависимые от 9): Детализируют процесс индексации.

Индексация включает генерацию сигнатуры (signature) для фингерпринта с использованием первого процесса хеширования (Claim 12), который может быть процессом min-hash (Claim 13). Min-hash включает перестановку битов фингерпринта согласно предопределенному набору перестановок и сохранение позиции первой "1" после каждой перестановки (Claim 14). Сигнатура содержит меньше битов, чем исходный фингерпринт.

Claim 15, 16 (Зависимые от 12): Детализируют хранение сигнатуры.

Сигнатура делится на блоки (signature blocks), и каждый блок сохраняется в хеш-таблице с использованием второго процесса хеширования (Claim 15), который может быть Locality Sensitive Hashing (LSH) (Claim 16).

Claim 18 (Независимый пункт): Описывает метод идентификации дублирующегося видеоконтента.

(Шаги 1-5 аналогичны Claim 1: получение видео, идентификация разрывов, кодирование, сегментация с перекрытием, генерация последовательности фингерпринтов).
Поиск в эталонной базе данных (reference database) видео, имеющих последовательности фингерпринтов, совпадающие с последовательностью полученного видео.
Определение совпадающего эталонного видео.

Этот пункт фокусируется на практическом применении технологии для обнаружения дубликатов или нарушений авторских прав.

Где и как применяется

Изобретение является инфраструктурной технологией для управления видеоконтентом. Оно применяется в основном на этапах загрузки и индексации видео, а не во время ранжирования веб-страниц в реальном времени.

CRAWLING – Сканирование и Сбор данных (Ingestion)
На этом этапе Ingest Server получает новое видео от пользователя или из другого источника.

INDEXING – Индексирование и извлечение признаков (Video Processing)
Здесь происходит основная работа, описанная в патенте:

Обработка видео: Fingerprinting Module обрабатывает сырое видео. Это включает нормализацию, обнаружение конечных точек (Endpoint Detection), кодирование и сегментацию.
Индексация фингерпринтов: Indexing Module применяет техники хеширования (Min-hash, LSH) к сгенерированным фингерпринтам.
Хранение: Сырое видео сохраняется в Video Library, а индексированные фингерпринты (сигнатуры) — в Reference Database.

RANKING / METASEARCH (Управление видео и Видео-поиск)
Matching Module использует индексированные данные для сравнения видео.

Сравнение: Система сравнивает фингерпринты нового видео (или запрошенного видео) с данными в Reference Database.
Применение результатов: Результаты сравнения используются для (1) Принудительного соблюдения авторских прав (аналог Content ID), (2) Обнаружения и удаления дубликатов, (3) Организации результатов видео-поиска путем группировки похожих видео.

Входные данные:

Сырой видеофайл (включая видеоряд и аудиодорожку).

Выходные данные:

Fingerprint Sequence для видео.
Индексированные сигнатуры (Signatures) в Reference Database.
Оценки совпадения (Matching scores) при сравнении двух видео.

На что влияет

Типы контента: В первую очередь влияет на видеофайлы. Патент также упоминает возможность применения к чистым аудиофайлам, если используются только аудио разрывы (silent points).
Ниши и форматы: Влияет на весь видеоконтент, независимо от тематики или длительности. Особенно критично для платформ с пользовательским контентом (UGC), где распространены проблемы дублирования и авторских прав.

Когда применяется

Триггеры активации:
- При загрузке нового видео на платформу (Ingestion) для проверки на дубликаты и нарушения.
- Когда правообладатель предоставляет эталонное видео для поиска неавторизованных копий.
- Потенциально во время фазы организации результатов видео-поиска для группировки идентичных видео (дедупликация выдачи).

Пошаговый алгоритм

Процесс А: Генерация Фингерпринта (Fingerprint Generation)

Нормализация (Normalization): Входящее видео конвертируется в стандартный формат. Это может включать стандартизацию частоты кадров, размера кадра и глубины цвета (например, перевод в оттенки серого) для обеспечения согласованности и повышения скорости обработки.
Обнаружение конечных точек (Endpoint Detection): Анализ видео и аудио потоков для идентификации разрывов.
- Видео: Обнаружение границ сцен (shot boundaries) — резких смен плана, затуханий, наплывов. Это может быть реализовано через анализ движения (motion analysis) между кадрами.
- Аудио: Обнаружение точек тишины (silent points), где громкость звука падает ниже определенного порога.
Кодирование (Encoding): Генерация представления данных о расположении разрывов. В одном из вариантов создается битовый вектор (bit vector), где каждый бит соответствует кадру; '1' указывает на конечную точку (разрыв), '0' — на отсутствие разрыва.
Сегментация (Segmentation): Разделение закодированных данных на множество меньших, перекрывающихся фингерпринтов. Перекрытие (например, смещение на один кадр для генерации следующего фингерпринта) обеспечивает устойчивость к различным временам начала/окончания видео.
Генерация последовательности: Формирование упорядоченной последовательности фингерпринтов (Fingerprint Sequence) для всего видео.

Процесс Б: Индексация (Indexing - например, Min-Hash и LSH)

Получение Фингерпринта: Система получает фингерпринт (битовый вектор) из Процесса А.
Применение перестановок (Min-Hash): К битам фингерпринта применяется фиксированный набор из P перестановок (permutations). Порядок применения всегда одинаков.
Сканирование позиций (Min-Hash): Для каждого переставленного вектора находится позиция первой '1'.
Генерация Сигнатуры (Min-Hash): Полученные P позиций формируют сигнатуру (Signature) для данного фингерпринта.
Разделение на блоки (LSH): Сигнатура делится на несколько блоков (Signature Blocks).
Хранение в хеш-таблицах (LSH): Каждый блок хешируется в соответствующую хеш-таблицу. Вместе с блоком сохраняется уникальный идентификатор видеосегмента, который сгенерировал этот блок.

Какие данные и как использует

Данные на входе

Мультимедиа факторы (Видеоряд): Последовательность видеокадров (пиксельные данные). Используется для анализа пространственных характеристик и временных изменений (движения) с целью обнаружения границ сцен (shot boundaries).
Мультимедиа факторы (Аудиопоток): Аудиодорожка, связанная с видео. Используется для анализа уровней громкости во времени с целью обнаружения точек тишины (silent points).
Технические факторы (Метаданные): Частота кадров, разрешение, глубина цвета. Используются на этапе нормализации для приведения видео к стандартному формату.

Какие метрики используются и как они считаются

Метрики анализа движения: Используются внутри системы для обнаружения shot boundaries. Кадры, где относительное движение пикселей между кадрами достигает пика, определяются как границы сцен.
Пороги громкости звука: Используются для обнаружения silent points. Метрика определяется как временной отрезок, в течение которого громкость ниже заданного порога.
Matching Score (Оценка совпадения): Вычисляется во время сравнения. Основана на количестве совпадающих блоков сигнатуры (signature blocks) между фингерпринтом запроса и эталонными фингерпринтами, найденными через хеш-таблицы.
Метрики совпадения последовательностей: Используются для определения общего совпадения между двумя видео:
- Самая длинная непрерывная последовательность совпадающих фингерпринтов.
- Механизм голосования, основанный на временных смещениях между совпадающими сегментами.

Структура как идентификатор: Патент демонстрирует подход Google к идентификации видео, основанный на внутренней структуре (монтаж, паузы в звуке), а не на точном содержании пикселей или хешах файлов. Время смены сцен и аудиоразрывы определяют уникальный фингерпринт видео.
Устойчивость важнее точности: Система разработана так, чтобы быть устойчивой к изменениям в кодировании, сжатии, разрешении, частоте кадров и небольшим правкам. Это позволяет идентифицировать контент, даже если он был перекодирован или немного изменен.
Перекрывающиеся фингерпринты: Ключевой особенностью является сегментация видео на перекрывающиеся фингерпринты. Это позволяет системе находить совпадения даже в тех случаях, когда видео имеют разное время начала/окончания или отсутствующие сегменты.
Эффективность в масштабе: Использование сложных методов индексации, таких как Min-hash и Locality Sensitive Hashing (LSH), критически важно для масштабирования этой технологии. Это позволяет быстро сравнивать миллиарды видеосегментов без необходимости прямого побитового сравнения полных фингерпринтов.
Инфраструктура для VSEO и управления контентом: Это инфраструктурная технология для управления видеоплатформами (такими как YouTube) и организации видео-поиска. Она фокусируется на дедупликации и обеспечении соблюдения авторских прав (Content ID).

Best practices (это мы делаем)

Примечание: Рекомендации касаются исключительно Video SEO (VSEO) и управления видеоконтентом, в частности на YouTube.

Создание уникального контента: Убедитесь, что ваш видеоконтент является структурно уникальным. Система идентифицирует контент на основе последовательности монтажных склеек и аудиоразрывов. Оригинальный монтаж и звуковое оформление формируют уникальный фингерпринт.
Понимание каноникализации видео: Осознавайте, что если существуют несколько версий одного и того же видео (например, в разном разрешении или с немного разным монтажом), Google, скорее всего, идентифицирует их как один и тот же контент. Система сгруппирует их или выберет каноническую версию в поиске.
Трансформационное использование чужого контента: При использовании клипов из сторонних источников убедитесь, что они используются трансформационно (Fair Use). Простое склеивание существующего контента или компиляции будут легко обнаружены этой системой как неуникальные.

Worst practices (это делать не надо)

Перезаливка существующего контента: Загрузка точных копий или слегка модифицированных версий существующих видео (например, добавление логотипа, изменение разрешения, ускорение/замедление) будет обнаружена. Фингерпринтинг на основе разрывов устойчив к этим изменениям.
Нарушение авторских прав: Загрузка неавторизованного защищенного авторским правом материала. Эта технология специально разработана для поиска и маркировки такого контента и составляет основу систем типа Content ID.
Незначительные правки для уникализации: Внесение тривиальных правок (например, обрезка первых нескольких секунд или последней минуты) не обманет систему благодаря сегментации с перекрытием (overlapping fingerprints). Система сможет сопоставить оставшуюся основную часть видео.

Стратегическое значение

Патент подчеркивает технологическую невозможность масштабирования видеостратегий, основанных на дублировании или незначительных модификациях существующего контента. Для VSEO барьером для входа является оригинальный, структурно уникальный контент. Это также объясняет, как Google управляет огромным масштабом видеоданных, обеспечивает соблюдение политики в отношении контента и организует результаты видео-поиска, минимизируя дублирование.

Практические примеры

Сценарий: Обнаружение нарушений авторских прав (Content ID)

Загрузка эталона: Киностудия загружает эталонную копию нового трейлера фильма в базу данных Google.
Генерация фингерпринта: Система генерирует последовательность фингерпринтов на основе смен сцен и аудиодорожки трейлера.
Индексация: Фингерпринты индексируются с использованием Min-hash и LSH.
Мониторинг загрузок: Система сравнивает эту последовательность со всеми видео, загружаемыми пользователями.
Обнаружение совпадения: Пользователь загружает копию трейлера. Даже если пользователь записал трейлер с экрана телевизора (другое разрешение, шум, артефакты) или немного изменил звук, структурные разрывы останутся прежними.
Результат: Система обнаруживает длинную последовательность совпадающих фингерпринтов и помечает загруженное пользователем видео как нарушение авторских прав.

Имеет ли этот патент отношение к ранжированию веб-страниц?

Нет. Этот патент описывает инфраструктурную технологию для идентификации, индексации и сопоставления видеофайлов на основе их структурного содержания (монтажа и звука). Он не связан с анализом текста, ссылок или поведенческих факторов, используемых в ранжировании веб-поиска.

Как это влияет на Video SEO (VSEO)?

Это критически важно для VSEO, поскольку определяет уникальность контента. Если ваше видео идентифицировано как дубликат существующего контента, оно может быть удалено, демонетизировано (на YouTube) или сгруппировано с оригиналом в результатах поиска. Это делает стратегию создания оригинального контента единственно возможной.

Могу ли я обойти эту систему, изменив разрешение видео или степень сжатия?

Нет. Система специально разработана для устойчивости к таким изменениям. Она анализирует временные метки смены сцен и моменты тишины, которые не меняются при перекодировании, изменении разрешения или частоты кадров.

Могу ли я обойти эту систему, добавив логотип или водяной знак?

Нет. Система фокусируется на разрывах (discontinuities) — сменах сцен и тишине. Статические наложения, такие как логотипы, обычно не влияют на обнаружение этих структурных элементов и не сделают видео уникальным для этой системы.

Что, если я обрежу начало или конец видео?

Система использует перекрывающиеся сегменты (overlapping segments) при создании фингерпринтов. Это означает, что она все равно сможет сопоставить оставшуюся основную часть видео с оригиналом, если она достаточно длинная.

Что именно определяется как "разрыв" (discontinuity) в этом патенте?

В патенте упоминаются два основных типа разрывов. Первый — это границы сцен (shot boundaries), такие как резкая смена плана, затухание или наплыв. Второй — это точки тишины (silent points), то есть моменты в аудиодорожке, где громкость падает ниже определенного порога.

Связано ли это с системой Content ID на YouTube?

Да, этот патент описывает фундаментальную технологию, которая лежит в основе систем, подобных Content ID. Она позволяет правообладателям эффективно находить неавторизованные копии своего контента в огромной библиотеке видео.

Как система обрабатывает очень короткие видео?

В патенте не указаны конкретные ограничения по длине. Однако короткие видео генерируют меньше фингерпринтов. Если в видео мало структурных разрывов, точность сопоставления может быть ниже, но система все равно будет работать на основе доступных данных.

Для чего используются Min-hash и LSH?

Min-hash и Locality Sensitive Hashing (LSH) — это сложные методы индексации, используемые для ускорения процесса сравнения. Они позволяют системе быстро находить похожие фингерпринты в огромной базе данных без необходимости сравнивать новое видео с каждым существующим видео напрямую.

Помогает ли эта технология Google понять тему видео?

Нет, этот патент касается исключительно идентификации структурного сходства между видеофайлами. Он не связан с семантическим пониманием содержания видео, распознаванием объектов или анализом речи.

Как Google использует трехэтапную систему фингерпринтинга (Content ID) для обнаружения дубликатов видео и аудио

Google использует масштабируемую систему для обнаружения полных или частичных совпадений в видео и аудио контенте. Система генерирует компактные цифровые отпечатки (фингерпринты) и применяет трехэтапный процесс: быстрый поиск кандидатов с помощью Locality-Sensitive Hashing (LSH), точная классификация с использованием машинного обучения и объединение результатов. Это позволяет идентифицировать контент даже при изменении качества или скорости воспроизведения.

US8238669B2
2012-08-07

Мультимедиа
Индексация

Как Google использует фингерпринтинг и распределенные вычисления для эффективного поиска дубликатов видео и аудио в огромных масштабах

Патент Google описывает инфраструктурный механизм для эффективного поиска дубликатов или похожих аудио- и видеофайлов в огромных базах данных. Система использует технику Locality Sensitive Hashing (LSH) и распределенную сортировку (например, MapReduce) для быстрого сопоставления «пробных» видео с «эталонными», что позволяет находить совпадения без медленного попарного сравнения всех файлов.

US8625033B1
2014-01-07

Мультимедиа
Индексация

Как Google использует репрезентативные наборы и Min-Hash для дедупликации видео и аудио в результатах поиска

Google использует масштабируемую систему для борьбы с дублированным и частично дублированным медиаконтентом (видео, аудио). Вместо сравнения всех файлов между собой, система создает компактные «репрезентативные наборы» для каждого элемента, используя фингерпринтинг и хеширование (Min-Hash). При получении запроса система сравнивает эти наборы для быстрого выявления дубликатов и выбора одной канонической версии для показа в выдаче.

US10152479B1
2018-12-11

Мультимедиа
SERP
Индексация

Как Google использует иерархическое хеширование для создания компактных отпечатков всего видео и выявления дубликатов

Google использует многоуровневый процесс для создания компактного цифрового отпечатка (fingerprint), представляющего всё содержимое видеофайла. Система анализирует видео по сегментам (subfingerprints), агрегирует частоту визуальных признаков в гистограммы и применяет взвешенное хеширование (Weighted Min-Hash). Это позволяет эффективно обнаруживать почти идентичные видео (near-duplicates) в огромных базах данных, независимо от различий в кодировании или длительности.

US8229219B1
2012-07-24

Мультимедиа

Как Google идентифицирует дубликаты и защищенный авторским правом видеоконтент с помощью 3D-отпечатков

Google использует технологию трехмерных цифровых отпечатков для управления большими видеобиблиотеками (например, YouTube). Система анализирует пространственные (внутри кадра) и временные (между кадрами) характеристики видео, создавая уникальный идентификатор. Это позволяет эффективно обнаруживать дубликаты и защищенный контент, даже если видео было изменено (сжато, обрезано, перекодировано).

US8094872B1
2012-01-10

Индексация
Мультимедиа

Как Google использует последовательность кликов пользователей (Co-selection) для классификации изображений и фильтрации контента (SafeSearch)

Google анализирует, какие изображения пользователи выбирают последовательно в рамках одной сессии (co-selection). Если Изображение Б часто выбирается сразу после Изображения А (с известной темой), система присваивает Изображению Б ту же тему. Этот механизм использует графовый анализ поведения для уточнения тематики изображений, что критично для повышения релевантности и работы фильтров, таких как SafeSearch.

US8856124B2
2014-10-07

Безопасный поиск
Поведенческие сигналы
Семантика и интент

Как Google использует визуальные цитаты и обратную связь для генерации и уточнения ответов в мультимодальном поиске

Google генерирует ответы на мультимодальные запросы (изображение + текст), находя визуально похожие изображения в интернете и используя текст с их исходных страниц как основу для LLM. Система показывает эти изображения как «визуальные цитаты» для подтверждения ответа и позволяет пользователям исключать нерелевантные источники, чтобы мгновенно уточнить сгенерированный результат.

US20240378236A1
2024-11-14

Мультимедиа
EEAT и качество
Ссылки

Как Google использует гибридную классификацию и данные о кликах пользователей для точного определения тематики контента

Google использует многоэтапный процесс для классификации контента в детальные иерархические категории. Система комбинирует традиционные методы классификации с анализом поисковых запросов и кликов пользователей (подтвержденных результатов поиска). Это позволяет точно определить узкоспециализированную тематику документа, фильтруя нерелевантные категории и взвешивая релевантность на основе TF-IDF и глубины иерархии.

US8145636B1
2012-03-27

Семантика и интент
Поведенческие сигналы

Как Google использует контекст и анализ офлайн-поведения (Read Ranking) для соединения физических документов с цифровыми копиями

Система идентифицирует цифровой контент по сканированному фрагменту из физического мира, используя не только текст, но и обширный контекст (время, местоположение, историю пользователя). Патент также вводит концепцию «Read Ranking» — отслеживание популярности физических документов на основе того, что люди сканируют, как потенциальный сигнал ранжирования.

US20110295842A1
2011-12-01

Поведенческие сигналы
Персонализация
Семантика и интент

Как Google определяет основной контент страницы, анализируя визуальную структуру и характеристики разделов

Google использует систему для идентификации основного контента веб-страницы путем её разделения на логические разделы на основе визуального макета. Система оценивает характеристики каждого раздела (соотношение ссылок к тексту, количество слов, изображения, расположение) относительно характеристик всей страницы, чтобы выделить наиболее значимый контент и отделить его от навигации и шаблонов.

US20140372873A1
2014-12-18

Структура сайта
Техническое SEO
Ссылки

Как Google использует личные интересы пользователя для понимания неопределенных запросов и персонализации рекомендаций

Google использует механизм для интерпретации неопределенных запросов или команд (например, «Я голоден» или «Мне скучно»), когда контекст неясен. Если система не может определить конкретное намерение пользователя только из текущего контента (например, экрана приложения), она обращается к профилю интересов пользователя (User Attribute Data) и его местоположению, чтобы заполнить пробелы и предоставить персонализированные рекомендации или выполнить действие.

US10180965B2
2019-01-15

Персонализация
Семантика и интент
Local SEO

Как Google алгоритмически вычисляет и ранжирует экспертов по темам на основе анализа их контента

Google использует систему для автоматического определения экспертности авторов (Identities) в конкретных темах (Topics). Система анализирует корпус документов, оценивая, насколько сильно автор связан с документом (Identity Score) и насколько документ релевантен теме (Topic Score). Эти оценки перемножаются и суммируются по всем документам, формируя итоговый рейтинг экспертности автора в данной области.

US8892549B1
2014-11-18

EEAT и качество
Семантика и интент

Как Google определяет скрытый интент сессии, используя универсальные уточняющие слова, и переранжирует выдачу

Google идентифицирует универсальные слова-модификаторы (например, «фото», «отзывы», «pdf»), которые пользователи часто добавляют к разным запросам. Если такое слово появляется в сессии, система определяет скрытый интент пользователя. Затем Google переранжирует выдачу, основываясь на том, какие документы исторически предпочитали пользователи с таким же интентом, адаптируя результаты под контекст сессии.

US8868548B2
2014-10-21

Семантика и интент
Поведенческие сигналы
Персонализация

Как Google динамически меняет формулы ранжирования, адаптируя веса факторов под контекст запроса и пользователя

Google не использует единую модель ранжирования. Система использует машинное обучение для создания множества специализированных моделей (Predicted Performance Functions), обученных на исторических данных о кликах для разных контекстов (Search Contexts). При получении запроса система определяет контекст (тип запроса, язык, локация пользователя) и применяет ту модель, которая лучше всего предсказывает CTR в этой ситуации, динамически изменяя значимость различных сигналов ранжирования.

US8645390B1
2014-02-04

Персонализация
Поведенческие сигналы
SERP

Как Google проактивно уведомляет пользователей об изменении цен или доступности товаров на основе их предполагаемого намерения покупки

Google анализирует действия пользователя (поисковые запросы, посещения сайтов), чтобы выявить намерение в отношении сущностей (например, продуктов или авиабилетов). Если намерение сильное и происходит значительное изменение (падение цены или изменение доступности), Google проактивно отправляет уведомление со ссылками для завершения действия (например, покупки).

US20180357238A1
2018-12-13

Семантика и интент
Поведенческие сигналы
Персонализация