Как Google использует анализ видео и аудио для построения графов зависимостей между эпизодами сериализованного контента

METHODS, SYSTEMS, AND MEDIA FOR DETECTING AND PRESENTING RELATED MEDIA CONTENT (Методы, системы и носители для обнаружения и представления связанного медиаконтента)

US9558407B1
Google LLC
2014-12-16
2017-01-31

Google анализирует медиаконтент (например, эпизоды сериалов или обучающих курсов), чтобы автоматически понять, какие эпизоды связаны между собой. Изучая фрагменты повторов, транскрипты и визуальные элементы (включая распознавание лиц), система строит «Граф Зависимостей». Это позволяет рекомендовать пользователям необходимые для понимания предыдущие эпизоды, улучшая организацию и потребление сериализованного контента.

Какую проблему решает

Патент решает проблему навигации и понимания сериализованного медиаконтента (например, телесериалов, видеокурсов). Часто для понимания текущего эпизода (Query Episode) зрителю необходимо знать содержание предыдущих. Существующие краткие повторы («ранее в сериале» или recap sections) часто недостаточны, а ручной поиск связанных эпизодов затруднителен. Изобретение автоматизирует обнаружение этих сюжетных связей для улучшения пользовательского опыта и вовлеченности. Патент не связан с устранением SEO-манипуляций.

Что запатентовано

Запатентована система автоматического обнаружения и представления связей между эпизодами медиаконтента. Система анализирует содержание одного эпизода (особенно recap sections) и сравнивает его с содержанием других эпизодов (Reference Media Content). Для сравнения используются технологии анализа мультимедиа: аудио- и видео-фингерпринтинг, распознавание лиц/объектов и анализ транскриптов. Результатом анализа является построение Dependency Graph (Графа Зависимостей), который показывает, какие эпизоды необходимо посмотреть перед текущим.

Как это работает

Система работает в два основных этапа: анализ и представление.

Анализ (Офлайн): Система обрабатывает эпизоды. Для каждого эпизода выделяются ключевые сегменты (например, recap section). Эти сегменты анализируются с помощью технологий Computer Vision (распознавание лиц/объектов), NLP (анализ транскриптов/субтитров) и фингерпринтинга (аудио/видео). Полученные данные сравниваются с данными предыдущих эпизодов для поиска совпадений. При обнаружении совпадений система фиксирует связь и строит Dependency Graph.
Представление (Онлайн): Когда пользователь запрашивает эпизод, система обращается к Dependency Graph. Если для этого эпизода существуют зависимости, система информирует пользователя о связанных предыдущих эпизодах (например, сообщением «Чтобы понять этот эпизод, возможно, вам стоит сначала посмотреть...») и предлагает удобную навигацию к ним.

Актуальность для SEO

Высокая. В условиях роста популярности стриминговых сервисов (YouTube, подкасты, онлайн-курсы) автоматическое структурирование сериализованного контента критически важно для удержания аудитории. Описанные технологии (фингерпринтинг, распознавание лиц, NLP для транскриптов) активно используются Google для глубокого анализа мультимедиа. Этот патент описывает конкретное применение этих технологий для улучшения навигации и рекомендаций контента.

Важность для SEO

Влияние на традиционное веб-SEO минимально (1/10), так как патент не описывает ранжирование веб-страниц. Однако он имеет критическое значение для Video SEO (VSEO) и контент-стратегии на платформах типа YouTube (7/10). Патент раскрывает механизмы глубокого понимания и структурирования мультимедийного контента. Для SEO-специалистов это подчеркивает важность четкой организации сериализованного контента и предоставления качественных данных (например, транскриптов), которые Google использует для определения взаимосвязей и формирования рекомендаций.

Термины и определения

Query Episode (Запрашиваемый эпизод): Эпизод медиаконтента, для которого система определяет связанные (предшествующие) эпизоды. Эпизод, который пользователь собирается посмотреть.
Reference Media Content Item (Эталонный/Референсный медиаконтент): Единица контента (например, предыдущий эпизод), с которой сравнивается Query Episode для поиска совпадений и установления связей.
Related Episode (Связанный эпизод): Референсный эпизод, который содержит контент, совпадающий с частью Query Episode. Эпизод, который рекомендуется посмотреть для понимания контекста.
Dependency Graph (Граф Зависимостей): Структура данных, генерируемая системой, которая отображает отношения между Query Episode и одним или несколькими Related Episodes. Может быть представлен в виде направленного графа.
Recap Section (Фрагмент повтора): Часть эпизода (обычно в начале), которая кратко повторяет события предыдущих эпизодов («ранее в сериале»). Является ключевым объектом анализа для обнаружения зависимостей.
Fingerprints (Цифровые отпечатки): Компактное представление аудио- или видеоконтента (Audio Fingerprints, Video Fingerprints). Используются для быстрого и надежного сравнения сегментов контента и выявления совпадений.
Transcript (Транскрипт): Текстовое представление аудиодорожки эпизода. Может быть получено из субтитров (Closed Captioning data) или с помощью технологий распознавания речи.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод обнаружения связанного контента и генерации графа.

Система получает медиаконтент, соответствующий запрашиваемому эпизоду (Query Episode).
Выбирается часть этого медиаконтента (например, Recap Section).
Система получает эталонный медиаконтент (Reference Media Content Item).
Определяется, содержат ли эталонный и запрашиваемый контент совпадающие материалы (matching content).
Если совпадение обнаружено, система идентифицирует соответствующий эталонный эпизод как связанный (Related Episode).
Генерируется Dependency Graph на основе запрашиваемого эпизода и идентифицированного связанного эпизода.

Claims 2-6 (Зависимые): Детализируют методы определения совпадений (matching content).

Claim 3: Совпадение определяется путем генерации Video Fingerprint из части запрашиваемого контента и его сравнения.
Claim 5: Совпадение определяется путем генерации Audio Fingerprint и его сравнения.
Claim 6: Совпадение определяется путем получения Transcript части запрашиваемого контента и его сравнения.

Claim 9 (Зависимый): Детализирует метод определения совпадений с использованием Computer Vision.

Система обнаруживает лицо на изображении, связанном с запрашиваемым контентом, используя технику распознавания лиц (facial recognition technique), и идентифицирует это же лицо на изображении, связанном с эталонным контентом.

Claim 8 (Зависимый): Описывает процесс использования сгенерированного графа для представления контента пользователю.

Система получает выбор пользователя (запрос на просмотр) Query Episode. В ответ система идентифицирует Related Episode на основе Dependency Graph и вызывает отображение медиаконтента, связанного с обоими эпизодами (например, предлагает посмотреть связанный эпизод).

Где и как применяется

Изобретение применяется в основном на этапе индексирования для анализа контента и на этапе представления результатов пользователю.

INDEXING – Индексирование и извлечение признаков
Это ключевой этап для работы данного патента. Процессы анализа медиаконтента происходят офлайн:

Извлечение признаков (Feature Extraction): Медиафайлы обрабатываются для извлечения Video Fingerprints, Audio Fingerprints, идентификации лиц и объектов (Computer Vision), а также генерации Transcripts (NLP/Speech Recognition).
Анализ и сравнение: Система сравнивает признаки Query Episode (особенно его Recap Section) с признаками Reference Media Content Items (предыдущих эпизодов).
Генерация графа: На основе обнаруженных совпадений строится и сохраняется Dependency Graph, связывающий эпизоды.

METASEARCH – Метапоиск и Смешивание / RERANKING – Переранжирование
В контексте платформ видеохостинга (например, YouTube) этот этап соответствует моменту формирования страницы просмотра или интерфейса рекомендаций.

Когда пользователь запрашивает эпизод, система в реальном времени извлекает предварительно рассчитанный Dependency Graph для этого эпизода.
Система модифицирует интерфейс пользователя, добавляя информацию о Related Episodes и предлагая навигацию к ним. Это улучшает организацию выдачи и рекомендации для сериализованного контента.

Входные данные:

Медиафайлы эпизодов (видео, аудио).
Метаданные (порядок эпизодов, даты выпуска для определения хронологии).
Данные субтитров (Closed Captioning data), если доступны.

Выходные данные:

Dependency Graph, хранящийся в индексе и ассоциированный с каждым эпизодом.
Извлеченные признаки (фингерпринты, транскрипты, идентификаторы лиц/объектов).

На что влияет

Конкретные типы контента: В первую очередь влияет на сериализованный медиаконтент: телесериалы, веб-сериалы, документальные циклы, подкасты, аудиокниги, серии обучающих видео (туториалы).
Платформы: Наибольшее влияние оказывается на платформы, где критична навигация по сериям контента (YouTube, Google TV и т.д.).

Когда применяется

Триггеры активации (Анализ): Процесс анализа активируется при индексации или обновлении эпизодов, идентифицированных как часть серии.
Триггеры активации (Представление): Механизм представления активируется, когда пользователь запрашивает просмотр эпизода, для которого в индексе существует Dependency Graph.
Условия: Эффективность применения зависит от способности системы распознать контент (например, качество аудио и видео, наличие субтитров).

Пошаговый алгоритм

Процесс А: Обнаружение связанных эпизодов (Индексирование/Офлайн)

Получение Запрашиваемого Эпизода: Система выбирает эпизод (Query Episode) для анализа.
Сегментация Контента: Выделение одной или нескольких частей выбранного эпизода. Особое внимание уделяется Recap Section.
Выбор Эталонного Контента: Определение набора потенциально связанных эпизодов (Reference Media Content Items), например, предыдущих эпизодов того же сериала.
Извлечение Признаков: Генерация признаков для сегментов Query Episode и для Reference Media Content Items. Это включает:
- Генерация Video Fingerprints и Audio Fingerprints.
- Анализ изображений для обнаружения и идентификации лиц и объектов.
- Генерация или извлечение Transcripts.
Сравнение и Поиск Совпадений: Сравнение признаков сегментов Query Episode с признаками Reference Media Content Items.
Идентификация Связанных Эпизодов: Если сходство признаков превышает определенный порог (т.е. обнаружено совпадение контента), эталонный эпизод помечается как Related Episode.
Генерация Графа Зависимостей: Создание или обновление Dependency Graph для Query Episode, включающего ссылки на все идентифицированные Related Episodes.

Процесс Б: Представление связанных эпизодов (Онлайн)

Получение Запроса Пользователя: Пользователь запрашивает просмотр эпизода.
Извлечение Графа Зависимостей: Система извлекает Dependency Graph, ассоциированный с запрошенным эпизодом.
Идентификация Зависимостей: Определение списка Related Episodes из графа. Система также может проверить историю просмотров пользователя, чтобы выделить непросмотренные эпизоды.
Представление Информации: Отображение информации о связях (например, списка рекомендуемых к просмотру предыдущих эпизодов) в интерфейсе пользователя.
Навигация: Предоставление возможности пользователю перейти к просмотру Related Episodes.

Какие данные и как использует

Данные на входе

Система использует различные типы данных для анализа мультимедийного контента:

Мультимедиа факторы:
- Видео данные: Последовательности изображений (кадров). Используются для Video Fingerprinting и анализа визуального контента (Computer Vision).
- Аудио данные: Звуковые дорожки. Используются для Audio Fingerprinting и распознавания речи для генерации транскриптов.
Контентные/Текстовые факторы:
- Transcripts/Closed Captioning data: Текстовое содержание эпизодов. Используется для сравнения и поиска совпадений между эпизодами (NLP).
Структурные факторы:
- Структура эпизода: Система может идентифицировать специфические сегменты, такие как Recap Section, которые с большей вероятностью содержат ссылки на предыдущий контент.
Пользовательские факторы (при представлении):
- История просмотров: Может использоваться для определения того, видел ли пользователь уже Related Episode (в патенте упоминается возможность пометки «watched»).

Какие метрики используются и как они считаются

Патент не приводит конкретных формул, но описывает несколько ключевых методов анализа и метрик:

Video/Audio Fingerprinting (Сравнение отпечатков):
- Метод: Генерация компактных представлений (отпечатков) для сегментов контента с использованием пространственных, временных или частотных характеристик (упоминаются wavelet transforms, discrete cosine transform, hash functions).
- Метрика: Степень сходства между отпечатками. Совпадение фиксируется при превышении порога сходства.
Computer Vision (Распознавание лиц и объектов):
- Метод: Использование техник facial recognition и object detection/tracking для идентификации персонажей или объектов в кадрах.
- Метрика: Присутствие идентифицированных лиц/объектов в обоих эпизодах. Упоминаются метрики сходства изображений, такие как Sum of Absolute Difference (SAD) или Sum of Squared Difference (SSD), которые могут использоваться для подтверждения совпадения.
Transcript Analysis (Анализ текста):
- Метод: Сравнение текстовых транскриптов.
- Метрика: Степень совпадения текста между транскриптом Query Episode и транскриптом Reference Media Content.

Глубокий анализ мультимедиа для понимания структуры контента: Патент демонстрирует, что Google активно использует сложные технологии (Computer Vision, NLP, Fingerprinting) для анализа содержания видео и аудио, а не полагается только на метаданные. Это позволяет системе понимать внутреннюю структуру и взаимосвязи контента.
Автоматизация построения связей (Dependency Graph): Ключевым результатом является автоматическое создание Dependency Graph. Это означает, что Google стремится понять не только тематику отдельного видео, но и его место в более широком контексте сериала или курса, определяя нарративные или логические зависимости.
Важность сериализованного контента для удержания: Изобретение подчеркивает фокус на улучшении пользовательского опыта при потреблении сериализованного контента. Понимание порядка потребления критично для увеличения времени просмотра (watch time) и удержания аудитории.
Многофакторный анализ совпадений: Для определения связей используется комбинация сигналов: визуальные совпадения (фингерпринты, лица), аудио совпадения и текстовые совпадения (транскрипты). Это обеспечивает высокую точность системы.
Транскрипты и качество контента как ключевые сигналы: Явное упоминание анализа транскриптов и использование технологий распознавания подчеркивает важность предоставления качественного аудиовизуального контента и точных субтитров для алгоритмического анализа.

Best practices (это мы делаем)

Рекомендации особенно актуальны для Video SEO (VSEO) и контент-стратегии на YouTube.

Четкое структурирование сериализованного контента: Если вы публикуете многосерийный контент (курсы, туториалы, веб-сериалы), используйте все доступные инструменты для указания связей: плейлисты с четким порядком, нумерацию эпизодов в заголовках и описаниях. Это помогает алгоритмам корректно построить Dependency Graph.
Предоставление качественных транскриптов и субтитров: Так как анализ Transcripts является одним из методов определения связей, необходимо загружать точные субтитры (Closed Captions). Это не только улучшает доступность, но и дает Google надежный текстовый слой для анализа содержания и контекста видео.
Использование явных ссылок на предыдущий контент (Recaps): Если это уместно, делайте краткие повторы (Recap Sections) или явно упоминайте ключевые концепции из предыдущих эпизодов. Патент показывает, что такие сегменты активно анализируются (с помощью фингерпринтинга и анализа текста) для выявления зависимостей.
Поддержание высокого качества аудио и видео: Качественный звук способствует точному распознаванию речи и генерации Audio Fingerprints. Четкое видео улучшает работу распознавания лиц/объектов и Video Fingerprints. Это необходимо для корректной работы описанных механизмов анализа.

Worst practices (это делать не надо)

Публикация сериализованного контента как набора несвязанных видео: Игнорирование плейлистов и порядка следования затрудняет для Google понимание структуры вашего контента, что негативно скажется на рекомендациях следующего видео и удержании зрителей.
Полагаться на автоматически сгенерированные субтитры низкого качества: Если автоматические субтитры неточны из-за плохого звука или акцента, система может сделать неверные выводы о содержании видео и его связях на основе анализа Transcripts.
Низкое качество продакшена: Видео с плохим освещением или аудио с сильными шумами снижают эффективность работы систем Computer Vision и аудио анализа, что может помешать построению корректного Dependency Graph.

Стратегическое значение

Патент подтверждает стратегию Google по глубокому пониманию мультимедийного контента на уровне, сравнимом с анализом текста. Для SEO это означает, что оптимизация видео больше не ограничивается метаданными. Системы Google анализируют то, что сказано (транскрипты), показано (лица, объекты) и как это звучит (аудио отпечатки). В долгосрочной стратегии необходимо уделять внимание качеству и структуре самого контента. Понимание того, как Google строит Dependency Graph, позволяет оптимизировать контент для систем рекомендаций, которые являются основным источником трафика на платформах вроде YouTube.

Практические примеры

Сценарий: Оптимизация многосерийного обучающего курса на YouTube

Задача: Обеспечить, чтобы зрители смотрели 10-серийный курс по SEO в правильном порядке и получали рекомендации на следующий эпизод.

Структурирование и Метаданные: Создать отдельный плейлист «Курс SEO 2025». Добавить видео в правильном порядке и назвать консистентно («Эпизод 1: Основы», «Эпизод 2: Аудит» и т.д.).
Транскрипты: Для каждого эпизода загрузить вручную выверенный файл субтитров (SRT). Это гарантирует, что Google точно поймет содержание каждого урока, используя NLP.
Внутренние ссылки в контенте (Recap): В начале Эпизода 3 добавить 30-секундный сегмент: «В предыдущем эпизоде мы рассмотрели аудит...». Согласно патенту, система проанализирует этот Recap Section (используя транскрипт и фингерпринты) и с большей вероятностью корректно свяжет Эпизод 3 с Эпизодом 2 в Dependency Graph.
Качество контента: Записать курс с чистым звуком и хорошим освещением для корректной работы аудио анализа и распознавания лиц (если спикер в кадре).
Ожидаемый результат: Google более точно понимает структуру курса. Зрителям, начинающим смотреть с середины, система может рекомендовать начать с предыдущих эпизодов. Алгоритмы рекомендаций с большей вероятностью предложат следующий эпизод после завершения текущего, увеличивая watch time.

Означает ли этот патент, что Google анализирует содержание каждого видеофайла?

Да, патент прямо указывает на использование передовых технологий для анализа содержания медиаконтента. Система не полагается только на метаданные (заголовки, описания). Она использует Video Fingerprinting, Audio Fingerprinting, распознавание лиц и объектов (Computer Vision), а также анализ транскриптов (NLP) для понимания того, что происходит внутри видео.

Что такое Dependency Graph и как он влияет на SEO?

Dependency Graph (Граф Зависимостей) — это структура данных, которая показывает, как эпизоды связаны друг с другом, в частности, какой эпизод нужно посмотреть перед другим. Напрямую на позицию в традиционном поиске это не влияет, но критически важно для Video SEO и рекомендаций. Если Google понимает структуру вашего сериализованного контента, он будет активнее рекомендовать следующий эпизод зрителям, что увеличивает вовлеченность и общее время просмотра.

Насколько важны субтитры (Closed Captions) в контексте этого патента?

Они очень важны. Патент явно упоминает анализ Transcripts как один из ключевых методов для определения связей между эпизодами. Транскрипт может быть получен из загруженных субтитров или автоматически сгенерирован. Предоставление точных субтитров дает Google качественный текстовый слой для анализа, что повышает точность понимания контента и построения связей.

Как система определяет, какая часть видео является «Recap Section»?

Патент не детализирует точный механизм идентификации Recap Section, но указывает, что система выбирает одну или несколько частей эпизода для анализа. Вероятно, система может идентифицировать сегменты в начале эпизода, которые имеют высокую степень совпадения (по фингерпринтам или тексту) с контентом предыдущих эпизодов, и классифицировать их как повтор.

Может ли эта технология использоваться для обнаружения дублированного контента?

Да, безусловно. Технологии, описанные в патенте, в частности Video Fingerprinting и Audio Fingerprinting, являются основой систем обнаружения дублированного или синдицированного контента (например, YouTube Content ID). Хотя цель этого патента — найти связанные эпизоды для улучшения навигации, лежащая в его основе технология идеально подходит для идентификации повторного использования контента.

Применяется ли это только к телесериалам или также к контенту на YouTube?

Патент описывает механизмы в общих терминах («media content», «episodes»), что делает его применимым к любому сериализованному контенту. Это включает телесериалы, подкасты, аудиокниги и, что особенно важно для SEO, серии видео на YouTube, такие как обучающие курсы, туториалы или веб-сериалы.

Как SEO-специалисту помочь Google правильно построить Dependency Graph для своего контента?

Ключевые действия: использовать четкую структуру (плейлисты, нумерация эпизодов), предоставлять точные транскрипты (субтитры) и, если это уместно, включать в видео краткие повторы или явные словесные ссылки на предыдущие эпизоды. Это предоставит системе четкие сигналы для установления зависимостей.

Использует ли Google распознавание лиц для определения связей между видео?

Да, патент (Claim 9) явно описывает использование facial recognition technique для обнаружения лица в одном эпизоде и идентификации этого же лица в другом эпизоде как метода установления связи. Это показывает, что Google может отслеживать присутствие определенных людей (персонажей, спикеров) по разным видео.

Что делать, если мой контент не имеет линейной структуры (например, новостные выпуски)?

Этот патент в первую очередь нацелен на контент с линейной или нарративной зависимостью. Для контента без четкой последовательности (например, отдельные новостные сюжеты или не связанные между собой обзоры) этот механизм менее применим. В этом случае следует сосредоточиться на стандартных практиках VSEO: релевантные метаданные, качественный контент и тематическая кластеризация.

Влияет ли качество видео и аудио на работу этого алгоритма?

Да, высокое качество медиаконтента способствует более точному анализу. Четкое изображение улучшает работу распознавания лиц и Video Fingerprinting. Чистый звук без шумов улучшает точность распознавания речи (генерации транскриптов) и Audio Fingerprinting. Низкое качество может привести к ошибкам в анализе и построении связей.

Как Google использует NLP, Proximity Score и Query Score для извлечения сущностей и приоритизации контента на основе структуры текста и контекста пользователя

Патент детально описывает, как Google анализирует текстовые описания, извлекает ключевые именные группы (Noun Phrases/сущности) и превращает их в поисковые запросы. Система ранжирует результаты, используя «Proximity Score» (порядок появления в тексте) и «Query Score» (контекст пользователя), что дает критическое понимание влияния структуры текста на интерпретацию контента.

US9788055B2
2017-10-10

Семантика и интент
SERP
Техническое SEO

Как Google использует контент, который вы смотрите (например, на ТВ), для автоматического переписывания и персонализации ваших поисковых запросов

Google может анализировать контент (фильмы, шоу, аудио), который пользователь потребляет на одном устройстве (например, ТВ), и использовать эту информацию как контекст для уточнения последующих поисковых запросов. Система распознает аудиовизуальный контекст и автоматически дополняет неоднозначные запросы пользователя, чтобы предоставить более релевантные результаты, в том числе на связанных устройствах (например, смартфоне).

US9244977B2
2016-01-26

Персонализация
Семантика и интент
Поведенческие сигналы

Как Google анализирует страницу-источник перехода для формирования рекомендаций медиаконтента

Google анализирует контекст запроса медиаконтента (например, видео), определяя источник перехода (referral source). Система сканирует исходную страницу, чтобы найти другой контент, размещенный на ней (например, другие встроенные видео), и использует эту информацию для формирования списка рекомендаций, показываемых пользователю после просмотра.

US9563627B1
2017-02-07

Семантика и интент
Персонализация
Краулинг

Как Google использует контекст внешних страниц для понимания и идентификации видео и аудио контента

Google анализирует внешние веб-страницы, которые ссылаются на медиафайлы или встраивают их (например, видео YouTube). Система извлекает метаданные из контекста этих страниц — заголовков, окружающего текста, URL. Надежность данных проверяется частотой их повторения на разных сайтах. Эта информация используется для улучшения понимания содержания медиафайла и повышения эффективности систем идентификации контента (Content ID).

US10318543B1
2019-06-11

Ссылки
Индексация
Мультимедиа

Как Google использует визуальное сходство для связывания изображений и видео, кластеризации выдачи и обогащения метаданных

Google анализирует визуальное содержимое изображений и ключевых кадров видео для выявления сходств. Это позволяет связывать разнотипный контент, даже если у него мало текстовых данных. Система использует эти связи для переноса метаданных (например, ключевых слов или геопозиции) от одного ресурса к другому, а также для кластеризации и смешивания изображений и видео в результатах поиска.

US9652462B2
2017-05-16

Мультимедиа
SERP
Семантика и интент

Как Google использует клики и пропуски пользователей для оценки и корректировки правил близости терминов (Proximity Rules)

Google анализирует поведение пользователей для оценки эффективности правил близости (Proximity Rules), которые влияют на ранжирование в зависимости от расстояния между ключевыми словами на странице. Система отслеживает, кликают ли пользователи на результаты, где термины расположены далеко друг от друга, или пропускают их. На основе этих данных (Click Count, Skip Count) вычисляется оценка качества правила, что позволяет Google динамически адаптировать важность фактора близости.

US9146966B1
2015-09-29

Поведенческие сигналы
SERP

Как Google рассчитывает «VisualRank» для изображений и медиафайлов, используя виртуальные ссылки на основе схожести и поведения пользователей

Google использует алгоритм (концептуально называемый VisualRank) для ранжирования изображений и других медиафайлов путем создания «виртуальных ссылок» между ними. Эти ссылки основаны на визуальной схожести контента, данных о кликах пользователей и контексте размещения (URL analysis). Это позволяет оценить качество и авторитетность медиафайлов даже без явных гиперссылок, при этом система активно избегает показа слишком похожих (дублирующихся) результатов.

US8732187B1
2014-05-20

Ссылки
Мультимедиа
Поведенческие сигналы

Как Google использует историю запросов, сделанных на Картах, для ранжирования локальных результатов и рекламы

Google анализирует, что пользователи ищут, когда просматривают определенную географическую область на карте (Viewport). Эта агрегированная история запросов используется для определения популярности локальных бизнесов и контента в этом конкретном районе. Результаты, которые часто запрашивались в этой области, особенно недавно, получают значительное повышение в ранжировании.

US9129029B1
2015-09-08

Local SEO
Поведенческие сигналы
Свежесть контента

Как Google переносит поведенческие сигналы через ссылки для повышения в ранжировании первоисточников контента

Google использует механизм для корректного учета поведенческих сигналов (например, времени пребывания). Если пользователь кликает на результат в выдаче, а затем переходит по ссылке на другую страницу, система может перенести позитивные сигналы с исходной страницы на целевую. Это позволяет повышать в рейтинге первоисточники информации, а не страницы-посредники.

US8959093B1
2015-02-17

Поведенческие сигналы
Ссылки
SERP

Как Google автоматически обнаруживает и индексирует контент внутри мобильных приложений для показа в поиске (App Indexing)

Google использует систему для индексации контента нативных мобильных приложений. Для приложений, связанных с веб-сайтами, система проверяет аффилиацию и использует существующие веб-URL для доступа к контенту приложения. Для приложений с кастомными URI система эмулирует работу приложения и итеративно обнаруживает внутренние ссылки. Это позволяет контенту из приложений появляться в результатах поиска в виде глубоких ссылок.

US10073911B2
2018-09-11

Индексация
Краулинг
Ссылки

Как Google рассчитывает авторитетность страниц на основе их близости к доверенным сайтам-источникам (Seed Sites)

Google использует метод ранжирования страниц, основанный на измерении «расстояния» в ссылочном графе от набора доверенных исходных сайтов (Seed Sites) до целевой страницы. Чем короче путь от доверенных источников до страницы, тем выше ее рейтинг авторитетности. Длина ссылки увеличивается (а ее ценность падает), если исходная страница имеет большое количество исходящих ссылок. Этот механизм позволяет эффективно рассчитывать показатели доверия (Trust) в масштабах всего веба.

US9165040B1
2015-10-20

Ссылки
EEAT и качество
Антиспам

Как Google идентифицирует, связывает и индексирует концепции (фразы) для понимания тем документов

Фундаментальный патент Google, описывающий переход от индексирования слов к индексированию концепций (фраз). Система определяет «хорошие фразы» на основе частотности и их способности прогнозировать появление других фраз (Information Gain). Документы индексируются не только по содержащимся в них фразам, но и по наличию связанных фраз, что позволяет системе определять основные и второстепенные темы документа, а также контекстуально оценивать анкорный текст ссылок.

US7536408B2
2009-05-19

Индексация
Семантика и интент
Ссылки

Как Google фильтрует персонализированные предложения запросов на основе контента просматриваемой страницы

Google использует механизм для генерации предложений следующего запроса после того, как пользователь покинул страницу выдачи. Система создает кандидатов на основе истории поиска пользователя, а затем фильтрует их, проверяя релевантность контенту страницы, которую пользователь просматривает в данный момент. Это гарантирует, что предложения соответствуют как интересам пользователя, так и текущему контексту просмотра.

US8392435B1
2013-03-05

Персонализация
Поведенческие сигналы
SERP

Как Google использует время просмотра (Watch Time) и поведение пользователей для расчета независимой от запроса оценки качества видео

Google рассчитывает независимый от запроса сигнал качества (Q) для видео, анализируя корреляции между поведенческими метриками: временем просмотра, рейтингами и количеством просмотров. Система использует математические функции (Predictor и Voting) для моделирования качества и определения достоверности данных, а также активно фильтрует спам в рейтингах. Этот сигнал Q затем используется для ранжирования видео в поиске.

US8903812B1
2014-12-02

Поведенческие сигналы
SERP
Антиспам

Как Google выявляет ссылочный спам (Link Farms и Web Rings), анализируя чувствительность PageRank к изменениям в структуре ссылок

Google использует математический метод для обнаружения искусственного завышения PageRank. Система анализирует, насколько резко меняется ранг страницы при изменении «коэффициента связи» (coupling factor/damping factor). Если ранг страницы слишком чувствителен к этим изменениям (имеет высокую производную), это сигнализирует о наличии манипулятивных структур, таких как ссылочные фермы или веб-кольца.

US7509344B1
2009-03-24

Антиспам
Ссылки
Техническое SEO