SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google использует Vision-Language и Генеративные модели для анализа ключевых кадров видео и ответов на вопросы пользователей

CONVERTING VIDEO SEMANTICS INTO LANGUAGE FOR REAL-TIME QUERY AND INFORMATION RETRIEVAL (Преобразование семантики видео в язык для запросов и поиска информации в реальном времени)
  • US20250190488A1
  • Google LLC
  • 2023-12-11
  • 2025-06-12
  • Мультимедиа
  • Семантика и интент
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Google разработал систему для эффективного понимания содержания видео. Вместо анализа каждого кадра система выбирает ключевые кадры и использует Vision-Language Model для создания их текстового описания. Когда пользователь задает вопрос о видео, система объединяет запрос с этими описаниями и использует генеративную модель (LLM) для формирования точного ответа в реальном времени.

Описание

Какую проблему решает

Патент решает проблему высокой вычислительной сложности и задержек при анализе видеоконтента для ответов на запросы пользователей в реальном времени. Обработка всех кадров видео с использованием мощных моделей компьютерного зрения (Vision-Language Models) практически невозможна в реальном времени. Изобретение направлено на сокращение задержек и экономию вычислительных ресурсов при сохранении высокой точности ответов на вопросы о содержании видео.

Что запатентовано

Запатентована система и метод преобразования визуальной информации видео в текстовый формат для взаимодействия с генеративными моделями (например, LLM). Суть заключается в предварительной обработке видео: автоматическом выборе подмножества ключевых кадров (key image frames) и генерации их текстового описания с помощью Vision-Language Model (VLM). Эти описания сохраняются и затем используются в реальном времени для формирования промпта к LLM, когда пользователь задает вопрос о видео.

Как это работает

Система работает в два этапа: офлайн (предварительная обработка) и онлайн (обработка запроса).

  • Офлайн: Система анализирует видео и определяет ключевые кадры (например, при значительной визуальной разнице между кадрами или появлении нового объекта). Затем VLM обрабатывает эти ключевые кадры и генерирует их суммарное текстовое описание (Natural Language Description), которое сохраняется в базе данных.
  • Онлайн: Когда пользователь смотрит видео и задает вопрос, система извлекает сохраненное текстовое описание ключевых кадров. Prompt-Generating Engine объединяет запрос пользователя и это описание в единый промпт. Промпт обрабатывается генеративной моделью (LLM), которая формирует релевантный ответ, основанный на содержании видео.

Актуальность для SEO

Высокая. Патент подан недавно и отражает текущий вектор развития Google в области мультимодального поиска, генеративного ИИ (Generative AI) и глубокого понимания видеоконтента. Интеграция VLM и LLM для анализа видео является передовой технологией, критически важной для улучшения поиска по видео и взаимодействия с пользователем (например, в YouTube или SGE).

Важность для SEO

Патент имеет значительное влияние на Video SEO (7/10). Хотя он напрямую не описывает алгоритмы ранжирования веб-страниц, он раскрывает конкретные механизмы, которые Google использует для понимания семантики видеоконтента на масштабе. Понимание того, как именно система выбирает и интерпретирует ключевые кадры, позволяет оптимизаторам создавать видео, которые будут более точно поняты и классифицированы поисковой системой, что влияет на их видимость в поиске по видео и универсальной выдаче.

Детальный разбор

Термины и определения

Vision-Language Model (VLM) (Визуально-языковая модель)
Мультимодальная модель машинного обучения (например, включающая Image Encoder и Text Encoder/Decoder), способная понимать взаимосвязь между изображениями и текстом. В патенте используется для генерации текстовых описаний на естественном языке для визуального контента (ключевых кадров).
Generative Model / Large Language Model (LLM) (Генеративная модель / Большая языковая модель)
Модель ИИ (например, PaLM, LaMDA), способная генерировать текст. В патенте используется для формирования ответа пользователю на основе промпта, включающего запрос и описание видео.
Key Image Frames (Ключевые кадры)
Подмножество кадров, выбранное из всего видео, которое репрезентативно отражает его содержание. Выбор основан на определенных критериях для снижения вычислительной нагрузки.
Key Frame Determination Engine (Механизм определения ключевых кадров)
Компонент системы, отвечающий за анализ видео и выбор ключевых кадров на основе заданных критериев.
Natural Language Description (Описание на естественном языке)
Текстовое описание или резюме содержания ключевых кадров, сгенерированное с помощью VLM.
Prompt (Промпт)
Входные данные для генеративной модели. В контексте патента формируется путем объединения запроса пользователя и Natural Language Description ключевых (и, возможно, текущего) кадров.
Current Image Frame (Текущий кадр)
Кадр видео, который отображается пользователю в момент ввода запроса.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод работы системы.

  1. Определение одного или нескольких ключевых кадров из видео.
  2. Обработка этих кадров с помощью Vision-Language Model (VLM) для генерации их текстового описания (Natural Language Description).
  3. Сохранение этого описания в ассоциации с видео.
  4. Получение запроса пользователя, связанного с видео.
  5. В ответ на запрос: Генерация промпта на основе запроса И сохраненного описания ключевых кадров.
  6. Обработка промпта с помощью Generative Model (LLM) для создания выходных данных (ответа).
  7. Предоставление выходных данных устройству пользователя.

Ядро изобретения — это комбинация предварительной обработки видео (шаги 1-3) для создания сжатого текстового представления и использования этого представления для эффективного ответа на запросы в реальном времени с помощью LLM (шаги 4-7).

Claim 2 (Зависимый от 1): Уточняет процесс генерации описания, если ключевых кадров несколько.

  1. Каждый ключевой кадр обрабатывается VLM отдельно для получения соответствующего текста.
  2. Итоговое Natural Language Description собирается путем комбинации этих отдельных текстов.

Claim 6 (Зависимый от 1): Уточняет процесс выбора ключевых кадров.

Ключевые кадры составляют менее чем все кадры видео и выбираются на основе удовлетворения одному или нескольким критериям.

Claims 7, 8, 9 (Зависимые от 6): Определяют конкретные критерии выбора ключевых кадров.

  • Claim 7: Мера визуальной разницы между двумя соседними кадрами превышает пороговое значение (т.е. смена сцены).
  • Claim 8: Обнаружение нового объекта в кадре.
  • Claim 9: Обнаружение нового голоса в аудиодорожке, синхронизированной с кадром.

Claim 10 (Независимый пункт): Альтернативная формулировка метода, фокусирующаяся на обработке запроса в реальном времени.

  1. Получение запроса пользователя во время воспроизведения видео.
  2. В ответ на запрос: Генерация промпта на основе запроса и описания выбранных кадров видео.
  3. Обработка промпта Generative Model для определения ответа.
  4. Отображение ответа.

Где и как применяется

Изобретение затрагивает этапы индексирования (для предварительной обработки) и этапы обработки запроса (для генерации ответа).

INDEXING – Индексирование и извлечение признаков
Основной этап применения для предварительной обработки видео (Офлайн-процесс).

  • Сбор данных: Система получает доступ к видеофайлу.
  • Анализ и извлечение признаков: Key Frame Determination Engine анализирует видео и аудио для выбора ключевых кадров. Vision-Language Model Engine использует VLM для генерации Natural Language Description.
  • Сохранение: Текстовое описание сохраняется в Key Frame Description Database и индексируется вместе с метаданными видео.

QUNDERSTANDING / RANKING / RERANKING (Применительно к взаимодействию с видео)
Эти этапы задействуются при обработке запроса пользователя в реальном времени (Онлайн-процесс).

  • Понимание запроса: Система получает запрос и определяет, что он относится к текущему видео.
  • Поиск и Ранжирование (Retrieval): Система извлекает предварительно сгенерированное описание видео из индекса.
  • Генерация ответа (Reranking/Synthesis): Prompt-Generating Engine формирует промпт. Generative Model Engine использует LLM для генерации финального ответа.

Входные данные:

  • (Офлайн): Видеофайл (визуальные кадры и аудиодорожка).
  • (Онлайн): Запрос пользователя; Идентификатор видео; Текущий таймкод воспроизведения.

Выходные данные:

  • (Офлайн): Natural Language Description ключевых кадров, сохраненное в базе данных.
  • (Онлайн): Ответ на запрос пользователя на естественном языке (текст или аудио).

На что влияет

  • Типы контента: Влияет исключительно на видеоконтент.
  • Специфические запросы: Влияет на информационные запросы, касающиеся содержания видео (например, "Что он только что сказал?", "Как называется этот объект в кадре?", "Что еще нужно взять с собой?").
  • Форматы контента: Особенно актуально для длинных видео (лонгридов), где анализ всего контента затруднен.

Когда применяется

  • Условия работы алгоритма (Офлайн): При индексации или обновлении видеоконтента в системе (например, при загрузке на платформу хостинга).
  • Триггеры активации (Онлайн): Когда пользователь вводит запрос (голосом или текстом) во время просмотра видео или сразу после него, и система определяет, что запрос направлен на содержание этого видео.

Пошаговый алгоритм

Процесс А: Предварительная обработка видео (Офлайн)

  1. Получение видео: Система получает доступ к видео, состоящему из N кадров.
  2. Определение ключевых кадров: Key Frame Determination Engine анализирует видео для выбора подмножества (n) ключевых кадров (n < N). Выбор происходит при срабатывании критериев:
    • Визуальное различие между соседними кадрами превышает порог.
    • Обнаружен новый объект.
    • Обнаружен новый голос в аудиодорожке.
  3. Обработка VLM: Каждый из n ключевых кадров подается на вход Vision-Language Model.
  4. Генерация описаний: VLM генерирует текстовое описание для каждого ключевого кадра.
  5. Агрегация описаний: Система объединяет отдельные текстовые описания в единое Natural Language Description для всего набора ключевых кадров.
  6. Сохранение: Итоговое описание сохраняется в Key Frame Description Database в ассоциации с идентификатором видео.

Процесс Б: Обработка запроса (Онлайн)

  1. Получение запроса: Пользователь вводит запрос во время воспроизведения видео (отображается текущий кадр).
  2. Идентификация контекста: Система определяет, что запрос относится к данному видео.
  3. Извлечение описания: Система извлекает предварительно сгенерированное Natural Language Description ключевых кадров из базы данных.
  4. (Опционально) Анализ текущего кадра: Система может обработать текущий кадр с помощью VLM в реальном времени для получения его описания.
  5. Генерация промпта: Prompt-Generating Engine формирует промпт, комбинируя текст запроса, описание ключевых кадров и (опционально) описание текущего кадра.
  6. Обработка LLM: Промпт подается на вход Generative Model (LLM).
  7. Генерация ответа: LLM генерирует ответ на естественном языке, релевантный запросу и контексту видео.
  8. Рендеринг ответа: Ответ предоставляется пользователю (визуально или через синтез речи).

Какие данные и как использует

Данные на входе

Система использует следующие типы данных:

  • Мультимедиа факторы (Визуальные данные): Кадры видео. Анализируются как все кадры (для определения ключевых), так и только ключевые/текущий кадр (для генерации описания). Используется для анализа визуальных различий и обнаружения объектов.
  • Мультимедиа факторы (Аудио данные): Аудиодорожка видео. Используется для обнаружения новых голосов как критерий выбора ключевого кадра.
  • Пользовательские факторы (Запрос): Текстовый или голосовой запрос пользователя, который определяет информационную потребность.

Какие метрики используются и как они считаются

Патент упоминает следующие метрики и методы:

  • Measure of visual difference (Мера визуальной разницы): Метрика, рассчитываемая между соседними кадрами. Если она превышает заданный порог, это триггер для выбора ключевого кадра (смена сцены).
  • Object Detection (Обнаружение объектов): Используется для идентификации появления новых объектов в кадре как критерий выбора ключевого кадра.
  • Voice Detection (Обнаружение голоса): Анализ аудио для идентификации новых голосов как критерий выбора ключевого кадра.
  • Vision-Language Processing: Использование VLM для преобразования пиксельных данных ключевых кадров в семантические текстовые описания (Natural Language Description).
  • Generative Processing: Использование LLM для синтеза ответа на основе комбинированного промпта.

Выводы

  1. Эффективность через селективность: Google активно ищет способы понимания видеоконтента без необходимости полной обработки всех данных. Выбор ключевых кадров (Key Frames) является стратегическим решением для баланса между глубиной понимания и вычислительными затратами.
  2. Критерии значимых моментов: Патент четко определяет, что считается важным моментом в видео для анализа: смена сцены (визуальная разница), появление новых сущностей (объектов) и появление новых спикеров (голосов). Это прямые индикаторы того, как Google сегментирует видео.
  3. Мультимодальная интеграция (VLM + LLM): Подтверждается стратегия Google по использованию специализированных моделей (VLM для понимания изображений) в связке с универсальными генеративными моделями (LLM для формирования ответов). VLM выступает "переводчиком" визуального контента в текст, понятный для LLM.
  4. Приоритет предварительных вычислений: Для обеспечения работы в реальном времени система полагается на офлайн-индексацию и генерацию описаний. Это означает, что точность системы напрямую зависит от качества предварительного анализа видео.
  5. Контекстуальные ответы на основе видео: Цель системы — не просто найти видео, а предоставить конкретный ответ на вопрос, используя видео как источник знаний. Это важно для понимания эволюции поиска в сторону прямой генерации ответов (SGE).

Практика

Best practices (это мы делаем)

Для SEO-специалистов, работающих с видеоконтентом (например, на YouTube или на сайте), этот патент дает важные ориентиры для оптимизации:

  • Четкая структура и визуальные переходы: Структурируйте видео так, чтобы смена темы или сцены сопровождалась явным визуальным изменением. Это увеличивает вероятность того, что система выберет эти моменты как ключевые кадры (Критерий: measure of visual difference) и правильно сегментирует содержание видео.
  • Акцент на новых сущностях и объектах: При представлении важных объектов, продуктов или людей убедитесь, что они четко видны в кадре. Система использует обнаружение новых объектов как триггер для ключевого кадра. Качественное изображение поможет VLM сгенерировать точное описание.
  • Разнообразие спикеров и аудио: Если в видео участвуют несколько человек, система может использовать смену голоса для определения ключевых кадров. Это может быть полезно для интервью или обзоров с несколькими ведущими.
  • Визуальная ясность ключевой информации: Убедитесь, что самая важная информация (например, выводы, названия продуктов, ключевые шаги в инструкции) представлена визуально четко (включая текст на экране). Это облегчит VLM извлечение и описание этой информации для последующего использования в ответах LLM.
  • Оптимизация под "Key Moments": Практики, направленные на выделение ключевых моментов (Key Moments) в Google Search, напрямую соотносятся с механизмами этого патента. Использование таймкодов и четкой структуры помогает системе валидировать автоматически выбранные ключевые кадры.

Worst practices (это делать не надо)

  • Монотонный видеоряд ("Говорящая голова"): Видео с минимальными визуальными изменениями и одним спикером могут привести к тому, что система выберет мало ключевых кадров или выберет их нерелевантно, что затруднит понимание содержания.
  • Визуальный шум и перегруженность: Сложные сцены с множеством движущихся объектов или низкое качество видео могут снизить точность работы VLM при генерации описаний ключевых кадров.
  • Несоответствие аудио и видео: Если визуальный ряд не соответствует аудиодорожке, система может некорректно интерпретировать контент, так как критерии выбора кадров могут срабатывать не синхронно с важными моментами в аудио.

Стратегическое значение

Патент подтверждает стратегическую важность видео как источника информации первого порядка и стремление Google сделать этот источник доступным для анализа системами ИИ. Для SEO это означает, что оптимизация видео больше не ограничивается метаданными (заголовками, описаниями, тегами). Google активно анализирует само содержание видео на уровне кадров и аудио. Долгосрочная стратегия Video SEO должна учитывать возможности мультимодальных моделей (VLM) и оптимизировать контент для машинного восприятия.

Практические примеры

Сценарий: Оптимизация видео-обзора нового смартфона

  1. Задача: Убедиться, что Google точно поймет, какие функции обсуждаются в каких частях видео.
  2. Действия на основе патента:
    • При переходе от обсуждения камеры к обсуждению батареи использовать явный визуальный переход (например, полноэкранную заставку с названием раздела "Батарея"). Это активирует критерий measure of visual difference.
    • При первом показе батареи или результатов теста показать их крупным планом, четко и статично. Это активирует критерий new object detection и поможет VLM точно описать объект.
    • Если обзор ведут два человека, и второй ведущий начинает говорить о производительности, это активирует критерий new voice detection.
  3. Ожидаемый результат: Система выберет релевантные ключевые кадры для каждого раздела. VLM сгенерирует точное описание (например, "Кадр показывает результаты теста батареи смартфона X; Кадр показывает интерфейс настроек производительности"). Это позволит Google точно отвечать на запросы пользователей о конкретных функциях смартфона, используя информацию из этого видео.

Вопросы и ответы

Как Google определяет, какие кадры являются ключевыми (Key Frames)?

Патент описывает три основных критерия для автоматического выбора ключевых кадров. Первый — это когда мера визуальной разницы между соседними кадрами превышает порог (т.е. смена сцены или резкое изменение в кадре). Второй — это обнаружение нового объекта в кадре. Третий — это обнаружение нового голоса в соответствующей аудиодорожке. Это позволяет системе сегментировать видео по значимым моментам.

Означает ли это, что Google анализирует каждое видео с помощью VLM и LLM?

Система разработана так, чтобы быть масштабируемой. Анализ с помощью VLM (генерация описаний) происходит офлайн, на этапе индексирования, и только для выбранных ключевых кадров, а не для всего видео. Это значительно снижает нагрузку. LLM используется только в момент запроса пользователя для генерации ответа на основе уже готовых текстовых описаний.

Как это влияет на ранжирование моих видео в поиске?

Хотя патент фокусируется на ответах на вопросы, описанный механизм напрямую улучшает понимание содержания вашего видео поисковой системой. Чем точнее Google понимает семантику видео на уровне отдельных сегментов (благодаря анализу ключевых кадров), тем лучше он сможет ранжировать ваше видео по релевантным запросам, выделять ключевые моменты (Key Moments) и использовать контент для генеративных ответов (SGE).

Что такое Vision-Language Model (VLM) в контексте этого патента?

VLM — это мультимодальная модель ИИ, которая выступает в роли "переводчика" визуальной информации в текстовую. Она принимает на вход изображение (ключевой кадр) и генерирует его текстовое описание на естественном языке. Это описание затем используется большой языковой моделью (LLM) для формирования ответов.

Нужно ли мне оптимизировать видео под эту систему, и как?

Да, оптимизация желательна. Ключевая рекомендация — делать видео структурированным и визуально ясным. Используйте четкие визуальные переходы при смене тем (чтобы система засекла смену сцены) и убедитесь, что важные объекты или текст на экране хорошо видны и читаемы (чтобы помочь VLM точно их описать).

Анализирует ли система текущий кадр, который видит пользователь?

Патент предусматривает такую возможность как опцию. Основной механизм полагается на предварительно сгенерированные описания ключевых кадров для скорости. Однако система может дополнительно проанализировать текущий кадр (Current Image Frame) с помощью VLM в реальном времени, чтобы сделать ответ более контекстуальным, хотя это и увеличивает задержку.

Влияет ли качество видео (разрешение, битрейт) на работу этой системы?

Патент прямо не обсуждает влияние качества видео. Однако, поскольку система полагается на VLM для описания кадров и обнаружения объектов, более высокое качество видео и четкость изображения логически приведут к более точной идентификации объектов и генерации более качественных текстовых описаний, улучшая общую производительность системы.

Может ли эта система понять текст, который отображается на экране в видео?

Да. Vision-Language Models, как правило, способны распознавать и интерпретировать текст на изображениях (OCR). Если текст на экране присутствует в ключевом кадре, VLM включит его в свое Natural Language Description, и эта информация будет доступна LLM для генерации ответов.

Заменяет ли этот механизм необходимость в субтитрах или таймкодах?

Нет, не заменяет. Субтитры и таймкоды остаются важными сигналами доступности и структуры. Они могут дополнять данные, полученные через анализ ключевых кадров. Хорошая практика SEO включает использование всех доступных инструментов для передачи структуры и содержания видео поисковой системе.

Применяется ли эта технология только для YouTube или и для видео на моем сайте?

Хотя примеры в патенте похожи на интерфейс видеоплеера типа YouTube, технология описана как общая система обработки видео, принадлежащая Google. Логично предположить, что эти механизмы используются для анализа любого видеоконтента, который индексирует Google, включая видео, размещенные на сторонних сайтах.

Похожие патенты

Как Google преобразует изображения в текст для понимания мультимодальных запросов с помощью LLM
Google использует систему для обработки мультимодальных запросов (текст + изображение), позволяя LLM отвечать на вопросы об изображениях. Система анализирует изображение с помощью вспомогательных моделей (распознавание объектов, VQA) и выполняет обратный поиск по картинкам для извлечения текста с найденных веб-ресурсов. Вся эта информация объединяется в структурированный текстовый промт, который позволяет LLM понять визуальный контекст и сгенерировать релевантный ответ.
  • US20250061146A1
  • 2025-02-20
  • Мультимедиа

  • Семантика и интент

Как Google использует машинное обучение для анализа содержания видео и динамического выбора релевантных тамбнейлов
Google использует систему машинного обучения для связывания аудиовизуальных признаков видео (цвет, текстура, звук) с ключевыми словами. Это позволяет системе понимать содержание каждого кадра и динамически выбирать для тамбнейла (миниатюры) тот кадр, который наилучшим образом соответствует запросу пользователя или общему содержанию видео.
  • US20110047163A1
  • 2011-02-24
  • Мультимедиа

  • Индексация

  • Семантика и интент

Как Google использует визуальные цитаты и обратную связь для генерации и уточнения ответов в мультимодальном поиске
Google генерирует ответы на мультимодальные запросы (изображение + текст), находя визуально похожие изображения в интернете и используя текст с их исходных страниц как основу для LLM. Система показывает эти изображения как «визуальные цитаты» для подтверждения ответа и позволяет пользователям исключать нерелевантные источники, чтобы мгновенно уточнить сгенерированный результат.
  • US20240378236A1
  • 2024-11-14
  • Мультимедиа

  • EEAT и качество

  • Ссылки

Как Google использует LLM для генерации поисковых сводок (SGE), основываясь на контенте веб-сайтов, и итеративно уточняет ответы
Google использует Большие Языковые Модели (LLM) для создания сводок (AI-ответов) в результатах поиска. Для повышения точности и актуальности система подает в LLM не только запрос, но и контент из топовых результатов поиска (SRDs). Патент описывает, как система выбирает источники, генерирует сводку, проверяет факты, добавляет ссылки на источники (linkifying) и аннотации уверенности. Кроме того, система может динамически переписывать сводку, если пользователь взаимодействует с одним из источников.
  • US11769017B1
  • 2023-09-26
  • EEAT и качество

  • Ссылки

  • SERP

Как Google использует real-time анализ текста, аудио и изображений для автоматической генерации запросов и проактивного поиска
Система Google для анализа информации, захваченной из различных источников (вводимый текст, изображения документов, аудиопотоки) в реальном времени. Система автоматически распознает контент, выделяет ключевые фрагменты, формирует поисковые запросы и мгновенно предоставляет пользователю релевантный цифровой контент или связанные действия без явных запросов. Это механизм, лежащий в основе технологий визуального (Lens) и голосового поиска.
  • US8990235B2
  • 2015-03-24
  • Семантика и интент

  • Персонализация

  • Мультимедиа

Популярные патенты

Как Google A/B тестирует и оптимизирует сниппеты (заголовки, описания, изображения) для повышения CTR
Google использует механизм для оптимизации отображения контента (сниппетов). Система показывает разные варианты заголовков, описаний или изображений для одной и той же ссылки разным пользователям или на разных платформах. Затем она измеряет кликабельность (CTR) каждого варианта и выбирает наиболее эффективный для дальнейшего использования, учитывая также тип устройства пользователя.
  • US9569432B1
  • 2017-02-14
  • SERP

  • Поведенческие сигналы

  • Персонализация

Как Google использует вероятностные модели и анализ пользовательского выбора (кликов) для обучения систем ранжирования
Патент Google описывает метод эффективного ранжирования контента (видео или результатов поиска) с использованием парных сравнений. Система моделирует качество как вероятностное распределение и оптимизирует сбор данных. Этот механизм может применяться для интерпретации кликов в поисковой выдаче как сигналов предпочтения, учитывая позицию результата и доверие к пользователю.
  • US8688716B1
  • 2014-04-01
  • SERP

  • Поведенческие сигналы

Как Google использует исторические паттерны CTR для предсказания сезонных и циклических изменений интента пользователя
Google анализирует исторические данные о кликах (CTR) для выявления предсказуемых изменений в интересах пользователей по неоднозначным запросам. Если интент меняется в зависимости от сезона, дня недели или времени суток, система корректирует ранжирование, чтобы соответствовать доминирующему в данный момент интенту. Например, по запросу "turkey" в ноябре приоритет получат рецепты, а не информация о стране.
  • US8909655B1
  • 2014-12-09
  • Семантика и интент

  • Поведенческие сигналы

  • SERP

Как Google интерпретирует последовательные запросы для автоматического уточнения поискового намерения пользователя
Google использует механизм для понимания контекста сессии, анализируя последовательные запросы (например, Q1: [рестораны в Москве], затем Q2: [итальянские]). Система автоматически объединяет их в уточненный запрос (Q3: [итальянские рестораны в Москве]), основываясь на исторических данных о том, как пользователи обычно уточняют запросы. Это позволяет системе лучше понимать намерение пользователя в диалоговом режиме.
  • US9116952B1
  • 2015-08-25
  • Семантика и интент

  • Поведенческие сигналы

Как Google использовал специальные токены в запросе (например, «+») для прямой навигации на верифицированные социальные страницы в обход SERP
Google может интерпретировать специальные токены в поисковом запросе (например, «+») как намерение пользователя найти официальную социальную страницу сущности. Если система идентифицирует верифицированный профиль, соответствующий запросу с высокой степенью уверенности, она может перенаправить пользователя прямо на эту страницу, минуя стандартную поисковую выдачу.
  • US9275421B2
  • 2016-03-01
  • Семантика и интент

  • SERP

  • Ссылки

Как Google использует контент, который вы смотрите (например, на ТВ), для автоматического переписывания и персонализации ваших поисковых запросов
Google может анализировать контент (фильмы, шоу, аудио), который пользователь потребляет на одном устройстве (например, ТВ), и использовать эту информацию как контекст для уточнения последующих поисковых запросов. Система распознает аудиовизуальный контекст и автоматически дополняет неоднозначные запросы пользователя, чтобы предоставить более релевантные результаты, в том числе на связанных устройствах (например, смартфоне).
  • US9244977B2
  • 2016-01-26
  • Персонализация

  • Семантика и интент

  • Поведенческие сигналы

Как Google переносит авторитетность бренда и описательные термины между страницами одного сайта для улучшения ранжирования
Google использует механизмы для улучшения релевантности страниц путем переноса сигналов внутри сайта. Система распространяет "авторитетные" термины (например, бренд) с главной страницы на внутренние разделы и, наоборот, поднимает "высокоописательные" термины (например, адреса, категории, уникальные слова) с внутренних страниц на главную. Это позволяет ранжировать наиболее подходящую страницу сайта, даже если нужные ключевые слова на ней отсутствуют.
  • US7933890B2
  • 2011-04-26
  • Структура сайта

  • Техническое SEO

  • Индексация

Как Google использует время взаимодействия пользователя с сайтом (Dwell Time) для расчета оценки качества всего сайта
Google использует агрегированные данные о продолжительности визитов пользователей на сайт для расчета метрики качества этого сайта (Site Quality Score). Система измеряет время взаимодействия (включая Dwell Time — время от клика в выдаче до возврата обратно), фильтрует аномальные визиты и нормализует данные по типам контента. Итоговая оценка используется как независимый от запроса сигнал для ранжирования и принятия решений об индексировании.
  • US9195944B1
  • 2015-11-24
  • Поведенческие сигналы

  • Индексация

  • SERP

Как Google использует историю кликов пользователей для определения интента, связанного с физическим адресом, и таргетинга рекламы
Google анализирует, какие поисковые запросы исторически приводят к наибольшему количеству кликов по бизнесам, расположенным по определенному адресу. Когда пользователь ищет этот адрес (или смотрит его на карте), Google использует этот «Самый популярный поисковый термин» (Most-Popular Search Term), чтобы определить намерение пользователя и показать релевантную информацию и рекламу.
  • US20150261858A1
  • 2015-09-17
  • Local SEO

  • Семантика и интент

  • Поведенческие сигналы

Как Google использует личную историю поиска и профиль интересов для персонализации подсказок Autocomplete
Google персонализирует поисковые подсказки (Autocomplete), используя профиль интересов пользователя, созданный на основе его прошлых запросов и кликов. Система сравнивает тематику потенциальных подсказок с интересами пользователя и повышает в списке те варианты, которые соответствуют его предпочтениям, с учетом актуальности этих интересов.
  • US20140108445A1
  • 2014-04-17
  • Персонализация

  • Поведенческие сигналы

  • Семантика и интент

seohardcore