SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google использует анализ временных трендов и вейвлеты для поиска связанных запросов

IDENTIFYING RELATED QUERIES (Идентификация связанных запросов)
  • US8019742B1
  • Google LLC
  • 2007-05-31
  • 2011-09-13
  • Поведенческие сигналы
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Google идентифицирует связанные запросы, анализируя схожесть их исторических трендов популярности, а не только семантику. Система преобразует данные об объеме запросов в многомерные изображения и применяет вейвлет-анализ для извлечения ключевых характеристик трендов. Сравнение этих характеристик позволяет находить запросы с похожими паттернами роста или падения интереса.

Описание

Какую проблему решает

Патент решает задачу идентификации связанных поисковых запросов за пределами их текстуального или семантического сходства. Цель — выявить запросы, которые демонстрируют схожие паттерны пользовательского интереса во времени (например, схожие подъемы или спады популярности), что указывает на скрытую связь в поведении пользователей, даже если ключевые слова различаются.

Что запатентовано

Запатентована система и метод идентификации связанных запросов путем анализа временных рядов их объемов (Query Volume). Суть изобретения заключается в преобразовании данных об объеме запросов в многомерные представления (изображения) и применении техник обработки изображений, в частности, вейвлет-анализа (Wavelet Analysis). Схожесть между запросами определяется путем сравнения извлеченных характеристик трендов.

Как это работает

Система работает в несколько этапов:

  • Нормализация: Исторический объем запроса нормализуется относительно общего объема всех запросов для расчета Relative Volume (доли трафика).
  • Генерация Представления: Нормализованные данные преобразуются в многомерное представление (например, 2D-изображение), где осями могут быть время (например, день недели и номер недели), география или тип поиска.
  • Вейвлет-анализ: К изображению применяется вейвлет-преобразование. Идентифицируются Top Wavelets (с высокими коэффициентами магнитуды), которые отражают ключевые характеристики тренда.
  • Генерация Сигнатур: Top Wavelets сжимаются в компактные сигнатуры (Signatures), например, с помощью квантования или алгоритма Min-Hash.
  • Сравнение: Сигнатуры сравниваются (например, с использованием Locality-Sensitive Hashing, LSH) для эффективного поиска запросов со схожими временными паттернами.

Актуальность для SEO

Средняя/Высокая. Концепция использования временной корреляции для понимания взаимосвязи запросов остается фундаментальной для Google (например, в Google Trends и Related Searches). Однако конкретные технические методы (вейвлет-анализ), описанные в патенте 2007 года, вероятно, были дополнены или заменены более современными подходами машинного обучения для анализа временных рядов.

Важность для SEO

Влияние на SEO умеренное (6/10). Патент не описывает алгоритмы ранжирования, но важен для понимания механизмов Query Understanding. Он влияет на формирование блоков «Похожие запросы» и анализ трендов. Для SEO-стратегии это подчеркивает важность анализа темпорального поведения аудитории и создания контент-плана, учитывающего сезонность и коррелирующие интересы.

Детальный разбор

Термины и определения

Image / Representation (Изображение / Представление)
Многомерное представление данных об объеме запроса (например, 2D, 3D). Оси могут представлять переменные, такие как время (например, день недели и номер недели), география или тип поиска. Значение в ячейке (пикселе) — это Relative Volume.
Locality-Sensitive Hashing (LSH) (Локально-чувствительное хеширование)
Метод для эффективного поиска похожих элементов в больших наборах данных. Используется для группировки похожих сигнатур запросов в одни «корзины» (bins), избегая необходимости попарного сравнения всех запросов.
Min-Hash (Мин-хеширование)
Алгоритм для сжатия набора данных (в данном случае Top Wavelets) в компактную сигнатуру (Signature) с сохранением информации о схожести.
Normalization (Нормализация)
Процесс расчета Relative Volume путем деления объема конкретного запроса на общий объем всех запросов за тот же период. Нивелирует общие колебания трафика.
Quantization (Квантование)
Процесс преобразования Top Wavelets в сжатый формат, например, в бинарный вектор с ограниченным числом битов (например, 2 бита для обозначения положительного, отрицательного или незначительного коэффициента).
Query Volume (Объем запроса)
Абсолютное количество раз, когда запрос был введен пользователями за период времени.
Relative Volume (Относительный объем)
Нормализованный объем запроса; доля конкретного запроса от общего числа запросов.
Signature (Сигнатура)
Компактное представление основных характеристик временного тренда запроса, сгенерированное на основе Top Wavelets (например, через Квантование или Min-Hash).
Top Wavelets (Топовые вейвлеты)
Вейвлет-коэффициенты с высокой магнитудой (high magnitude coefficients), которые представляют наиболее значимые характеристики изображения (ключевые особенности тренда — пики и спады).
Wavelets (Вейвлеты)
Математические функции, используемые для иерархического разложения сигналов или изображений. Позволяют анализировать тренды на разных масштабах времени.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает базовый метод сравнения двух разных запросов на основе анализа их объемов.

  1. Доступ к историческим данным о вводе первого (Q1) и второго (Q2) запросов.
  2. Определение объема Q1 и Q2 за определенные периоды времени.
  3. Генерация первого и второго представлений (изображений) этих объемов относительно двух или более переменных.
  4. Обработка представлений для генерации первого и второго наборов вейвлетов.
  5. Идентификация подмножеств вейвлетов с высокими магнитудными коэффициентами (Top Wavelets) для каждого набора.
  6. Генерация первой и второй сигнатур на основе этих подмножеств.
  7. Определение связанности Q1 и Q2 путем сравнения их сигнатур.

Claim 3 и 4 (Зависимые): Уточняют критерии и данные.

Запросы связаны, если их представления демонстрируют схожие подъемы или спады (similar rises or decreases) объема (Claim 3). При этом используется нормализованный объем (Relative Volume) относительно объема всех запросов (Claim 4).

Claim 18 (Независимый пункт): Описывает применение метода в масштабе (для множества запросов).

Процесс аналогичен Claim 1, но применяется к множеству запросов: генерация представлений, вейвлетов, Top Wavelets и сигнатур для каждого запроса, с последующим сравнением сигнатур для выявления связей.

Claims 19, 20, 21 (Зависимые от 18): Детализируют механизмы масштабирования и эффективности.

Генерация сигнатур осуществляется с использованием алгоритма Min-Hash (Claim 19). Для эффективного поиска сигнатур, подлежащих сравнению, используется Locality Sensitive Hashing (LSH) (Claims 20, 21).

Где и как применяется

Изобретение применяется в основном на этапе анализа данных и понимания запросов, и не является частью real-time ранжирования контента.

CRAWLING (Data Acquisition)
Система требует сбора и хранения обширных исторических логов поисковых запросов (Query Logs), включая временные метки и метаданные (география, тип поиска).

QUNDERSTANDING – Понимание Запросов
Основное применение патента. Система анализирует логи запросов офлайн (в пакетном режиме) для построения моделей взаимосвязей между запросами на основе их темпорального поведения. Этот анализ помогает понять, как интересы пользователей эволюционируют и коррелируют во времени. Результаты используются для генерации предложений «Связанные запросы» (Related Searches) и в инструментах аналитики (Google Trends).

METASEARCH – Метапоиск и Смешивание (Косвенно)
В патенте упоминается (Claims 6, 7), что идентифицированные связанные запросы могут быть показаны пользователю, или результаты для связанного запроса могут быть предоставлены вместе с результатами исходного запроса. Это может влиять на финальное формирование SERP.

Входные данные:

  • Исторические логи поисковых запросов (текст, временная метка).
  • Дополнительные метаданные (география, тип поиска: web, images, local, froogle).

Выходные данные:

  • Сигнатуры (Signatures) для каждого запроса, инкапсулирующие его тренд.
  • Наборы связанных запросов, основанные на схожести временных паттернов.

На что влияет

  • Специфические запросы: Наибольшее влияние на запросы с выраженной сезонностью (праздники), событийностью (выборы, спорт) или регулярными трендами (например, запросы, популярные по выходным).
  • Ниши: Влияет на понимание спроса в нишах, где интересы пользователей сильно коррелируют во времени (путешествия, финансы, развлечения, ритейл).
  • Географические ограничения: Система может использовать географию как одну из осей анализа (многомерное представление), позволяя выявлять региональные тренды и корреляции.

Когда применяется

  • Условия работы: Алгоритм работает офлайн для анализа исторических данных за значительный период (дни, месяцы, год).
  • Частота применения: Периодическое обновление базы связанных запросов на основе свежих логов.
  • Особые случаи: Патент упоминает возможность сравнения трендов, которые смещены во времени (темпорально сдвинутые). Это достигается либо за счет предварительного размытия (blurring), либо за счет использования представлений без временной оси (например, География vs Тип запроса).

Пошаговый алгоритм

Процесс идентификации связанных запросов:

  1. Сбор данных: Определение общего объема всех запросов и объема конкретного запроса 'Q' для каждой временной единицы 'H' (например, день) за исторический период 'D' (например, год).
  2. Нормализация: Вычисление Relative Volume для 'Q'. Relative Volume(Q,H)=Volume(Q,H)Total Volume(H)\text{Relative Volume}(Q, H) = \frac{\text{Volume}(Q, H)}{\text{Total Volume}(H)}.
  3. Генерация Изображения: Создание многомерного (например, 2D) изображения Relative Volume. Например, оси: Неделя (X) и День Недели (Y).
  4. Предварительная обработка (Опционально): Применение размытия (blurring, например, Гауссов фильтр) к изображению. Это сглаживает резкие края и помогает находить совпадения, даже если тренды немного смещены.
  5. Вейвлет-преобразование: Обработка изображения для генерации набора вейвлет-коэффициентов.
  6. Извлечение Признаков: Идентификация Top Wavelets – коэффициентов, магнитуда которых превышает пороговое значение.
  7. Генерация Сигнатуры: Создание компактного представления тренда.
    1. Вариант A (Квантование): Преобразование Top Wavelets в бинарный вектор (например, 2 бита на коэффициент: положительный, отрицательный, незначительный).
    2. Вариант B (Сжатие): Применение алгоритма Min-Hash к набору Top Wavelets для создания компактной сигнатуры.
  8. Повторение процесса: Шаги 1-7 повторяются для всех анализируемых запросов.
  9. Сравнение и Идентификация: Использование Locality Sensitive Hashing (LSH) для группировки схожих сигнатур в общие корзины. Сравнение выполняется только внутри корзин для быстрого поиска связанных запросов. Запросы с наиболее похожими сигнатурами идентифицируются как связанные.

Какие данные и как использует

Данные на входе

Система использует исключительно данные из логов поисковой системы.

  • Поведенческие факторы: Исторические логи запросов (Query Logs). Анализируется частота ввода запросов пользователями с течением времени.
  • Временные факторы: Временные метки запросов критически важны для построения временных рядов. Данные агрегируются по временным единицам (часы, дни, недели).
  • Географические факторы (Опционально): Страна или регион происхождения запроса могут использоваться как одна из осей многомерного представления.
  • Системные факторы (Опционально): Тип поиска или вертикаль (например, Web, Images, Froogle, Local) могут использоваться как дополнительное измерение.

Какие метрики используются и как они считаются

  • Query Volume: Подсчет количества вводов конкретного запроса за единицу времени.
  • Relative Volume (Относительный объем): Нормализованная метрика популярности (доля трафика).
  • Wavelet Coefficients Magnitude (Магнитуда коэффициентов вейвлетов): Величина вейвлет-коэффициентов. Используется для определения Top Wavelets по пороговому значению.
  • Similarity Score (Оценка схожести): Мера схожести между сигнатурами или бинарными векторами.
  • Методы анализа данных: Вейвлет-анализ, Фильтр Гаусса (для размытия), Min-Hash, LSH.

Выводы

  1. Связь через тренды, а не только семантику: Патент описывает механизм определения связанности запросов на основе корреляции их популярности во времени. Это позволяет Google идентифицировать запросы, которые часто ищут в одно и то же время, даже если они семантически различны.
  2. Важность нормализации данных: Система использует Relative Volume (долю трафика), а не абсолютный объем. Это ключевой момент, позволяющий выявлять реальные тренды интереса к теме, игнорируя общие колебания поискового трафика.
  3. Многомерный анализ трендов: Данные о популярности представляются как многомерные изображения. Это позволяет анализировать тренды не только во времени, но и в разрезе других переменных (география, тип поиска).
  4. Вейвлеты для мульти-масштабного анализа: Использование вейвлетов позволяет улавливать как долгосрочные тренды (сезонность), так и краткосрочные всплески (события), поскольку вейвлет-анализ работает на разных масштабах времени.
  5. Масштабируемость через хеширование: Для эффективного сравнения миллионов запросов используются техники сжатия данных (Min-Hash) и быстрого поиска похожих элементов (LSH).
  6. Идентификация темпорально смещенных трендов: Система потенциально может идентифицировать запросы с похожими трендами, даже если они происходят в разное время, либо за счет предварительного размытия (blurring), либо за счет использования представлений без временной оси.

Практика

Best practices (это мы делаем)

  • Глубокий анализ темпоральных трендов (Temporal Content Strategy): Активно используйте Google Trends для планирования контент-стратегии. Понимайте, что Google анализирует эти тренды на глубоком уровне. Создавайте и обновляйте контент заблаговременно, чтобы соответствовать пикам спроса.
  • Выявление и использование коррелирующих интересов: Изучайте, какие темы интересуют вашу аудиторию одновременно с вашей основной темой (даже если они семантически не близки). Если Google видит временную корреляцию между запросами А и Б, полезно создавать контент, который охватывает эти связанные интересы.
  • Учет региональных и платформенных трендов: Поскольку система может использовать многомерные представления (включая географию и тип запроса), убедитесь, что ваша стратегия учитывает различия в трендах для разных регионов и вертикалей поиска (Web, Images, Local).
  • Комплексное планирование сезонного контента: При подготовке к сезону создавайте контент не только по основным запросам, но и по всем связанным темам, которые начинают расти одновременно. Это укрепляет тематический авторитет в период пикового спроса.

Worst practices (это делать не надо)

  • Игнорирование временного контекста: Создание контента без учета того, когда именно пользователи ищут эту информацию. Рассмотрение ключевых слов как статических единиц без учета их жизненного цикла и сезонности.
  • Ориентация только на семантически близкие ключи: Ограничение семантического ядра только прямыми синонимами. Патент показывает, что Google видит связи шире – через совместное поведение пользователей во времени.
  • Запоздалая реакция на тренды: Публикация контента о трендовом событии после того, как пик интереса прошел. Контент должен быть проиндексирован и доступен в момент формирования тренда.

Стратегическое значение

Патент подтверждает, что Google рассматривает поведение пользователей во времени как важный сигнал для понимания взаимосвязей в мире (Query Understanding). Для SEO это означает, что стратегия должна быть ориентирована не только на то, что ищут пользователи, но и на то, когда они это ищут, и что еще они ищут в это же время. Понимание темпоральной динамики спроса и создание комплексного контента, отвечающего коррелирующим интересам, является важной частью долгосрочной стратегии.

Практические примеры

Сценарий 1: Планирование контента на основе сезонных корреляций (Пасха)

  1. Анализ трендов: SEO-специалист кулинарного сайта видит, что запросы «рецепт кулича» и «как красить яйца» семантически различны.
  2. Интерпретация (на основе патента): Google анализирует исторические данные и видит, что временные тренды (Signatures) этих запросов почти идентичны (резкий рост перед Пасхой). Система идентифицирует их как тесно связанные.
  3. Действия: Создать хаб-страницу «Меню на Пасху», которая охватывает обе темы и активно перелинковывает соответствующие статьи. Контент обновляется заблаговременно до пика спроса.
  4. Ожидаемый результат: Сайт лучше отвечает набору связанных интересов пользователя в конкретный период времени, улучшая видимость по всему кластеру темпорально связанных запросов.

Сценарий 2: Реакция на событие (Выход фильма)

  1. Анализ трендов: Система фиксирует синхронный всплеск запросов «Дюна 2 дата выхода», «Тимоти Шаламе» и «Зендея».
  2. Интерпретация (на основе патента): Несмотря на разную семантику (фильм и актеры), система идентифицирует их как связанные благодаря схожему временному паттерну (одинаковые Top Wavelets).
  3. Действия SEO-специалиста (Новостной сайт): При создании контента о фильме необходимо убедиться, что материалы, посвященные ключевым актерам, также актуализированы и связаны с основным материалом о фильме для полного охвата интента.

Вопросы и ответы

Основан ли этот патент на семантической близости запросов?

Нет. Ключевая особенность этого патента в том, что он определяет связанность запросов исключительно на основе схожести их временных трендов (Query Volume patterns). Система может идентифицировать как связанные запросы, которые семантически различны, но демонстрируют схожие всплески популярности в одно и то же время (например, запросы, связанные с определенным праздником).

Что такое вейвлеты и зачем они используются?

Вейвлеты — это математический инструмент для анализа сигналов и изображений. В контексте патента они используются для разложения тренда популярности на компоненты на разных масштабах (multi-resolution analysis). Это позволяет обнаруживать как долгосрочные тренды (годовую сезонность), так и краткосрочные резкие всплески (события) и использовать эту информацию для сравнения запросов.

Почему Google нормализует объем запросов?

Нормализация (расчет Relative Volume) критически важна для выявления реальных трендов. Она позволяет определить долю конкретного запроса от общего числа поисков в данный момент. Это нивелирует общие колебания трафика (например, ночью ищут меньше). Система ищет рост интереса к теме, а не просто рост общего числа запросов.

Что такое Top Wavelets?

Top Wavelets – это вейвлет-коэффициенты с наибольшей магнитудой (величиной). Они представляют собой наиболее значимые характеристики временного тренда запроса (например, самые сильные пики или падения). Система фокусируется только на них при сравнении запросов, отбрасывая менее значимую информацию (шум).

Как система справляется со сравнением миллионов запросов?

Патент описывает механизмы масштабирования. Во-первых, Top Wavelets сжимаются в компактные сигнатуры (например, с помощью Min-Hash). Во-вторых, для быстрого поиска похожих сигнатур используется Locality Sensitive Hashing (LSH). LSH позволяет группировать похожие запросы вместе, избегая необходимости сравнивать каждый запрос с каждым.

Может ли система найти связанные запросы, тренды которых смещены во времени?

Да, в патенте предусмотрена такая возможность. Во-первых, предварительное размытие (blurring) изображения помогает находить схожие тренды с небольшим смещением. Во-вторых, если многомерное представление не использует время как одну из осей (например, География vs Тип поиска), система может идентифицировать схожие паттерны, даже если они произошли в разное время.

Как этот патент используется в поиске Google?

Этот патент не описывает алгоритм ранжирования. Он используется в системах Понимания Запросов (Query Understanding). Наиболее вероятные применения – это генерация блока «Связанные запросы» (Related Searches), анализ данных в Google Trends, а также потенциальное подмешивание результатов из связанных запросов в основную выдачу (как упомянуто в Claims 6, 7).

Какое значение этот патент имеет для SEO-стратегии?

Он подчеркивает важность темпоральной контент-стратегии. SEO-специалистам необходимо понимать не только ЧТО ищут пользователи, но и КОГДА, а также ЧТО ЕЩЕ они ищут в это же время. Необходимо синхронизировать создание и продвижение контента с временными паттернами спроса и охватывать смежные темы, которые трендят одновременно.

Учитывает ли система географию при анализе трендов?

Да, в патенте явно упоминается возможность добавления географических данных (например, страны происхождения запроса) как дополнительного измерения (оси) в многомерное представление. Это позволяет системе находить связанные запросы с учетом локальных трендов.

Что подразумевается под «многомерным представлением» или «изображением» объема запросов?

Это способ организации данных о популярности запроса. Например, можно создать 2D-изображение, где ось X – это недели года, а ось Y – дни недели. Значение в каждой ячейке (пикселе) – это Relative Volume запроса в этот день. Также можно использовать другие измерения, например, географию или тип вертикали поиска (Web, Images).

Похожие патенты

Как Google улучшает Min-Hash сигнатуры для более точного обнаружения почти дубликатов контента
Google использует усовершенствованный алгоритм Min-Hash для создания цифровых сигнатур контента (веб-страниц, изображений, медиа). Условно используя вторичные перестановки, когда первичный хеш дает мало информации, Google генерирует более надежные и информативные сигнатуры. Это позволяет быстрее и точнее обнаруживать почти дублирующийся контент в процессе индексирования.
  • US8447032B1
  • 2013-05-21
  • Индексация

  • Техническое SEO

Как Google использует Min-Hashing и Shingling для выявления дубликатов и классификации взаимосвязей между документами в большом корпусе
Google применяет техники Shingling и Min-Hashing для эффективного сравнения миллионов документов (например, книг или веб-страниц). Система кластеризует похожие документы, а затем детально анализирует сходство на уровне фрагментов, чтобы классифицировать их взаимосвязь: являются ли они идентичными, переформатированными версиями или содержат перекрывающийся текст.
  • US8527516B1
  • 2013-09-03
  • Индексация

Как Google использует фингерпринтинг и распределенные вычисления для эффективного поиска дубликатов видео и аудио в огромных масштабах
Патент Google описывает инфраструктурный механизм для эффективного поиска дубликатов или похожих аудио- и видеофайлов в огромных базах данных. Система использует технику Locality Sensitive Hashing (LSH) и распределенную сортировку (например, MapReduce) для быстрого сопоставления «пробных» видео с «эталонными», что позволяет находить совпадения без медленного попарного сравнения всех файлов.
  • US8625033B1
  • 2014-01-07
  • Мультимедиа

  • Индексация

Как Google использует структурные разрывы (смены сцен и тишину) для идентификации дубликатов видео и организации видео-поиска
Google использует систему фингерпринтинга видео, которая анализирует не пиксели, а временные метки структурных разрывов — смены сцен (shot boundaries) и моменты тишины (silent points). Это позволяет идентифицировать дубликаты или похожий контент даже при различиях в кодировании, разрешении или частоте кадров, что используется для удаления нарушений авторских прав и организации результатов видео-поиска.
  • US8611422B1
  • 2013-12-17
  • Мультимедиа

  • Индексация

Как Google использует иерархическое хеширование для создания компактных отпечатков всего видео и выявления дубликатов
Google использует многоуровневый процесс для создания компактного цифрового отпечатка (fingerprint), представляющего всё содержимое видеофайла. Система анализирует видео по сегментам (subfingerprints), агрегирует частоту визуальных признаков в гистограммы и применяет взвешенное хеширование (Weighted Min-Hash). Это позволяет эффективно обнаруживать почти идентичные видео (near-duplicates) в огромных базах данных, независимо от различий в кодировании или длительности.
  • US8229219B1
  • 2012-07-24
  • Мультимедиа

Популярные патенты

Как Google обучается на поведении пользователя для персонализации весов источников в поисковой выдаче
Google использует сигналы интереса пользователя (клики, время просмотра) для динамической корректировки весов различных источников данных (например, ключевых слов, тем, типов контента). Система определяет, какие источники наиболее полезны для конкретного пользователя, и повышает их значимость при ранжировании последующих результатов поиска, тем самым персонализируя выдачу.
  • US8631001B2
  • 2014-01-14
  • Персонализация

  • Поведенческие сигналы

  • SERP

Как Google генерирует "Свежие связанные запросы" на основе анализа трендов и новостного контента
Google анализирует недавние поисковые логи, чтобы выявить запросы, демонстрирующие резкий рост популярности или отклонение от ожидаемой частоты. Эти "свежие" запросы проходят обязательную валидацию: они должны возвращать достаточное количество новостных результатов и иметь хорошие показатели вовлеченности (CTR). Это позволяет Google динамически обновлять блок "Связанные поиски", отражая актуальные события и тренды.
  • US8412699B1
  • 2013-04-02
  • Свежесть контента

  • Поведенческие сигналы

  • SERP

Как Google снижает ценность кликов по результатам, полученным из слишком общих запросов
Google использует механизм для корректировки показателей популярности (например, кликов) документа. Если документ получил клик в ответ на очень общий (широкий) запрос, ценность этого клика снижается. Это предотвращает искусственное завышение популярности документов, которые часто показываются по высокочастотным общим запросам, и повышает значимость кликов, полученных по более специфическим запросам.
  • US7925657B1
  • 2011-04-12
  • Поведенческие сигналы

Как Google масштабирует расчет кратчайших путей в графе ссылок от авторитетных сайтов («Seed Nodes»)
Патент описывает инфраструктуру Google для распределенного вычисления кратчайших путей в огромных графах, таких как веб-граф. Система позволяет эффективно и отказоустойчиво рассчитывать расстояние от любого узла до ближайших авторитетных «Seed Nodes». Это foundational технология, которая делает возможным применение алгоритмов ранжирования, основанных на анализе ссылочного графа и распространении авторитетности (например, типа TrustRank) в масштабах всего интернета.
  • US8825646B1
  • 2014-09-02
  • Ссылки

Как Google использует контекст внешних страниц для понимания и идентификации видео и аудио контента
Google анализирует внешние веб-страницы, которые ссылаются на медиафайлы или встраивают их (например, видео YouTube). Система извлекает метаданные из контекста этих страниц — заголовков, окружающего текста, URL. Надежность данных проверяется частотой их повторения на разных сайтах. Эта информация используется для улучшения понимания содержания медиафайла и повышения эффективности систем идентификации контента (Content ID).
  • US10318543B1
  • 2019-06-11
  • Ссылки

  • Индексация

  • Мультимедиа

Как Google использует данные веб-поиска и клики пользователей для классификации бизнесов и построения иерархии категорий
Google анализирует логи веб-поиска (введенные ключевые слова и последующие клики по результатам), чтобы понять, как пользователи интуитивно классифицируют бизнесы. Эти данные используются для автоматического построения динамической иерархической структуры категорий. Эта структура затем применяется для улучшения точности поиска, в частности, для оптимизации моделей распознавания речи в голосовых системах.
  • US7840407B2
  • 2010-11-23
  • Поведенческие сигналы

  • Семантика и интент

  • Структура сайта

Как Google использует историю поиска и браузинга для персонализации выдачи и определения предпочтений пользователя
Google записывает и анализирует историю действий пользователя: запросы, клики по результатам и рекламе, посещенные страницы. Система группирует связанные действия в сессии, определяет "Предпочитаемые локации" на основе частоты и времени визитов (stay-time), и использует эту историю для изменения порядка ранжирования, повышая позиции ранее посещенных сайтов в персональной выдаче.
  • US20060224583A1
  • 2006-10-05
  • Персонализация

  • Поведенческие сигналы

Как Google предсказывает следующий запрос пользователя на основе контента текущей страницы и исторических данных
Google использует машинное обучение для анализа логов поведения пользователей, чтобы понять, что они ищут после посещения определенного контента. Система создает совместное векторное пространство (joint embedding) для документов и запросов, где близость отражает семантическую связь и вероятность совместной встречаемости. Это позволяет предлагать релевантные последующие запросы (query suggestions) в реальном времени, даже если ключевые слова для этих запросов на странице отсутствуют.
  • US9594851B1
  • 2017-03-14
  • Семантика и интент

  • Поведенческие сигналы

  • Персонализация

Как Google использует нормализованные сигналы удовлетворенности пользователей для переранжирования выдачи и управления краулингом/индексацией
Google анализирует вовлеченность пользователей (полезность), сравнивая фактическую удовлетворенность (Good Utilization Events) с ожидаемой вовлеченностью для данной позиции ранжирования. На основе этого рассчитывается Correction Factor для повышения документов, превосходящих ожидания, и понижения тех, которые им не соответствуют. Эта система также влияет на приоритеты сканирования и решения об индексации.
  • US9223897B1
  • 2015-12-29
  • Поведенческие сигналы

  • Индексация

  • Техническое SEO

Как Google использует историю навигации и клики по рекламе для генерации ключевых слов, гео-таргетинга и выявления MFA-сайтов
Патент Google, описывающий три механизма, основанных на анализе поведения пользователей (selection data). Система использует путь навигации пользователя для генерации новых ключевых слов для рекламы, улучшает гео-таргетинг объявлений на основе предпочтений пользователей, а также выявляет низкокачественные сайты (MFA/манипулятивные) по аномально высокому CTR рекламных блоков.
  • US8005716B1
  • 2011-08-23
  • Поведенческие сигналы

  • Семантика и интент

  • Антиспам

seohardcore