SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google эффективно вычисляет совместную встречаемость (co-occurrence) терминов в больших наборах структурированных данных с помощью HyperLogLog

FINDING DIMENSIONAL CORRELATION USING HYPERLOGLOG (Поиск размерных корреляций с использованием HyperLogLog)
  • US11341147B1
  • Google LLC
  • 2020-12-11
  • 2022-05-24
  • Индексация
  • Семантика и интент
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Патент Google описывает инфраструктурный метод для эффективного расчета корреляции (степени пересечения) между различными поисковыми терминами в больших базах данных. Используя алгоритм HyperLogLog (HLL), система может быстро оценить, как часто два термина встречаются вместе, потребляя минимум памяти. Эта технология ориентирована на анализ структурированных данных и Business Intelligence (BI).

Описание

Какую проблему решает

Патент решает проблему вычислительной неэффективности и чрезмерного потребления памяти при определении корреляций (совместной встречаемости) между поисковыми терминами в очень больших наборах структурированных данных. Традиционные методы требуют хранения информации о том, какие именно элементы содержат какие термины, что непрактично для масштабных систем. Изобретение предлагает способ аппроксимации этих корреляций с фиксированным и малым потреблением памяти.

Что запатентовано

Запатентован метод использования вероятностного алгоритма HyperLogLog (HLL) для оценки степени пересечения (overlap) между двумя поисковыми терминами. Система хранит компактные структуры данных фиксированного размера (HLL Sketches) для каждого термина. Для расчета корреляции система объединяет (merge) эти скетчи, оценивает общее количество уникальных элементов в объединенном наборе и применяет принцип включения-исключения для вычисления количества общих элементов.

Как это работает

Система работает следующим образом:

  • Индексация: Для каждого термина в базе данных (например, Термин А и Термин Б) создается и сохраняется HLL Sketch.
  • Индивидуальная оценка: Система использует скетчи для оценки количества уникальных элементов, связанных с каждым термином (Count A, Count B).
  • Объединение (Merge): Система объединяет HLL-скетчи А и Б.
  • Объединенная оценка (Union): Оценивается количество уникальных элементов в объединенном наборе (Count Union).
  • Расчет пересечения (Intersection): Степень пересечения (корреляция) рассчитывается по формуле: Count A + Count B - Count Union.
  • Применение: Эта величина используется в Second Level Searching для определения того, насколько сильно связаны термины, и для приоритизации результатов в аналитических системах.

Актуальность для SEO

Высокая для инфраструктуры обработки данных и аналитики. Алгоритм HyperLogLog является стандартом де-факто для оценки кардинальности в больших данных. Применение этого метода для быстрого расчета корреляций является актуальной задачей в области Data Analytics и Business Intelligence (BI). Важный контекст: изобретатель Lloyd Tabb является сооснователем Looker (BI-платформа, приобретенная Google), что указывает на применение именно в этих областях.

Важность для SEO

Патент имеет низкое прямое влияние на SEO-стратегии (15/100). Он описывает внутренний инфраструктурный механизм для эффективного вычисления статистики в базах данных (Data Analytics/BI), а не алгоритм ранжирования веб-поиска. В патенте нет указаний на то, как эти вычисления используются для оценки качества контента, авторитетности сайтов или релевантности в органическом поиске Google Search.

Детальный разбор

Термины и определения

HyperLogLog (HLL)
Вероятностный алгоритм, используемый для оценки кардинальности (количества уникальных элементов) множества. Он значительно эффективнее по памяти, чем хранение всех уникальных элементов.
HLL Sketch (Скетч HyperLogLog)
Компактная структура данных фиксированного размера, генерируемая алгоритмом HLL. Она хранит аппроксимацию множества и позволяет оценить его кардинальность. Скетчи можно объединять (Merge).
Cardinality (Кардинальность)
Количество уникальных элементов в наборе данных.
Overlap (Пересечение)
Степень, в которой два набора данных содержат общие элементы. В контексте патента — как часто два термина встречаются вместе (co-occurrence).
Search Term (Поисковый термин)
Элемент данных в индексе. В контексте патента это категоризированный термин, состоящий из Search Value (значение) и Search Field (поле/категория). Например, значение "Phoenix" и поле "flight_origin".
Second Level Searching (Поиск второго уровня)
Процесс идентификации других поисковых терминов, которые сильно коррелируют с исходным поисковым термином, для улучшения или реорганизации результатов поиска (обычно в BI-инструментах).
Weighted Search Index (Взвешенный поисковый индекс)
Индекс, в котором термины ассоциированы с весом (Search Weight), который представляет собой количество уникальных элементов, рассчитанное с помощью HLL.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод определения пересечения между терминами.

  1. Система получает первый поисковый термин.
  2. Система получает доступ к первому HyperLogLog Sketch первого термина и второму HyperLogLog Sketch второго термина.
  3. Система определяет степень пересечения (degree of overlap) между первым и вторым терминами на основе этих двух скетчей.
  4. Определение степени пересечения включает объединение (merging) скетчей и определение третьего подсчета (third count) уникальных элементов на основе объединенного скетча.

Claim 4 (Зависимый от 1 и 2): Уточняет механизм определения степени пересечения (реализация принципа включения-исключения).

Степень пересечения рассчитывается как разница между (i) суммой первой и второй оценок (Count 1 + Count 2) и (ii) третьей оценкой (Count 3, полученной из объединенного скетча).

Это математически выражается как: Count(A∩B)≈Count(A)+Count(B)−Count(A∪B)Count(A \cap B) \approx Count(A) + Count(B) - Count(A \cup B)Count(A∩B)≈Count(A)+Count(B)−Count(A∪B). Ключевая особенность HLL, используемая здесь, — это возможность объединять скетчи для оценки Count(A∪B)Count(A \cup B)Count(A∪B).

Claims 5-7 (Зависимые): Описывают применение рассчитанного пересечения.

  1. Второму термину присваивается значение корреляции (correlation value) на основе степени пересечения.
  2. Процесс повторяется для множества дополнительных терминов.
  3. Результаты поиска организуются в соответствии со значениями корреляции для приоритизации терминов с более высокими значениями.

Где и как применяется

Этот патент является инфраструктурным и относится к технологиям баз данных и аналитики (Business Intelligence), а не напрямую к архитектуре веб-поиска Google Search.

INDEXING – Индексирование (Обработка данных)
На этом этапе система обрабатывает данные из различных источников (например, таблиц баз данных). Она идентифицирует поисковые термины (Search Terms) в структурированных данных и вычисляет HLL Sketch для каждого термина. Создается Weighted Search Index, хранящий термины и их скетчи.

RANKING / RERANKING (в контексте BI/Data Analytics)
При получении запроса в аналитической системе она может выполнять:

  • First Level Searching: Поиск терминов, соответствующих запросу, и их сортировка по весу (частоте).
  • Second Level Searching: Ключевое применение патента. Для заданного термина система итеративно рассчитывает корреляцию со всеми остальными терминами в индексе, используя механизм HLL-пересечений.

Важное замечание: Патент не описывает применение этого механизма в контексте ранжирования неструктурированных веб-документов (Google Search). Примеры, приведенные в патенте, относятся исключительно к анализу структурированных наборов данных (данные об авиарейсах, база данных IMDB).

Ключевые технические особенности:

  • Эффективность по времени: Обработка данных HLL (подсчет или объединение) для пары терминов выполняется за время Θ(1)\Theta(1)Θ(1) (константное время), независимо от объема данных.
  • Эффективность по памяти: Требования к хранению HLL Sketches фиксированы и не растут с увеличением объема анализируемых данных.

На что влияет

  • Типы данных: Влияет на системы анализа структурированных данных, Business Intelligence (BI) платформы и аналитические базы данных. Позволяет быстро находить взаимосвязи (co-occurrence) между различными измерениями (dimensions) в данных.
  • SEO Контекст: Патент не содержит информации о влиянии на конкретные типы контента веб-поиска (статьи, товары), специфические типы запросов, ниши (например, YMYL) или языковые/географические ограничения в контексте SEO.

Когда применяется

  • Условия применения: Алгоритм применяется при обработке запроса к базе данных или аналитической системе, которая имплементирует этот механизм.
  • Триггеры активации: Активируется для выполнения Second Level Searching — когда необходимо найти и ранжировать термины по степени их корреляции с заданным термином в аналитическом интерфейсе.

Пошаговый алгоритм

Процесс: Second Level Searching (Поиск корреляций)

  1. Получение запроса: Система получает запрос, включающий первый поисковый термин (Термин А).
  2. Выбор кандидата: Из поискового индекса выбирается кандидат — второй поисковый термин (Термин Б).
  3. Доступ к скетчам: Извлекаются HLL Sketch для Термина А и HLL Sketch для Термина Б.
  4. Расчет индивидуальных оценок: Оценивается кардинальность для каждого термина (Count A, Count B).
  5. Объединение скетчей (Merge): Скетчи А и Б объединяются. Это достигается путем сравнения соответствующих бакетов (buckets) в обоих скетчах и выбора максимального значения для каждого бакета в новом объединенном скетче.
  6. Расчет объединенной оценки: Оценивается кардинальность объединенного набора (Count Union).
  7. Расчет пересечения (Overlap): Вычисляется степень пересечения по формуле: (Count A + Count B) - Count Union.
  8. Назначение корреляции: Паре терминов (А, Б) присваивается Correlation Value на основе рассчитанного пересечения.
  9. Итерация: Система проверяет, все ли кандидаты были оценены. Если нет, возвращается к шагу 2 для следующего термина.
  10. Организация результатов: После завершения итераций система организует (сортирует) список терминов-кандидатов на основе их Correlation Values для приоритизации наиболее связанных терминов.

Какие данные и как использует

Данные на входе

Патент фокусируется исключительно на статистических данных, хранящихся в индексе, и не описывает факторы ранжирования веб-поиска.

  • Системные данные: HyperLogLog Sketches для каждого индексированного термина. Это ключевые данные, позволяющие проводить вычисления.
  • Структурные данные (в индексе): Search Value (значение термина) и Search Field (категория или поле термина), которые вместе формируют категоризированный поисковый термин в структурированной базе данных.

В патенте не упоминаются контентные, технические, ссылочные, поведенческие, временные, мультимедиа, географические или пользовательские факторы.

Какие метрики используются и как они считаются

  • Cardinality Estimation (Оценка кардинальности): Количество уникальных элементов для термина. Рассчитывается на основе его HLL Sketch.
  • Overlap (Пересечение / Intersection): Количество уникальных элементов, общих для двух терминов (А и Б). Рассчитывается с использованием принципа включения-исключения: Count(A∩B)≈Count(A)+Count(B)−Count(A∪B)Count(A \cap B) \approx Count(A) + Count(B) - Count(A \cup B)Count(A∩B)≈Count(A)+Count(B)−Count(A∪B).
  • Correlation Value (Значение корреляции): Метрика, присваиваемая паре терминов на основе их Overlap. Может быть как самим значением Overlap, так и нормализованным показателем.

Выводы

  1. Инфраструктурное решение, не алгоритм SEO: Патент описывает высокоэффективное инфраструктурное решение для Data Analytics и Business Intelligence (BI). Он не является патентом на алгоритм ранжирования Google Search.
  2. Эффективность вычислений: Ключевая инновация заключается в применении HyperLogLog для расчета корреляций (совместной встречаемости). Это позволяет анализировать огромные наборы данных с фиксированными и минимальными затратами памяти (HLL Sketches имеют фиксированный размер независимо от объема данных).
  3. Скорость обработки: Определение корреляции между двумя любыми терминами выполняется за постоянное время O(1), так как требует только обработки двух компактных скетчей. Полный анализ корреляций одного термина со всеми остальными (N) выполняется за линейное время O(N).
  4. Фокус на структурированных данных: Примеры в патенте (авиарейсы, IMDB) и контекст изобретения (Looker) указывают на применение в средах со структурированными (табличными) данными, а не в поиске по неструктурированным веб-документам.
  5. Отсутствие практической ценности для SEO: Практических выводов для SEO-специалистов, работающих над продвижением сайтов в органическом поиске Google Search, этот патент не дает. Он не описывает факторы ранжирования, методы оценки качества контента или сигналы релевантности для веб-документов.

Практика

ВАЖНО: Патент является инфраструктурным и ориентирован на анализ структурированных данных (Data Analytics/BI). Он не дает практических рекомендаций для SEO в контексте ранжирования Google Search.

Best practices (это мы делаем)

Патент не содержит информации для формирования Best Practices в SEO.

Worst practices (это делать не надо)

Патент не содержит информации для формирования Worst Practices в SEO.

Стратегическое значение

Стратегическое значение для SEO минимально. Патент демонстрирует компетенции Google в области эффективной обработки больших данных и разработки аналитических инструментов (что подтверждается связью с платформой Looker). Для Senior SEO-специалистов важно уметь отличать патенты на инфраструктуру баз данных и BI от патентов, описывающих алгоритмы веб-поиска, и не строить SEO-стратегии на основе инфраструктурных решений, не относящихся к их области.

Практические примеры

Практических примеров для SEO нет. Примеры в патенте относятся к анализу структурированных данных.

Например, при анализе базы данных авиарейсов в BI-инструменте по запросу "destination.city: SACRAMENTO" система может использовать этот механизм, чтобы мгновенно определить, что этот термин имеет 100% пересечение с термином "destination.state: CA" и высокое пересечение с термином "aircraft_models.manufacturer: BOEING". Это аналитические инсайты, а не факторы ранжирования веб-поиска.

Вопросы и ответы

Что такое HyperLogLog (HLL) и зачем он нужен?

HyperLogLog — это вероятностный алгоритм, который используется для оценки количества уникальных элементов (кардинальности) в очень больших наборах данных. Его главное преимущество в том, что он делает это с высокой точностью, используя очень мало памяти фиксированного размера. Это критически важно для систем, работающих с Big Data, где хранение всех уникальных значений невозможно из-за ограничений ресурсов.

Описывает ли этот патент, как Google ранжирует сайты в поиске?

Нет. Этот патент описывает инфраструктурный механизм для эффективного расчета статистики в базах данных и системах Business Intelligence (BI). Он не описывает алгоритмы ранжирования Google Search, факторы релевантности веб-страниц или сигналы качества сайтов (например, E-E-A-T).

Что такое "Second Level Searching", описанный в патенте?

Second Level Searching — это процесс, который для заданного поискового термина находит другие термины, которые часто встречаются вместе с ним (коррелируют). Например, если пользователь анализирует данные по "Batman", система может обнаружить, что этот термин часто встречается вместе с терминами "Bruce Wayne" и "Robin". Затем эти коррелирующие термины используются для приоритизации или организации результатов в аналитическом отчете.

Как система рассчитывает корреляцию между двумя терминами (А и Б)?

Система использует принцип включения-исключения. Она оценивает количество уникальных элементов для А (Count A) и для Б (Count B) с помощью их HLL Sketches. Затем она объединяет скетчи и оценивает количество уникальных элементов в объединенном наборе (Count Union). Корреляция (пересечение) рассчитывается как: Count A + Count B - Count Union.

Какое главное преимущество использования HLL для расчета корреляций?

Главное преимущество — эффективность по памяти и скорости. HLL Sketches имеют фиксированный размер, независимо от объема данных. Это позволяет рассчитывать корреляции между любыми двумя терминами мгновенно (за постоянное время O(1)), не обращаясь к исходным большим данным и не потребляя дополнительную память для хранения информации о совместной встречаемости.

Относится ли этот патент к обработке структурированных или неструктурированных данных?

Патент явно ориентирован на обработку структурированных данных. Примеры в патенте используют табличные данные с четкими полями (Search Fields) и значениями (Search Values), такие как данные об авиарейсах или база IMDB. Механизм не описывает анализ неструктурированного текста веб-страниц.

Поможет ли этот патент понять принципы работы BERT или других NLP-моделей?

Нет. BERT и современные NLP-модели используют нейронные сети и векторные представления (embeddings) для понимания контекста и семантической близости слов в неструктурированном тексте. Этот патент использует статистический алгоритм (HLL) для расчета приблизительной совместной встречаемости терминов в структурированных данных. Это разные подходы к разным задачам.

Изобретатель Lloyd Tabb известен работой над Looker. Влияет ли это на интерпретацию патента?

Да, это важный контекст. Lloyd Tabb — сооснователь Looker, платформы Business Intelligence (BI), приобретенной Google. Этот патент идеально соответствует задачам BI-платформы: эффективный анализ больших структурированных наборов данных и поиск корреляций между различными измерениями. Это подкрепляет вывод о том, что патент относится к инфраструктуре аналитики, а не к веб-поиску.

Можно ли использовать идеи этого патента для анализа логов сервера или данных Google Analytics?

Да, технология идеально подходит для этого. Если вы хотите эффективно рассчитать на больших объемах данных, сколько уникальных пользователей посетили Страницу А и Страницу Б, или как часто IP-адрес Х коррелирует с кодом ответа Y, механизм использования HLL для расчета пересечений будет очень эффективным аналитическим решением.

Если патент не про SEO, зачем его анализировать?

Анализ таких патентов важен для формирования полной картины технологического стека Google и понимания того, какие задачи решают различные компоненты системы. Это помогает Senior SEO-специалистам избегать ложных интерпретаций и не тратить ресурсы на "оптимизацию" под алгоритмы, которые не имеют отношения к ранжированию их контента в органическом веб-поиске.

Похожие патенты

Как Google эффективно извлекает Топ-N результатов с помощью итеративного битового поиска по ранжирующим оценкам
Патент Google, описывающий инфраструктурный механизм для повышения эффективности поиска. Система использует итеративный битовый поиск по атрибутам документов (Sort Keys), таким как качество или дата, чтобы быстро найти заданное количество результатов (Топ-N). Это позволяет избежать полного сканирования и сортировки всех релевантных документов, оптимизируя скорость извлечения данных.
  • US10235432B1
  • 2019-03-19
  • SERP

  • Свежесть контента

  • Индексация

Как Google комбинирует временные тренды и контекстуальный анализ для определения схожести поисковых запросов
Google использует систему машинного обучения для определения схожести между запросами путем объединения разнородных сигналов. Система анализирует как временные паттерны использования терминов в разных источниках (Temporal Correlation), так и контекст, в котором термины появляются в интернете (Distributional Similarity). Комбинация этих данных позволяет генерировать более точные поисковые подсказки и связанные запросы.
  • US8478699B1
  • 2013-07-02
  • Семантика и интент

Как Google использует поведенческие сигналы и совместные просмотры для генерации рекомендаций контента (например, "Похожие видео" на YouTube)
Google использует механизм коллаборативной фильтрации для определения связанности контента, анализируя логи взаимодействия пользователей. Система определяет, какой контент пользователи потребляют совместно в рамках одной сессии ("locality of time"). Учитываются только "позитивные взаимодействия" (например, длительный просмотр, высокая оценка). Это позволяет формировать рекомендации на основе реального поведения аудитории, а не только метаданных.
  • US8055655B1
  • 2011-11-08
  • Поведенческие сигналы

  • Персонализация

Как Google использует паттерны просмотра пользователей (co-visitation) для определения связанности документов и улучшения поиска
Google использует систему для определения того, насколько тесно связаны два документа, основываясь на агрегированных данных о поведении пользователей. Система рассчитывает вероятность того, что пользователь просмотрит Документ B в течение определенного времени после того, как Документ А был показан ему в результатах поиска. Эти данные используются для персонализации выдачи, предложения рекомендаций и улучшения релевантности на основе контекста сессии пользователя.
  • US8447760B1
  • 2013-05-21
  • Поведенческие сигналы

  • Персонализация

  • Семантика и интент

Как Google оптимизирует индексы медиа-контента для быстрого поиска и предотвращения перегрузки системы (Clumping)
Патент Google, описывающий инфраструктурную оптимизацию баз данных для сопоставления медиа (видео/аудио). Система использует машинное обучение на тренировочных данных для выбора оптимальных ключей поиска. Цель — предотвратить "clumping" (когда один ключ связан со слишком многими файлами), обеспечивая быстрый и эффективный поиск по отпечаткам контента.
  • US8184953B1
  • 2012-05-22
  • Индексация

  • Мультимедиа

Популярные патенты

Как Google использует контекст пользователя для предоставления информации без явного запроса (Технология предиктивного поиска)
Google использует технологию предиктивного (проактивного) поиска, которая анализирует текущий контекст пользователя (местоположение, время, календарь, скорость движения, привычки) для автоматического предоставления релевантной информации. Система реагирует на «запрос без параметров» (например, открытие приложения или простое действие с устройством) и самостоятельно определяет информационные потребности пользователя.
  • US8478519B2
  • 2013-07-02
  • Персонализация

  • Семантика и интент

  • Поведенческие сигналы

Как Google динамически перестраивает выдачу, если пользователь игнорирует результаты, связанные с определенной сущностью
Google использует механизм уточнения интента пользователя в реальном времени при обработке неоднозначных запросов. Система группирует результаты поиска по связанным сущностям. Если пользователь демонстрирует отсутствие интереса к одной из групп (например, прокручивает или смахивает результаты), система динамически модифицирует выдачу, понижая или удаляя все результаты, связанные с этой отклоненной сущностью.
  • US9348945B2
  • 2016-05-24
  • Семантика и интент

  • SERP

  • Поведенческие сигналы

Как Google позволяет вебмастерам управлять весом и интерпретацией исходящих ссылок через атрибуты тега (Основа nofollow)
Google запатентовал механизм, позволяющий вебмастерам добавлять в теги ссылок () специальные пары "параметр=значение" (например, rel=nofollow или linkweight=0.5). Эта информация используется краулером и поисковой системой для изменения способа обработки ссылки, например, для корректировки передаваемого веса (PageRank) или блокировки ее учета.
  • US7979417B1
  • 2011-07-12
  • Ссылки

  • Краулинг

  • Техническое SEO

Как Google идентифицирует и верифицирует локальные бизнесы для показа карт и адресов в органической выдаче
Google использует этот механизм для улучшения органических результатов. Система определяет, связана ли веб-страница с одним конкретным бизнесом. Затем она верифицирует ее локальную значимость, проверяя, ссылаются ли на нее другие топовые результаты по тому же запросу. Если страница верифицирована, Google дополняет стандартную «синюю ссылку» интерактивными локальными данными, такими как адреса и превью карт.
  • US9418156B2
  • 2016-08-16
  • Local SEO

  • SERP

  • Ссылки

Как Google (YouTube) ранжирует видео, повышая те, которые начинают сессию просмотра и приводят внешний трафик ("Lead Video")
Google использует систему ранжирования для видеоплатформ, которая идентифицирует "ведущее видео" (Lead Video), инициирующее сессию просмотра. Система применяет повышающие коэффициенты (Scaling Factors) ко времени просмотра этого видео. Видео, привлекшие пользователя на платформу из внешних источников (например, из социальных сетей или поиска Google), получают значительно больший коэффициент, чем те, что были найдены через внутренние рекомендации.
  • US10346417B2
  • 2019-07-09
  • Мультимедиа

  • Поведенческие сигналы

  • SERP

Как Google планировал использовать цифровые подписи для расчета репутации авторов (Agent Rank) независимо от сайта публикации
Патент Google, описывающий концепцию "Agent Rank". Система предлагает авторам (агентам) использовать цифровые подписи для подтверждения авторства контента. Это позволяет рассчитывать репутационный рейтинг агента, используя алгоритмы, подобные PageRank, на основе того, кто ссылается на их подписанный контент. Этот рейтинг затем используется для влияния на ранжирование, независимо от того, где контент опубликован.
  • US7565358B2
  • 2009-07-21
  • EEAT и качество

  • Ссылки

Как Google использует машинное обучение для прогнозирования желаемого типа контента (Web, Images, News) и формирования смешанной выдачи (Universal Search)
Google анализирует исторические журналы поиска (пользователь, запрос, клики), чтобы обучить модель машинного обучения. Эта модель предсказывает вероятность того, что пользователь хочет получить результаты из определенного репозитория (например, Картинки или Новости). Google использует эти прогнозы, чтобы решить, в каких индексах искать и как смешивать результаты на финальной странице выдачи (Universal Search).
  • US7584177B2
  • 2009-09-01
  • Семантика и интент

  • SERP

  • Персонализация

Как Google определяет и ранжирует вертикали поиска (Web, Images, News, Local) на основе интента запроса и профиля пользователя
Патент описывает фундаментальный механизм Универсального Поиска (Universal Search). Система генерирует результаты из разных индексов (Web, Картинки, Новости, Карты) и вычисляет «Оценку Вероятности» (Likelihood Value) для каждой категории. Эта оценка определяет, какая вертикаль наиболее релевантна интенту запроса. Для расчета используются как агрегированные данные о поведении всех пользователей по схожим запросам, так и индивидуальный профиль пользователя.
  • US7966309B2
  • 2011-06-21
  • Семантика и интент

  • Персонализация

  • SERP

Как Google идентифицирует экспертов на основе их активности и позволяет фильтровать выдачу по их контенту
Google использует систему для идентификации людей (членов социальной сети), тесно связанных с темой запроса, на основе их активности (посты, взаимодействия, репосты) и квалификации. Система отображает этих людей в специальных блоках (Display Areas) рядом с результатами поиска, позволяя пользователям просматривать их профили или фильтровать выдачу, чтобы увидеть только контент, созданный, одобренный или прокомментированный этими экспертами.
  • US9244985B1
  • 2016-01-26
  • EEAT и качество

  • Поведенческие сигналы

  • SERP

Как Google динамически фильтрует выдачу, уточняя интент пользователя после клика по результату
Google использует механизм для обработки неоднозначных запросов. Если выдача содержит результаты, относящиеся к разным сущностям (например, «Ягуар» как животное и как автомобиль), клик пользователя по одному из результатов сигнализирует о его интересе к конкретной сущности. При возврате на страницу выдачи система модифицирует SERP, скрывая или понижая результаты, связанные с нерелевантными сущностями, и фокусируя выдачу на выбранном интенте.
  • US9355158B2
  • 2016-05-31
  • Семантика и интент

  • SERP

  • Поведенческие сигналы

seohardcore