SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google использует кластеры совместной встречаемости терминов и статистику просмотров страниц для иерархической классификации сайтов

CATEGORIZING OBJECTS, SUCH AS DOCUMENTS AND/OR CLUSTERS, WITH RESPECT TO A TAXONOMY AND DATA STRUCTURES DERIVED FROM SUCH CATEGORIZATION (Категоризация объектов, таких как документы и/или кластеры, относительно таксономии и структур данных, полученных в результате такой категоризации)
  • US8229957B2
  • Google LLC
  • 2005-04-22
  • 2012-07-24
  • Семантика и интент
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Google использует автоматизированную систему для классификации веб-сайтов в иерархическую таксономию (тематические вертикали). Система определяет кластеры совместно встречающихся терминов на сайте и агрегирует их значимость, взвешивая её по количеству просмотров страниц (Pageviews). Затем она выбирает наиболее специфичную категорию в иерархии, чья совокупная оценка (включая подкатегории) превышает порог достоверности. Эта классификация используется для определения релевантной рекламы.

Описание

Какую проблему решает

Патент решает задачу автоматической, масштабируемой и точной классификации динамически меняющихся объектов, в частности веб-сайтов, в рамках предопределенной иерархической таксономии (тематических вертикалей). Сложность заключается в необходимости агрегировать тематические сигналы с отдельных страниц для определения общей тематики всего сайта и выборе оптимального уровня специфичности в иерархии. Заявленная цель (Claims) — использование этой классификации для определения релевантной рекламы.

Что запатентовано

Запатентован метод автоматической категоризации веб-сайта. Суть изобретения заключается в использовании scored clusters (кластеров совместной встречаемости терминов) для связи контента сайта с иерархическими категориями. Ключевыми механизмами являются: (1) агрегация оценок кластеров на уровне сайта, взвешенная по просмотрам страниц (Pageviews), и (2) иерархический метод оценки категорий (S&SCCS), который суммирует значимость категории и всех её подкатегорий для выбора наиболее специфичной и достоверной классификации.

Как это работает

Система работает в несколько этапов:

  • Идентификация и оценка кластеров: Для каждой страницы сайта определяются кластеры терминов (например, PHIL) и их Activation Score (концептуальная значимость).
  • Агрегация на уровне сайта: Оценки кластеров агрегируются по всему сайту. При этом вес кластера увеличивается, если он присутствует на страницах с большим количеством просмотров (Pageviews).
  • Идентификация категорий: Итоговый набор кластеров сайта используется для определения релевантных категорий в таксономии (иногда через промежуточные Concepts).
  • Иерархический выбор: Система вычисляет S&SCCS (Self&Subsumed Category Cluster Score) для категорий на разных уровнях иерархии. Выбирается самая глубокая (специфичная) категория, чей S&SCCS превышает заданный порог достоверности.

Актуальность для SEO

Высокая. Хотя конкретные технологии, упомянутые в патенте (PHIL, Circadia), вероятно, эволюционировали в более современные ML-модели, фундаментальные принципы остаются крайне актуальными. Использование кластеров на основе поведения пользователей, агрегация сигналов на уровне сайта (особенно взвешивание по трафику) и иерархическая классификация с порогами достоверности — это ключевые концепции для понимания того, как Google определяет тематический авторитет (Topical Authority) сайтов сегодня.

Важность для SEO

Патент имеет высокое значение (85/100) для формирования SEO-стратегии, особенно для крупных сайтов. Он раскрывает конкретные механизмы определения основной тематики сайта и подчеркивает, что не все страницы одинаково важны для этой классификации. Понимание того, что трафик (Pageviews) напрямую влияет на вес страницы в тематической классификации сайта (Claim 2), критически важно для управления структурой сайта и распределением внутреннего трафика.

Детальный разбор

Термины и определения

Activation Score (Оценка активации)
Показатель того, насколько концептуально значим данный кластер для анализируемого документа (например, веб-страницы). Высокие значения указывают на высокую значимость.
Cluster (Кластер)
Группа терминов, которые часто встречаются вместе (например, в веб-страницах или поисковых сессиях). В патенте упоминаются PHIL clusters.
Concept (Концепция)
Абстрактная единица смысла, не зависящая от языка. Например, слова STOP и HALT относятся к одной концепции.
Circadia
Упомянутый в патенте пример движка семантического распознавания. Используется для преобразования кластеров в концепции и концепций в категории.
ICCS (Intra-Category Cluster Score)
Оценка, присвоенная категории на основе кластеров, напрямую связанных с ней.
Pageviews (Просмотры страниц)
Количество просмотров отдельных страниц сайта. Используется как весовой коэффициент при агрегации оценок кластеров на уровне сайта.
PHIL (Probabilistic Hierarchical Inferential Learner)
Упомянутая в патенте система для генерации кластеров совместной встречаемости терминов.
S&SCCS (Self&Subsumed Category Cluster Score)
Совокупная оценка категории. Рассчитывается как сумма ICCS самой категории и ICCS всех ее дочерних (поглощенных, subsumed) категорий в иерархии.
Taxonomy / Verticals (Таксономия / Вертикали)
Структурированный, иерархический набор категорий (например, отраслей, продуктов, тем).

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает метод категоризации веб-сайта и его использование для подбора рекламы.

  1. Система получает информацию о веб-сайте.
  2. Определяется набор взвешенных кластеров (scored clusters), где оценка показывает концептуальную значимость кластера для сайта.
  3. Используя эти кластеры, система определяет категорию в иерархической таксономии. Этот шаг включает:
    1. Поиск категорий по кластерам.
    2. Вычисление оценки для категорий (S&SCCS), основанной на сумме (1) внутрикатегориальной оценки кластера (ICCS) самой категории и (2) ICCS категорий-потомков в иерархии.
  4. Сайт ассоциируется с категорией, и ассоциация сохраняется.
  5. Система определяет релевантное рекламное объявление для сайта, используя эту сохраненную ассоциацию.

Ядром изобретения является специфический метод иерархической оценки (S&SCCS) для выбора категории и применение этой категоризации для рекламы.

Claim 2 (Зависимый от 1): Уточняет расчет оценок кластеров для сайта.

Определение набора взвешенных кластеров для сайта использует количество просмотров страниц (pageviews) и оценки активации (activation scores) на отдельных веб-страницах сайта. Это подтверждает, что трафик влияет на вес страницы в классификации сайта.

Claim 4 (Зависимый от 1): Уточняет выбор итоговой категории.

Определение категории включает выбор категории самого глубокого иерархического уровня, чья вычисленная оценка (S&SCCS) превышает предопределенный порог. Система предпочитает специфичность, но требует уверенности.

Где и как применяется

Изобретение применяется преимущественно на этапе анализа контента для его классификации.

CRAWLING – Сканирование и Сбор данных
Система должна собрать данные о просмотрах страниц (Pageviews), например, из логов рекламных систем (упоминается AdSense), для последующего использования при взвешивании значимости страниц.

INDEXING – Индексирование и извлечение признаков
Основное применение патента.

  1. Извлечение признаков: Контент страниц анализируется для определения Clusters и их Activation Scores.
  2. Агрегация и Взвешивание: Оценки кластеров агрегируются с уровня страниц на уровень сайта. Согласно Claim 2, этот процесс учитывает Pageviews и Activation Scores.
  3. Категоризация: Происходит выбор наилучшей категории в таксономии с использованием механизма S&SCCS и порога.
  4. Сохранение: Ассоциация между сайтом и категорией сохраняется в индексе (Document-to-Category Information).

RANKING / AD SERVING
Согласно Claim 1, результаты категоризации используются для подбора релевантной рекламы. Такая тематическая классификация также является важным сигналом, который может использоваться в органическом ранжировании для оценки авторитетности сайта (Topical Authority) в определенной вертикали.

Входные данные:

  • Контент веб-сайта.
  • Данные о просмотрах страниц (Pageviews) и Activation Scores (например, из логов).
  • Индексы соответствий (Term-Cluster, Cluster-to-Category).
  • Иерархическая таксономия.

Выходные данные:

  • Ассоциация веб-сайта с категориями таксономии (Primary и Secondary Categories).

На что влияет

  • Структура сайта и трафик: Алгоритм напрямую зависит от распределения трафика. Страницы с высоким показателем Pageviews оказывают большее влияние на итоговую тематическую классификацию сайта, чем страницы с низким трафиком.
  • Конкретные ниши: Влияет на все тематические вертикали. Система определяет доминирующую тематику и уровень специализации сайта, что критично для E-commerce и контентных проектов.

Когда применяется

  • Условия применения: Алгоритм применяется при индексации или анализе логов для определения или обновления тематической классификации сайта.
  • Пороговые значения:
    1. Порог Activation Score для учета кластера на странице (в описании упоминается пример 1.0).
    2. Minimum Conceptual Significance Threshold: Порог достоверности для S&SCCS (в описании упоминается пример 0.24 для нормализованных оценок). Категория выбирается, только если её S&SCCS превышает этот порог.

Пошаговый алгоритм

Процесс Категоризации Веб-сайта

  1. Сбор данных и предварительная обработка: Для каждой страницы сайта собираются контент, количество просмотров (Pageviews), идентифицируются кластеры (Clusters) и их Activation Scores. Кластеры с оценкой ниже порога игнорируются.
  2. Агрегация кластеров на уровне сайта:
    • Для каждого кластера на каждой странице вычисляется оценка: Activation Score × Pageviews.
    • Эти оценки суммируются для каждого кластера по всему сайту.
  3. Нормализация и фильтрация:
    • Общие оценки кластеров для сайта нормализуются (например, делятся на общую сумму всех оценок, чтобы сумма равнялась 1).
    • Выбирается Топ-N кластеров (например, Топ-25) или кластеры, составляющие Топ-Y% оценки (например, 70%).
  4. Определение Категорий-Кандидатов: Для каждого из отобранных кластеров определяются ассоциированные с ними категории в таксономии (используя предрассчитанный индекс Cluster-to-Category).
  5. Расчет иерархических оценок (ICCS и S&SCCS):
    • ICCS (Intra-Category Cluster Score) рассчитывается для каждой категории путем суммирования оценок связанных с ней кластеров.
    • S&SCCS (Self&Subsumed Category Cluster Score) рассчитывается для каждого узла иерархии путем суммирования собственного ICCS и ICCS всех дочерних узлов.
  6. Выбор Лучшей Категории (Primary Category):
    • Устанавливается порог достоверности (например, 0.24).
    • Система анализирует иерархию и выбирает самую глубокую (наиболее специфичную) категорию, чей S&SCCS превышает порог.
    • Если порог не достигнут ни одной категорией, присваивается "NONE".
  7. Выбор Вторичной Категории (Secondary Category): Процесс повторяется для поиска следующей лучшей категории, исключая уже выбранную Primary Category.

Какие данные и как использует

Данные на входе

  • Контентные факторы: Текст веб-страниц. Используется для идентификации терминов и активации кластеров совместной встречаемости.
  • Поведенческие факторы (Внешние): Данные о совместной встречаемости терминов в поисковых сессиях пользователей (используются для предварительного построения кластеров, например, PHIL).
  • Поведенческие факторы (Внутренние/Трафик): Количество просмотров страниц (Pageviews). Используются как веса для определения значимости страниц и их кластеров при агрегации на уровне сайта (Claim 2).
  • Сигналы релевантности (Системные): Activation Score. Оценка концептуальной значимости кластера для страницы.

Какие метрики используются и как они считаются

  • Cluster Score (Оценка кластера для сайта): Агрегированная оценка значимости кластера для всего сайта, взвешенная по трафику. В патенте приведен пример расчета:

    SCORE=∑(ActivationScore∗Pageviews)TotalSumOfProductsSCORE = \frac{\sum (Activation Score * Pageviews)}{Total Sum Of Products}SCORE=TotalSumOfProducts∑(ActivationScore∗Pageviews)​ (где Total Sum Of Products — это сумма всех таких произведений для сайта).

  • ICCS (Intra-Category Cluster Score): Сумма нормализованных Cluster Scores для всех кластеров сайта, которые были ассоциированы с данной категорией.
  • S&SCCS (Self&Subsumed Category Cluster Score): Ключевая метрика для иерархического выбора. S&SCCS(Cat)=ICCS(Cat)+∑ICCS(DescendantCats)S\&SCCS(Cat) = ICCS(Cat) + \sum ICCS(Descendant Cats)S&SCCS(Cat)=ICCS(Cat)+∑ICCS(DescendantCats).
  • Minimum Conceptual Significance Threshold: Пороговое значение (например, 0.24), которое должна превысить S&SCCS, чтобы категория была выбрана.

Выводы

  1. Многоступенчатая семантическая классификация: Патент описывает сложный конвейер (Термины -> Кластеры -> [Концепции] -> Категории), подтверждая, что Google анализирует контент далеко за пределами простого сопоставления ключевых слов.
  2. Классификация на уровне сайта с учетом трафика: Ключевой вывод (Claim 2) — тематика сайта определяется путем агрегации сигналов со всех страниц, причем вес страницы в этой агрегации зависит от её трафика (Pageviews). Страницы с высоким трафиком сильнее влияют на то, как Google классифицирует весь домен.
  3. Баланс специфичности и уверенности (S&SCCS): Система стремится найти наиболее специфичную (глубокую) категорию, но требует высокой уверенности для этого (Claim 4). Механизм S&SCCS и порог достоверности предотвращают ошибочную классификацию, если тематические сигналы разрознены или слабы.
  4. Основа Topical Authority: Эта система категоризации является фундаментом для оценки Тематического Авторитета. Чтобы сайт был признан авторитетным, он должен быть корректно и уверенно классифицирован в соответствующей вертикали, что требует широкого и глубокого покрытия темы (для максимизации S&SCCS).
  5. Использование данных из рекламных сетей: Патент явно указывает на использование данных из логов рекламных систем (AdSense) и нацеленность изобретения на подбор релевантной рекламы (Claim 1), подтверждая тесную связь между рекламными технологиями и общим пониманием контента Google.

Практика

Best practices (это мы делаем)

  • Обеспечение тематической консистентности на высокотрафиковых страницах: Поскольку Pageviews используются как весовой коэффициент, критически важно, чтобы страницы, получающие основной трафик (главная, популярные статьи), четко соответствовали целевой тематической категории сайта.
  • Управление внутренним трафиком: Используйте структуру сайта и внутреннюю перелинковку для направления трафика на страницы, которые наиболее важны для вашей бизнес-вертикали. Если вы хотите классифицироваться в определенной нише, убедитесь, что релевантные страницы получают достаточно просмотров.
  • Глубокое и структурированное покрытие темы (Topical Authority): Создавайте контент, который покрывает как общие аспекты темы, так и её подтемы (модель Pillar-Cluster). Механизм S&SCCS вознаграждает сайты, которые сильны как в основной категории, так и в ее дочерних категориях, что необходимо для достижения специфичной классификации.
  • Использование терминологии из кластеров совместной встречаемости: Анализируйте связанные поисковые запросы и контент лидеров ниши, чтобы понять, какие термины часто встречаются вместе. Естественное использование этих связанных терминов поможет системе идентифицировать релевантные Clusters и повысить их Activation Scores.

Worst practices (это делать не надо)

  • Размытие тематики (Thematic Dilution), особенно на трафиковых страницах: Создание большого объема нетематического контента, который собирает значительный трафик. Например, если сайт о финансах ведет популярный блог о путешествиях, который генерирует 80% трафика, сайт рискует быть классифицированным как туристический из-за веса Pageviews.
  • Игнорирование низкотрафиковых, но тематически важных страниц: Если ключевые коммерческие или экспертные страницы не получают трафика, их вклад в общую классификацию сайта будет минимальным, даже если они идеально оптимизированы.
  • Поверхностное покрытие множества тем: Попытка охватить слишком много разных тем без глубины приведет к размыванию оценок S&SCCS. Система не сможет преодолеть порог достоверности для специфичных категорий.

Стратегическое значение

Патент подтверждает стратегическую важность построения Topical Authority и демонстрирует, что классификация сайта — это не среднее арифметическое его страниц, а взвешенное по трафику значение. Это подчеркивает синергию между контент-маркетингом, SEO и UX: необходимо не только создавать релевантный контент, но и обеспечивать его потребление пользователями. Долгосрочная стратегия должна фокусироваться на создании четкой иерархии контента и управлении потоками пользователей для поддержки целевой категоризации.

Практические примеры

Сценарий 1: Влияние популярного блога на классификацию E-commerce сайта

  1. Исходная ситуация: Сайт продает органическую косметику (Целевая категория: /Shopping/Beauty/Cosmetics). У него есть блог о здоровом образе жизни.
  2. Проблема: Статья в блоге «10 лучших диет для детокса» становится вирусной и генерирует 70% трафика сайта. Сайт начинает классифицироваться как /Health/Nutrition & Special Diets.
  3. Анализ (на основе патента): Кластеры, связанные с диетами, получили высокие Activation Scores на этой статье. Из-за огромного количества Pageviews (Claim 2), эти кластеры получили доминирующий вес при агрегации на уровне сайта, перевесив кластеры, связанные с косметикой.
  4. Решение: Необходимо сместить баланс. (а) Активно направлять трафик с этой популярной статьи на продуктовые страницы (увеличивая их Pageviews). (б) Скорректировать статью, усилив связь между диетами и здоровьем кожи/использованием косметики, чтобы активировать нужные кластеры. (в) Создать больше высокотрафикового контента, напрямую связанного с косметикой.

Сценарий 2: Анализ глубины классификации (на основе FIG. 24 патента)

Сайт о гаджетах. Порог t=0.24.

  1. Уровень 4 (Специфичные продукты): "MP3 Players" (ICCS=0.14), "Cameras" (ICCS=0.16). Ни одна не превышает 0.24.
  2. Уровень 3 (Типы продуктов): "Cameras & Camcorders" (S&SCCS=0.22). Ниже порога 0.24.
  3. Уровень 2 (Широкие категории): "Consumer Electronics" (S&SCCS=0.58). Превышает порог 0.24.
  4. Выбор: Система выбирает самую глубокую категорию, превысившую порог: "Consumer Electronics". Сайт классифицирован широко, так как не имеет достаточной концентрации в узких нишах.

Вопросы и ответы

В патенте говорится, что Pageviews (просмотры страниц) влияют на классификацию сайта. Как именно это работает?

Pageviews используются как весовой коэффициент при агрегации значимости кластеров на уровне всего сайта (Claim 2). Кластеры, присутствующие на страницах с большим количеством просмотров, вносят больший вклад в итоговую тематическую оценку сайта. Это означает, что контент на самых популярных страницах вашего сайта оказывает наибольшее влияние на то, как Google классифицирует весь домен.

Что такое S&SCCS и почему это ключевая метрика в патенте?

S&SCCS (Self&Subsumed Category Cluster Score) — это совокупная оценка, которая суммирует значимость категории и всех её дочерних подкатегорий для сайта. Это ключевая метрика, потому что система использует её для выбора оптимального уровня классификации: выбирается самая глубокая (специфичная) категория, чей S&SCCS превышает порог достоверности (Claim 4). Это требует от сайта покрытия темы как вширь, так и вглубь.

Как этот патент связан с Topical Authority (Тематическим Авторитетом)?

Патент описывает технический фундамент для определения Topical Authority. Чтобы сайт считался авторитетным, он должен быть корректно классифицирован в соответствующей вертикали. Механизмы агрегации кластеров (Clusters) и оценки S&SCCS напрямую определяют, насколько сфокусированным и значимым система считает сайт в определенной тематике.

Что такое "Кластеры" (Clusters) и как их оптимизировать?

Кластеры (например, PHIL clusters) — это группы терминов, которые статистически часто встречаются вместе (например, в поисковых сессиях). Для оптимизации нужно анализировать связанные запросы и контент конкурентов, чтобы понять, какие термины формируют кластеры в вашей нише. Естественное использование этих связанных терминов в контенте поможет активировать нужные кластеры и повысить их Activation Score.

Что произойдет, если сайт охватывает много разных тем?

Возникает риск тематического размывания (Thematic Dilution). Оценки кластеров будут распределены по множеству разных категорий. Если ни одна категория не наберет достаточного S&SCCS для преодоления порога значимости, сайт может быть классифицирован слишком общо или вообще не классифицирован ("NONE").

Как бороться с ситуацией, когда нерелевантный, но популярный раздел «перетягивает» на себя тематику всего сайта?

Это ключевой риск, вытекающий из взвешивания по Pageviews. Необходимо пересмотреть стратегию распределения трафика: активно направлять пользователей с популярного раздела на целевые тематические страницы, увеличивая их Pageviews. Также стоит проанализировать контент популярного раздела и попытаться связать его с основной тематикой сайта, чтобы активировать более релевантные кластеры.

Применяется ли этот патент только для AdSense или для органического поиска тоже?

Claims патента прямо указывают на использование категоризации для определения релевантных рекламных объявлений (Claim 1). Однако система, которая точно классифицирует тематику сайта, крайне полезна и для органического поиска, особенно для оценки E-E-A-T и авторитетности сайта в конкретной вертикали. Логично предположить, что результаты этой классификации используются как важный сигнал в ранжировании.

Что означает порог концептуальной значимости (например, 0.24)?

Это порог достоверности для S&SCCS (при условии нормализации оценок до 1). Если лучшая категория имеет оценку ниже этого порога, система считает, что недостаточно уверена в классификации, так как сигналы слишком слабые или разрозненные. Это подчеркивает необходимость создания достаточного объема сфокусированного контента.

Что такое PHIL и Circadia, упомянутые в патенте?

Это примеры конкретных систем Google того времени (2005 год). PHIL использовался для генерации кластеров на основе совместной встречаемости терминов. Circadia — это семантический движок для преобразования текста/кластеров в абстрактные концепции (Concepts) и последующей категоризации. Хотя сами системы, вероятно, устарели, выполняемые ими задачи остаются центральными для Google.

Мой сайт посвящен узкой нише. Как убедиться, что Google не отнесет его к слишком широкой категории?

Необходимо создать достаточное количество глубокого контента, который четко сигнализирует о вашей специализации, используя специфическую терминологию. Это поможет усилить сигнал (S&SCCS) именно на глубоком уровне таксономии и преодолеть порог значимости. Если сигнал для узкой ниши будет слишком слабым, система "откатится" к более широкой категории.

Похожие патенты

Как Google агрегирует новости, блоги и форумы в «Кластеры историй» и ранжирует комментарии на основе аккредитации и экспертности авторов
Патент Google, описывающий систему агрегации новостного контента из разных жанров (СМИ, блоги, форумы) в единые «Кластеры историй». Система ранжирует эти кластеры, учитывая жанр источника, и применяет сложный алгоритм для ранжирования комментариев, отдавая приоритет «аккредитованным» экспертам и лицам, непосредственно упомянутым в новостях.
  • US9760629B1
  • 2017-09-12
  • EEAT и качество

  • Свежесть контента

  • Семантика и интент

Как Google кластеризует, фильтрует и ранжирует популярные запросы для сервисов типа Google Trends
Патент описывает систему Google для определения популярных и быстрорастущих запросов (например, для Google Trends). Чтобы избежать дублирования и повысить качество, система группирует похожие запросы в кластеры, выбирает лучший репрезентативный запрос и ранжирует темы. Ранжирование учитывает общую популярность темы, качество результатов поиска (используя CTR, PageRank, длительность кликов) и популярность категории.
  • US8145623B1
  • 2012-03-27
  • Семантика и интент

  • SERP

  • Поведенческие сигналы

Как Google использует вероятностные иерархические модели для определения скрытых концепций (тем) в запросах и документах
Google использует генеративную вероятностную модель для понимания семантики текста. Система обучается на больших объемах данных (например, поисковых сессиях), выявляя скрытые "кластеры" (концепции или темы), которые объясняют совместное появление слов и фраз. Любой текст (запрос или документ) затем характеризуется вектором, показывающим степень активации этих концептуальных кластеров, что позволяет сравнивать документы по смыслу, а не только по ключевым словам.
  • US7383258B2
  • 2008-06-03
  • Семантика и интент

Как Google ранжирует сущности (например, людей с одинаковыми именами) с помощью кластеризации, контекстной авторитетности и персонализации
Google использует систему двухуровневого ранжирования для обработки неоднозначных запросов (например, имен людей). Сначала ресурсы группируются в кластеры, представляющие разные сущности. Ресурсы внутри кластера ранжируются на основе их качества и авторитетности внутри этого кластера. Затем сами кластеры ранжируются с учетом релевантности запросу и сильной персонализации (социальные связи и местоположение пользователя).
  • US8645393B1
  • 2014-02-04
  • Персонализация

  • Семантика и интент

  • SERP

Как Google создает иерархические таксономии из неструктурированных документов с помощью итеративной кластеризации
Google использует метод для организации больших объемов неструктурированных данных (например, отзывов клиентов или сообщений на форумах) в иерархическую таксономию. Система итеративно применяет стандартные алгоритмы кластеризации: сначала группирует документы, затем группирует полученные кластеры и так далее. Это позволяет выявить структуру и взаимосвязи в данных для внутреннего анализа.
  • US9110984B1
  • 2015-08-18
  • Семантика и интент

Популярные патенты

Как Google использует контекст пользователя для предоставления информации без явного запроса (Технология предиктивного поиска)
Google использует технологию предиктивного (проактивного) поиска, которая анализирует текущий контекст пользователя (местоположение, время, календарь, скорость движения, привычки) для автоматического предоставления релевантной информации. Система реагирует на «запрос без параметров» (например, открытие приложения или простое действие с устройством) и самостоятельно определяет информационные потребности пользователя.
  • US8478519B2
  • 2013-07-02
  • Персонализация

  • Семантика и интент

  • Поведенческие сигналы

Как Google использует историю поиска, поведение и многофакторные профили пользователей для персонализации поисковой выдачи
Google создает детальные профили пользователей на основе истории запросов, взаимодействия с результатами (клики, время просмотра) и анализа контента посещенных страниц. Эти профили (включающие интересы по терминам, категориям и ссылкам) используются для корректировки стандартных оценок ранжирования. Степень персонализации динамически регулируется уровнем уверенности системы в профиле (Confidence Score).
  • US9298777B2
  • 2016-03-29
  • Персонализация

  • Поведенческие сигналы

  • SERP

Как Google консолидирует сигналы ранжирования между мобильными и десктопными версиями страниц, используя десктопный авторитет для мобильного поиска
Патент Google описывает механизм для решения проблемы недостатка сигналов ранжирования в мобильном вебе. Система идентифицирует корреляцию между мобильной страницей и её десктопным аналогом. Если мобильная версия недостаточно популярна сама по себе, она наследует сигналы ранжирования (например, обратные ссылки и PageRank) от авторитетной десктопной версии, улучшая её позиции в мобильном поиске.
  • US8996514B1
  • 2015-03-31
  • Техническое SEO

  • Ссылки

Как Google использует паттерны просмотра пользователей (co-visitation) для определения связанности документов и улучшения поиска
Google использует систему для определения того, насколько тесно связаны два документа, основываясь на агрегированных данных о поведении пользователей. Система рассчитывает вероятность того, что пользователь просмотрит Документ B в течение определенного времени после того, как Документ А был показан ему в результатах поиска. Эти данные используются для персонализации выдачи, предложения рекомендаций и улучшения релевантности на основе контекста сессии пользователя.
  • US8447760B1
  • 2013-05-21
  • Поведенческие сигналы

  • Персонализация

  • Семантика и интент

Как Google (YouTube) ранжирует видео, повышая те, которые начинают сессию просмотра и приводят внешний трафик ("Lead Video")
Google использует систему ранжирования для видеоплатформ, которая идентифицирует "ведущее видео" (Lead Video), инициирующее сессию просмотра. Система применяет повышающие коэффициенты (Scaling Factors) ко времени просмотра этого видео. Видео, привлекшие пользователя на платформу из внешних источников (например, из социальных сетей или поиска Google), получают значительно больший коэффициент, чем те, что были найдены через внутренние рекомендации.
  • US10346417B2
  • 2019-07-09
  • Мультимедиа

  • Поведенческие сигналы

  • SERP

Как Google использует поведение пользователей в веб-поиске для динамической категоризации локальных бизнесов
Google динамически формирует категории для бизнесов, основываясь на том, как пользователи ищут их (используемые ключевые слова и клики) в веб-поиске и голосовом поиске. Эти данные формируют иерархическое понимание типов бизнеса. Эта структура затем используется для повышения точности распознавания названий компаний в голосовых запросах.
  • US8041568B2
  • 2011-10-18
  • Local SEO

  • Поведенческие сигналы

  • Семантика и интент

Как Google использует анкорный текст входящих ссылок для определения синонимов и псевдонимов сущностей в Knowledge Graph
Google автоматически определяет синонимы и псевдонимы для сущностей (например, людей, компаний) в своем хранилище фактов (Knowledge Graph). Система анализирует анкорный текст ссылок, ведущих на исходные документы, из которых были извлечены факты о сущности. Это позволяет системе понять, что, например, "Биг Блю" и "IBM" относятся к одной и той же компании.
  • US8738643B1
  • 2014-05-27
  • Knowledge Graph

  • Семантика и интент

  • Ссылки

Как Google выбирает модель визуальной релевантности для сложных запросов в Поиске по картинкам
Google решает проблему ранжирования изображений для сложных или редких запросов, для которых нет специализированной модели релевантности. Система тестирует существующие модели, созданные для частей запроса (подзапросов), и выбирает ту, которая лучше всего соответствует поведению пользователей (кликам) по исходному запросу. Это позволяет улучшить визуальную релевантность в Image Search.
  • US9152652B2
  • 2015-10-06
  • Поведенческие сигналы

  • Мультимедиа

  • Семантика и интент

Как Google переносит вес поведенческих сигналов (кликов) между связанными запросами для улучшения ранжирования
Google улучшает ранжирование по редким или новым запросам, для которых недостаточно собственных данных, используя поведенческие сигналы (Clickthrough Data) из связанных запросов. Если пользователи часто вводят запросы последовательно, система идентифицирует связь и переносит данные о кликах с одного запроса на другой, позволяя документам с высоким engagement ранжироваться выше по всему кластеру.
  • US7505964B2
  • 2009-03-17
  • Поведенческие сигналы

  • SERP

Как Google определяет и ранжирует вертикали поиска (Web, Images, News, Local) на основе интента запроса и профиля пользователя
Патент описывает фундаментальный механизм Универсального Поиска (Universal Search). Система генерирует результаты из разных индексов (Web, Картинки, Новости, Карты) и вычисляет «Оценку Вероятности» (Likelihood Value) для каждой категории. Эта оценка определяет, какая вертикаль наиболее релевантна интенту запроса. Для расчета используются как агрегированные данные о поведении всех пользователей по схожим запросам, так и индивидуальный профиль пользователя.
  • US7966309B2
  • 2011-06-21
  • Семантика и интент

  • Персонализация

  • SERP

seohardcore