SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google использует исторические данные о кликах (CTR) по категориям для определения доминирующего интента неоднозначных запросов

RESOLVING AMBIGUOUS QUERIES (Разрешение неоднозначных запросов)
  • US8738612B1
  • Google LLC
  • 2011-07-27
  • 2014-05-27
  • Семантика и интент
  • Поведенческие сигналы
  • SERP
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Google анализирует, на какие категории результатов пользователи кликали чаще всего в прошлом (CTR) по неоднозначному запросу (например, "Pool"). Система определяет доминирующие интенты, выявляя резкие перепады в CTR между категориями или используя иерархию категорий, и повышает в ранжировании результаты, соответствующие наиболее популярным интерпретациям.

Описание

Какую проблему решает

Патент решает проблему обработки поисковых запросов, которые имеют несколько различных значений или интерпретаций (неоднозначные запросы). Например, запрос "Pool" может относиться к бассейну, бильярдному столу или заведению. Цель — определить наиболее вероятное намерение пользователя на основе коллективного поведения и скорректировать выдачу так, чтобы избежать показа нерелевантных результатов, соответствующих второстепенным интерпретациям.

Что запатентовано

Запатентована система для разрешения неоднозначности запросов путем анализа исторических данных о предпочтениях пользователей. Система использует метрики (преимущественно Click-Through-Rate (CTR)), связанные с парами запрос/категория. Анализируя распределение этих метрик, система определяет, является ли запрос неоднозначным, идентифицирует доминирующие категории (предпочтения) и корректирует ранжирование, повышая результаты из этих категорий.

Как это работает

Система работает в несколько этапов:

  • Сбор данных: Система отслеживает исторические данные о кликах и показах для результатов из определенных категорий по конкретным запросам, вычисляя CTR для пар запрос/категория.
  • Определение неоднозначности: При получении запроса анализируется распределение CTR по категориям. Если ни одна категория значительно не доминирует или если энтропия (entropy) распределения высока, запрос считается неоднозначным.
  • Идентификация предпочтений: Если запрос неоднозначен, система определяет предпочтительные категории одним из двух методов: (1) Проверка превышения порогового значения CTR (возможно, с подъемом по иерархии категорий); (2) Поиск "резкого падения" (sharp drop-off) в значениях CTR для выявления "несущественных" категорий.
  • Корректировка ранжирования: Результаты, относящиеся к предпочтительным категориям, повышаются (boosting) в ранжировании.

Актуальность для SEO

Высокая. Понимание интента пользователя и обработка неоднозначных запросов являются фундаментальными задачами поиска. Хотя современные NLP-модели (BERT, MUM) значительно продвинулись в семантическом анализе, исторические поведенческие данные (CTR) остаются мощным сигналом для определения доминирующей интерпретации терминов-омонимов (например, "Apple", "Java"). Описанные механизмы лежат в основе определения основного интента для широких запросов.

Важность для SEO

Патент имеет высокое значение (8/10) для SEO, особенно при работе с широкими или неоднозначными ключевыми словами. Он демонстрирует конкретный механизм, как Google определяет доминирующий интент на основе агрегированных поведенческих сигналов (CTR по категориям). Если сайт нацелен на второстепенное намерение, он может быть систематически понижен, если система классифицирует этот интент как "несущественный" (inconsequential).

Детальный разбор

Термины и определения

Ambiguous Query (Неоднозначный запрос)
Запрос, имеющий более одной интерпретации. Определяется системой, если распределение метрик по категориям имеет высокую энтропию или не имеет явного лидера.
Category Hierarchy (Иерархия категорий)
Структура организации категорий по уровням (например, Японский ресторан -> Азиатский ресторан -> Рестораны). Используется для агрегации метрик на более высоких уровнях.
Click-Through-Rate (CTR)
Основная метрика предпочтений пользователя в патенте. Рассчитывается как отношение количества кликов к общему количеству показов для определенной пары запрос/категория.
Entropy (Энтропия)
Мера неопределенности распределения метрик категорий для данного запроса. Высокая энтропия (распределение не является резко пиковым) указывает на неоднозначность запроса.
Inconsequential Category (Несущественная категория)
Категория, идентифицированная как маловероятное намерение пользователя. Определяется, если ее метрика находится после "резкого падения" (sharp drop-off) в упорядоченном списке метрик.
Metric (Метрика)
Числовое значение, указывающее на предпочтение пользователя (user preference). Примеры включают CTR, продолжительность взаимодействия или количество взаимодействий.
Query/Category Metric Store (Хранилище метрик запросов/категорий)
База данных, хранящая пары запрос/категория и связанные с ними метрики, вычисленные на основе исторических данных.
Sharp Drop-off (Резкое падение)
Значительное снижение значения метрики между двумя последовательными категориями в списке, упорядоченном по убыванию метрик. Используется для идентификации Inconsequential Categories.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод разрешения неоднозначных запросов.

  1. Система получает поисковый запрос.
  2. Идентифицируется множество категорий и соответствующих им метрик категорий. Каждая метрика указывает на предпочтение пользователя к результатам из этой категории для данного запроса.
  3. Определяется, является ли запрос неоднозначным, на основе распределения (distribution) этих метрик.
  4. Если запрос неоднозначен:
    • Идентифицируются одна или несколько предпочтительных категорий (preferred categories) на основе метрик.
    • Генерируется ранжированный набор результатов, при этом повышаются (boosting rankings) ранги результатов, соответствующих предпочтительным категориям.
  5. Набор результатов предоставляется пользователю.

Claim 2 (Зависимый от 1): Уточняет, что метрикой является CTR, рассчитанный на основе исторических данных.

Claims 3 и 4 (Зависимые от 1): Уточняют методы определения неоднозначности.

  • Claim 3: Определение неоднозначности включает проверку того, что ни одна категория не имеет метрику, которая превышает метрики всех других категорий на заранее определенную величину (отсутствие доминирования).
  • Claim 4: Определение неоднозначности включает определение того, превышает ли энтропия (entropy) распределения метрик заранее определенное значение.

Claims 5 и 6 (Зависимые от 1): Уточняют методы идентификации предпочтительных категорий.

  • Claim 5 (Пороговый метод): Идентификация категорий, чьи метрики превышают заранее определенное значение.
  • Claim 6 (Метод резкого падения): Идентификация падения (drop-off), превышающего заранее определенное значение, между двумя последовательными метриками в упорядоченном списке. Категории до падения считаются предпочтительными.

Где и как применяется

Изобретение применяется на нескольких этапах поисковой архитектуры, в основном связанных с пониманием запроса и ранжированием.

INDEXING – Индексирование и извлечение признаков
На этом этапе система должна классифицировать контент (веб-страницы, сущности) по категориям. Эта информация необходима для последующего агрегирования метрик.

QUNDERSTANDING – Понимание Запросов
Основное применение патента. Включает:

  1. Офлайн-обработку: Анализ исторических логов для вычисления и хранения метрик (CTR) для пар запрос/категория в Query/Category Metric Store.
  2. Онлайн-анализ: При получении запроса система извлекает метрики и определяет, является ли запрос неоднозначным (используя энтропию или анализ доминирования).
  3. Разрешение неоднозначности: Если запрос неоднозначен, система идентифицирует предпочтительные категории (используя пороговые значения или анализ падения).

RANKING – Ранжирование / RERANKING – Переранжирование
Результаты этапа QUNDERSTANDING используются для влияния на ранжирование. Система получает информацию о предпочтительных категориях и использует ее для повышения (boosting) результатов, связанных с этими категориями, или понижения результатов из inconsequential categories.

Входные данные:

  • Входящий поисковый запрос.
  • Исторические данные о взаимодействии пользователей (показы и клики).
  • Категоризация поисковых результатов (из индекса).
  • Query/Category Metric Store.
  • Иерархия категорий (если используется).

Выходные данные:

  • Определение статуса запроса (неоднозначный/однозначный).
  • Список предпочтительных категорий.
  • Скорректированные оценки ранжирования (с учетом бустинга по категориям).

На что влияет

  • Специфические запросы: Наибольшее влияние оказывается на широкие, короткие или полисемичные запросы (запросы-омонимы), где существует несколько возможных интерпретаций (например, "Ягуар", "Pool", "Apple").
  • Локальный поиск и карты: Патент явно упоминает применение в картографических приложениях (mapping application) для поиска точек интереса (POI), например, для разрешения неоднозначности между типами бизнеса.
  • Конкретные типы контента: Влияет на любой контент, который может быть четко классифицирован в рамках используемой системы категорий.

Когда применяется

Алгоритм активируется при обработке поискового запроса, но его корректирующее воздействие применяется только при выполнении определенных условий.

  • Триггер активации: Система должна определить, что запрос является неоднозначным (Ambiguous Query). Это происходит, если:
    • Энтропия распределения метрик по категориям превышает порог.
    • ИЛИ: Ни одна категория не доминирует над всеми остальными с достаточным отрывом (в патенте упоминаются примеры порогов в 30% или 50%).
  • Условия применения корректировки: После того как запрос признан неоднозначным, система должна успешно идентифицировать предпочтительные категории одним из двух методов (Пороговый или Резкий спад).

Пошаговый алгоритм

Патент описывает несколько взаимосвязанных процессов.

Процесс А: Сбор данных и вычисление метрик (Офлайн или в реальном времени)

  1. Получение запроса и результатов: Система предоставляет набор результатов пользователю.
  2. Отслеживание показов: Для каждого показанного результата инкрементируется счетчик просмотров (views counter) для всех связанных с ним категорий.
  3. Отслеживание кликов: Если пользователь кликает на результат, инкрементируется счетчик кликов (clicks counter) для всех связанных с ним категорий.
  4. Вычисление метрик: Вычисляются CTR для каждой пары запрос/категория.
  5. Сохранение: Данные сохраняются в Query/Category Metric Store.

Процесс Б: Обработка запроса (Основной поток)

  1. Получение запроса и метрик: Система получает запрос и извлекает связанные метрики из хранилища.
  2. Определение неоднозначности: Анализируется распределение метрик (энтропия или доминирование).
    • Если НЕ неоднозначен: Ранжировать стандартным способом.
    • Если неоднозначен: Перейти к Процессу В или Г для идентификации предпочтений.
  3. Корректировка ранжирования: Если предпочтения определены, ранжировать результаты, используя идентифицированные предпочтения (бустинг предпочтительных категорий).
  4. Представление результатов: Показать ранжированные результаты.

Процесс В: Идентификация предпочтений методом порогов и иерархий

  1. Проверка порогов: Определить, превышают ли метрики категорий на текущем иерархическом уровне заранее определенное значение (например, 40%).
  2. Принятие решения:
    • Если ДА: Эти категории идентифицируются как предпочтительные. Завершить.
    • Если НЕТ: Перейти к шагу 3.
  3. Проверка уровня иерархии: Достигнут ли самый высокий уровень?
    • Если ДА: Завершить (предпочтения не определены).
    • Если НЕТ: Инкрементировать уровень иерархии.
  4. Агрегация метрик: Определить метрики для категорий более высокого уровня (например, путем суммирования метрик дочерних категорий). Вернуться к шагу 1.

Процесс Г: Идентификация предпочтений методом резкого падения

  1. Сортировка метрик: Упорядочить метрики по убыванию значения.
  2. Анализ падения: Сравнить значения последовательных метрик. Обнаружено ли резкое падение (sharp drop-off), превышающее порог (например, > 40%)?
  3. Принятие решения:
    • Если ДА: Категории до падения считаются предпочтительными. Категории после падения идентифицируются как несущественные (inconsequential). Завершить.
    • Если НЕТ: Завершить (предпочтения не определены этим методом).

Какие данные и как использует

Данные на входе

  • Поведенческие факторы: Это ключевые данные для патента. Используются исторические данные о взаимодействии пользователей с результатами поиска:
    • Показы (Views/Impressions): Количество раз, когда результат из определенной категории был показан в ответ на запрос.
    • Клики (Clicks): Количество кликов на результат из определенной категории в ответ на запрос.
    • Альтернативные метрики: Патент упоминает возможность использования продолжительности взаимодействия (duration of interaction) или количества взаимодействий.
  • Структурные/Контентные факторы (Косвенно): Данные, используемые для категоризации контента. Патент упоминает, что категоризация может быть получена из внешних источников (например, Yellow Pages для бизнесов) или путем анализа ключевых слов на веб-страницах.

Какие метрики используются и как они считаются

  • Click-Through-Rate (CTR): Основная метрика предпочтения пользователя.
    Формула:

Выводы

  1. Поведение пользователей определяет доминирующий интент: Патент описывает механизм, где агрегированные исторические данные о кликах (CTR) используются как источник истины для определения того, какие интерпретации (категории) неоднозначного запроса являются наиболее популярными.
  2. Неоднозначность определяется статистически: Система активно определяет неоднозначность, используя статистические методы (энтропия, анализ доминирования). Только если запрос неоднозначен, активируются механизмы корректировки.
  3. Два конкретных метода разрешения неоднозначности: Система может использовать (1) Пороговые значения CTR (абсолютный подход) или (2) Анализ резкого падения CTR (относительный подход) для отделения основных интентов от второстепенных.
  4. Использование иерархий для обобщения интента: Если предпочтения не ясны на детальном уровне, система может подняться по иерархии и определить более широкую предпочтительную категорию (например, обобщить до "Азиатский ресторан").
  5. Влияние на ранжирование: Идентифицированные предпочтения напрямую влияют на ранжирование путем повышения (boosting) результатов из предпочтительных категорий и потенциального подавления результатов из несущественных категорий (inconsequential).
  6. Зависимость от категоризации: Эффективность системы напрямую зависит от качества и гранулярности системы категоризации контента, используемой поисковой системой.

Практика

Best practices (это мы делаем)

  • Ориентация на доминирующий интент: При таргетинге на неоднозначные запросы необходимо фокусироваться на доминирующем намерении пользователя, которое Google определяет на основе исторических CTR. Анализируйте текущую выдачу, чтобы понять, какая интерпретация является основной.
  • Четкая сигнализация категории контента: Помогайте поисковой системе правильно классифицировать ваш контент. Используйте релевантную микроразметку (Schema.org), четкую структуру сайта и тематические ключевые слова. Это критично для того, чтобы ваши данные корректно агрегировались в Query/Category Metric Store.
  • Оптимизация под родительские категории (Topical Authority): Создавайте авторитет в рамках широкой тематики. Поскольку система может использовать агрегацию метрик на более высоком уровне иерархии (Процесс В), авторитетность в родительской категории может помочь при ранжировании по неоднозначным дочерним запросам.
  • Повышение CTR для укрепления интента: Высокий CTR вашего контента вносит вклад в глобальную статистику для пары запрос/категория. Демонстрируя высокую вовлеченность, вы помогаете укрепить связь между запросом и вашей категорией в глазах Google.

Worst practices (это делать не надо)

  • Таргетинг на "несущественные" интенты: Попытка ранжироваться по неоднозначному запросу с контентом, который соответствует редкому или непопулярному намерению. Если система определит эту категорию как inconsequential (например, с помощью анализа резкого падения), ваш контент будет систематически понижаться.
  • Неоднозначная категоризация контента: Создание контента, который смешивает несколько разных категорий или не имеет четкой тематической направленности. Это затрудняет классификацию и может привести к тому, что контент не будет ассоциирован с предпочтительной категорией.
  • Игнорирование коллективных предпочтений: Полагаться только на семантическую релевантность без учета того, как большинство пользователей интерпретирует запрос. Google отдает приоритет коллективному поведению при разрешении неоднозначности.

Стратегическое значение

Патент подтверждает, что Google активно интерпретирует запросы, опираясь на "мудрость толпы" (агрегированные данные CTR), чтобы определить, что *на самом деле* ищут пользователи. Это подчеркивает переход от чисто текстовой релевантности к релевантности намерениям. Стратегически важно понимать не только семантику запроса, но и контекст его использования большинством пользователей. Борьба с устоявшимся доминирующим интентом по неоднозначному запросу обычно является проигрышной стратегией.

Практические примеры

Сценарий: Оптимизация сайта о бильярде под запрос "Pool"

  1. Анализ запроса: Запрос "Pool" неоднозначен. Категории: "Swimming Pools" (Бассейны), "Pool Tables" (Бильярдные столы), "Sports Lounges" (Бильярдные).
  2. Предполагаемые данные Google (CTR):
    • Swimming Pools: 65%
    • Pool Tables: 20%
    • Sports Lounges: 15%
  3. Действие системы (Метод падения): Система обнаруживает резкое падение между "Swimming Pools" (65%) и "Pool Tables" (20%). Если порог падения, например, 40%, то падение на ~69% является резким.
  4. Результат: "Swimming Pools" идентифицируется как предпочтительная категория. "Pool Tables" и "Sports Lounges" могут быть признаны inconsequential. Результаты о бассейнах получают бустинг.
  5. SEO-стратегия для сайта о бильярде: Ранжирование по общему запросу "Pool" будет крайне сложно. Стратегия должна фокусироваться на точных запросах ("Pool tables for sale", "How to play pool"), где интент ясен и категория "Pool Tables" будет доминирующей.

Вопросы и ответы

Как система определяет, является ли запрос неоднозначным?

Патент предлагает два основных метода, основанных на распределении CTR по категориям. Первый — измерение энтропии (entropy). Если энтропия высока (распределение равномерное, без явных пиков), запрос неоднозначен. Второй — проверка доминирования. Если ни одна категория не имеет CTR, значительно превышающий все остальные (например, на 30-50%), запрос также считается неоднозначным.

Что такое "резкое падение" (sharp drop-off) и как оно используется?

"Резкое падение" — это значительное снижение CTR между двумя соседними категориями в списке, упорядоченном по популярности. Например, Категория А (35%), Категория Б (30%), Категория В (13%). Падение между Б и В составляет около 57%. Если это превышает установленный порог (например, 40%), система считает Категорию В и все последующие "несущественными" (inconsequential) для данного запроса.

Что происходит с результатами из "несущественных" категорий?

Патент указывает, что результаты из несущественных категорий могут быть проигнорированы (т.е. не представлены в выдаче) или пенализированы в их оценках ранжирования. Это означает, что если ваш контент соответствует интенту, который Google считает несущественным для данного запроса, он будет активно понижаться в выдаче.

Как используется иерархия категорий в этом патенте?

Иерархия используется в методе пороговых значений. Если на низком уровне (например, "Японский ресторан" и "Тайский ресторан") ни одна категория не превышает порог CTR, система поднимается на уровень выше. Она агрегирует метрики дочерних категорий в родительскую (например, "Азиатский ресторан") и проверяет порог на этом уровне. Если родительская категория превышает порог, она используется для бустинга результатов.

Насколько важен мой собственный CTR для этого алгоритма?

Ваш CTR важен двояко. Во-первых, он влияет на ранжирование вашей страницы напрямую (как поведенческий сигнал). Во-вторых, он вносит вклад в глобальную статистику для пары запрос/категория, хранящуюся в Query/Category Metric Store. Поддерживая высокий средний CTR для вашей категории, вы увеличиваете вероятность того, что система будет считать эту категорию предпочтительной.

Как я могу помочь Google правильно категоризировать мой контент?

Патент упоминает, что категоризация может основываться на анализе ключевых слов или данных из внешних источников. Для SEO это означает необходимость использования четкой терминологии, соответствующей вашей нише, использование микроразметки Schema.org для явного указания типа контента или сущности, а также поддержание сильной тематической фокусировки и иерархии сайта.

Что делать, если мой бизнес нацелен на второстепенный интент неоднозначного запроса?

Если вы продаете бильярдные столы, а запрос "pool" в основном интерпретируется как бассейны, ранжирование по этому термину будет крайне затруднено. Стратегия должна заключаться в отказе от борьбы за этот общий термин и фокусировке на более длинных и точных запросах (long-tail), где ваше намерение является доминирующим и неоднозначность отсутствует.

Использует ли этот патент только CTR в качестве метрики?

Хотя CTR используется в качестве основного примера метрики предпочтения пользователя и фигурирует в Claims, патент упоминает, что могут использоваться и другие метрики. Примеры включают продолжительность взаимодействия пользователя с результатом (duration of interaction) и количество взаимодействий.

Применяется ли этот механизм ко всем типам поиска?

Патент упоминает применение как для веб-поиска, так и для поиска в картографических приложениях (mapping application). Концептуально он может применяться в любой поисковой системе, где контент может быть категоризирован, а поведение пользователей отслеживается.

Как этот патент соотносится с современными алгоритмами типа BERT или MUM?

BERT и MUM фокусируются на семантическом и контекстуальном понимании языка. Этот патент фокусируется на поведенческом анализе для определения доминирующего интента. Вероятно, современные системы используют комбинацию подходов: NLP-модели (BERT/MUM) для понимания возможных интерпретаций и классификации контента, а поведенческие данные (как в этом патенте) для определения того, какая интерпретация является наиболее популярной на практике.

Похожие патенты

Как Google использует исторические паттерны CTR для предсказания сезонных и циклических изменений интента пользователя
Google анализирует исторические данные о кликах (CTR) для выявления предсказуемых изменений в интересах пользователей по неоднозначным запросам. Если интент меняется в зависимости от сезона, дня недели или времени суток, система корректирует ранжирование, чтобы соответствовать доминирующему в данный момент интенту. Например, по запросу "turkey" в ноябре приоритет получат рецепты, а не информация о стране.
  • US8909655B1
  • 2014-12-09
  • Семантика и интент

  • Поведенческие сигналы

  • SERP

Как Google использует CTR и разницу в оценках релевантности для визуального выделения доминирующего результата в выдаче
Google может визуально выделять результат поиска (например, с помощью миниатюры страницы), если система уверена, что это именно то, что ищет пользователь. Эта уверенность основана на значительном превосходстве результата над всеми остальными по показателям CTR (Click-Through Rate) и/или оценке релевантности (Relevance Score).
  • US7836391B2
  • 2010-11-16
  • SERP

  • Поведенческие сигналы

Как Google использует данные о кликах пользователей (CTR и Click Ratio) для определения официального сайта по навигационным запросам
Google анализирует журналы запросов, чтобы определить, какой результат пользователи подавляюще предпочитают по конкретному запросу. Если результат демонстрирует исключительно высокий CTR и/или Click Ratio по популярному запросу, система помечает его как «авторитетную страницу». Затем этот результат может отображаться на выдаче с особым выделением, потенциально переопределяя стандартное ранжирование.
  • US8788477B1
  • 2014-07-22
  • Поведенческие сигналы

  • EEAT и качество

  • SERP

Как Google использует географическое положение и историю поведения пользователей для разрешения неоднозначных запросов
Google применяет механизм для интерпретации неоднозначных поисковых запросов, которые имеют несколько географических или категориальных значений. Система определяет доминирующий интент, анализируя, как пользователи в том же регионе ранее уточняли похожие запросы и насколько они были удовлетворены результатами. На основе этих локализованных данных (гистограмм и метрик неудовлетворенности) выбирается наиболее вероятная интерпретация, и выдача фильтруется соответственно.
  • US8478773B1
  • 2013-07-02
  • Семантика и интент

  • Персонализация

  • Поведенческие сигналы

Как Google определяет интент запроса, анализируя классификацию контента, который кликают пользователи
Google использует данные о поведении пользователей для классификации запросов. Система определяет, какой контент пользователи считают наиболее релевантным для запроса (на основе кликов и времени пребывания). Затем она анализирует классификацию этого контента (например, «продукт», «новости», «взрослый контент») и присваивает доминирующую классификацию самому запросу. Это позволяет уточнить интент и скорректировать ранжирование.
  • US8838587B1
  • 2014-09-16
  • Семантика и интент

  • Поведенческие сигналы

  • SERP

Популярные патенты

Как Google перенаправляет пользователей на «идеальные» запросы (KHRQ), анализируя поведение и удовлетворенность
Google анализирует логи запросов, чтобы определить «известные высокоранжированные запросы» (KHRQ) — те, которые пользователи вводят часто и которыми остаются довольны (редко переформулируют или долго изучают результаты). Система вычисляет вероятность того, что исходный запрос пользователя лучше заменить на KHRQ, основываясь на сходстве запросов и исторических цепочках переформулировок. Это позволяет направлять пользователей к наиболее эффективным формулировкам.
  • US7870147B2
  • 2011-01-11
  • Семантика и интент

  • Поведенческие сигналы

  • SERP

Как Google использует данные о выделении текста пользователями (явно или неявно) для генерации сниппетов и анализа контента
Google может собирать данные о том, какие фрагменты текста пользователи выделяют на веб-страницах, используя специальные инструменты или просто выделяя текст мышью. Эти данные агрегируются для определения наиболее важных частей документа. На основе этой "популярности" Google может динамически генерировать поисковые сниппеты, включающие наиболее часто выделяемые фрагменты.
  • US8595619B1
  • 2013-11-26
  • Поведенческие сигналы

  • SERP

Как Google обучается на поведении пользователя для персонализации весов источников в поисковой выдаче
Google использует сигналы интереса пользователя (клики, время просмотра) для динамической корректировки весов различных источников данных (например, ключевых слов, тем, типов контента). Система определяет, какие источники наиболее полезны для конкретного пользователя, и повышает их значимость при ранжировании последующих результатов поиска, тем самым персонализируя выдачу.
  • US8631001B2
  • 2014-01-14
  • Персонализация

  • Поведенческие сигналы

  • SERP

Как Google использует данные из Local Search и Google Maps для распознавания географических названий в основном поиске
Google анализирует поведение пользователей в интерфейсах с отдельными полями ввода "Что?" и "Где?" (например, в Google Maps). На основе этой статистики система определяет, является ли термин однозначным названием местоположения ("Нью-Йорк") или нет ("Пицца"). Это позволяет поиску отличать локальные запросы от общих и формировать "черные списки" для терминов, которые похожи на города, но ими не являются (например, "Орландо Блум").
  • US8782030B1
  • 2014-07-15
  • Local SEO

  • Семантика и интент

  • Поведенческие сигналы

Как Google использует контекст пользователя и интерактивное уточнение для обучения моделей поиска
Google может инициировать поиск пассивно, основываясь на контексте действий пользователя (например, чтении статьи или телефонном звонке). Система позволяет пользователю уточнить этот поиск, выбрав один из использованных критериев (например, тапнув на сущность в тексте), чтобы повысить его значимость. Реакция пользователя на уточненные результаты используется для машинного обучения и улучшения взвешивания критериев в будущих поисковых запросах.
  • US11568003B2
  • 2023-01-31
  • Семантика и интент

  • Персонализация

  • Поведенческие сигналы

Как Google комбинирует визуальное сходство и поведение пользователей для переранжирования поиска по картинкам
Google использует механизм для перекрестной проверки релевантности изображений, объединяя поведенческие сигналы (клики) с визуальным анализом. Если изображение часто кликают и оно визуально похоже на другие релевантные изображения по запросу (совместная релевантность), его рейтинг агрессивно повышается. Если оно редко кликается и визуально отличается (совместная нерелевантность), его рейтинг понижается. Это защищает выдачу от кликбейта.
  • US8209330B1
  • 2012-06-26
  • Поведенческие сигналы

  • SERP

  • Мультимедиа

Как Google итеративно распознает сущности на страницах и рассчитывает их важность с помощью PageRank
Google использует итеративный процесс для распознавания и устранения неоднозначности сущностей (людей, мест, понятий) в документах. Система начинает с известных фактов, находит упоминающие сущность документы, анализирует сопутствующие термины для уточнения модели распознавания и автоматически обнаруживает новые признаки. Патент также описывает расчет важности сущности путем суммирования PageRank ссылающихся документов, взвешенного на вероятность ссылки.
  • US8122026B1
  • 2012-02-21
  • Семантика и интент

  • Ссылки

  • Knowledge Graph

Как Google использует паттерны просмотра пользователей (Co-Visitation) и временную близость для определения тематики нетекстового контента (изображений и видео)
Google использует механизм для понимания контента без текста (изображения, видео), анализируя, какие другие (текстовые) страницы пользователи посещают в рамках той же сессии. Ключевые слова с этих текстовых страниц заимствуются и присваиваются нетекстовому ресурсу. Критически важным фактором является время перехода: чем быстрее пользователь перешел между ресурсами, тем больший вес получают ключевые слова.
  • US8572096B1
  • 2013-10-29
  • Поведенческие сигналы

  • Семантика и интент

  • Мультимедиа

Как Google выявляет ссылочный спам (Link Farms и Web Rings), анализируя чувствительность PageRank к изменениям в структуре ссылок
Google использует математический метод для обнаружения искусственного завышения PageRank. Система анализирует, насколько резко меняется ранг страницы при изменении «коэффициента связи» (coupling factor/damping factor). Если ранг страницы слишком чувствителен к этим изменениям (имеет высокую производную), это сигнализирует о наличии манипулятивных структур, таких как ссылочные фермы или веб-кольца.
  • US7509344B1
  • 2009-03-24
  • Антиспам

  • Ссылки

  • Техническое SEO

Как Google использует внешние данные для оценки репутации сущностей и их взаимной привлекательности в вертикальном поиске
Google использует систему для улучшения вертикального поиска (например, вакансий, недвижимости) путем оценки взаимной привлекательности двух разных типов сущностей (например, соискателя и вакансии). Система агрегирует данные из внешних источников для выявления скрытых атрибутов и расчета «Репутационной значимости» каждой сущности. На основе этих данных определяется метрика «Двухстороннего соответствия», которая используется для ранжирования.
  • US10853432B2
  • 2020-12-01
  • Семантика и интент

  • SERP

  • Поведенческие сигналы

seohardcore