Как Google использует внешние метки (аннотации) и шаблоны URL для фильтрации и переранжирования поисковой выдачи

FILTERING SEARCH RESULTS USING ANNOTATIONS (Фильтрация результатов поиска с использованием аннотаций)

US7668812B1
Google LLC
2006-05-09
2010-02-23

Google может обрабатывать запросы, включающие ключевые слова и метки (labels), предоставленные третьими сторонами. Система строит компактный фильтр доменов, связанных с этими метками, и гарантирует минимальную долю результатов из этих источников. Затем результаты, точно соответствующие полным шаблонам URL меток, получают значительное повышение в ранжировании.

Какую проблему решает

Патент решает проблему интеграции внешних категоризаций контента (аннотаций, меток, тегов), часто создаваемых на "вертикальных сайтах знаний" (vertical knowledge sites), в работу универсальной поисковой системы. Использование этих меток позволяет уточнить интент пользователя. Однако, если строго ограничить поиск только аннотированными документами, можно исключить множество релевантных, но неразмеченных документов. Изобретение предлагает эффективный механизм, который балансирует общую релевантность и включение аннотированного контента.

Что запатентовано

Запатентована система обработки поисковых запросов, содержащих как поисковые термины, так и метки (labels или categorical identifier). Система использует двухэтапный процесс для эффективности. Сначала создается компактный доменный фильтр (Domain Filter) на основе доменов, связанных с запрошенными метками, чтобы гарантировать минимальную долю (Minimum Portion) результатов из этих источников. Затем проводится точная верификация соответствия полным шаблонам URL (URL Patterns), и подтвержденные результаты получают повышение (boost) в ранжировании.

Как это работает

Механизм работает следующим образом:

Получение запроса: Система принимает запрос с терминами и метками (например, "cancer label:symptoms").
Построение фильтра: Система находит аннотации для меток, извлекает префиксы доменов и строит Domain Filter (например, используя Bloom filter для скорости).
Поиск и Фильтрация: Поисковая система ищет по терминам и использует Domain Filter, чтобы гарантировать, что минимальная доля (например, 25%) результатов происходит из указанных доменов.
Верификация: Система проверяет отфильтрованные результаты на соответствие полным URL Patterns (домен + путь). Это устраняет ложные срабатывания Domain Filter.
Переранжирование: Документы, прошедшие верификацию, получают повышение в ранжировании на основе весов (weights), связанных с метками.
Выдача: Результаты предоставляются пользователю с указанием примененных меток.

Актуальность для SEO

Высокая/Средняя. Этот патент лежит в основе систем контекстного поиска, таких как Google Custom Search Engines (CSE) и ранее Google Co-op. Хотя в основном поиске Google явное использование оператора label: для сторонних аннотаций не распространено, сама концепция использования аннотаций (включая структурированные данные Schema.org, учитывая участие R. Guha) для фильтрации и повышения релевантности остается крайне актуальной.

Важность для SEO

Влияние на SEO значительное (7.5/10). Патент демонстрирует механизм, как внешняя или структурная категоризация может напрямую влиять на ранжирование. Это критически важно для оптимизации под CSE и подчеркивает фундаментальную важность четкой структуры URL для всего сайта. Также это подтверждает важность использования структурированных данных, которые Google может интерпретировать как "метки" для бустинга при применении фильтров.

Термины и определения

Annotation (Аннотация): Структура данных, связывающая метку (Label) с шаблоном URL (URL pattern). Схематически: <label, URL_pattern>.
Annotation Database (База данных аннотаций): Хранилище коллекции аннотаций.
Bloom filter (Фильтр Блума): Компактная вероятностная структура данных для быстрой проверки принадлежности элемента к множеству. Используется для реализации Domain Filter. Допускает ложноположительные срабатывания.
Domain Filter (Доменный фильтр): Структура данных, содержащая префиксы доменов (Domain Prefixes). Используется для быстрой первичной фильтрации результатов на уровне домена.
Domain Prefix (Префикс домена): Часть URL-шаблона, соответствующая доменному имени, возможно, с добавлением нескольких символов пути.
Label (Метка / Categorical Identifier): Термин или фраза, описывающая контент. Пользователи могут включать метки в запросы (например, label: или more:).
Minimum Portion (M) (Минимальная доля): Заданный процент или количество результатов поиска, которые должны соответствовать Domain Filter. Гарантирует наличие аннотированного контента в выдаче.
Query Processor (Обработчик запросов): Компонент, отвечающий за построение Domain Filter, а также за постобработку результатов (верификацию и переранжирование).
URL Pattern (Шаблон URL / Идентификатор ресурса): Спецификация шаблона для URL (включая домен и путь), определяющая, к каким документам применяется метка.
Vertical knowledge sites (Вертикальные сайты знаний): Сайты (например, экспертные блоги, сообщества), которые предоставляют комментарии или разметку контента в интернете.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод обработки запроса с меткой (categorical identifier).

Система получает запрос, включающий термин и метку.
Выбирается доменное имя, связанное с меткой.
На основе первого набора результатов (релевантных термину) генерируется второй набор, в котором доменное имя каждого ресурса соответствует выбранному доменному имени (Фильтрация по домену).
Выбирается идентификатор ресурса (resource identifier, т.е. URL pattern), связанный с меткой, включающий доменное имя и путь (path).
Повышается оценка релевантности (relevance score) ресурсов во втором наборе, чей идентификатор соответствует выбранному идентификатору ресурса (Верификация по полному шаблону). Повышение основано на весе (weight), связанном с меткой.
Ресурсы ранжируются на основе новых оценок.
Результаты аннотируются меткой и предоставляются пользователю.

Ядро изобретения — это двухэтапный процесс, оптимизированный по производительности. Сначала грубая, но быстрая фильтрация по домену для обеспечения полноты (Recall), затем точная верификация по пути/шаблону URL для обеспечения точности (Precision) и повышения ранжирования.

Claim 4 (Зависимый от 1): Уточняет генерацию второго набора.

Генерация включает выбор предопределенного минимального количества (predetermined minimum number) ресурсов, связанных с доменным именем.

Это реализация механизма Minimum Portion, гарантирующего присутствие аннотированного контента в выдаче, даже если его изначальный ранг был низким.

Claim 5 (Зависимый от 1): Уточняет механизм повышения оценки.

Метод включает определение веса (weight), связанного с меткой.

Это указывает на возможность дифференцированного влияния разных меток (или их источников) на ранжирование.

Где и как применяется

Изобретение интегрирует обработку аннотаций в стандартный поток выполнения запроса.

INDEXING – Индексирование и извлечение признаков
Система собирает и хранит аннотации (метки и URL Patterns) в Annotation Database через Annotation Interface. Это сбор внешних структурированных сигналов.

QUNDERSTANDING – Понимание Запросов
Query Processor анализирует запрос, чтобы отделить поисковые термины от меток (распознавая операторы типа label:).

RANKING – Ранжирование
Этап первичной фильтрации. Filter Constructor создает Domain Filter. Search Engine получает термины и фильтр. Он генерирует начальный набор результатов и применяет фильтр, гарантируя, что Minimum Portion (M) результатов соответствует доменам в фильтре.

RERANKING – Переранжирование
Критический этап применения патента. Query Processor получает отфильтрованные результаты и выполняет постобработку:

Верификация: Сверяет URL документов с полными URL Patterns (домен + путь), устраняя ложные срабатывания Domain Filter.
Взвешивание: Применяет веса (weights) для повышения relevance scores подтвержденных результатов.
Пересортировка: Формирует финальный список.

Входные данные:

Поисковый запрос (термины + метки).
Annotation Database.
Индекс контента.

Выходные данные:

Отфильтрованный и переранжированный набор результатов (Annotation Adjusted Results) с индикацией меток.

На что влияет

Специфические запросы: Влияет только на запросы, которые явно включают метки (labels).
Контекстные/Кастомизированные поисковые системы: Наибольшее влияние в средах, где активно используются аннотации, например, в Google Custom Search Engines (CSE).
Типы контента: Контент, который часто подвергается внешней категоризации (обзоры, исследования, техническая документация).

Когда применяется

Триггер активации: Входящий поисковый запрос содержит одну или несколько меток (labels), идентифицируемых по специальному синтаксису.
Наличие данных: В Annotation Database существуют аннотации, соответствующие этим меткам.

Пошаговый алгоритм

Этап 1: Подготовка и построение фильтра

Парсинг запроса: Система разделяет запрос на термины и метки.
Поиск аннотаций: Для каждой метки извлекаются соответствующие URL patterns из Annotation Database.
Извлечение префиксов: Из URL patterns извлекаются Domain Prefixes (домен, возможно, плюс несколько символов пути).
Построение Domain Filter: Префиксы вставляются в Domain Filter. Используется Bloom filter для компактности: префиксы хешируются (например, Jenkins hash) в битовый массив.

Этап 2: Поиск и фильтрация результатов

Выполнение поиска: Поисковая система генерирует ранжированный набор результатов S по поисковым терминам.
Применение фильтра к S: Каждый документ в S проверяется на соответствие Domain Filter (путем хеширования его доменного префикса).
Обеспечение минимальной доли (M%): Система гарантирует наличие M% отфильтрованных результатов в итоговом наборе S_filtered.
1. Выбираются Топ (100-M)% документов из S и добавляются в S_filtered.
2. Определяется, сколько еще отфильтрованных документов (R) необходимо для достижения порога M%.
3. Система перебирает оставшиеся документы в S по рангу, добавляя их в S_filtered, пока количество оставшихся слотов (L) не сравняется с R.
4. Оставшиеся слоты (R) заполняются только документами из S, которые соответствуют Domain Filter (даже если придется пропустить более высокоранжированные, но не соответствующие фильтру результаты).

Этап 3: Постобработка и переранжирование

Верификация URL: Для каждого документа в S_filtered проверяется его полный URL на соответствие полным URL patterns (полученным на шаге 2).
Добавление меток: К описанию документа добавляется индикация подтвержденных меток.
Переранжирование: Relevance scores документов с подтвержденными метками повышаются с использованием весовых коэффициентов (Weighting Factors).
Возврат результатов: Переранжированный набор S_filtered возвращается пользователю.

Какие данные и как использует

Данные на входе

Патент фокусируется на использовании структурных и внешних данных для фильтрации и переранжирования.

Технические / Структурные факторы (URL-структура): Критически важна. Структура URL (домен и путь) используется для построения Domain Filter (через Domain Prefix) и для финальной верификации (через полный URL Pattern).
Внешние данные (Аннотации): Основные данные системы. Включают Labels, URL Patterns и связанные с ними веса (weights), хранящиеся в Annotation Database.

Какие метрики используются и как они считаются

Minimum Portion (M): Заранее определенный процент (например, 25%) результатов, которые должны соответствовать Domain Filter.
Weighting Factor (Весовой коэффициент): Множитель для повышения relevance score. Патент описывает несколько схем:
- Фиксированный вес (например, > 1).
- Зависимость от количества меток (кумулятивное взвешивание):

Инфраструктура для интеграции внешних сигналов (CSE): Патент описывает механизм интеграции внешних аннотаций (меток) в ранжирование. Это является фундаментом для кастомизированных поисковых систем (Google CSE), где выдача фильтруется и переранжируется на основе правил, заданных администратором.
Двухэтапная фильтрация для эффективности и точности: Ключевое техническое решение — использование быстрого, но грубого Domain Filter (Фильтр Блума) на этапе основного поиска для обеспечения скорости и полноты (Recall), и точной верификации URL Pattern (домен + путь) на этапе переранжирования для обеспечения точности (Precision).
Баланс релевантности и аннотаций (Minimum Portion): Механизм Minimum Portion (M) гарантирует присутствие аннотированного контента в выдаче, даже если его изначальный рейтинг был ниже, не позволяя ему при этом полностью вытеснить более релевантные неаннотированные результаты.
Метки как сильный фактор ранжирования (Boosting): Подтвержденное наличие запрошенной метки используется как прямой сигнал для агрессивного повышения ранжирования (weighting), причем система поддерживает дифференцированное взвешивание.
Критичность структуры URL: Эффективность системы напрямую зависит от возможности описать группы контента с помощью URL Patterns. Логичная, иерархическая структура URL является ключевым фактором для работы этого механизма.

Best practices (это мы делаем)

Принципы патента применимы как для оптимизации под Custom Search Engines (CSE), так и в контексте современных SEO-стратегий (структурированные данные).

Оптимизация структуры URL для паттернов: Поддерживайте чистую, иерархическую и семантически понятную структуру URL (например, /reviews/, /news/, /guides/). Это критически важно, чтобы аннотации (внешние в CSE или внутренние классификаторы Google) могли точно применяться к разделам сайта через URL Patterns.
Внедрение структурированных данных (Schema.org): Используйте разметку (Review, Article, Product) для явного аннотирования контента. Google может интерпретировать эти данные как "метки". Это повышает вероятность бустинга контента при применении соответствующих фильтров (явных или неявных).
Оптимизация под CSE (если применимо): Если ваша аудитория использует нишевые CSE, изучите используемые там аннотации и метки. Убедитесь, что структура вашего сайта соответствует их URL Patterns и весам, чтобы получать максимальный бустинг в этой среде.
Четкая категоризация и таксономия сайта: Разрабатывайте логичную таксономию. Четкая внутренняя категоризация помогает системе понять назначение разделов, что коррелирует с концепцией применения меток к разделам сайта.

Worst practices (это делать не надо)

Хаотичная или плоская структура URL: Использование неструктурированных URL (например, ?id=123 вместо ЧПУ) или смешивание разных типов контента в одной директории (например, /blog/ содержит и новости, и обзоры) затрудняет применение точных URL Patterns и снижает эффективность механизмов аннотирования.
Игнорирование структурированных данных: Отсутствие разметки лишает контент явных аннотаций, которые могут быть использованы для категоризации и бустинга при фильтрации.
Игнорирование контекста CSE: Применять стандартные SEO-тактики к поиску в CSE без учета его настроек. В CSE правила ранжирования могут быть радикально изменены за счет весов меток, описанных в патенте.

Стратегическое значение

Патент подтверждает, что Google разработал инфраструктуру для наложения дополнительных слоев ранжирования поверх основного алгоритма, используя структурированные сигналы. Ранжирование не монолитно; оно адаптируется в зависимости от среды (Основной поиск vs CSE) и интента пользователя (выраженного через метки или фильтры). Стратегически важно максимально четко категоризировать контент с помощью доступных инструментов (структура URL, Schema.org), чтобы система могла легко применять к нему соответствующие "метки".

Практические примеры

Сценарий: Поиск обзора в Custom Search Engine (CSE) с фильтрацией по метке

Задача: Пользователь ищет обзор камеры в CSE, настроенном сообществом фотографов.

Запрос пользователя в CSE: "digital camera label:professional review".
Создание Domain Filter: CSE знает, что метка "professional review" связана с доменами dpreview.com и techradar.com. Эти домены добавляются в Domain Filter.
Фильтрация поиска: Система выполняет поиск и гарантирует, что минимум 25% (Minimum Portion) результатов будут с этих сайтов.
Верификация (Проверка Пути): Система проверяет полные URL Patterns. Метка связана с шаблоном dpreview.com/reviews/.
- Результат dpreview.com/reviews/canon-r5 — соответствует (домен + путь).
- Результат dpreview.com/news/new-launch — не соответствует пути (хотя прошел Domain Filter).
Переранжирование: Администратор CSE назначил метке вес 2.0. Результат /reviews/canon-r5 получает значительный буст (weight). Результат /news/new-launch буста не получает.
Результат: Пользователь видит выдачу CSE, где подтвержденные профессиональные обзоры ранжируются значительно выше.

Какое отношение этот патент имеет к Google Custom Search Engines (CSE)?

Этот патент описывает базовую технологию, лежащую в основе Google CSE и ранее Google Co-op. В CSE администратор определяет аннотации (сайты или разделы) и назначает им метки и веса. Описанный механизм фильтрации и переранжирования позволяет применять эти правила в реальном времени при обработке запросов в рамках конкретного CSE.

Почему используется двухэтапная фильтрация (Domain Filter, затем URL Pattern)?

Это сделано для оптимизации производительности. Проверка миллиардов документов на соответствие сложным URL Patterns слишком ресурсоемка. Система использует компактный и быстрый Domain Filter (Фильтр Блума) на основе префиксов доменов, чтобы быстро сузить пространство поиска. Точная проверка по полному URL Pattern (домен + путь) выполняется позже на гораздо меньшем наборе результатов.

Что такое Фильтр Блума (Bloom filter) и каковы его недостатки?

Фильтр Блума — это вероятностная структура данных, которая очень компактно хранит информацию о множестве элементов и позволяет быстро проверить принадлежность. Он используется для Domain Filter ради скорости и экономии памяти. Основной недостаток — он может давать ложноположительные срабатывания (но никогда ложноотрицательные). Именно поэтому требуется последующий этап верификации по полному URL.

Что означает "Минимальная доля" (Minimum Portion M) результатов?

Это гарантия того, что в финальной выдаче будет присутствовать определенный процент (например, 25%) результатов, соответствующих Domain Filter. Система сначала заполняет (100-M)% выдачи самыми релевантными результатами, а затем принудительно заполняет оставшиеся M% слотов, отдавая приоритет документам, соответствующим фильтру. Это обеспечивает баланс выдачи.

Насколько сильно метки влияют на ранжирование?

Влияние может быть значительным. Патент описывает применение весовых коэффициентов (weights) для повышения оценки релевантности. Система поддерживает разные схемы: простой бустинг, кумулятивный бустинг (чем больше меток, тем выше ранг) или индивидуальные веса для каждой метки, что позволяет аннотированным результатам опережать стандартные.

Как этот патент влияет на требования к структуре URL?

Патент значительно повышает важность чистой, логичной и иерархической структуры URL. Поскольку аннотации применяются на основе URL Patterns (которые включают путь), сайты с хорошо организованной структурой (например, /products/, /reviews/) гораздо легче интегрируются в системы, использующие этот механизм, чем сайты с хаотичной структурой.

Используется ли этот механизм в основном поиске Google?

Патент активируется при явном указании меток пользователем (label:), что редко используется в основном поиске Google для сторонних аннотаций. Однако инфраструктура может использоваться Google для интеграции собственных аннотаций, таких как структурированные данные (Schema.org) или данные из Knowledge Graph, которые концептуально работают схожим образом для категоризации и фильтрации.

Может ли этот механизм понизить мой сайт в выдаче?

Да, косвенно. Если пользователь использует метку в запросе, система активно повышает (бустит) результаты, соответствующие этой метке. Если ваш сайт не соответствует метке, он будет вытеснен из топа результатами, получившими бустинг, даже если он хорошо релевантен основному поисковому термину.

Если мой сайт попал в Domain Filter, значит ли это, что он получит бустинг?

Нет, не обязательно. Попадание в Domain Filter лишь гарантирует, что сайт будет рассмотрен для включения в выдачу (в рамках Minimum Portion). Для получения бустинга необходимо, чтобы полный URL документа соответствовал полному URL Pattern (домен + путь) аннотации на этапе верификации. Результаты, не прошедшие верификацию, бустинг не получат.

Что такое "Вертикальные сайты знаний" (Vertical knowledge sites)?

Это термин из патента для обозначения сайтов, предоставляющих дополнительный анализ, комментарии или разметку контента (экспертные блоги, сайты с обзорами, форумы). Они являются потенциальными источниками аннотаций. Примерами могут служить сайты типа Reddit или специализированные форумы, где сообщества категоризируют контент.

Как Google использует пользовательские аннотации, метаданные и социальные сигналы для переранжирования результатов поиска

Система перехватывает результаты поиска и проверяет их по реестру, содержащему пользовательские аннотации, метаданные и социальные связи. Затем результаты переупорядочиваются на основе релевантности, которая частично определяется этими аннотациями и метаданными. Пользователям предоставляются инструменты для добавления новых аннотаций, которые влияют на будущие результаты поиска.

US20110153599A1
2011-06-23

SERP
EEAT и качество

Как Google использует данные о кликах и пропусках для валидации и удаления неэффективных синонимов в поиске

Google постоянно тестирует правила подстановки (синонимы) для расширения запросов. Этот патент описывает механизм оценки эффективности этих правил с помощью анализа поведения пользователей (клики и пропуски результатов). Если пользователи часто пропускают результаты, содержащие подставленный термин, система автоматически удаляет это правило, очищая понимание запросов от нерелевантных синонимов.

US8965875B1
2015-02-24

Поведенческие сигналы
Семантика и интент
EEAT и качество

Как Google комбинирует визуальное сходство и семантические метки для улучшения поиска по картинке (Visual Search)

Google использует систему поиска по изображению, которая сочетает анализ визуальных характеристик и семантических меток. Система генерирует высокоточные метки (High Confidence Labels) для изображения, анализируя текст, связанный с визуально похожими картинками в интернете. Затем она ранжирует кандидатов, используя модель визуального сходства, обученную на основе человеческих оценок, и применяет правила фильтрации для обеспечения однородности результатов.

US8429173B1
2013-04-23

Семантика и интент
Мультимедиа
SERP

Как Google использует персональные оценки и метки (аннотации) для персонализации и переранжирования поисковой выдачи

Патент Google описывает систему, позволяющую пользователям явно оценивать, комментировать и помечать веб-страницы. Эти аннотации используются для переранжирования будущих результатов поиска пользователя, повышая полезные страницы и понижая бесполезные. Система также вычисляет общие оценки сайтов (Site Rating) на основе оценок отдельных страниц для дальнейшей персонализации.

US8990193B1
2015-03-24

Персонализация
Поведенческие сигналы
SERP

Как Google использует сеть доверия между экспертами для расчета Trust Rank и ранжирования контента

Google использует механизм для определения авторитетности контента путем анализа того, какие эксперты (сущности) доверяют друг другу и как они классифицируют (маркируют) контент в интернете. Система рассчитывает «Рейтинг Доверия» (Trust Rank) для каждой сущности и использует его для повышения в выдаче контента, отмеченного доверенными источниками, интегрируя сигналы репутации в алгоритм ранжирования.

US7603350B1
2009-10-13

EEAT и качество
Knowledge Graph
SERP

Как Google использует генеративный ИИ для создания чата с конкретным сайтом прямо в поисковой выдаче и предоставления глубинных ссылок

Google патентует механизм, позволяющий пользователям взаимодействовать с конкретным результатом поиска через интерфейс чата (prompt input interface) прямо на странице выдачи. Искусственный интеллект анализирует запрос пользователя и его последующий промпт, определяет намерение (поиск информации, действие или навигация) и предоставляет глубинные ссылки (deep links) на конкретные внутренние страницы этого же домена в виде conversational response.

US12353458B2
2025-07-08

Ссылки
Семантика и интент
SERP

Как Google определяет связанность документов с использованием Co-citation, анализа текста вокруг ссылок и паттернов пользовательского доступа

Google использует методы для ограничения результатов поиска на основе заданного контекста (например, набора URL-адресов или категории). Патент детализирует, как система определяет «связанность» между документами, используя такие методы, как анализ совместного цитирования (co-citation), анализ текста, окружающего ссылки в цитирующих документах, и анализ корреляции паттернов доступа пользователей.

US7305380B1
2007-12-04

Ссылки
SERP
Поведенческие сигналы

Как Google понижает в выдаче результаты, которые пользователь уже видел или проигнорировал в рамках одной поисковой сессии

Google использует механизм для улучшения пользовательского опыта во время длительных поисковых сессий. Если пользователь вводит несколько связанных запросов подряд, система идентифицирует результаты, которые уже появлялись в ответ на предыдущие запросы. Эти повторяющиеся результаты понижаются в ранжировании для текущего запроса, чтобы освободить место для новых, потенциально более полезных страниц. Понижение контролируется порогом релевантности, чтобы не скрывать важный контент.

US8051076B1
2011-11-01

SERP
Поведенческие сигналы

Как Google использует цитирования на веб-страницах для ранжирования книг в основной выдаче

Google использует механизм для определения релевантных книг по общим информационным запросам, даже если пользователь не искал книгу специально. Система анализирует, какие книги цитируются на топовых веб-страницах в выдаче. Книги получают оценку, основанную на авторитетности цитирующих страниц и контексте цитирования, и затем подмешиваются в результаты поиска.

US8392429B1
2013-03-05

Ссылки
SERP
EEAT и качество

Как Google вычисляет семантическую близость запросов, анализируя поведение пользователей при переформулировках

Google использует механизм для определения семантического расстояния между запросами (Generalized Edit Distance). Вместо подсчета изменений символов система анализирует исторические логи, чтобы понять, как пользователи переформулируют запросы. На основе этих данных вычисляется «стоимость» замены одного термина на другой с помощью Pointwise Mutual Information (PMI), что позволяет генерировать более релевантные подсказки и расширения запросов.

US8417692B2
2013-04-09

Семантика и интент
Поведенческие сигналы

Как Google использует данные о кликах разных групп пользователей (популяций) для локализации и персонализации ранжирования

Google адаптирует результаты поиска, анализируя, как разные группы пользователей (популяции), определяемые по местоположению, языку или демографии, взаимодействуют с выдачей. Система рассчитывает «Сигнал Популяции» (Population Signal) на основе исторических кликов группы и корректирует ранжирование. Также используется механизм сглаживания для компенсации нехватки данных по конкретным группам.

US7454417B2
2008-11-18

Персонализация
Поведенческие сигналы
SERP

Как Google использует машинное обучение и поведение пользователей для понимания скрытого намерения в коммерческих запросах

Google использует систему машинного обучения для анализа того, какие товары пользователи выбирают после ввода широких или неоднозначных запросов. Изучая скрытые атрибуты (метаданные) этих выбранных товаров, система определяет «скрытое намерение» запроса. Это позволяет автоматически переписывать будущие неоднозначные запросы в структурированный формат, ориентированный на атрибуты товара, а не только на ключевые слова.

US20180113919A1
2018-04-26

Семантика и интент
SERP
Поведенческие сигналы

Как Google динамически регулирует влияние фактора близости в локальном поиске в зависимости от тематики запроса и региона

Google использует систему для определения того, насколько важна близость (расстояние) для конкретного поискового запроса и региона. Анализируя исторические данные о кликах и запросах маршрутов, система вычисляет «Фактор важности расстояния». Для запросов типа «Кофе» близость критична, и удаленные результаты пессимизируются. Для запросов типа «Аэропорт» близость менее важна, и качественные результаты могут ранжироваться высоко. Система также учитывает плотность региона (город или село), адаптируя ожидания пользователей по расстоянию.

US8463772B1
2013-06-11

Local SEO
Поведенческие сигналы

Как Google планировал использовать социальные связи, сети доверия и экспертизу для персонализации и переранжирования поисковой выдачи

Google запатентовал метод использования данных из социальных сетей («member networks») для влияния на ранжирование. Пользователи могли явно одобрять («endorse») результаты поиска. Эти одобрения показывались другим связанным пользователям (друзьям или людям, ищущим экспертное мнение) и использовались для переранжирования выдачи, добавляя персонализированный слой доверия.

US8825639B2
2014-09-02

Персонализация
EEAT и качество
Поведенческие сигналы

Как Google связывает документы на основе поведения пользователей, времени взаимодействия и контентной близости для персонализации поиска

Google использует систему для определения "меры ассоциации" между различными документами (статьями, веб-страницами, письмами). Ассоциация рассчитывается на основе того, насколько близко по времени пользователь взаимодействовал с этими документами, насколько похож их контент и совпадают ли метаданные (например, автор). Эти связи используются для понимания пути пользователя и персонализации последующих результатов поиска.

US8131754B1
2012-03-06

Поведенческие сигналы
Персонализация
Семантика и интент