Как Google формирует и ранжирует подсказки в Autocomplete на основе исторических данных о запросах пользователей

METHOD AND SYSTEM FOR AUTOCOMPLETION USING RANKED RESULTS (Метод и система автозаполнения с использованием ранжированных результатов)

US7487145B1
Google LLC
2004-11-11
2009-02-03

Google использует систему, которая анализирует логи исторических запросов пользователей для предсказания полного запроса при вводе частичного. Система генерирует упорядоченный набор вероятных завершений, ранжируя их по популярности (частоте использования) или другим критериям. Это позволяет пользователям быстрее находить информацию и показывает, какие формулировки запросов наиболее распространены в сообществе.

Какую проблему решает

Патент решает задачу ускорения и упрощения процесса ввода поискового запроса или URL пользователем. Вместо ожидания полного ввода запроса система предоставляет пользователю релевантные предсказания (подсказки) в реальном времени. Это сокращает время поиска и помогает пользователю сформулировать запрос, основываясь на наиболее популярных запросах других пользователей.

Что запатентовано

Запатентована система и метод для генерации автозаполнения (Autocompletion или Google Suggest). Суть изобретения заключается в получении частичного запроса (Partial Query) от пользователя до завершения ввода, предсказании набора полных запросов на основе исторических данных (Historical Query Log) от сообщества пользователей и предоставлении этих предсказаний пользователю в упорядоченном виде. Ранжирование предсказаний основывается на заданных критериях, преимущественно на частоте использования запроса (Frequency).

Как это работает

Система работает в двух режимах: офлайн и онлайн.

Офлайн: Система обрабатывает Historical Query Log, фильтрует его (например, для обеспечения конфиденциальности или удаления спама) и создает Authorized Historical Queries List. Затем Ordered Set Builder генерирует заранее рассчитанные наборы упорядоченных подсказок для всех возможных частичных запросов. Для эффективного хранения и быстрого доступа используются структуры данных, такие как Fingerprint-to-Table Maps (карты отпечатков) и Query Completion Tables (таблицы завершения запросов).
Онлайн: Клиент отслеживает ввод пользователя и отправляет Partial Query на сервер. Сервер вычисляет отпечаток (Fingerprint) частичного запроса, быстро находит соответствующую Query Completion Table и возвращает упорядоченный набор предсказаний клиенту для отображения.

Актуальность для SEO

Высокая. Описанная система является фундаментальной технологией, лежащей в основе функции Autocomplete (Google Suggest), которая активно используется в поиске Google, браузерах и тулбарах. Хотя базовые принципы, заложенные в патенте (ранжирование по популярности, предварительные вычисления), остаются актуальными, современные системы, вероятно, используют более сложные механизмы ранжирования, фильтрации и персонализации.

Важность для SEO

Влияние на SEO значительно (85/100). Патент не описывает алгоритмы ранжирования веб-документов, но он критически важен для понимания того, как формируется поисковый спрос и как пользователи взаимодействуют с поисковой строкой. Autocomplete напрямую влияет на выбор ключевых слов пользователями, направляя их к наиболее популярным формулировкам. Понимание механизмов формирования и ранжирования подсказок необходимо для эффективного исследования ключевых слов, анализа интента и управления репутацией (SERM/ORM).

Термины и определения

Authorized Historical Queries List (Список разрешенных исторических запросов): Список ранее отправленных запросов, которые прошли фильтрацию (например, по конфиденциальности, частоте, уместности) и могут быть использованы для генерации подсказок.
Chunking (Чанкинг): Метод оптимизации хранения данных для длинных запросов. Частичный запрос делится на Префикс (Prefix) и Суффикс (Suffix). Это позволяет использовать одну таблицу для нескольких вариантов завершения, сокращая объем данных.
Fingerprint (Отпечаток): Хеш-значение (например, 64-битное число), рассчитанное для частичного или полного запроса. Используется для быстрого поиска и сопоставления запросов в структурах данных.
Fingerprint-to-Table Map (Карта соответствия отпечатков таблицам): Структура данных, которая связывает Fingerprint частичного запроса (или его префикса) с соответствующей Query Completion Table. Позволяет быстро найти нужный набор подсказок.
Historical Query Log (Журнал исторических запросов): База данных, содержащая логи ранее отправленных поисковых запросов от сообщества пользователей за определенный период времени. Является источником данных для системы.
Ordered Set Builder (Построитель упорядоченных наборов): Компонент системы, который обрабатывает Authorized Historical Queries List и генерирует Fingerprint-to-Table Maps и Query Completion Tables в офлайн-режиме.
Partial Query (Частичный запрос): Часть запроса (несколько символов или слов), введенная пользователем до завершения ввода. Отправляется на сервер для получения предсказаний.
Query Completion Table (Таблица завершения запросов): Таблица, содержащая упорядоченный список полных запросов (или их отпечатков), которые релевантны определенному частичному запросу. Запросы упорядочены по критерию ранжирования (например, Frequency).
Ranking Criteria / Ranking Score (Критерии / Оценка ранжирования): Правила и метрики, используемые для упорядочивания предсказанных запросов. В патенте упоминаются частота отправки (Frequency), свежесть (дата/время последней отправки), персонализация.

Ключевые утверждения (Анализ Claims)

Патент фокусируется на методе генерации и предоставления упорядоченных подсказок на основе исторических данных сообщества, преимущественно с использованием предварительных вычислений.

Claim 1, 2 (Независимые и зависимые): Описывают основной процесс и инфраструктуру.

Система получает частичный запрос (Partial Query) от пользователя до того, как он завершил ввод.
Система получает набор полных запросов, ранее отправленных сообществом пользователей, упорядоченных по критерию ранжирования.
Система отправляет этот упорядоченный набор пользователю.
Ключевое условие: получение набора (шаг 2) происходит путем доступа к одному из множества предварительно сгенерированных упорядоченных подмножеств исторических запросов. Эти подмножества создаются заранее путем:
- Идентификации исторических запросов и связанной с ними частоты (Frequency).
- Генерации упорядоченных подмножеств, где порядок основан на этой частоте.

Система заранее рассчитывает подсказки и их порядок на основе популярности и использует частичный запрос как ключ для быстрого доступа к нужному предварительно рассчитанному набору.

Claim 3 (Независимый): Альтернативное описание предварительной генерации с фокусом на структуре.

До получения частичного запроса система идентифицирует множество наборов. Каждый набор связан с "единицей запроса" (query unit, т.е. частичным запросом) и содержит исторические запросы с соответствующими значениями ранжирования (ranking value).
Система упорядочивает запросы в этих наборах в соответствии с этими значениями.
Получение упорядоченного набора (в ответ на частичный запрос) включает идентификацию соответствующего набора из этого множества.

Claim 5 (Независимый): Описывает процесс получения упорядоченного набора.

Получение частичного запроса до завершения ввода.
Получение упорядоченного набора полных запросов от сообщества. Этот шаг включает:
- Идентификацию множества ранее отправленных исторических запросов, релевантных частичному запросу.
- Упорядочивание подмножества этих запросов по критерию ранжирования.
- Идентификацию набора из этого упорядоченного подмножества.
Отправка набора пользователю.

Этот пункт описывает логический процесс (идентификация, упорядочивание, выборка), который может происходить как офлайн (как в Claim 1), так и потенциально в реальном времени.

Где и как применяется

Изобретение затрагивает этапы, связанные с обработкой логов пользовательского поведения и взаимодействием с пользователем в реальном времени.

INDEXING / QUNDERSTANDING (Офлайн-обработка)
На этом этапе происходит основная подготовительная работа. Система анализирует данные, полученные из Historical Query Log (что можно рассматривать как результат "сканирования" пользовательского поведения). Происходит индексация и извлечение признаков из этих логов:

Сбор и фильтрация исторических запросов.
Подсчет частоты (Frequency) и сбор мета-информации.
Построение Query Completion Tables и Fingerprint-to-Table Maps с помощью Ordered Set Builder.

QUNDERSTANDING – Понимание Запросов (Онлайн-обработка)
Это основной этап применения патента в реальном времени. Система интерпретирует ввод пользователя для предоставления подсказок.

Получение Partial Query от клиента.
Препроцессинг частичного запроса (опционально: исправление опечаток с помощью Spell Module).
Вычисление Fingerprint.
Поиск соответствующей Query Completion Table через Fingerprint-to-Table Map.
Возврат упорядоченного набора предсказанных запросов.

Входные данные:

Офлайн: Historical Query Log (запросы, частота, метаданные, IP-адреса, уникальные идентификаторы пользователей).
Онлайн: Partial Query, информация о пользователе/контексте (язык, местоположение, тип устройства - для выбора подходящей карты отпечатков).

Выходные данные:

Офлайн: Fingerprint-to-Table Maps, Query Completion Tables.
Онлайн: Упорядоченный набор предсказанных полных запросов (подсказок).

На что влияет

Специфические запросы: Влияет на все типы запросов (информационные, навигационные, транзакционные), для которых существует достаточно исторических данных для генерации подсказок. Особенно сильно влияет на запросы с высокой частотой и формирование long-tail запросов.
Типы контента и форматы: Патент фокусируется исключительно на текстовых строках запросов (Queries) и URL.
Языковые и географические ограничения: Система спроектирована с учетом этих факторов. Патент описывает возможность создания отдельных Fingerprint-to-Table Maps для разных языков или географических регионов, что позволяет предоставлять локализованные подсказки.

Когда применяется

Триггеры активации: Активируется при вводе пользователем данных в поле поиска. Частичный ввод идентифицируется по различным сигналам: ввод определенного количества символов, ввод разделителя (пробела) или пауза при вводе.
Условия работы: Работает, когда для введенного частичного запроса существуют предварительно рассчитанные подсказки в Query Completion Tables, прошедшие фильтрацию.
Фильтры (Исключения): Запросы не попадают в подсказки, если они не прошли privacy filter (слишком мало уникальных пользователей), appropriateness filter (неуместный контент) или anti-spoofing filter (попытки накрутки).

Пошаговый алгоритм

Процесс А: Офлайн-генерация структур данных (Ordered Set Builder)

Сбор данных: Получение данных из Historical Query Log.
Фильтрация: Применение фильтров (конфиденциальность, частота, анти-спам, уместность) для создания Authorized Historical Queries List.
Итеративная обработка: Для каждого разрешенного запроса:
1. Идентификация частичных запросов: Определение всех возможных префиксов (например, для "hotmail" это "h", "ho", "hot" и т.д.).
2. Создание/Обновление таблиц: Для каждого префикса находится соответствующая Query Completion Table. Полный запрос добавляется в эту таблицу с его ранговым значением (Frequency).
Упорядочивание: Query Completion Tables сортируются по ранговому значению. Таблицы обрезаются до Топ-N лучших подсказок.
Оптимизация (Chunking): Для уменьшения количества таблиц может использоваться чанкинг. Длинные запросы делятся на Префикс и Суффикс, и создаются укрупненные таблицы.
Построение карт: Генерация Fingerprint-to-Table Maps, которые связывают отпечатки частичных запросов (или их префиксов) с соответствующими Query Completion Tables.

Процесс Б: Обработка запроса в реальном времени (Prediction Server)

Получение ввода: Сервер получает Partial Query от клиента.
Препроцессинг (Опционально): Корректировка орфографии.
Выбор карты: Определение подходящей Fingerprint-to-Table Map на основе контекста (язык, местоположение пользователя).
Обработка длины (Chunking Logic): Определение длины запроса (L). Если L меньше размера чанка (C), обрабатывается весь запрос. Если L >= C, запрос делится на Префикс и Суффикс.
Вычисление отпечатка: Применение хеш-функции к частичному запросу (или его Префиксу) для получения Fingerprint.
Поиск таблицы: Использование Fingerprint для поиска соответствующей Query Completion Table в выбранной карте.
Фильтрация (При L >= C): Если используется чанкинг, система просматривает таблицу и отбирает записи, чей Суффикс соответствует Суффиксу частичного запроса пользователя.
Извлечение подсказок: Получение Топ-N упорядоченных предсказанных запросов из таблицы (или отфильтрованного списка).
Передача результатов: Отправка набора подсказок клиенту.

Какие данные и как использует

Данные на входе

Патент сосредоточен на использовании данных о поведении пользователей и системных данных для генерации подсказок.

Поведенческие факторы (Ключевые):
- Historical Query Log: Логи ранее отправленных запросов. Это основной источник данных.
- Частота отправки (Frequency): Количество раз, когда запрос был отправлен сообществом пользователей.
- Уникальные идентификаторы пользователей (если разрешено): Используются для фильтрации конфиденциальности (убедиться, что запрос был отправлен более чем N уникальными пользователями) и для персонализации.
Временные факторы:
- Дата и время отправки запроса: Используются для определения свежести запроса и могут влиять на ранжирование подсказок.
Пользовательские и Географические факторы:
- IP-адрес/Местоположение: Используется для выбора соответствующей локализованной Fingerprint-to-Table Map и для анти-спуфинг фильтров.
- Язык: Используется для выбора языковой модели подсказок.
- Информация профиля пользователя (User Profile): Может использоваться для персонализации или ре-ранжирования подсказок.
- Характеристики сообщества (Community Characteristics): Данные о группе, к которой принадлежит пользователь.

Какие метрики используются и как они считаются

Frequency (Частота): Основная метрика ранжирования. Подсчитывается количество отправок конкретного запроса в Historical Query Log за определенный период.
Ranking Score (Оценка ранжирования): Числовое значение, используемое для упорядочивания подсказок в Query Completion Table. Может быть равно Frequency или рассчитываться на основе комбинации факторов (например, частота + свежесть). Патент приводит пример, где недавние запросы (за последние 24 часа) получают больший вес (например, 2), чем более старые (вес 1).
Fingerprint (Отпечаток): Рассчитывается путем применения хеш-функции к строке запроса.
Пороги фильтрации:
- Минимальная частота: Запросы с частотой ниже порога могут быть исключены.
- Порог конфиденциальности (N): Минимальное количество уникальных пользователей, которые должны были отправить запрос, чтобы он попал в Authorized Historical Queries List.

Популярность как основа ранжирования подсказок: Основным фактором, определяющим, какие подсказки будут показаны и в каком порядке, является их популярность (Frequency) среди сообщества пользователей. Система стремится предсказать наиболее вероятный запрос.
Предварительные вычисления для скорости: Система полагается на офлайн-обработку больших объемов данных (Historical Query Log) для создания предварительно рассчитанных и упорядоченных наборов подсказок (Query Completion Tables). Это позволяет системе Autocomplete работать с минимальной задержкой в реальном времени.
Эффективность доступа и хранения: Использование хеширования (Fingerprints) и карт соответствия (Fingerprint-to-Table Maps) является ключевым для быстрого поиска. Механизм Chunking используется для оптимизации хранения данных по длинным запросам.
Фильтрация и качество данных: Патент подчеркивает важность фильтрации исходных данных для обеспечения конфиденциальности (требование нескольких уникальных пользователей для запроса), уместности контента и защиты от манипуляций (anti-spoofing).
Контекстуализация и персонализация: Система предусматривает возможность адаптации подсказок под контекст пользователя. Это достигается путем создания отдельных наборов данных для разных языков/регионов, а также путем потенциального ре-ранжирования подсказок на основе профиля пользователя (User Profile).
Влияние на формирование спроса: Показывая наиболее популярные запросы первыми, система не просто отражает спрос, но и формирует его, направляя пользователей к устоявшимся формулировкам.

Best practices (это мы делаем)

Исследование ключевых слов через Autocomplete: Активно используйте данные Autocomplete как прямой источник информации о том, что и как ищут пользователи в реальном времени. Патент подтверждает, что эти данные основаны на реальных исторических запросах и ранжируются по популярности (Frequency).
Приоритезация запросов из подсказок: При сборе семантического ядра отдавайте приоритет формулировкам, которые появляются в подсказках. Это запросы с подтвержденным спросом и частотой.
Анализ интента и трендов: Анализируйте подсказки для понимания доминирующих интентов и смежных тем. Поскольку система учитывает свежесть (Recency) при ранжировании, Autocomplete помогает быстро выявлять возникающие тренды.
Локализованное исследование спроса: Используйте настройки местоположения и языка при анализе подсказок. Патент указывает, что система генерирует разные наборы данных (Fingerprint-to-Table Maps) для разных контекстов, поэтому подсказки будут отличаться в зависимости от региона.
ORM/SERM (Управление репутацией): Регулярно отслеживайте подсказки, связанные с брендовыми запросами. Если появляются негативные подсказки, это указывает на устойчивый интерес пользователей к этой теме (преодолен порог частоты и приватности), что требует внимания и проработки негатива в выдаче.

Worst practices (это делать не надо)

Попытки манипулировать подсказками (Накрутка/Спуфинг): Патент явно упоминает использование фильтров (anti-spoofing filters) для предотвращения манипуляций путем генерации большого количества искусственных запросов. Попытки "накрутить" подсказки, скорее всего, будут отфильтрованы.
Игнорирование подсказок при SEO-оптимизации: Создание контента под запросы, которых нет в Autocomplete (особенно ВЧ и СЧ), рискованно, так как система подсказок будет направлять пользователей к другим, более популярным формулировкам.
Оптимизация только под один вариант запроса: Игнорирование синонимичных или близких по смыслу формулировок, которые также присутствуют в подсказках, ведет к потере потенциального трафика.

Стратегическое значение

Патент подтверждает, что Autocomplete является дата-driven системой, основанной на анализе поведения миллионов пользователей. Для SEO-стратегии это означает, что данные из подсказок являются одним из самых надежных источников информации о реальном спросе. Система Autocomplete действует как "фильтр популярности" для поисковых запросов. Стратегически важно интегрировать анализ подсказок во все этапы работы с семантикой — от первичного исследования до оптимизации контента и отслеживания трендов.

Практические примеры

Сценарий: Исследование спроса для нового продукта (Электросамокаты)

Задача: Определить ключевые направления спроса для оптимизации категорий интернет-магазина.
Действие: Анализ подсказок Autocomplete для базового запроса "электросамокат".
Анализ (на основе патента): Система показывает подсказки, ранжированные по частоте (Frequency). Например:
1. электросамокат купить
2. электросамокат xiaomi
3. электросамокат kugoo
4. электросамокат взрослый
Вывод и Применение: Наибольший спрос сосредоточен на покупке (1), конкретных брендах (2, 3) и типе пользователя (4). Необходимо убедиться, что эти направления имеют приоритет в структуре сайта и оптимизации. Запрос "электросамокат взрослый" указывает на важность сегментации по возрасту.

Сценарий: ORM и отработка негатива

Задача: Мониторинг репутации бренда "Банк XYZ".
Действие: Проверка подсказок по запросу "Банк XYZ".
Наблюдение: В подсказках появляется вариант "Банк XYZ обман".
Анализ (на основе патента): Появление этой подсказки означает, что она преодолела порог фильтрации по частоте и количеству уникальных пользователей. Существует устойчивый и частый интерес к этой теме.
Реакция: Необходимо срочно проанализировать поисковую выдачу по запросу "Банк XYZ обман" и реализовать стратегию по вытеснению негатива позитивным или нейтральным контентом. Игнорировать эту подсказку нельзя, так как Autocomplete будет продолжать предлагать ее пользователям.

Как Google определяет порядок подсказок в Autocomplete?

Согласно патенту, основным критерием ранжирования является популярность или частота использования запроса (Frequency) среди сообщества пользователей. Система анализирует Historical Query Log и выводит наиболее частые запросы выше. Также могут учитываться свежесть запроса (недавние запросы могут иметь больший вес) и факторы персонализации.

Откуда берутся данные для формирования подсказок?

Данные берутся из Historical Query Log — журнала реальных поисковых запросов, отправленных пользователями Google. Эти данные агрегируются, фильтруются и обрабатываются в офлайн-режиме для создания базы подсказок. Патент не упоминает использование данных из контента веб-страниц для формирования самих подсказок.

Можно ли манипулировать поисковыми подсказками (накручивать их)?

Патент описывает механизмы защиты от манипуляций. Упоминаются anti-spoofing filters, которые отсеивают множественные отправки одного и того же запроса от одного пользователя или клиента. Также используется фильтр конфиденциальности, требующий, чтобы запрос был отправлен определенным минимальным количеством уникальных пользователей. Это делает манипуляции сложными и рискованными.

Как часто обновляются данные в Autocomplete?

Патент указывает, что генерация базы подсказок (Authorized Historical Queries List и Query Completion Tables) происходит периодически (ежечасно, ежедневно, еженедельно) в офлайн-режиме. Это позволяет поддерживать актуальность подсказок и отражать изменения в поведении пользователей и текущие тренды.

Влияет ли Autocomplete на ранжирование сайтов в органической выдаче?

Патент не описывает влияния механизма Autocomplete на алгоритмы ранжирования веб-документов. Однако Autocomplete оказывает значительное косвенное влияние: он формирует спрос, направляя пользователей к определенным формулировкам. Если пользователи чаще кликают на подсказку и переходят в поиск, это увеличивает частотность данного запроса, что, в свою очередь, влияет на SEO-стратегии.

Почему подсказки отличаются в разных регионах или на разных языках?

Система спроектирована для учета контекста. Патент описывает создание нескольких Fingerprint-to-Table Maps — отдельных баз данных подсказок для разных языков, географических регионов или сообществ пользователей. При получении частичного запроса система выбирает наиболее подходящую базу на основе местоположения (IP) и языка пользователя.

Использует ли Google персонализацию при формировании подсказок?

Да, патент упоминает возможность использования персонализации. Система может использовать информацию из профиля пользователя (User Profile) или его предыдущие поисковые запросы для выбора или ре-ранжирования подсказок. Например, запросы, которые пользователь уже отправлял ранее, могут быть визуально выделены или подняты выше в списке.

Что такое "Chunking" и как он используется в Autocomplete?

"Chunking" — это метод оптимизации хранения данных для длинных частичных запросов, описанный в патенте. Чтобы не создавать отдельную таблицу подсказок для каждого символа длинного запроса, система разбивает его на префикс и суффикс. Это позволяет использовать одну таблицу для нескольких вариантов завершения, что значительно сокращает объем хранимых данных и ускоряет поиск подсказок.

Учитывает ли Autocomplete орфографические ошибки в частичном запросе?

Да, патент упоминает возможность препроцессинга частичного запроса перед генерацией подсказок. Это включает идентификацию и исправление очевидных опечаток (с помощью Spell Module). Подсказки, соответствующие исправленному варианту, могут быть объединены с основными результатами.

Какова главная ценность этого патента для SEO-специалиста?

Главная ценность заключается в подтверждении того, что Autocomplete — это не случайный набор слов, а система, основанная на реальных исторических данных о поведении пользователей и ранжированная по популярности. Это делает Autocomplete критически важным инструментом для исследования ключевых слов, понимания реального спроса и мониторинга репутации бренда.

Как Google использует частичные запросы, логи и профили пользователей для формирования подсказок (Autocomplete) и предварительной загрузки результатов

Патент описывает технологию Google Autocomplete (Suggest). Система предсказывает финальный запрос на основе частично введенного текста, используя словари, составленные из популярных запросов сообщества. Предсказания ранжируются по популярности и персонализируются с учетом профиля пользователя. Система также может заранее кэшировать результаты для наиболее вероятных подсказок, чтобы ускорить выдачу.

US7836044B2
2010-11-16

Персонализация
Семантика и интент

Как Google объединяет персональную историю поиска и популярные запросы для формирования подсказок (Autocomplete)

Google формирует поисковые подсказки (Autocomplete), комбинируя два источника данных: запросы, которые пользователь вводил ранее (персональная история), и запросы, популярные среди сообщества пользователей. Система ранжирует эти подсказки, учитывая частоту и новизну персональных запросов, и визуально выделяет персональные подсказки от общих.

US8639679B1
2014-01-28

Персонализация
Поведенческие сигналы

Как Google переписывает частичные запросы для улучшения подсказок Autocomplete, если стандартных вариантов недостаточно

Патент описывает механизм работы Google Autocomplete для сложных или редких запросов. Если система не находит достаточно качественных или популярных подсказок для введенного текста, она переписывает частичный запрос. Это включает классификацию терминов на обязательные и опциональные, удаление менее важных слов или замену слов на синонимы. Это позволяет предложить пользователю релевантные и популярные полные запросы, даже если они не идеально соответствуют тому, что было введено изначально.

US9235654B1
2016-01-12

Семантика и интент

Как Google автоматически создает и ранжирует шаблоны запросов с сущностями для улучшения поисковых подсказок (Autocomplete)

Google использует систему для автоматического обнаружения паттернов в поисковых запросах, которые включают фиксированные термины и сущности из определенной категории (например, «рестораны в [городе]»). Система генерирует шаблоны запросов, оценивает их качество на основе частоты использования, разнообразия сущностей и их распределения, а затем использует эти шаблоны для формирования более точных и структурированных поисковых подсказок в реальном времени.

US9529856B2
2016-12-27

Knowledge Graph
Семантика и интент
Поведенческие сигналы

Как Google объединяет автодополнение и перевод для показа подсказок с определениями на разных языках

Google использует механизм для улучшения работы словарных и переводческих сервисов. Когда пользователь вводит частичный запрос на одном языке, система предсказывает полные варианты запроса на основе исторических данных поиска. Одновременно система получает переводы этих предсказаний на другой язык и показывает пользователю список автодополнения, где рядом с каждым вариантом сразу отображается его перевод или краткое определение.

US8312032B2
2012-11-13

Мультиязычность

Как Google кластеризует похожие страницы, анализируя, куда пользователи переходят дальше (Co-visitation)

Google анализирует навигационные пути пользователей для определения схожести документов. Если после просмотра Страницы А и Страницы Б пользователи часто переходят к одному и тому же набору последующих страниц, Google считает Страницу А и Страницу Б похожими и объединяет их в кластер. Этот механизм позволяет определять тематическую близость на основе поведения пользователей.

US8650196B1
2014-02-11

Поведенческие сигналы
SERP
Семантика и интент

Как Google автоматически добавляет текст существующих объявлений к сайтлинкам (Sitelinks) для повышения CTR

Google использует систему для автоматического улучшения сайтлинков в рекламных объявлениях. Система анализирует существующие текстовые объявления (креативы) рекламодателя и определяет их конечные целевые страницы, игнорируя параметры отслеживания. Затем она сопоставляет их с URL сайтлинков и добавляет наиболее релевантный и эффективный текст креатива к сайтлинку для повышения кликабельности (CTR).

US10650066B2
2020-05-12

Ссылки
SERP

Как Google комбинирует визуальное сходство и поведение пользователей для переранжирования поиска по картинкам

Google использует механизм для перекрестной проверки релевантности изображений, объединяя поведенческие сигналы (клики) с визуальным анализом. Если изображение часто кликают и оно визуально похоже на другие релевантные изображения по запросу (совместная релевантность), его рейтинг агрессивно повышается. Если оно редко кликается и визуально отличается (совместная нерелевантность), его рейтинг понижается. Это защищает выдачу от кликбейта.

US8209330B1
2012-06-26

Поведенческие сигналы
SERP
Мультимедиа

Как Google автоматически изучает синонимы, анализируя последовательные запросы пользователей и вариации анкорных текстов

Google использует методы для автоматического определения синонимов, акронимов и эквивалентных фраз. Система анализирует логи запросов: если пользователь быстро меняет запрос, сохраняя часть слов (например, с «отели в париже» на «гостиницы в париже»), система учится, что «отели» и «гостиницы» эквивалентны. Также анализируются вариации анкорных текстов, указывающих на одну и ту же страницу.

US6941293B1
2005-09-06

Семантика и интент
Ссылки

Как Google генерирует «синтетический анкорный текст», анализируя структуру и контекст ссылающихся страниц

Google анализирует структурно похожие страницы, ссылающиеся на различные ресурсы. Определяя, где известные поисковые запросы (Seed Queries) появляются в структуре этих ссылающихся страниц (например, в заголовках или Title), Google создает шаблоны. Эти шаблоны затем используются для извлечения текста из аналогичных мест на других страницах, создавая «синтетический описательный текст» (аналог анкорного текста) для целевых ресурсов. Это улучшает ранжирование, даже если фактический анкорный текст низкого качества.

US9208232B1
2015-12-08

Ссылки
Структура сайта
Семантика и интент

Как Google интегрирует поиск в инструменты создания контента и использует распространение ссылок для расчета репутации автора

Google разработал систему (UDS), интегрирующую поиск в инструменты создания контента (Email, блоги, форумы). Система автоматически уточняет запросы на основе контекста и профилей пользователей. Если автор вставляет ссылку, а читатель кликает по ней, Google использует это взаимодействие для расчета «оценки репутации» автора и как поведенческий сигнал качества контента.

US7844603B2
2010-11-30

Ссылки
Поведенческие сигналы
EEAT и качество

Как Google использует последовательность кликов пользователей (Co-selection) для классификации изображений и фильтрации контента (SafeSearch)

Google анализирует, какие изображения пользователи выбирают последовательно в рамках одной сессии (co-selection). Если Изображение Б часто выбирается сразу после Изображения А (с известной темой), система присваивает Изображению Б ту же тему. Этот механизм использует графовый анализ поведения для уточнения тематики изображений, что критично для повышения релевантности и работы фильтров, таких как SafeSearch.

US8856124B2
2014-10-07

Безопасный поиск
Поведенческие сигналы
Семантика и интент

Как Google предсказывает, какие сайты будут интересны пользователю на основе его контекста (местоположение, время, интересы) без поискового запроса

Google использует агрегированные данные о поведении пользователей для прогнозирования контента. Система анализирует контекст пользователя (местоположение, время, интересы, историю) и определяет, какие сайты посещают похожие пользователи в аналогичном контексте значительно чаще, чем пользователи в целом. Этот механизм позволяет предлагать релевантный контент без явного запроса (например, в Google Discover).

US9195703B1
2015-11-24

Персонализация
Поведенческие сигналы
Семантика и интент

Как Google использует данные о совместном посещении сайтов (Co-Visitation) для персонализации и повышения релевантности выдачи

Google использует поведенческие данные сообщества пользователей для определения тематической связи между сайтами. Если пользователи часто посещают Сайт А и Сайт Б в течение короткого промежутка времени (Co-Visitation), система создает "Вектор повышения" (Boost Vector). Этот вектор используется для повышения в выдаче тематически связанных сайтов, основываясь на истории посещений пользователя или контексте текущего сайта, улучшая персонализацию и релевантность.

US8874570B1
2014-10-28

Поведенческие сигналы
Персонализация
SERP

Как Google находит фактические ответы, начиная с потенциальных ответов и связывая их с запросами пользователей (Reverse Question Answering)

Google использует метод «обратного ответа на вопрос» для эффективного поиска фактов. Вместо глубокого анализа запроса система начинает с идентификации потенциальных ответов (например, дат, измерений) в индексе. Затем она определяет, для каких запросов эти ответы релевантны, анализируя, какие документы высоко ранжируются и получают клики по этим запросам. Это позволяет точно сопоставлять факты с разнообразными формулировками вопросов.

US9116996B1
2015-08-25

Поведенческие сигналы
Семантика и интент