Как Google предотвращает дублирование контента в потоковых результатах поиска (Streaming Search)

CLIENT STATE RESULT DE-DUPING (Дедупликация результатов на основе состояния клиента)

US9058392B1
Google LLC
2012-03-22
2015-06-16

Патент Google описывает технический механизм доставки обновляемых (потоковых) результатов поиска в реальном времени. Система кодирует идентификаторы уже отправленных результатов в специальную строку состояния (State String) и передает ее клиенту через Polling URL. При запросе обновлений клиент возвращает эту строку, позволяя серверу отфильтровать дубликаты (как по URL, так и по контенту) перед отправкой новых данных.

Какую проблему решает

Патент решает проблему эффективной доставки потоковых (streaming) результатов поиска в реальном времени. Когда пользователь наблюдает за обновляющейся выдачей (например, во время новостного события), система должна постоянно отправлять новый контент по мере его индексации, но избегать повторной отправки результатов, которые пользователь уже видел. Хранение состояния сессии для каждого пользователя на сервере ресурсоемко и плохо масштабируется. Патент предлагает решение, которое переносит задачу хранения состояния на сторону клиента.

Что запатентовано

Запатентован метод дедупликации потоковых результатов поиска с использованием состояния, управляемого клиентом. Идентификаторы уже отправленных результатов (Doc ID для URL и Content ID для контента) кодируются в строку состояния (State String) и встраиваются в URL для опроса (Polling URL). Когда клиент запрашивает обновления, он использует этот Polling URL, тем самым сообщая серверу, что он уже получил. Сервер использует эту информацию для фильтрации дубликатов перед отправкой новых данных.

Как это работает

Система работает следующим образом:

Инициализация: Клиент получает первую партию потоковых результатов. Сервер генерирует идентификаторы для этих результатов и кодирует их в State String.
Передача состояния: State String встраивается в Polling URL и отправляется клиенту вместе с результатами и клиентским кодом (например, JavaScript/AJAX) для выполнения периодических запросов.
Запрос обновлений: Клиент периодически (например, каждые 30-60 секунд) отправляет запрос на сервер, используя Polling URL.
Дедупликация: Сервер извлекает State String, получает новые результаты из индекса, сравнивает их идентификаторы с теми, что в State String, и удаляет дубликаты.
Обновление: Сервер отправляет только новые результаты и обновленный Polling URL (с добавленными новыми идентификаторами).

Актуальность для SEO

Средняя. Технологии потокового поиска и обновления контента в реальном времени (например, в Новостях, блоках «Последние результаты», социальных лентах) остаются актуальными. Описанный механизм дедупликации с управлением состоянием на стороне клиента является надежным инфраструктурным решением для повышения эффективности и масштабируемости подобных систем.

Важность для SEO

Патент имеет минимальное значение (2/10) для практического SEO. Это чисто технический, инфраструктурный патент. Он не описывает факторы ранжирования или методы оценки качества контента. Он объясняет механизм доставки контента в специфических блоках выдачи (Streaming Search), но не дает SEO-специалистам прямых рычагов влияния на этот процесс, кроме понимания того, как Google технически обрабатывает дубликаты в реальном времени.

Термины и определения

Client-Side Streaming Code (Клиентский код для стриминга): Исполняемый код (например, JavaScript, использующий AJAX), отправляемый сервером клиенту. Он инструктирует браузер периодически запрашивать обновления у сервера с помощью Polling URL без перезагрузки всей страницы.
Content ID (Идентификатор контента): Уникальный идентификатор (например, 64-битный хеш), сгенерированный на основе содержимого документа (или его части). Используется для обнаружения дубликатов контента, даже если он размещен на разных URL (например, синдицированные новости).
De-duplication (Дедупликация): Процесс сравнения новых результатов с уже отправленными (на основе State String) и удаления дубликатов по Doc ID или Content ID.
Doc ID (Идентификатор документа): Уникальный идентификатор (например, 64-битный хеш), сгенерированный на основе URL документа. Используется для обнаружения дубликатов страниц с идентичными адресами.
Polling URL (URL для опроса): Специально сформированный URL, который клиент использует для периодического запроса новых потоковых результатов. Он содержит исходные поисковые термины и State String.
State String (Строка состояния): Закодированная строка, содержащая Doc IDs и Content IDs всех потоковых результатов, ранее отправленных клиенту в текущей сессии. Позволяет серверу понять, какой контент клиент уже получил.
Streaming Results / Recent Results (Потоковые / Недавние результаты): Набор результатов поиска, отобранный на основе свежести (недавно проиндексированные, созданные или измененные) и предназначенный для обновления в реальном времени на странице выдачи.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной процесс предоставления недублирующихся результатов поиска с фокусом на идентификацию контента.

Система получает первый запрос.
Получает первый список результатов.
Генерирует Polling URL, включающий уникальные идентификаторы для каждого результата из первого списка, причем каждый идентификатор представляет контент результата (Content ID).
Отправляет первый ответ клиенту, включающий результаты и Polling URL.
[Позже, используя Polling URL] Система идентифицирует поисковые термины и уникальные идентификаторы из Polling URL.
Получает второй список результатов.
Идентифицирует уникальные идентификаторы (представляющие контент) результатов второго списка, которые совпадают с идентификаторами из Polling URL (т.е. дубликаты).
Обновляет второй список, удаляя результаты с совпадающими идентификаторами.
Модифицирует Polling URL, добавляя идентификаторы оставшихся (новых) результатов.
Отправляет второй ответ клиенту с обновленным списком и модифицированным Polling URL.

Ядром изобретения является использование Polling URL для передачи состояния (полученного контента) от клиента обратно к серверу, что позволяет серверу эффективно выполнять дедупликацию без хранения состояния сессии у себя (stateless operation).

Claim 4 (Зависимый): Уточняет, что генерация Polling URL также включает кодирование информации, идентифицирующей URL, связанные с первым списком результатов (т.е. Doc IDs). Это обеспечивает дедупликацию не только по контенту, но и по адресу.

Claim 7 (Зависимый от 6): Уточняет, что кодирование информации о контенте (генерация Content ID) включает вычисление хеша (hash) части контента каждого документа.

Claim 9 (Зависимый от 1): Уточняет, что первый ответ также содержит исполняемый код (Client-Side Streaming Code), который инструктирует клиента отправлять периодические запросы обновлений, используя Polling URL.

Где и как применяется

Патент описывает инфраструктурный механизм доставки контента, который затрагивает несколько этапов поиска.

INDEXING – Индексирование и извлечение признаков
Чтобы механизм потокового поиска работал, новый контент должен быть быстро проиндексирован. На этапе индексирования система должна присваивать временные метки (timestamps) и генерировать Doc ID (хеш URL) и Content ID (хеш контента).

RANKING – Ранжирование
Система использует специфический тип ранжирования для генерации Recent Results (Потоковых результатов). Это ранжирование фокусируется на свежести (recency) и релевантности запросу, отбирая контент, добавленный в индекс недавно (например, за последние 60 секунд).

RERANKING / METASEARCH – Переранжирование / Доставка
Основное применение патента. Механизм работает во время активной сессии пользователя на странице SERP. Он управляет доставкой обновлений внутри специального блока выдачи (Streaming Results block). Система получает свежих кандидатов и фильтрует их (De-Duplication), удаляя те результаты, которые уже были отправлены клиенту, основываясь на State String.

Входные данные:

Polling URL, полученный от клиента (содержит Search Terms и текущий State String).
Новые результаты из поискового индекса, соответствующие Search Terms (с их Doc IDs и Content IDs).

Выходные данные:

Список новых (недубликативных) потоковых результатов.
Обновленный Polling URL (с модифицированным State String).

На что влияет

Конкретные типы контента: Влияет на контент, требующий отображения в реальном времени. Патент упоминает новостные статьи, посты в блогах, а также контент из социальных сетей (упоминаются Google+, Facebook, Twitter).
Специфические запросы: Запросы, связанные с текущими событиями, трендами, новостями (QDF - Query Deserves Freshness).
Форматы контента: Блоки выдачи, которые обновляются автоматически без перезагрузки страницы (Streaming Search Results).

Когда применяется

Алгоритм применяется при следующих условиях:

Поисковая выдача (SERP) содержит блок потоковых результатов (Streaming Results).
Клиент получил и выполняет Client-Side Streaming Code.
Код инициирует периодический опрос (polling) сервера для получения обновлений по мере появления нового релевантного контента в индексе.

Пошаговый алгоритм

Этап 1: Инициализация сессии

Запрос: Клиент отправляет поисковый запрос.
Получение результатов: Сервер получает стандартные релевантные результаты и новейшие (Streaming) результаты из индекса.
Генерация идентификаторов: Для новейших результатов сервер генерирует Doc IDs (на основе URL) и Content IDs (на основе хеша контента).
Создание состояния: Сервер кодирует эти идентификаторы в State String.
Создание Polling URL: Сервер формирует Polling URL, включающий поисковые термины и State String.
Первая доставка: Сервер отправляет клиенту результаты, Polling URL и Client-Side Streaming Code.
Отображение: Клиент отображает результаты и запускает код стриминга.

Этап 2: Обновление потока (Цикл)

Ожидание: Клиентский код ждет заданный интервал (например, 30-60 секунд).
Запрос обновлений: Код отправляет асинхронный запрос (AJAX) на сервер, используя Polling URL.
Извлечение состояния: Сервер получает запрос и извлекает поисковые термины и State String. State String декодируется обратно в список идентификаторов.
Получение новых данных: Сервер запрашивает у индекса новые результаты, появившиеся с момента последнего запроса.
Дедупликация: Сервер генерирует Doc IDs и Content IDs для новых результатов и сравнивает их с идентификаторами из State String. Если найден дубликат (совпадение по Doc ID ИЛИ Content ID), результат отбрасывается.
Ослабление дедупликации (Опционально): Если новых результатов недостаточно для поддержания потока, система может ослабить дедупликацию и разрешить отправку некоторых дубликатов.
Обновление состояния: Сервер добавляет идентификаторы оставшихся (недубликативных) результатов в State String. При этом старые идентификаторы могут удаляться для контроля размера строки.
Генерация нового Polling URL: Сервер создает новый Polling URL с обновленным State String.
Доставка обновлений: Сервер отправляет новые результаты и новый Polling URL клиенту.
Обновление отображения: Клиент добавляет новые результаты в блок стриминга и возвращается к шагу 1 (Ожидание).

Какие данные и как использует

Данные на входе

Система использует следующие типы данных для обеспечения своей работы:

Технические факторы: URL документа. Критически важен для генерации Doc ID.
Контентные факторы: Содержимое документа (текст). Используется для генерации Content ID.
Временные факторы: Метки времени (timestamps) индексации, создания или модификации документа. Используются для определения, является ли результат «недавним» (Recent) и подлежит ли он включению в поток.
Пользовательские факторы: Исходный запрос пользователя (Search Terms), передаваемый в Polling URL.

Какие метрики используются и как они считаются

Doc ID: Уникальный идентификатор URL. Обычно рассчитывается как 64-битный хеш URL. Используется для предотвращения отправки одной и той же страницы дважды.
Content ID: Уникальный идентификатор контента. Рассчитывается как 64-битный хеш содержимого документа или его значимой части. Используется для предотвращения отправки дублирующегося контента, размещенного на разных URL.
Ограничения размера State String: Патент описывает методы контроля размера State String, чтобы он не превышал лимиты URL:
- Частичные хеши (Partial Hashes): Вместо полных 64-битных идентификаторов могут использоваться их части. Патент предполагает, что 21-битный поднабор может быть оптимальным компромиссом между размером строки и риском ложных срабатываний (коллизий).
- Временное ограничение (Time-based dropping): Хранение идентификаторов только за определенный период. Патент предлагает примеры: хранить Doc IDs за последнюю 1 минуту и Content IDs за последние 5 минут, исходя из предполагаемого объема внимания пользователя.
- Количественное ограничение: Хранение фиксированного числа идентификаторов (например, 10 Doc IDs и 50 Content IDs).

Патент описывает внутренние инфраструктурные процессы Google без прямых рекомендаций для SEO. Он дает понимание технических механизмов, обеспечивающих работу потокового поиска.

Инфраструктура и Масштабируемость: Основная цель патента — повышение эффективности и масштабируемости системы потокового поиска. Перенос управления состоянием (State String) на сторону клиента позволяет серверу не хранить данные сессий (stateless operation), что критично при большом количестве пользователей.
Два уровня дедупликации: Система использует два типа идентификаторов: Doc ID (по URL) и Content ID (по контенту). Это подтверждает способность Google эффективно распознавать и отфильтровывать не только полные дубликаты страниц, но и синдицированный или скопированный контент в реальном времени.
Фокус на свежести: Механизм предназначен для доставки контента, который был недавно проиндексирован. Это подчеркивает важность скорости индексации для попадания в блоки реального времени (QDF-запросы).
Оптимизация передачи данных: Использование частичных хешей (например, 21 бит) и временных ограничений (1-5 минут) для контроля размера State String показывает, как Google балансирует между точностью дедупликации и ограничениями веб-инфраструктуры (длина URL).

Патент является инфраструктурным и не дает прямых практических выводов для SEO-ранжирования. Однако он предоставляет важный контекст для работы со свежим контентом и понимания обработки дубликатов.

Best practices (это мы делаем)

Обеспечение максимальной скорости индексации: Для попадания в потоковые результаты (Streaming Search) контент должен быть проиндексирован мгновенно. Хотя патент не описывает, как этого достичь, он подчеркивает важность этого аспекта. Используйте чистую техническую оптимизацию, XML Sitemaps (включая News Sitemaps) и Indexing API.
Фокус на создании уникального контента: Использование Content ID для дедупликации означает, что Google активно фильтрует неуникальный контент в потоковой выдаче. Если вы публикуете новость, добавление уникальной ценности (аналитика, комментарии, дополнительные факты) критично, чтобы ваш контент не был сочтен дубликатом синдицированного источника и был показан в потоке.

Worst practices (это делать не надо)

Публикация синдицированного контента без изменений: Если вы используете контент из внешних источников (например, новостных агентств) и публикуете его без существенной переработки, механизм Content ID, скорее всего, идентифицирует его как дубликат. В потоковой выдаче приоритет может быть отдан только одной из копий.
Массовый репостинг или копирование: Попытки заполнить потоковую выдачу идентичными сообщениями или скопированным контентом на разных URL будут неэффективны из-за дедупликации по Content ID.

Стратегическое значение

Патент не меняет фундаментальные принципы SEO, но дает техническое понимание того, как Google управляет потоками данных в реальном времени. Для новостных сайтов, медиа и контент-провайдеров, зависящих от освещения текущих событий (QDF), это подтверждает стратегическую важность скорости и уникальности. Система спроектирована так, чтобы предоставлять пользователю разнообразный и не повторяющийся поток информации.

Практические примеры

Сценарий: Дедупликация синдицированной новости

Событие: Агентство Reuters публикует срочную новость. Google индексирует её.
Показ 1: Пользователь видит статью Reuters в потоке результатов. Сервер генерирует Content ID (например, Hash_R) и отправляет его пользователю в State String.
Публикация копии: Через 2 минуты сайт CNN публикует ту же самую статью Reuters (идентичный текст) под другим URL. Google индексирует её.
Запрос обновления: Браузер пользователя запрашивает обновления, отправляя State String, содержащий Hash_R.
Дедупликация: Сервер видит статью CNN как кандидата. Он вычисляет её Content ID и получает Hash_R. Сервер сравнивает его с идентификаторами из State String, находит совпадение и исключает статью CNN из ответа.
Результат: Пользователь не видит ту же самую новость повторно, даже если она пришла из другого источника (CNN).

Влияет ли этот патент на ранжирование сайтов?

Нет, напрямую не влияет. Патент описывает исключительно механизм доставки и дедупликации результатов, которые уже были отобраны и ранжированы системой поиска (вероятно, с сильным уклоном в свежесть). Он не содержит информации о том, как улучшить позиции сайта или повысить качество контента в глазах Google.

Что такое Doc ID и Content ID и в чем разница?

Doc ID — это идентификатор (хеш) URL документа. Он уникален для каждого адреса. Content ID — это идентификатор (хеш) содержимого документа. Если один и тот же текст размещен на разных URL, у них будут разные Doc IDs, но одинаковый Content ID. Google использует оба идентификатора для обеспечения максимальной чистоты потока результатов.

Как Google обрабатывает синдицированный контент согласно патенту?

Синдицированный контент (например, новость от информагентства, опубликованная на нескольких сайтах) будет идентифицирован как дубликат с помощью Content ID. В потоковой выдаче система стремится показать только одну копию такого контента, отфильтровывая остальные. Это подчеркивает важность создания уникальной добавленной ценности при публикации новостей.

Для каких типов поиска этот механизм актуален?

Он актуален для запросов, где важна свежесть информации (QDF) и где выдача обновляется в реальном времени. Это касается блоков «Последние результаты», новостного поиска, освещения живых событий (спортивные матчи, выборы, конференции) и мониторинга социальных сетей (патент упоминает Twitter, Facebook, Google+).

Что означает управление состоянием на стороне клиента (Client State)?

Это означает, что информация о том, какие результаты пользователь уже получил, хранится не на сервере Google, а передается клиенту (браузеру) в виде закодированной строки (State String) внутри Polling URL. Это позволяет Google экономить ресурсы и масштабировать систему, так как серверу не нужно отслеживать сессию каждого пользователя (stateless operation).

Почему Google ограничивает размер строки состояния (State String)?

Поскольку State String передается как часть URL, она ограничена максимальной длиной URL, поддерживаемой браузерами и серверами. Для контроля размера Google использует оптимизации: хранит только частичные хеши (например, 21 бит вместо 64) и удаляет старые идентификаторы (например, старше 5 минут для Content ID).

Поможет ли этот патент лучше оптимизировать сайт под Google Новости или QDF?

Косвенно. Патент не дает советов по оптимизации, но он показывает, как строго Google относится к дубликатам контента в потоках реального времени. Для успеха в Google Новостях и подобных блоках необходимо фокусироваться на скорости индексации и уникальности публикуемого материала, чтобы избежать дедупликации по Content ID.

Может ли дубликат все же быть показан пользователю?

Да, в двух случаях, описанных в патенте. Во-первых, если идентификатор был удален из State String из-за ограничений по времени или размеру (например, старше 5 минут). Во-вторых, если системе не хватает новых уникальных результатов для поддержания потока, она может «ослабить» дедупликацию и отправить дубликат.

Как быстро контент должен быть проиндексирован, чтобы попасть в этот поток?

Чрезвычайно быстро. Механизм работает с результатами, которые были добавлены в индекс совсем недавно. В патенте упоминаются примеры запроса результатов, добавленных за последние 60 секунд. Это требует использования самых быстрых методов индексации.

Используется ли этот механизм дедупликации в стандартной веб-выдаче?

Патент фокусируется именно на потоковых (Streaming) результатах, которые обновляются динамически. Стандартная статическая веб-выдача («10 синих ссылок») использует другие механизмы дедупликации и кластеризации, которые происходят на этапах индексирования и ранжирования, а не во время доставки контента пользователю в реальном времени.

Как Google генерирует, ранжирует и отображает результаты поиска в реальном времени (Real-Time Search)

Патент Google описывает комплексную систему для поиска в реальном времени. Он включает механизмы прогнозирования актуальных запросов, предварительного кэширования свежего контента (например, статусов из соцсетей), оценки качества этого контента и авторов. Также описана технология непрерывного обновления выдачи у пользователя с помощью "Time Token" и процесс обработки сокращенных URL.

US9043319B1
2015-05-26

Свежесть контента
SERP
Антиспам

Как Google объединяет разные URL в один результат, если они ведут на одну и ту же страницу (например, при мобильных редиректах)

Google использует механизм дедупликации для повышения разнообразия выдачи. Если несколько разных URL в результатах поиска перенаправляют пользователя на одну и ту же целевую страницу (например, из-за редиректа на мобильную версию, страницу входа или главную страницу), Google объединяет эти функциональные дубликаты в один замещающий результат.

US10007731B2
2018-06-26

SERP
Техническое SEO
Индексация

Как Google идентифицирует контент на одном устройстве (например, ТВ) и проактивно отправляет свежие и трендовые результаты поиска на другое (например, смартфон)

Google использует технологию "отпечатков контента" для идентификации того, что пользователь смотрит или слушает на первом устройстве. Система автоматически генерирует связанный поисковый запрос и отправляет на второе устройство "динамические текущие результаты". Приоритет отдается наиболее свежей, часто обновляемой и трендовой информации, создавая новый канал для дистрибуции контента.

US9875242B2
2018-01-23

Свежесть контента
Мультимедиа

Как Google агрегирует и фильтрует медиаконтент на основе подписок пользователя на платформах типа Google TV

Google использует систему для унифицированного поиска медиаконтента (фильмы, сериалы) из различных источников (стриминговые сервисы, ТВ, локальные хранилища). Система локально определяет, к каким сервисам у пользователя есть доступ (подписки), и фильтрует результаты, показывая только тот контент, который пользователь реально может посмотреть. Это механизм обеспечения видимости контента в агрегированных медиа-платформах.

US9317571B2
2016-04-19

Персонализация
Мультимедиа

Как Google использует машинное обучение для обнаружения дубликатов, анализируя контент до и после рендеринга

Google использует комплексную систему для обнаружения дубликатов, которая сравнивает как исходный HTML-код (Fetched Body), так и финальную версию страницы после выполнения JavaScript (Synthetic Body). Система вычисляет множество сигналов сравнения, включая основанные на контексте запроса (сниппеты), и использует модель машинного обучения для определения вероятности того, что страницы являются дубликатами.

US20140188919A1
2014-07-03

Индексация
SERP
Краулинг

Как Google использует данные о поведении пользователей внутри документов (время чтения разделов, закладки) для улучшения ранжирования

Google может собирать и анализировать данные о том, как пользователи взаимодействуют с электронными документами (например, PDF, DOC, HTML). Система отслеживает, какие разделы или страницы просматриваются дольше всего или добавляются в закладки. Эта агрегированная информация используется для повышения в ранжировании документов, чьи ключевые слова находятся в наиболее используемых (и, следовательно, ценных) разделах.

US8005811B2
2011-08-23

Поведенческие сигналы
SERP

Как Google определяет популярность и ранжирует физические события (концерты, выставки) в локальной выдаче

Google использует специализированную систему для ранжирования физических событий в определенном месте и времени. Система вычисляет оценку популярности события на основе множества сигналов: количества упоминаний в интернете, кликов на официальную страницу, популярности связанных сущностей (артистов, команд), значимости места проведения и присутствия в общих поисковых запросах о событиях. Затем результаты переранжируются для обеспечения разнообразия, понижая схожие события или события одной категории.

US9424360B2
2016-08-23

Local SEO
Поведенческие сигналы

Как Google использует структурированные данные для отображения прямых ссылок на песни в результатах поиска (Rich Snippets)

Google улучшает результаты поиска музыки, извлекая детали песен (названия, альбомы, продолжительность) из структурированной разметки (например, HTML5 microdata) на веб-страницах. Это позволяет Google отображать прямые ссылки на конкретные песни (вторичные ссылки) внутри основного блока результатов поиска, при условии соблюдения определенных порогов качества и популярности.

US9128993B2
2015-09-08

Ссылки
SERP
Индексация

Как Google обучается на поведении пользователя для персонализации весов источников в поисковой выдаче

Google использует сигналы интереса пользователя (клики, время просмотра) для динамической корректировки весов различных источников данных (например, ключевых слов, тем, типов контента). Система определяет, какие источники наиболее полезны для конкретного пользователя, и повышает их значимость при ранжировании последующих результатов поиска, тем самым персонализируя выдачу.

US8631001B2
2014-01-14

Персонализация
Поведенческие сигналы
SERP

Как Google использует историю запросов в текущей сессии и статистические паттерны для переранжирования результатов

Google анализирует миллионы прошлых поисковых сессий, выявляя статистически значимые последовательности запросов («Пути Запросов»), которые заканчиваются кликом на определенный URL («Конечная Точка Контента»). Когда текущая сессия пользователя совпадает с историческим путем, Google переранжирует результаты, повышая те URL, которые исторически удовлетворяли пользователей в аналогичном контексте, пропорционально вероятности их выбора.

US7610282B1
2009-10-27

Поведенческие сигналы
SERP
Семантика и интент

Как Google использует внешние данные для оценки репутации сущностей и их взаимной привлекательности в вертикальном поиске

Google использует систему для улучшения вертикального поиска (например, вакансий, недвижимости) путем оценки взаимной привлекательности двух разных типов сущностей (например, соискателя и вакансии). Система агрегирует данные из внешних источников для выявления скрытых атрибутов и расчета «Репутационной значимости» каждой сущности. На основе этих данных определяется метрика «Двухстороннего соответствия», которая используется для ранжирования.

US10853432B2
2020-12-01

Семантика и интент
SERP
Поведенческие сигналы

Как Google использует анализ многословных фраз для улучшения подбора синонимов с учетом грамматического согласования

Google анализирует, как пользователи одновременно меняют несколько слов в запросе (например, при изменении числа или рода). Подтверждая, что каждое измененное слово является лексическим или семантическим вариантом оригинала, Google идентифицирует «синонимы с N-граммным согласованием». Это позволяет системе улучшить понимание синонимов отдельных слов, даже если эти слова редко меняются поодиночке в определенных контекстах.

US7925498B1
2011-04-12

Семантика и интент
Поведенческие сигналы

Как Google использует тематические списки предпочтительных и нежелательных сайтов (Editorial Opinion) для корректировки ранжирования

Google может заранее определять "Темы запросов" (Query Themes) и назначать для них списки "Предпочтительных" (Favored) и "Нежелательных" (Non-Favored) источников. Если запрос пользователя соответствует теме, система корректирует ранжирование: повышает предпочтительные источники и понижает нежелательные, используя "Параметр редакторского мнения" (Editorial Opinion Parameter).

US7096214B1
2006-08-22

EEAT и качество
Антиспам
SERP

Как Google использует контекст пользователя для предоставления информации без явного запроса (Технология предиктивного поиска)

Google использует технологию предиктивного (проактивного) поиска, которая анализирует текущий контекст пользователя (местоположение, время, календарь, скорость движения, привычки) для автоматического предоставления релевантной информации. Система реагирует на «запрос без параметров» (например, открытие приложения или простое действие с устройством) и самостоятельно определяет информационные потребности пользователя.

US8478519B2
2013-07-02

Персонализация
Семантика и интент
Поведенческие сигналы

Как Google автоматически обнаруживает и индексирует контент внутри мобильных приложений для показа в поиске (App Indexing)

Google использует систему для индексации контента нативных мобильных приложений. Для приложений, связанных с веб-сайтами, система проверяет аффилиацию и использует существующие веб-URL для доступа к контенту приложения. Для приложений с кастомными URI система эмулирует работу приложения и итеративно обнаруживает внутренние ссылки. Это позволяет контенту из приложений появляться в результатах поиска в виде глубоких ссылок.

US10073911B2
2018-09-11

Индексация
Краулинг
Ссылки