Как Google объединяет данные о странице, если она находится в разных индексах под разными URL (например, Web и Shopping)

MAPPING UNIFORM RESOURCE LOCATORS OF DIFFERENT INDEXES (Сопоставление унифицированных указателей ресурсов из разных индексов)

US8645355B2
Google LLC
2011-10-21
2014-02-04

Индексация

Google использует механизм для сопоставления разных URL, ведущих на одну и ту же страницу, но хранящихся в разных индексах (например, основной веб-индекс и индекс товаров). Система извлекает уникальные идентификаторы (например, SKU) из параметров URL. Если идентификаторы совпадают и контент верифицирован, URL связываются, позволяя Google обогащать результаты в одном индексе данными из другого (например, показ цены в веб-выдаче).

Какую проблему решает

Патент решает проблему фрагментации данных, возникающую, когда один и тот же документ доступен по разным URL и индексируется в разных поисковых индексах Google. Например, First Search Index (Веб-индекс) может содержать чистый URL, полученный краулером, а Second Search Index (например, индекс товаров Google Shopping) может содержать URL с параметрами отслеживания, полученный через фид. Эта фрагментация мешает консолидации сигналов ранжирования и не позволяет обмениваться данными между индексами.

Что запатентовано

Запатентована система автоматического сопоставления (mapping) эквивалентных URL, хранящихся в разных индексах. Суть изобретения заключается в методе извлечения параметров из URL, фильтрации неуникальных параметров и идентификации уникальных ключей (например, SKU продукта). Если уникальные идентификаторы URL из разных индексов совпадают и контент верифицирован, система связывает эти URL и позволяет обмениваться данными.

Как это работает

Система анализирует URL в разных индексах:

Извлечение: Из URL извлекаются параметры (Identifiers).
Фильтрация (Ключевой этап): Система удаляет параметры, которые связаны с несколькими разными URL внутри одного и того же индекса. Это позволяет отсеять общие параметры (например, ID сессии или категории) и оставить только уникальные идентификаторы.
Сопоставление (Mapping): Если URL из Индекса А и URL из Индекса Б имеют общий домен и совпадающий уникальный идентификатор, они сопоставляются.
Верификация: Сопоставление проверяется путем сравнения контента, заголовков или метаданных документов.
Обмен данными: После подтверждения индексы могут обмениваться данными (например, цена из Индекса Б передается в Индекс А).

Актуальность для SEO

Высокая. В условиях роста специализированных индексов (Shopping, News, Video) и необходимости предоставления обогащенных результатов (Rich Results), консолидация данных об одном и том же контенте критически важна. Этот механизм позволяет Google эффективно объединять сигналы и данные из разных источников.

Важность для SEO

Влияние на SEO умеренно-высокое (6.5/10). Патент носит инфраструктурный характер, но имеет значительное влияние на E-commerce и сайты, использующие фиды. Он описывает механизм, позволяющий Google обогащать результаты веб-поиска данными (например, ценой, наличием), которые присутствуют только в специализированных индексах. Это подчеркивает важность наличия последовательных и уникальных идентификаторов в структуре URL для правильной консолидации сигналов и отображения Rich Results.

Термины и определения

Address (Адрес): Идентификатор, указывающий сетевое расположение документа (URL или URI). Включает схему, домен и параметры.
Identifier (Идентификатор): Параметр или часть пути, извлеченная из Address. Может включать SKU, ID продукта, ID сессии, параметры отслеживания и т.д.
First Search Index (Первый поисковый индекс): Индекс, наполняемый преимущественно краулером (например, основной Веб-индекс).
Second Search Index (Второй поисковый индекс): Индекс, наполняемый преимущественно на основе данных, отправленных пользователями/владельцами сайтов (submissions), например, индекс товаров Google Shopping (через фиды Merchant Center) или Google News.
Mapping (Сопоставление): Связь, устанавливаемая системой между двумя или более Addresses из разных индексов, указывающая на то, что они ведут на один и тот же документ.
Key (Ключ): Уникальный идентификатор, который прошел процесс фильтрации и используется для окончательного сопоставления URL между индексами.
Rule (Правило): Автоматически сгенерированное правило для конкретного домена и структуры (формы) URL, которое определяет, какой параметр является уникальным идентификатором. Используется для оптимизации процесса.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной процесс сопоставления URL.

Система идентифицирует первый адрес (URL1) в первом индексе (Index 1) и второй адрес (URL2) во втором индексе (Index 2). Оба связаны с одним документом.
Определяются наборы идентификаторов для URL1 и URL2.
Создается сопоставление (Mapping) между URL1 и URL2, если первый идентификатор равен второму идентификатору.
Система верифицирует корректность сопоставления на основе сравнения первой информации о документе (из Index 1) и второй информации (из Index 2).
Сопоставление передается на серверы индексов.

Claim 3 (Зависимый от 1): Детализирует критически важный процесс фильтрации идентификаторов.

Идентификатор исключается из набора, если он также связан с третьим адресом, хранящимся в том же самом (первом) поисковом индексе. Это гарантирует, что идентификатор, используемый для сопоставления, является уникальным в пределах данного индекса, отсеивая общие параметры (например, категории или сессии).

Claim 7 (Зависимый от 1): Уточняет процесс верификации.

Верификация подтверждается, если части информации совпадают. Указанные части включают: заголовок (Title) документа, язык документа или контент документа.

Claim 8 (Зависимый от 1): Описывает механизм обмена данными (обогащение).

Система извлекает данные из записи для второго адреса (Index 2) и передает эти данные вместе с сопоставлением в первый индекс (Index 1).

Claim 10 (Независимый пункт): Описывает реализацию с фокусом на Домен, Ключ и верификацию контента.

Определяется домен и идентификатор в URL1.
Определяется ключ (Key), связанный с идентификатором.
Создается сопоставление URL1 к URL2, который связан с тем же доменом и тем же ключом.
Определяется, что контент, связанный с URL1, совпадает с контентом, связанным с URL2.
Сопоставление верифицируется на основе совпадения контента.

Где и как применяется

Изобретение применяется на этапе постобработки индексов для консолидации данных и влияет на финальное отображение результатов.

INDEXING – Индексирование и извлечение признаков (Постобработка)
Основная работа алгоритма происходит здесь (или в виде отдельного офлайн-процесса). Processing Server анализирует существующие индексы (First и Second Search Index):

Извлекает и фильтрует Identifiers из URL.
Находит совпадения уникальных идентификаторов (Keys).
Верифицирует совпадения путем сравнения контента/метаданных.
Генерирует базу данных Mapping и обеспечивает обмен данными.
Обучается домен-специфичным правилам (Rules) для оптимизации.

METASEARCH – Метапоиск и Смешивание
На этапе формирования выдачи система использует созданный Mapping для обогащения результатов. Когда результат извлекается из одного индекса, система проверяет наличие сопоставления и может подтянуть дополнительные данные (например, цену, наличие) из связанного индекса для отображения в сниппете (Rich Results).

Входные данные:

URL из первого индекса и связанные данные (контент, метаданные).
URL из второго индекса и связанные данные (например, данные из фидов, структурированные атрибуты).

Выходные данные:

База данных Mapping, связывающая эквивалентные URL.
Передача данных между индексами (например, передача цены из индекса товаров в веб-индекс).

На что влияет

Конкретные ниши (E-commerce): Наибольшее влияние на интернет-магазины, где один и тот же товар часто имеет чистый URL (найденный краулером) и URL с параметрами (отправленный через Google Merchant Center).
Конкретные типы контента (Товары, Новости): Влияет на контент, который индексируется как в основном поиске, так и в специализированных вертикалях (например, Google News).
Техническое SEO (Структура URL): Влияет на то, как Google интерпретирует параметры URL и идентифицирует уникальный контент.

Когда применяется

Условия применения: Алгоритм применяется при обработке индексов, которые содержат URL с различной структурой, но потенциально ведущие на один и тот же контент.
Триггеры активации: Наличие извлекаемых идентификаторов (параметров или частей пути) в структуре URL.
Частота применения: Процесс требует значительных ресурсов и, вероятно, выполняется периодически в офлайн-режиме (batch processing) для обновления базы сопоставлений, а не в реальном времени при запросе.

Пошаговый алгоритм

Процесс сопоставления адресов из разных индексов (Индекс А и Индекс Б):

Определение наборов идентификаторов: Система извлекает адреса из Индекса А и Индекса Б. Для каждого адреса определяются идентификаторы путем анализа параметров URL (например, все, что находится между символами '/', '?', '=', '#').
Фильтрация неуникальных идентификаторов (Ключевой этап): Система анализирует идентификаторы внутри каждого индекса. Если идентификатор связан с несколькими разными адресами в одном индексе (например, параметр "category=shoes" или session ID), он исключается из набора. Цель — оставить только уникальные идентификаторы (например, SKU).
Сопоставление идентификаторов с адресами: Оставшиеся уникальные идентификаторы становятся ключами (Keys) и связываются с соответствующими адресами.
Сопоставление адресов разных индексов: Система ищет совпадения Keys между Индексом А и Индексом Б. Если адрес из Индекса А и адрес из Индекса Б имеют общий домен и связаны с одним и тем же Key, создается предварительное сопоставление (mapping).
Верификация сопоставления: Система проверяет корректность. Для этого извлекается информация о документах (контент, метаданные, Title, длина документа) по обоим адресам. Если информация совпадает, mapping подтверждается.
Передача сопоставления и данных: Подтвержденные сопоставления передаются на серверы индексов. Вместе с этим происходит обмен данными (например, цена из Индекса Б передается в Индекс А).

Оптимизация (Генерация Правил):

После обработки множества адресов с одного домена система может определить, что только определенный параметр (например, 'sku') является надежным уникальным идентификатором. Система создает Правило (Rule) для этого домена. При последующей обработке адресов с этого домена система сразу применяет правило для быстрого извлечения Key, минуя этапы 2-3.

Какие данные и как использует

Данные на входе

Технические факторы (Критично): Структура URL, доменное имя, параметры URL (CGI scripts, query strings, fragment identifiers). Эти данные являются основой для извлечения Identifiers и Keys.
Контентные факторы (Для верификации): Содержимое документа (Content), Заголовок (Title), метаданные (например, длина документа, язык). Используются для подтверждения, что разные URL ведут на одну и ту же страницу.
Данные из специализированных индексов: Структурированные данные, отправленные пользователями (например, через фиды), такие как цена, бренд, наличие товара. Используются для обогащения других индексов после создания сопоставления.

Какие метрики используются и как они считаются

Уникальность идентификатора (Identifier Uniqueness): Определяется путем подсчета количества адресов, с которыми связан идентификатор в пределах одного индекса. Если количество > 1 (или превышает определенный низкий порог), идентификатор считается неуникальным и фильтруется.
Совпадение ключей (Key Matching): Прямое сравнение уникальных идентификаторов (Keys), извлеченных из URL разных индексов.
Метрики верификации (Verification Metrics): Сравнение контента и метаданных. Патент упоминает совпадение заголовков (Title matching), совпадение длины документа или совпадение контента.
Правила домена (Domain Rules): Предварительно вычисленные шаблоны, основанные на анализе структуры URL конкретного домена, которые определяют, какой параметр является надежным Key.

Консолидация данных между индексами: Патент описывает инфраструктурный механизм, позволяющий Google решать проблему дублирования контента, существующего под разными URL в разных индексах (Web, Shopping, News). Это форма межиндексной каноникализации.
Идентификация через уникальные параметры: Ключевым механизмом является способность системы автоматически определять, какие части URL являются уникальными идентификаторами (например, SKU), а какие — шумом (ID сессии, UTM-метки). Это достигается путем фильтрации параметров, которые встречаются у нескольких страниц в одном индексе.
Цель – Обогащение данных (Rich Results): Основная цель сопоставления — обмен данными между индексами. Это позволяет Google показывать в основном веб-поиске структурированные данные (например, цену и наличие), которые были получены только через специализированные каналы (например, фид Google Merchant Center).
Важность верификации контента: Система не полагается исключительно на совпадение идентификаторов в URL. Обязательным этапом является верификация путем сравнения контента, заголовков (Title) или метаданных, что защищает от ложных срабатываний.
Оптимизация через правила домена: Система способна обучаться и создавать правила для конкретных доменов, определяя надежные идентификаторы для данной структуры URL, что ускоряет обработку.

Best practices (это мы делаем)

Использование уникальных идентификаторов в URL (Критично для E-commerce): Убедитесь, что все страницы товаров содержат уникальный идентификатор (например, SKU, MPN или внутренний ID продукта) в виде параметра запроса или части пути URL. Это значительно облегчает Google процесс извлечения Keys и сопоставления страницы между веб-индексом и индексом товаров.
Консистентность идентификаторов в фидах и на сайте: Уникальный идентификатор, используемый в URL на сайте, должен соответствовать идентификаторам, передаваемым в фидах (например, Google Merchant Center). Это обеспечивает корректный mapping и передачу данных о цене/наличии.
Обеспечение идентичности контента на эквивалентных URL: Убедитесь, что контент, и особенно Заголовки (Title), на разных версиях URL (например, чистый URL и URL, указанный в фиде) идентичны. Это необходимо для успешного прохождения этапа верификации сопоставления.
Использование чистой и логичной структуры URL: Хотя система умеет разбирать сложные URL, предпочтение следует отдавать структурам, где уникальный идентификатор легко извлекается и стабилен во времени. Это помогает системе быстрее сформировать Rules для вашего домена.

Worst practices (это делать не надо)

Отсутствие уникальных идентификаторов в URL: Использование только нечисловых, неуникальных параметров (например, только название категории и название товара) усложняет для Google процесс идентификации и сопоставления страниц.
Использование нестабильных идентификаторов: Частое изменение уникальных идентификаторов продуктов в URL и фидах приведет к потере консолидированных сигналов и временным проблемам с отображением Rich Results.
Различия в Title или контенте на эквивалентных страницах: Если Title или основной контент страницы отличается в зависимости от параметров URL (например, в зависимости от источника трафика), система не пройдет этап верификации и не сможет связать URL.
Блокировка доступа к контенту для верификации: Если одна из версий URL (например, та, что указана в фиде) недоступна для сканирования или отдает неполный контент, верификация не будет пройдена.

Стратегическое значение

Этот патент подтверждает, что Google оперирует множеством независимых индексов и активно решает задачу консолидации данных между ними. Для SEO-специалистов это имеет два ключевых стратегических значения. Во-первых, он объясняет механизм, лежащий в основе многих Rich Results: данные для сниппета в веб-поиске часто берутся из специализированных индексов. Во-вторых, он подчеркивает важность технического SEO в части структуры URL и консистентности данных: наличие надежных уникальных идентификаторов напрямую влияет на способность Google консолидировать сигналы и корректно отображать обогащенные результаты.

Практические примеры

Сценарий: Обогащение результатов поиска для интернет-магазина

Сбор данных (Индекс А - Веб): Googlebot сканирует сайт и находит URL товара: https://www.site.com/products/tovar-1234. В веб-индексе нет точных данных о цене.
Сбор данных (Индекс Б - Товары): Владелец сайта загружает фид в Google Merchant Center с URL: https://www.site.com/products/get.php?sku=1234&utm_source=gmc. В индексе товаров есть цена (99$) и наличие (В наличии).
Извлечение и Фильтрация: Система извлекает идентификаторы. Она определяет, что utm_source=gmc используется на многих страницах и фильтрует его. В обоих случаях остается уникальный идентификатор (Key) 1234.
Сопоставление (Mapping): Система связывает оба URL, так как они имеют общий домен и общий Key 1234.
Верификация: Система сравнивает Title и контент по обоим URL. Они совпадают. Сопоставление подтверждено.
Передача данных: Данные о цене (99$) и наличии (В наличии) передаются из Индекса Б в Индекс А и ассоциируются с URL https://www.site.com/products/tovar-1234.
Результат в поиске: При поиске по соответствующему запросу, органический результат для https://www.site.com/products/tovar-1234 отображается с Rich Snippet, включающим цену и наличие.

Является ли этот патент описанием алгоритма каноникализации (rel=canonical)?

Нет. Каноникализация обычно решает проблему дублирования в пределах одного индекса (веб-индекса) и основывается на явных указаниях вебмастера или эвристиках. Этот патент описывает механизм сопоставления между разными, независимыми индексами (например, Веб и Товары), который основан на автоматическом извлечении уникальных идентификаторов из URL и последующей верификации контента. Это можно назвать межиндексной каноникализацией.

Как Google определяет, какой параметр в URL является уникальным идентификатором (SKU), а какой — нет (UTM-метка)?

Система использует процесс фильтрации. Она анализирует все параметры URL в пределах одного индекса. Если параметр встречается у нескольких разных страниц (например, utm_source=google или category=shoes), он помечается как неуникальный и игнорируется. Параметры, которые остаются связанными только с одной страницей (например, sku=12345), считаются уникальными идентификаторами (Keys) и используются для сопоставления.

Как система верифицирует, что два URL действительно ведут на одну страницу?

После того как система нашла совпадение по уникальным идентификаторам, она выполняет этап верификации. Патент упоминает сравнение информации о документах, хранящейся в индексах. Верификация включает сравнение заголовков (Title), длины документа, языка или основного контента страницы. Если они совпадают, сопоставление подтверждается.

Как этот патент влияет на отображение Rich Results (обогащенных сниппетов)?

Он напрямую влияет на Rich Results. Этот механизм позволяет Google брать данные из специализированного индекса (например, цену и наличие из Google Shopping) и отображать их в сниппете органического результата в основном веб-поиске. Если сопоставление не будет установлено, веб-результат может не получить обогащенный сниппет, даже если данные присутствуют в фиде.

Нужно ли мне добавлять уникальные идентификаторы (SKU) в URL, если у меня их сейчас нет?

Для сайтов E-commerce это настоятельно рекомендуется. Наличие четкого, стабильного уникального идентификатора в структуре URL значительно повышает надежность работы систем Google по консолидации данных и отображению Rich Results. Это помогает гарантировать, что сигналы ранжирования и данные о товаре будут корректно объединены.

Что такое "Правила" (Rules) в контексте этого патента и как они создаются?

Правила — это механизм оптимизации. Если система обработала множество URL с одного домена и определила, что параметр sku всегда является уникальным идентификатором для определенной структуры URL, она создает правило для этого домена. В дальнейшем, встречая новый URL с такой же структурой, система сразу извлекает значение параметра sku, минуя сложный процесс фильтрации. Правила создаются автоматически.

Может ли этот механизм объединять сигналы ранжирования (например, ссылки или поведенческие факторы)?

Да, это одно из следствий работы системы. Установив, что URL А (на который ведут внешние ссылки) и URL Б (который содержит структурированные данные о товаре) являются одной и той же страницей, Google может консолидировать все сигналы. В патенте упоминается, что сопоставление позволяет определить, когда разные пользователи получают доступ к одному и тому же документу, используя разные адреса.

Что делать, если Google неверно сопоставил мои URL?

Необходимо проанализировать структуру URL и используемые идентификаторы. Убедитесь, что идентификаторы, которые вы считаете уникальными, действительно уникальны в пределах вашего сайта. Также проверьте, нет ли на сайте страниц с разными идентификаторами, но идентичным контентом и Title, что может сбивать с толку этап верификации.

Влияет ли этот патент только на E-commerce?

Хотя основное применение связано с товарами, механизм универсален. Он может применяться для сопоставления статей между веб-индексом и индексом Новостей (Google News), видео между веб-индексом и индексом Видео, или любых других сущностей, имеющих разные URL в разных индексах.

Что важнее для сопоставления: совпадение домена или совпадение идентификатора?

Оба условия важны. Система, описанная в Claim 10, требует совпадения как домена, так и уникального идентификатора (Key) для создания предварительного сопоставления. Это гарантирует, что сопоставляются документы в рамках одного сайта, идентифицируемые одним и тем же ключом.

Как Google объединяет разные URL в один результат, если они ведут на одну и ту же страницу (например, при мобильных редиректах)

Google использует механизм дедупликации для повышения разнообразия выдачи. Если несколько разных URL в результатах поиска перенаправляют пользователя на одну и ту же целевую страницу (например, из-за редиректа на мобильную версию, страницу входа или главную страницу), Google объединяет эти функциональные дубликаты в один замещающий результат.

US10007731B2
2018-06-26

SERP
Техническое SEO
Индексация

Как Google автоматически обнаруживает и удаляет идентификаторы сессий из URL для оптимизации сканирования и предотвращения дублирования

Google использует механизм для автоматического обнаружения идентификаторов сессий в URL-адресах во время сканирования. Система анализирует подстроки, которые выглядят случайными и повторяются в нескольких URL с одного сайта. Эти идентификаторы удаляются для создания «чистых» версий URL. Это позволяет поисковой системе распознавать дублирующийся контент и избегать повторного сканирования одних и тех же страниц, оптимизируя краулинговый бюджет.

US7886032B1
2011-02-08

Краулинг
Техническое SEO
Индексация

Как Google извлекает цены и изображения товаров с веб-страниц для Google Shopping

Этот патент описывает, как Google автоматически идентифицирует страницы электронной коммерции и извлекает структурированные данные о товарах (такие как цена и изображение) из неструктурированного HTML. Система использует анализ близости элементов, структуру HTML и сигналы форматирования для поиска правильных атрибутов, что формирует основу для поисковых систем по товарам, таких как Google Shopping.

US7836038B2
2010-11-16

Google Shopping
SERP
Индексация

Как Google автоматически определяет и удаляет неважные URL-параметры для каноникализации и эффективного сканирования

Google использует систему для автоматического определения канонической формы URL. Система активно тестирует различные комбинации параметров в URL, чтобы определить, какие из них влияют на контент, а какие нет (например, tracking-коды или session ID). Неважные параметры удаляются с помощью правил перезаписи, что позволяет свести множество дублирующихся URL к единой канонической версии, экономя краулинговый бюджет.

US7827254B1
2010-11-02

Краулинг
Техническое SEO
Индексация

Как Google определяет сайты, использующие Session ID в URL, для оптимизации краулинга и борьбы с дубликатами

Google использует механизм для автоматического обнаружения сайтов, которые встраивают идентификаторы сессий (Session ID) в URL. Система скачивает страницу дважды и сравнивает внутренние ссылки. Если большая часть ссылок меняется (из-за разных ID), система генерирует правила для "очистки" URL. Это позволяет избежать повторного сканирования одного и того же контента и предотвращает заполнение индекса дубликатами.

US7886217B1
2011-02-08

Краулинг
Техническое SEO
Индексация

Как Google динамически перестраивает выдачу, если пользователь игнорирует результаты, связанные с определенной сущностью

Google использует механизм уточнения интента пользователя в реальном времени при обработке неоднозначных запросов. Система группирует результаты поиска по связанным сущностям. Если пользователь демонстрирует отсутствие интереса к одной из групп (например, прокручивает или смахивает результаты), система динамически модифицирует выдачу, понижая или удаляя все результаты, связанные с этой отклоненной сущностью.

US9348945B2
2016-05-24

Семантика и интент
SERP
Поведенческие сигналы

Как Google использует клики и пропуски пользователей для оценки и корректировки правил близости терминов (Proximity Rules)

Google анализирует поведение пользователей для оценки эффективности правил близости (Proximity Rules), которые влияют на ранжирование в зависимости от расстояния между ключевыми словами на странице. Система отслеживает, кликают ли пользователи на результаты, где термины расположены далеко друг от друга, или пропускают их. На основе этих данных (Click Count, Skip Count) вычисляется оценка качества правила, что позволяет Google динамически адаптировать важность фактора близости.

US9146966B1
2015-09-29

Поведенческие сигналы
SERP

Как Google динамически фильтрует и изменяет подсказки Autocomplete в реальном времени при вводе навигационного запроса

Google использует систему для оптимизации функции автозаполнения (Autocomplete). При вводе частичного запроса система определяет широкий набор потенциальных навигационных ссылок (Superset) и фильтрует его до узкого подмножества (Subset) на основе сигналов, таких как история поиска, популярность и тип документа. Интерфейс может динамически изменять отображаемые подсказки, если пользователь делает паузу при вводе.

US9454621B2
2016-09-27

Семантика и интент
SERP
Поведенческие сигналы

Как Google использует машинное обучение и данные о длительности сессий для выявления битых Deep Links в мобильных приложениях

Google использует систему машинного обучения для анализа того, как долго пользователи взаимодействуют с контентом в приложении после перехода по Deep Link (Presentation Duration). Анализируя распределение этих временных интервалов, система классифицирует ссылку как рабочую или битую без необходимости прямого сканирования контента. Это позволяет Google удалять неработающие ссылки из индекса.

US10628511B2
2020-04-21

Ссылки
Индексация
Поведенческие сигналы

Как Google находит фактические ответы, начиная с потенциальных ответов и связывая их с запросами пользователей (Reverse Question Answering)

Google использует метод «обратного ответа на вопрос» для эффективного поиска фактов. Вместо глубокого анализа запроса система начинает с идентификации потенциальных ответов (например, дат, измерений) в индексе. Затем она определяет, для каких запросов эти ответы релевантны, анализируя, какие документы высоко ранжируются и получают клики по этим запросам. Это позволяет точно сопоставлять факты с разнообразными формулировками вопросов.

US9116996B1
2015-08-25

Поведенческие сигналы
Семантика и интент

Как Google использует клики пользователей в Поиске по Картинкам для определения реального содержания изображений

Google использует данные о поведении пользователей для автоматической идентификации содержания изображений. Если пользователи вводят определенный запрос (Идею) и массово кликают на конкретное изображение в результатах поиска, система ассоциирует это изображение с Концептом, производным от запроса. Это позволяет Google понимать, что изображено на картинке, не полагаясь исключительно на метаданные или сложный визуальный анализ, и улучшает релевантность ранжирования в Image Search.

US8065611B1
2011-11-22

Поведенческие сигналы
Семантика и интент
Мультимедиа

Как Google использует последовательность кликов пользователей (Co-selection) для классификации изображений и фильтрации контента (SafeSearch)

Google анализирует, какие изображения пользователи выбирают последовательно в рамках одной сессии (co-selection). Если Изображение Б часто выбирается сразу после Изображения А (с известной темой), система присваивает Изображению Б ту же тему. Этот механизм использует графовый анализ поведения для уточнения тематики изображений, что критично для повышения релевантности и работы фильтров, таких как SafeSearch.

US8856124B2
2014-10-07

Безопасный поиск
Поведенческие сигналы
Семантика и интент

Как Google динамически меняет формулы ранжирования, адаптируя веса факторов под контекст запроса и пользователя

Google не использует единую модель ранжирования. Система использует машинное обучение для создания множества специализированных моделей (Predicted Performance Functions), обученных на исторических данных о кликах для разных контекстов (Search Contexts). При получении запроса система определяет контекст (тип запроса, язык, локация пользователя) и применяет ту модель, которая лучше всего предсказывает CTR в этой ситуации, динамически изменяя значимость различных сигналов ранжирования.

US8645390B1
2014-02-04

Персонализация
Поведенческие сигналы
SERP

Как Google использует повторные клики, прямой трафик и время на сайте для расчета оценки качества домена и корректировки ранжирования

Google анализирует поведение пользователей на уровне домена (группы ресурсов) для вычисления модификатора ранжирования. Ключевые метрики включают долю повторных кликов (Repeat Click Fraction), долю прямого трафика (Deliberate Visit Fraction) и среднюю продолжительность визита (Average Duration). Эти данные используются для корректировки исходных оценок страниц сайта, понижая ресурсы с низкими показателями пользовательской лояльности и вовлеченности.

US9684697B1
2017-06-20

Поведенческие сигналы
SERP

Как Google планировал использовать цифровые подписи для расчета репутации авторов (Agent Rank) независимо от сайта публикации

Патент Google, описывающий концепцию "Agent Rank". Система предлагает авторам (агентам) использовать цифровые подписи для подтверждения авторства контента. Это позволяет рассчитывать репутационный рейтинг агента, используя алгоритмы, подобные PageRank, на основе того, кто ссылается на их подписанный контент. Этот рейтинг затем используется для влияния на ранжирование, независимо от того, где контент опубликован.

US7565358B2
2009-07-21

EEAT и качество
Ссылки