Как Google использует иерархию запросов для точной идентификации сущностей (товаров, статей), даже при наличии ошибок в данных

KNOWN ITEM SEARCH METHOD (Метод поиска известного элемента)

US9886475B1
Google LLC
2015-07-02
2018-02-06

Семантика и интент

Google использует метод "Поиска известного элемента" для надежной идентификации конкретных сущностей (например, научных статей или товаров), даже если исходный запрос содержит ошибки. Система создает несколько запросов с разными комбинациями атрибутов и выполняет их иерархически — от самых точных (например, по DOI/GTIN) к менее точным (по названию/автору). Это позволяет находить нужный объект, игнорируя ошибки в отдельных атрибутах, и используется для сверки данных и каноникализации сущностей.

Какую проблему решает

Патент решает проблему хрупкости традиционных методов поиска конкретных объектов (Known Item Search). Стандартные системы требуют абсолютно точного совпадения всех предоставленных атрибутов (например, в библиографической ссылке или описании товара). Если хотя бы один атрибут содержит ошибку, поиск терпит неудачу. Изобретение направлено на создание устойчивой к ошибкам системы, которая может надежно идентифицировать объект, несмотря на неточности во входных данных.

Что запатентовано

Запатентован метод робастного (устойчивого к ошибкам) поиска известного элемента. Вместо выполнения одного запроса, требующего совпадения всех атрибутов, система генерирует множество запросов, используя разные подмножества предоставленных данных. Эти запросы организованы в иерархию по точности (Query Type Hierarchy) и выполняются последовательно. Полученные результаты фильтруются на основе их согласованности (consistency) с полным исходным запросом.

Как это работает

Ключевой механизм работы системы:

Парсинг Запроса: Система получает запрос с предполагаемыми атрибутами объекта (estimated values) и извлекает пары атрибут-значение.
Формулирование Множества Запросов: Создается несколько запросов разных типов (Query Types). Например: Запрос 1 (только Идентификатор); Запрос 2 (Название + Автор); Запрос 3 (Автор + Год).
Иерархическое Выполнение: Запросы выполняются в порядке убывания точности. Сначала выполняются самые точные типы (например, по уникальному идентификатору).
Каскадный Поиск (Fallback): Если точный запрос не дал результатов, система переходит к выполнению следующего, менее точного запроса в иерархии.
Фильтрация и Валидация: Полученные кандидаты проверяются на соответствие всем атрибутам из исходного запроса (Consistency Check).

Актуальность для SEO

Высокая. Идентификация и сверка сущностей (Entity Reconciliation) критически важны для работы Knowledge Graph, Google Scholar и Google Shopping. Учитывая, что одним из изобретателей является Anurag Acharya (основатель Google Scholar), этот метод, вероятно, лежит в основе обработки научных публикаций, верификации цитирований и сопоставления товаров, где необходимо обрабатывать большие объемы зашумленных данных.

Важность для SEO

Патент имеет высокое значение для SEO (80/100), особенно в области Entity SEO, E-commerce и продвижения структурированного контента. Он описывает инфраструктурный механизм, с помощью которого Google идентифицирует и каноникализирует сущности. Понимание этого механизма критично для обеспечения корректного учета и отображения объектов (товаров, статей) в специализированных вертикалях поиска и панелях знаний.

Термины и определения

Known Item (Известный элемент): Конкретный объект, который ищет система или пользователь (например, конкретная научная статья, товар, изображение, аудиозапись или запись в базе данных). Поиск направлен на нахождение этого специфического объекта, а не информации по теме.
Lookup Request (Запрос на поиск): Запрос, направленный на нахождение Known Item. Содержит информацию о его атрибутах.
Estimated Value (Предполагаемое значение): Значение атрибута, предоставленное в Lookup Request. Называется "предполагаемым", так как система допускает, что оно может содержать ошибки.
Attribute-Value Pair (Пара атрибут-значение): Связь между свойством объекта (атрибутом, например, "Автор") и его значением (например, "Эйнштейн").
Query Type (Тип запроса): Предопределенный шаблон запроса, основанный на конкретном атрибуте или комбинации атрибутов. Например, запрос только по DOI или запрос по комбинации Автор И Название.
Query Type Hierarchy (Иерархия типов запросов): Структура, ранжирующая Query Types в порядке убывания их точности (precision) или способности уникально идентифицировать Known Item.
Candidate Item (Элемент-кандидат): Элемент из базы данных, возвращенный в результате выполнения одного из сформулированных запросов.
Consistency Criterion / Predefined Criteria (Критерий согласованности): Правила, используемые для проверки (фильтрации) того, насколько атрибуты Candidate Item соответствуют Estimated Values из исходного запроса.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает базовый метод поиска известного элемента.

Получение Lookup Request с предполагаемыми значениями атрибутов.
Определение двух или более Estimated Attribute-Value Pairs.
Формулирование нескольких запросов на основе Predefined Query Types. Каждый запрос имеет позицию в Query Type Hierarchy.
Идентификация Candidate Items путем выполнения запросов в соответствии с этой иерархией.
Возврат хотя бы одного кандидата.

Ядро изобретения — использование множества запросов и иерархии их выполнения. Это обеспечивает устойчивость к ошибкам: если атрибут, используемый в точном запросе (высоко в иерархии), неверен, система переходит к менее точному запросу (ниже в иерархии), который может не включать ошибочный атрибут, и все равно находит объект.

Claim 6 (Зависимый от 1): Уточняет структуру иерархии.

Типы запросов позиционируются в Query Type Hierarchy в порядке убывания точности (decreasing precision) их способности уникально идентифицировать известные элементы.

Система предпочитает идентификацию по наиболее надежным и уникальным атрибутам. Запрос по уникальному идентификатору (DOI, GTIN, ISBN) будет находиться выше в иерархии, чем запрос по названию или автору.

Claim 12 (Зависимый от 11): Описывает процесс фильтрации (filtering) кандидатов после их идентификации.

Для каждого Candidate Item определяются его реальные пары атрибут-значение.
Проверяется, соответствуют ли эти пары предопределенным критериям (predefined criteria) относительно предполагаемых пар из запроса.
Если соответствуют, кандидат сохраняется. Если нет, кандидат удаляется.

Это механизм проверки согласованности (Consistency Check). Если кандидат найден по одному атрибуту (например, по названию), система валидирует его, проверяя, совпадают ли другие его атрибуты (например, автор, год) с тем, что было указано в исходном запросе.

Claim 16 (Зависимый от 1): Детализирует процесс иерархического выполнения запросов (Каскадный поиск).

Выполнение первого подмножества запросов (наиболее точных).
Проверка, привело ли выполнение к получению менее чем предопределенного количества кандидатов (predefined count).
Если кандидатов недостаточно, выполняется второе подмножество запросов, которые находятся ниже в иерархии (менее точные).

Система работает каскадно. Она пытается найти объект самым точным способом и прибегает к менее точным методам только в случае неудачи (failover).

Где и как применяется

Этот патент описывает специализированный сервис или модуль поиска (Known Item Lookup Module), который используется для идентификации и сверки сущностей (Entity Reconciliation). Он не является частью стандартного ранжирования веб-страниц, но критически важен для инфраструктуры Google.

CRAWLING и INDEXING – Сканирование и Индексирование
Crawler Module сканирует источники (сайты издательств, интернет-магазины). На этапе индексирования извлекаются атрибуты (метаданные) элементов, которые сохраняются в базе данных известных элементов (Database 114-a).

QUNDERSTANDING / Specialized Lookup Service
Основное применение патента. Known Item Lookup Module принимает запрос от клиента (которым может быть основной поисковый движок, Google Scholar, система обработки фидов Merchant Center или внешний сервис) и выполняет процесс идентификации сущности.

Парсинг: Извлечение Estimated Attribute-Value Pairs из запроса (структурированного или неструктурированного).
Выполнение запросов (Retrieval): Иерархическое и каскадное выполнение запросов к базе данных.
Фильтрация (Validation): Применение Consistency Criteria для валидации кандидатов.

Входные данные:

Lookup Request (структурированный или неструктурированный текст).
Предопределенная Query Type Hierarchy.
База данных известных элементов.

Выходные данные:

Идентифицированный Known Item (каноническая сущность).
Метаданные идентифицированного элемента (например, корректная цитата, канонический URL, агрегированные данные).

На что влияет

Конкретные типы контента: В первую очередь влияет на контент с четко определенными атрибутами: online publications (научные статьи, книги), товары онлайн-вендоров, изображения, аудиозаписи, мультимедиа объекты, записи баз данных.
Специфические запросы: Влияет на запросы, целью которых является поиск конкретного объекта (Known Item Search).
Конкретные ниши: Оказывает критическое влияние на функционирование Google Scholar (идентификация статей, агрегация цитирований) и Google Shopping (идентификация товаров, сопоставление предложений). Также важен для построения и верификации Knowledge Graph.

Когда применяется

Алгоритм применяется, когда системе необходимо точно идентифицировать конкретную сущность на основе набора предоставленных атрибутов, которые могут содержать ошибки.

Триггеры активации:

Обработка и верификация цитат для привязки к существующим записям в Google Scholar.
Когда система обнаруживает новую копию или упоминание существующего объекта (например, товар у другого продавца) и должна связать ее с канонической сущностью (Entity Reconciliation).
При поиске товара или публикации по комбинации названия и характеристик/метаданных.

Пошаговый алгоритм

Получение и Парсинг Запроса: Система получает Lookup Request. Он парсится для определения Estimated Attribute-Value Pairs. Парсинг может использовать предопределенную структурную информацию (теги) или автоматическое распознавание атрибутов из неструктурированного текста (например, анализ формата цитаты MLA).
Формулирование Запросов: На основе полученных атрибутов система формулирует множество запросов в соответствии с Predefined Query Types.
Иерархическое Выполнение (Каскад):
1. Определение Первого Подмножества: Выбираются запросы с наивысшим приоритетом в Query Type Hierarchy (наиболее точные), для которых есть данные в запросе (например, запрос по DOI).
2. Выполнение: Запросы выполняются к базе данных.
3. Проверка Количества Кандидатов: Определяется, получено ли достаточное количество Candidate Items (сравнивается с predefined count).
4. Итерация (Failover): Если кандидатов недостаточно, система переходит к следующему подмножеству запросов, расположенных ниже в иерархии (менее точных, например, запрос по Названию), и повторяет выполнение и проверку.
Фильтрация и Оценка Согласованности (Consistency Check):
1. Сравнение Атрибутов: Для каждого Candidate Item его реальные атрибуты сравниваются со всеми Estimated Attribute-Value Pairs из исходного запроса.
2. Применение Критериев: Определяется, удовлетворяет ли кандидат предопределенным критериям согласованности. Например, год публикации должен быть в пределах +/- 5 лет от указанного, или должно быть совпадение хотя бы одного автора.
3. Отбор Финалистов: Кандидаты, не прошедшие проверку согласованности, удаляются.
Возврат Результата: Система возвращает оставшиеся кандидаты. Если один кандидат удовлетворяет критериям с высокой степенью уверенности (high degree of certainty), возвращается только он.

Какие данные и как использует

Данные на входе

Патент фокусируется на использовании метаданных объекта для его идентификации.

Контентные/Структурные факторы (Метаданные): Система использует Estimated Values для атрибутов известного элемента. Для научных публикаций это: Автор (author attribute), Название (title attribute), Том (volume attribute), Выпуск (issue attribute), Страницы (page attribute), Дата публикации (publication date attribute).
Технические факторы (Идентификаторы): Уникальный идентификатор (unique object identifier, например, DOI, ISBN). Для товаров или медиа используются соответствующие идентификаторы (GTIN, ISRC).
Технические факторы (Локаторы): URL источника (Primary URL, Secondary URL) может использоваться для корреляции разных экземпляров одного и того же элемента, найденных в разных местах.

Какие метрики используются и как они считаются

Query Precision (Точность типа запроса): Метрика, используемая для построения Query Type Hierarchy. Определяет способность типа запроса уникально идентифицировать элемент. Подразумевается, что Точность(Идентификатор) > Точность(Название) > Точность(Автор+Дата).
Predefined Count (Предопределенное количество): Пороговое значение количества кандидатов. Если результатов меньше этого порога, система активирует каскадный переход к менее точным запросам.
Consistency Criteria / Predefined Criteria (Критерии согласованности): Правила для фильтрации кандидатов. Включают сравнение пар атрибут-значение. Могут использоваться гибкие пороги (например, допустимое расхождение в дате публикации, упомянутое в патенте как +/- 5 лет).
Degree of Certainty (Степень уверенности): Метрика, определяющая вероятность того, что кандидат является искомым элементом. Если она превышает высокий порог, система может вернуть только этот результат.

Устойчивость к ошибкам является приоритетом при идентификации сущностей. Google разработал систему, которая предполагает наличие ошибок во входных данных (например, в цитатах, отзывах или описаниях товаров) и активно обходит их, не полагаясь на точное совпадение всех атрибутов.
Иерархия атрибутов для идентификации. Не все атрибуты имеют одинаковый вес. Уникальные идентификаторы (DOI, GTIN, ISBN) являются наиболее точными (high precision) и проверяются в первую очередь. Название, авторы/бренды и даты используются как вторичные идентификаторы.
Механизм множественных каскадных запросов. Для надежной идентификации система не использует один запрос с логикой "И". Вместо этого применяется каскад запросов (Query Type Hierarchy) с разными комбинациями атрибутов, что позволяет найти объект, даже если часть данных неверна.
Обязательная проверка согласованности (Consistency Check). Нахождение совпадения по одному атрибуту недостаточно. Система валидирует результат, сверяя остальные атрибуты кандидата с исходным запросом, используя гибкие критерии (predefined criteria).
Основа для Entity Reconciliation. Этот механизм лежит в основе способности Google связывать разные упоминания или копии одного и того же объекта, найденные в интернете. Это критически важно для построения Knowledge Graph и функционирования специализированных поисковых вертикалей (Scholar, Shopping).

Best practices (это мы делаем)

Приоритет уникальных идентификаторов: Всегда предоставлять точные и валидные уникальные идентификаторы (GTIN для товаров, ISBN для книг, DOI для научных работ) в микроразметке и на странице. Согласно патенту, это самый точный Query Type, который имеет наивысший приоритет в Query Type Hierarchy и обеспечивает быструю и точную идентификацию.
Полное и точное заполнение метаданных (Schema.org): Для сущностей (Product, ScholarlyArticle и т.д.) необходимо максимально полно заполнять все доступные атрибуты в микроразметке. Чем полнее данные, тем больше типов запросов система сможет сгенерировать, что повышает надежность идентификации и валидации (Consistency Check).
Обеспечение согласованности данных (Consistency): Обеспечивать согласованность ключевых атрибутов (Название, Автор/Бренд, Идентификаторы) при упоминании сущности в разных источниках (например, на сайте и в фидах Merchant Center). Это повышает Degree of Certainty при идентификации элемента.
Для Академического SEO (Google Scholar): Обеспечивать высокую машиночитаемость метаданных статей. Это помогает корректно извлекать атрибуты, которые затем используются Known Item Lookup Module для верификации цитирований и агрегации показателей, даже если сторонние сайты цитируют вас с ошибками.

Worst practices (это делать не надо)

Отсутствие уникальных идентификаторов: Полагаться только на название и описание товара или статьи при отсутствии стандартных идентификаторов. Это снижает точность идентификации и вынуждает систему использовать менее надежные Query Types, что может привести к ошибкам в сопоставлении.
Манипуляции или противоречия в метаданных: Попытки выдать один объект за другой или предоставление противоречивых данных (например, разные GTIN для одного товара). Механизм Consistency Check предназначен для выявления таких несоответствий и отфильтрует объект, если его атрибуты противоречивы.
Скудные структурированные данные: Использование минимального набора полей в Schema.org. Это ограничивает способность системы использовать различные Query Types для идентификации вашего контента.

Стратегическое значение

Патент детально описывает инфраструктуру для Entity Reconciliation — процесса сверки и объединения разрозненных данных об одном и том же объекте. Это подтверждает стратегический фокус Google на точном понимании сущностей. Для SEO это означает, что критически важно обеспечить максимально точное, полное и стандартизированное описание ключевых сущностей сайта (товаров, статей, организаций), используя уникальные идентификаторы, чтобы гарантировать их корректное распознавание, каноникализацию и представление в поиске.

Практические примеры

Сценарий: Идентификация товара в E-commerce с ошибкой в GTIN

Исходные данные (Lookup Request): Запрос на товар с атрибутами: Название: "Nikon COOLPIX L830", Бренд: "Nikon", GTIN: 123456789018 (ошибочный). Фактический GTIN товара: 123456789012.
Обработка системой:
1. Запрос 1 (Высокий приоритет, Query Type: GTIN): Система выполняет поиск по GTIN 123456789018. Результатов нет (из-за ошибки).
2. Fallback (Каскад): Система переходит к следующему уровню иерархии.
3. Запрос 2 (Средний приоритет, Query Type: Brand + Title): Система выполняет поиск по {Brand: Nikon, Title: "Nikon COOLPIX L830"}.
4. Результат Запроса 2: Находит Кандидата (товар с фактическим GTIN 123456789012).
5. Фильтрация (Consistency Check): Система сравнивает атрибуты кандидата с исходным запросом. Бренд совпадает. Название совпадает. GTIN не совпадает, но остальные критерии выполнены с высокой уверенностью.
Результат: Система идентифицирует товар как искомый Known Item, несмотря на ошибку в предоставленном GTIN.

Как этот патент влияет на работу с микроразметкой Schema.org?

Он подчеркивает критическую важность точного и полного заполнения микроразметки для ключевых сущностей (Product, Article, Book и т.д.). Система использует эти атрибуты для формирования запросов. Чем полнее данные, тем больше типов запросов (Query Types) система сможет сгенерировать, что повышает вероятность правильной идентификации объекта, даже если часть данных на сайте или в запросе пользователя окажется неверной.

Что важнее для идентификации товара: GTIN или комбинация названия и бренда?

Согласно патенту, система использует Query Type Hierarchy, где типы запросов ранжируются по убыванию точности. Уникальные идентификаторы (такие как GTIN) обеспечивают наивысшую точность. Поэтому запрос по GTIN будет выполнен в первую очередь. Комбинация названия и бренда менее точна и будет использована, только если запрос по GTIN не даст результатов (например, если GTIN не указан или указан с ошибкой).

Может ли эта система объединить дубликаты страниц товаров или статей?

Да, это одно из основных применений. Патент описывает механизм Entity Reconciliation. Когда краулер находит контент на разных URL, система использует этот метод, чтобы определить, являются ли они экземплярами одного и того же Known Item. Если идентификация успешна, система может связать эти URL (упоминаются Primary URL и Secondary URL) с одной канонической сущностью.

Как этот патент связан с Google Scholar?

Связь прямая и критическая. Один из изобретателей — Anurag Acharya, основатель Google Scholar. Описанный метод используется для обработки научных цитат, которые часто содержат ошибки. Система позволяет идентифицировать цитируемую статью, несмотря на неточности в библиографии, что необходимо для корректного подсчета индексов цитирования и объединения разных версий одной статьи.

Что такое "Иерархия типов запросов" (Query Type Hierarchy) и как она выглядит на практике?

Это ранжированный список способов идентификации объекта, от самого точного к самому общему. На практике для научной статьи это может выглядеть так: 1. Запрос по DOI (самый точный). 2. Запрос по точному Названию. 3. Запрос по Авторам + Году публикации. 4. Запрос по Авторам + Тому + Странице. Система выполняет их последовательно сверху вниз.

Как работает "проверка согласованности" (Consistency Check)?

Это этап фильтрации. Если система нашла кандидата по одному набору атрибутов, она проверяет, совпадают ли остальные атрибуты кандидата с исходным запросом. Например, если статья найдена по названию, система проверит авторов и год. При этом допускаются небольшие расхождения (например, год публикации в пределах +/- 5 лет), если это предусмотрено Consistency Criterion.

Означает ли этот патент, что можно не беспокоиться о точности данных на сайте?

Нет. Хотя система разработана для устойчивости к ошибкам, точность данных критически важна. Точные данные, особенно уникальные идентификаторы, позволяют системе идентифицировать объект быстро и с высокой степенью уверенности (high degree of certainty) на верхних уровнях иерархии. Неточные данные снижают уверенность и могут привести к ошибкам идентификации или игнорированию объекта.

Влияет ли этот механизм на ранжирование в основном поиске Google?

Прямого влияния на ранжирование "синих ссылок" патент не описывает. Однако он играет ключевую роль в построении и верификации Knowledge Graph. Корректная идентификация сущностей (авторов, организаций, товаров, статей) позволяет Google лучше понимать контент и авторитетность источников, что косвенно влияет на ранжирование через сигналы E-E-A-T и представление в SERP Features (Knowledge Panels, Carousels).

Как система обрабатывает неструктурированные запросы, например, обычный текст цитаты?

Патент предусматривает автоматическое определение атрибутов без использования предопределенной структурной информации. Для цитат система может анализировать ожидаемый формат (например, MLA). Она распознает шаблоны (например, текст в кавычках как название, текст в скобках как год) для извлечения Attribute-Value Pairs из неструктурированной строки.

Какие атрибуты наиболее важны для научных статей согласно патенту?

Патент явно выделяет следующий набор атрибутов для онлайн-публикаций: Уникальный идентификатор (например, DOI), Автор, Название, Том журнала, Выпуск журнала, Страница и Дата публикации. Из них уникальный идентификатор обеспечивает наивысшую точность идентификации.

Как Google использует атрибуты сущностей для генерации «Дополненных запросов» и уточнения поиска

Google использует механизм для помощи в исследовании тем, связанных с сущностями (люди, места, продукты). Система распознает сущность в запросе, определяет ее ключевые атрибуты (анализируя результаты поиска или Knowledge Graph) и автоматически генерирует список предлагаемых «дополненных запросов» (Сущность + Атрибут). Это позволяет пользователю одним кликом запустить новый, более сфокусированный поиск по теме.

US10055462B2
2018-08-21

Семантика и интент
Knowledge Graph
SERP

Как Google использует данные веб-поиска для распознавания сущностей в специализированных вертикалях (на примере поиска медиаконтента)

Google использует двухэтапный процесс для ответа на описательные запросы в специализированных поисках (например, поиск фильмов по сюжету). Сначала система ищет информацию в основном веб-индексе, анализирует топовые результаты для выявления релевантных сущностей (названий фильмов), а затем использует эти сущности для поиска в специализированной базе данных.

US9063984B1
2015-06-23

Семантика и интент
Мультимедиа
Индексация

Как Google автоматически определяет и проверяет атрибуты, бренды и категории товаров, анализируя веб-контент и поведение пользователей

Google использует систему для автоматического извлечения и проверки «Структурных параметров» (бренды, атрибуты, категории, линейки продуктов) из неструктурированного веб-контента и логов запросов. Система валидирует классификацию с помощью анализа контекстуального сходства, целевого краулинга (поиск фраз типа «X является Y») и анализа распределения кликов. Это позволяет стандартизировать данные о товарах от разных продавцов и формировать структурированную E-commerce выдачу.

US9171088B2
2015-10-27

Индексация
Краулинг
Семантика и интент

Как Google использует иерархическую популярность связанных сущностей и данные веб-поиска для ранжирования в вертикальном поиске

Google использует механизм иерархического скоринга для ранжирования сущностей (например, брендов или исполнителей) в вертикальных поисках (non-WWW corpus). Популярность родительской сущности рассчитывается на основе агрегированной популярности дочерних (например, товаров или треков). Система использует данные о запросах и CTR из основного веб-поиска (WWW corpus) для определения популярности и применяет геолокацию и язык для устранения неоднозначности.

US9626435B2
2017-04-18

Google Shopping

Как Google использует историю уточнений запросов для выявления и повышения авторитетных сайтов по широким запросам

Google анализирует последовательности запросов пользователей, чтобы понять, как они уточняют свои поисковые намерения. Если пользователи часто переходят от широкого или неточного запроса к более конкретному, который ведет на авторитетный ресурс, Google связывает этот ресурс с исходным широким запросом. Это позволяет показывать авторитетный сайт выше в выдаче, даже если пользователь сформулировал запрос неточно.

US8326826B1
2012-12-04

Семантика и интент
Поведенческие сигналы
EEAT и качество

Как Google использует «Локальный авторитет» для переранжирования документов на основе их взаимосвязей внутри конкретной выдачи

Google может улучшить ранжирование, анализируя структуру ссылок внутри начального набора результатов поиска. Документы, на которые часто ссылаются другие высокорелевантные документы по этому же запросу («локальные эксперты»), получают повышение. Этот процесс включает строгие фильтры для обеспечения независимости этих ссылок-голосов.

US6526440B1
2003-02-25

Ссылки
Антиспам
SERP

Как Google определяет связанность документов с использованием Co-citation, анализа текста вокруг ссылок и паттернов пользовательского доступа

Google использует методы для ограничения результатов поиска на основе заданного контекста (например, набора URL-адресов или категории). Патент детализирует, как система определяет «связанность» между документами, используя такие методы, как анализ совместного цитирования (co-citation), анализ текста, окружающего ссылки в цитирующих документах, и анализ корреляции паттернов доступа пользователей.

US7305380B1
2007-12-04

Ссылки
SERP
Поведенческие сигналы

Как Google запоминает прошлые уточнения поиска пользователя и автоматически перенаправляет его к конечному результату

Google использует механизм персонализации, который отслеживает, как пользователи уточняют свои поисковые запросы. Если пользователь часто вводит общий запрос, а затем выполняет ряд действий (например, меняет запрос или взаимодействует с картой), чтобы добраться до конкретного результата, система запоминает эту последовательность. В будущем, при вводе того же общего запроса, Google может сразу показать конечный результат, минуя промежуточные шаги.

US9305102B2
2016-04-05

Персонализация
Поведенческие сигналы

Как Google использует исторические данные о кликах по Сущностям для ранжирования нового или редко посещаемого контента

Google решает проблему «холодного старта» для новых страниц, у которых нет собственных поведенческих данных. Система агрегирует историю кликов на уровне Сущностей (Entities). Если сущности, упомянутые на новой странице, исторически имеют высокий CTR по целевому запросу, страница получает бустинг в ранжировании, наследуя поведенческие сигналы через эти сущности.

US10303684B1
2019-05-28

Поведенческие сигналы
Семантика и интент
SERP

Как Google рассчитывает репутационную значимость организаций и людей, используя данные из внешних источников для ранжирования

Google использует систему для оценки репутации и престижа сущностей (например, организаций или людей). Система не полагается только на предоставленные данные, а активно ищет «Дополнительные Аспекты» из внешних источников (например, профессиональные сети, СМИ). На основе этих данных рассчитываются две метрики: «Репутационная Значимость» (престиж относительно аналогов) и «Двустороннее Соответствие» (взаимная привлекательность), которые используются для ранжирования результатов поиска и рекомендаций.

US10878048B2
2020-12-29

EEAT и качество
SERP
Knowledge Graph

Как Google использует данные о совместном посещении сайтов (Co-Visitation) для персонализации и повышения релевантности выдачи

Google использует поведенческие данные сообщества пользователей для определения тематической связи между сайтами. Если пользователи часто посещают Сайт А и Сайт Б в течение короткого промежутка времени (Co-Visitation), система создает "Вектор повышения" (Boost Vector). Этот вектор используется для повышения в выдаче тематически связанных сайтов, основываясь на истории посещений пользователя или контексте текущего сайта, улучшая персонализацию и релевантность.

US8874570B1
2014-10-28

Поведенческие сигналы
Персонализация
SERP

Как Google связывает документы на основе поведения пользователей, времени взаимодействия и контентной близости для персонализации поиска

Google использует систему для определения "меры ассоциации" между различными документами (статьями, веб-страницами, письмами). Ассоциация рассчитывается на основе того, насколько близко по времени пользователь взаимодействовал с этими документами, насколько похож их контент и совпадают ли метаданные (например, автор). Эти связи используются для понимания пути пользователя и персонализации последующих результатов поиска.

US8131754B1
2012-03-06

Поведенческие сигналы
Персонализация
Семантика и интент

Как Google использует машинное обучение для оптимизации обхода Knowledge Graph и поиска связанных концепций

Google оптимизирует обход Knowledge Graph для эффективного поиска семантически связанных фраз. Вместо анализа всех связей сущности система использует ML-модели для выбора только тех отношений (свойств), которые вероятнее всего приведут к ценным результатам. Этот выбор основан на истории поисковых запросов и контексте пользователя, что позволяет экономить вычислительные ресурсы и повышать релевантность предложений.

US10140286B2
2018-11-27

Knowledge Graph
Семантика и интент
Персонализация

Как Google улучшает результаты поиска, подбирая похожие "идеальные" запросы из логов и структурированных данных

Google идентифицирует запросы, которые стабильно показывают высокое вовлечение пользователей (CTR, долгие клики), и генерирует синтетические запросы из структурированных данных (например, частотного анкорного текста). Когда пользователь вводит похожий, но потенциально плохо сформулированный запрос, Google использует эти "аугментирующие запросы" для предоставления более качественных и релевантных результатов.

US9128945B1
2015-09-08

SERP
Поведенческие сигналы
EEAT и качество

Как Google использует машинное обучение для прогнозирования желаемого типа контента (Web, Images, News) и формирования смешанной выдачи (Universal Search)

Google анализирует исторические журналы поиска (пользователь, запрос, клики), чтобы обучить модель машинного обучения. Эта модель предсказывает вероятность того, что пользователь хочет получить результаты из определенного репозитория (например, Картинки или Новости). Google использует эти прогнозы, чтобы решить, в каких индексах искать и как смешивать результаты на финальной странице выдачи (Universal Search).

US7584177B2
2009-09-01

Семантика и интент
SERP
Персонализация