Как Google обеспечивает стабильность канонических URL при асинхронном сканировании контента (Crawl Skew)

CLUSTERING BY PREVIOUS REPRESENTATIVE (Кластеризация по предыдущему представителю)

US7836108B1
Google LLC
2008-03-31
2010-11-16

Google использует механизм для стабилизации индекса при обработке дубликатов в условиях неравномерного сканирования (Crawl Skew). Если страница не была пересканирована, система принудительно связывает ее с предыдущим каноническим URL (Previous Representative). Это обеспечивает стабильность выбора каноникалов и предотвращает индексацию устаревших дубликатов.

Какую проблему решает

Патент решает фундаментальную инфраструктурную проблему, вызванную асинхронным сканированием (Crawl Skew). Поскольку поисковая система не может пересканировать весь веб одновременно, возникает несоответствие свежести (freshness mismatch) между документами. Если один дубликат изменился и был пересканирован, а второй нет, стандартный алгоритм может ошибочно разделить их на разные кластеры. Это приводит к индексации дублирующегося контента и нестабильности канонических URL.

Что запатентовано

Запатентована система для поддержания стабильности кластеров дубликатов и их канонических URL (Representatives). Система использует исторические данные о каноникализации, чтобы компенсировать разницу в свежести контента. Если документ не был пересканирован (re-crawled), он принудительно помещается в тот же кластер, что и его предыдущий канонический URL (Previous Representative), игнорируя временные расхождения в контенте.

Как это работает

Механизм активируется во время процесса индексирования и кластеризации дубликатов:

Кластеризация: Документы группируются на основе текущих данных (например, по checksum).
Выбор представителя: Для каждого кластера выбирается Representative на основе метрик качества (Measure of Quality).
Проверка свежести: Система проверяет, был ли этот представитель недавно пересканирован.
Стабилизация: Если представитель НЕ был пересканирован (устарел), система находит его Previous Representative из прошлого цикла индексирования.
Принудительное объединение: Текущий кластер принудительно объединяется с тем кластером, где сейчас находится Previous Representative.

Актуальность для SEO

Высокая (Инфраструктурная). Проблема асинхронного сканирования и необходимость поддержания стабильности канонических URL фундаментальны для любой крупномасштабной поисковой системы. Хотя конкретные методы кластеризации Google эволюционировали, описанная логика обеспечения консистентности индекса остается критически актуальной в 2025 году.

Важность для SEO

Патент имеет значительное влияние на техническое SEO и понимание инфраструктуры индексации (6.5/10). Хотя основной механизм стабилизации является инфраструктурным, патент предоставляет критически важную информацию о факторах, используемых для выбора канонического URL (Measure of Quality). Он также объясняет «липкость» (stickiness) решений Google о каноникализации и подчеркивает важность управления сканированием.

Термины и определения

Cluster (Кластер): Группа документов, идентифицированных системой как дубликаты или почти дубликаты друг друга.
Content-based clustering (Кластеризация на основе контента): Метод обнаружения дубликатов путем анализа содержимого. Примеры: вычисление контрольных сумм (Checksum ID) или анализ цепочек редиректов (Target ID).
Crawl Skew (Неравномерность сканирования): Ситуация, когда разные документы в индексе имеют разную свежесть из-за асинхронного сканирования.
Measure of Quality (Мера качества / Quality Score): Метрика, используемая для выбора лучшего представителя внутри кластера. Включает такие факторы, как Page Rank, ссылочная информация, анкорный текст, эстетика URL, популярность и качество источника контента.
Predictive-based clustering (Предиктивная кластеризация): Метод идентификации дубликатов без анализа контента, например, на основе правил для структуры URL (игнорирование сессионных идентификаторов).
Previous Representative (Предыдущий представитель): Документ, который был канонической версией для данного документа во время предыдущего цикла кластеризации. Исторические данные, используемые для стабилизации.
Re-crawled (Пересканированный): Статус, указывающий, был ли документ пересканирован с момента предыдущего цикла кластеризации. Критически важный триггер для механизма стабилизации.
Representative / Canonical (Представитель / Каноническая версия): Документ, выбранный из кластера для индексации и показа в результатах поиска. Патент различает Current Representative и Previous Representative.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод стабилизации кластеризации.

Система идентифицирует документы и распределяет их по кластерам в текущей операции.
Для каждого кластера выбирается текущий представитель (Current Representative Document).
Определяется, был ли текущий представитель пересканирован (re-crawled).
Если НЕ был пересканирован: определяется предыдущий представитель (Previous Representative Document), с которым текущий представитель был связан в прошлой операции кластеризации.
Определяется, в какой кластер назначен предыдущий представитель в текущей операции.
Кластер текущего представителя (который не был пересканирован) объединяется с кластером предыдущего представителя в комбинированный кластер (Combined Cluster).

Это механизм стабилизации, который отдает приоритет историческим решениям о кластеризации, если текущие данные устарели (документ не был пересканирован). Система предполагает, что отсутствие новых данных означает сохранение старого статуса дублирования, даже если другие документы в кластере изменились.

Claim 8 (Зависимый от 1) и Claim 11 (В контексте системы): Детализируют механизм и критерии выбора представителя.

Система генерирует Measure of Quality для каждого документа и выбирает текущего представителя на основе этой метрики. Measure of Quality базируется на Quality Information, которая включает как минимум один из следующих факторов:

Информация о ссылках (link information).
Ранг страницы (Page Rank).
Информация об анкорном тексте (anchor text information).
Эстетическая ценность адреса документа (aesthetic value associated with an address).
Информация о популярности (popularity information).
Информация об источнике контента (source of content information, например, качество или возраст сайта).
Дата создания документа.

Это критически важные пункты для SEO, так как они перечисляют конкретные факторы, используемые Google для выбора канонического URL среди дубликатов.

Где и как применяется

Изобретение является частью конвейера индексирования и тесно связано с результатами сканирования.

CRAWLING – Сканирование и Сбор данных
На этом этапе определяется статус свежести контента. Краулер (Crawler Engine) собирает документы и фиксирует статус сканирования (Re-crawled Information). Асинхронность этого этапа порождает Crawl Skew, который и призван решить патент.

INDEXING – Индексирование и извлечение признаков
Это основной этап применения патента. Процесс происходит внутри Indexing Engine и задействует компоненты Duplicate Detector и Representative Selector.

Обнаружение дубликатов: Duplicate Detector выполняет первичную кластеризацию.
Каноникализация (Выбор): Representative Selector рассчитывает Measure of Quality и выбирает представителя.
Каноникализация (Стабилизация): Применяется логика патента для стабилизации кластеров на основе статуса Re-crawled и истории (Previous Representative).

Входные данные:

Набор документов для кластеризации.
Статус пересканирования (Re-crawled Yes/No) для каждого документа.
Исторические данные: Previous Representative для каждого документа из прошлого цикла.
Measure of Quality для каждого документа (PageRank, URL aesthetics и т.д.).

Выходные данные:

Стабильные кластеры документов.
Выбранные канонические версии (Representatives) для индексации.

На что влияет

Конкретные типы контента и ниши: Влияет на любой контент, который может быть дублирован. Особенно актуально для E-commerce (фасеточная навигация, параметры сессий), синдицированного контента и сайтов с техническими дубликатами (зеркала).
Влияние на большие сайты: Критично для крупных сайтов, где полное пересканирование занимает много времени, увеличивая вероятность рассинхронизации свежести дубликатов.

Когда применяется

Условия работы алгоритма: Алгоритм применяется во время периодических циклов индексации и кластеризации (current clustering operation).
Триггеры активации: Механизм стабилизации активируется только при выполнении условия: документ, выбранный в качестве представителя кластера на основе текущих данных, НЕ был пересканирован с момента прошлой операции.

Пошаговый алгоритм

Процесс стабилизации кластеризации при индексации:

Идентификация документов: Определение набора документов для текущего цикла кластеризации.
Первичная кластеризация: Группировка документов на основе текущих данных (например, чексумм контента). Формируются предварительные кластеры.
Расчет качества: Определение Measure of Quality для каждого документа в кластерах.
Выбор текущих представителей: В каждом кластере предварительно выбирается документ с наивысшей Measure of Quality в качестве текущего представителя (Current Representative).
Проверка статуса сканирования: Для каждого текущего представителя проверяется статус Re-crawled.
Принятие решения:
- Если представитель был пересканирован: Кластер считается стабильным на основе свежих данных. Процесс для этого кластера завершается.
- Если представитель НЕ был пересканирован: Активируется механизм стабилизации (переход к шагу 7).
Определение Предыдущего Представителя: Система извлекает исторические данные и определяет, какой документ был Previous Representative для текущего представителя в прошлом цикле.
Принудительное объединение (Force Merge): Система находит кластер, в котором сейчас находится Previous Representative, и объединяет текущий кластер (с непересканированным представителем) с этим кластером.
Финализация: Информация о комбинированном кластере сохраняется.

Какие данные и как использует

Данные на входе

Патент явно указывает на использование следующих данных для кластеризации и выбора представителя:

Для кластеризации (Duplicate Detection):

Контентные факторы: Содержимое документа используется для Content-based clustering (например, вычисление checksum или hash).
Технические факторы: Информация о редиректах (Redirect information). URL-структура и параметры (используются в Predictive-based clustering).

Для выбора Представителя (Canonicalization - Measure of Quality):

Ссылочные факторы:
- Link information (Информация о ссылках).
- Page Rank (Ранг страницы, явно упоминается).
- Anchor text information (Информация об анкорном тексте).
Технические факторы (Эстетика URL):
- Aesthetic of address information (Эстетика адреса).
Поведенческие/Популярность:
- Popularity information (Информация о популярности).
Факторы качества источника:
- Source of content information, включая качество веб-сайта (Quality of a web site) и возраст веб-сайта (Age of a web site).
Временные факторы:
- Date a document is created (Дата создания документа).

Системные данные:

Временные факторы: Re-crawled статус (информация о свежести документа, может включать timestamp information).
Исторические данные: Previous Representative (история каноникализации).

Какие метрики используются и как они считаются

Key Value (Ключевое значение): Идентификатор для кластеризации. Может рассчитываться как Checksum ID, Target ID (конечный URL редиректа) или Predictive ID (на основе правил URL).
Measure of Quality (Мера качества): Агрегированная оценка качества документа, используемая для выбора Representative внутри кластера. Рассчитывается путем взвешивания факторов качества (PageRank, Popularity и т.д.). Особо выделяется:
- Aesthetic of address information (Эстетика URL): Патент определяет, что короткие и/или основанные на словах URL имеют более высокую ценность, чем длинные URL, содержащие символы (например, ?, !, $\star$ , и т.д.).

Приоритет стабильности индекса над реактивностью: Google предпочитает поддерживать стабильность канонических URL, а не рисковать некорректной кластеризацией на основе устаревших данных. При недостатке свежих данных (Crawl Skew) система полагается на историю (Previous Representative).
«Липкость» (Stickiness) канонических решений: Патент описывает механизм, который усиливает стабильность выбора канонической версии. Это объясняет, почему Google может медленно реагировать на изменения в сигналах каноникализации.
Каноникализация основана на качестве: Выбор представителя (Canonical) из группы дубликатов — это процесс ранжирования на основе Measure of Quality.
Подтвержденные факторы выбора канонического URL: Патент явно подтверждает использование сигналов качества (PageRank, ссылки, популярность, качество сайта) и технических факторов, таких как Эстетика URL (предпочтение отдается коротким и чистым адресам).
Критичность частоты сканирования: Скорость учета изменений на сайте напрямую зависит от частоты сканирования. Документы, которые сканируются редко, с большей вероятностью будут подвержены механизму исторической стабилизации.

Best practices (это мы делаем)

Патент раскрывает факторы Measure of Quality, используемые для выбора канонического URL. Стратегия должна быть направлена на их максимизацию для предпочтительных страниц.

Оптимизация структуры URL (Aesthetic value): Используйте короткие, чистые, человекочитаемые URL (ЧПУ). Избегайте избыточных параметров, сессионных идентификаторов и специальных символов. Эстетика URL является подтвержденным фактором выбора каноникала.
Повышение авторитетности (PageRank, Popularity): Консолидируйте ссылочные сигналы и сигналы популярности на канонических страницах. Более авторитетная страница имеет больше шансов быть выбранной в качестве Representative.
Обеспечение четких и последовательных сигналов: Используйте согласованные сигналы (rel=canonical, внутренние ссылки, Sitemaps), чтобы помочь Google изначально выбрать правильного представителя и сформировать корректную историю (Previous Representative).
Оптимизация краулингового бюджета и частоты сканирования: Улучшайте скорость сайта и внутреннюю архитектуру, чтобы важные страницы пересканировались часто. Это уменьшает негативное влияние Crawl Skew и ускоряет учет изменений.
Работа над качеством источника (Source Quality): Повышайте общее качество и авторитетность сайта, так как это учитывается при выборе представителя, особенно при кросс-доменном дублировании.

Worst practices (это делать не надо)

Использование сложных и динамических URL для основного контента: Создание длинных URL с параметрами сессий или трекинга снижает их Aesthetic value и уменьшает вероятность выбора в качестве канонических.
Непоследовательные сигналы и частые изменения: Частое изменение тегов rel=canonical или структуры URL может привести к непредсказуемым результатам из-за асинхронного сканирования и механизма стабилизации, который будет полагаться на историю.
Игнорирование проблем со сканированием: Низкая частота сканирования приводит к тому, что система долгое время работает на устаревших данных, полагаясь на Previous Representative, и игнорирует внесенные вами изменения.

Стратегическое значение

Патент подтверждает, что каноникализация — это сложная система, сочетающая анализ контента, оценку качества и механизмы стабилизации. Стратегически важно понимать, что система Google обладает инерцией («липкостью») решений для поддержания стабильности. Управление сканированием (Crawl Management) является неотъемлемой частью стратегии индексации. Кроме того, подтверждение важности PageRank и Эстетики URL дает четкие направления для оптимизации структуры сайта и ссылочного профиля.

Практические примеры

Сценарий 1: Выбор канонического URL (Measure of Quality)

Интернет-магазин имеет страницу товара, доступную по двум адресам:

URL A: /products/red-widget (Чистый URL)
URL B: /catalog/index.php?product=123&color=red&session=XYZ (Технический URL)

Обе страницы имеют идентичный контент и попадают в один кластер.

Применение патента:

Система рассчитывает Measure of Quality.
URL A получает более высокую оценку за счет Aesthetic of address information.
Если другие факторы (PageRank) схожи, URL A будет выбран в качестве Representative.

Сценарий 2: Стабилизация при обновлении контента (Crawl Skew)

Ситуация: URL A (канон) и URL B (дубликат). URL A является Previous Representative для URL B.
Изменение: Контент на URL A значительно обновляется.
Сканирование: Google сканирует URL A (re-crawled), но еще не сканирует URL B (not re-crawled).
Кластеризация: URL A имеет новую чексумму, URL B — старую. Они временно попадают в разные кластеры. URL B становится представителем своего кластера.
Применение патента: Система видит, что представитель URL B не был пересканирован. Она находит его Previous Representative (URL A).
Результат: Кластер URL B принудительно объединяется с кластером URL A. Это предотвращает индексацию старого контента с URL B.

Какие факторы Google использует для выбора канонического URL (Representative) согласно этому патенту?

Патент явно перечисляет факторы, входящие в Measure of Quality: ранг страницы (PageRank), информация о ссылках и анкорах, эстетика URL-адреса (aesthetic value), популярность, дата создания документа, а также качество и возраст сайта-источника. Документ с наивысшей агрегированной оценкой выбирается как канонический.

Что такое «Эстетика URL» (Aesthetic of address information) и как ее улучшить?

Патент определяет это как предпочтение коротким и основанным на словах URL по сравнению с длинными URL, содержащими специальные символы (например, ?, !, *). Для SEO это подтверждает важность использования ЧПУ (человекопонятных урлов) и избегания сложных динамических параметров (session ID, избыточные фильтры) на канонических страницах.

Что такое «Previous Representative» и почему он важен?

Previous Representative — это канонический URL, с которым страница была связана в предыдущем цикле индексации. Он используется как механизм стабилизации при асинхронном сканировании (Crawl Skew). Если страница не была пересканирована, система принудительно привязывает ее к предыдущему представителю, чтобы избежать ошибок кластеризации из-за устаревших данных.

Почему Google иногда долго не меняет каноническую версию, даже если я внес исправления?

Этот патент объясняет причину: система разработана для обеспечения стабильности («липкости») решений. Если вовлеченные страницы не были синхронно пересканированы, система будет полагаться на историю (Previous Representative), чтобы компенсировать недостаток свежих данных. Изменения будут учтены только после полного пересканирования и переоценки.

Как частота сканирования влияет на этот механизм?

Частота сканирования критически важна. Чем реже сканируется страница, тем дольше она сохраняет статус "not re-crawled" и тем чаще к ней применяется механизм исторической стабилизации. Оптимизация краулингового бюджета необходима для быстрого учета изменений в каноникализации.

Может ли этот механизм объяснить, почему Google игнорирует мой rel=canonical?

Косвенно, да. Патент показывает, что Google полагается на собственные сигналы качества (Measure of Quality) и стабильность (Previous Representative). Если указанный вами каноникал имеет значительно более низкие метрики качества (например, плохой URL и низкий PageRank) или если система предпочитает стабильность на основе истории, ваш тег может быть проигнорирован.

Какие методы Google использует для обнаружения дубликатов?

Патент упоминает три основных подхода. Content-based clustering (анализ контента через чексуммы), анализ редиректов (определение Target ID) и Predictive-based clustering (анализ шаблонов URL без доступа к контенту, например, игнорирование параметров сессий).

Что важнее для выбора каноникала: PageRank или чистый URL?

Патент перечисляет оба фактора как часть Measure of Quality без указания весов. На практике авторитетность (PageRank) часто является более сильным сигналом. Однако при сравнении технических дублей на одном сайте (где авторитетность схожа), чистый (эстетичный) URL может стать решающим фактором.

Означает ли этот патент, что Google хранит историю каноникализации для каждой страницы?

Да, патент прямо указывает на необходимость хранения и использования данных о Previous Representative из прошлых циклов кластеризации. Эта история является основой для описанного механизма стабилизации индекса.

Как этот патент помогает бороться с кражей контента (Scraping)?

Он помогает, так как для выбора представителя используются факторы качества источника (Quality/Age of a web site) и дата создания документа. Если ваш оригинальный контент опубликован на авторитетном сайте и проиндексирован раньше, он с большей вероятностью будет выбран как Representative по сравнению со скопированной версией.

Как Google использует редиректы, анализ URL и оценку качества для объединения дубликатов и выбора канонической версии

Google использует итеративный процесс для борьбы с дубликатами при индексировании. Система кластеризует похожие документы, выбирает лучшего представителя из каждого кластера на основе качества и определяет конечную цель его редиректов. Если цели редиректов из разных кластеров оказываются дубликатами (например, на основе анализа паттернов URL), исходные кластеры объединяются. Это позволяет консолидировать сигналы и выбрать единую каноническую версию для индекса.

US8661069B1
2014-02-25

Индексация
Техническое SEO
Структура сайта

Как Google определяет, какие параметры URL влияют на контент, чтобы выбрать канонический URL и оптимизировать краулинг

Google использует систему для статистического анализа динамических URL-адресов и определения того, какие параметры являются значимыми для контента (content-relevant), а какие нет (content-irrelevant). Система группирует URL-адреса, ведущие на одинаковый контент, в «Классы эквивалентности» и выбирает один «Представительский URL» для сканирования и индексации, экономя краулинговый бюджет и решая проблемы дублированного контента.

US7680773B1
2010-03-16

Техническое SEO
Краулинг
Индексация

Как Google оценивает качество новостных источников, кластеризует статьи и ранжирует новости на основе свежести, оригинальности и авторитетности

Детальный разбор основополагающего патента Google News. Система оценивает источники по скорости реакции на события, оригинальности контента и авторитетности (ссылки, просмотры). Новостные сюжеты (кластеры) ранжируются по свежести и качеству источников. Статьи внутри сюжета сортируются с использованием «Модифицированной оценки свежести», которая дает значительное преимущество авторитетным изданиям.

US7568148B1
2009-07-28

Свежесть контента
EEAT и качество

Как Google обнаруживает точные дубликаты во время сканирования и выбирает каноническую версию на основе PageRank и гистерезиса

Патент Google, описывающий систему (Dupserver) для обнаружения точных дубликатов контента на этапе сканирования. Система использует фингерпринты контента и URL для группировки дубликатов. Каноническая версия выбирается на основе наивысшего независимого от запроса показателя (например, PageRank). Для предотвращения частого переключения канонической версии используется механизм гистерезиса. Также описана обработка 301 и 302 редиректов.

US7627613B1
2009-12-01

Краулинг
Индексация
Техническое SEO

Как Google прогнозирует частоту обновления новых страниц для оптимизации краулингового бюджета

Google использует статистический метод для оценки того, как часто будет обновляться новый документ. Система анализирует исторические данные о частоте изменений похожих документов (например, страниц с аналогичной структурой URL или на том же домене), чтобы определить оптимальную частоту сканирования новой страницы. Это позволяет поддерживать свежесть индекса и эффективно расходовать краулинговый бюджет.

US20130212100A1
2013-08-15

Краулинг
Индексация
Свежесть контента

Как Google использует поведение пользователей в веб-поиске для динамической категоризации локальных бизнесов

Google динамически формирует категории для бизнесов, основываясь на том, как пользователи ищут их (используемые ключевые слова и клики) в веб-поиске и голосовом поиске. Эти данные формируют иерархическое понимание типов бизнеса. Эта структура затем используется для повышения точности распознавания названий компаний в голосовых запросах.

US8041568B2
2011-10-18

Local SEO
Поведенческие сигналы
Семантика и интент

Как Google использует структуру сайта и анкорные тексты для извлечения Сущностей из шумных заголовков (Title)

Google использует метод для точного определения основного объекта (Сущности) веб-страницы, когда заголовок (Title) содержит лишнюю информацию (брендинг, рубрики). Система анализирует заголовки похожих страниц на том же сайте (Peer Documents) и анкорные тексты, ссылающиеся на них. Выявляя повторяющиеся шаблоны (префиксы и суффиксы) в заголовках, Google отделяет название Сущности от шума.

US7590628B2
2009-09-15

Семантика и интент
Структура сайта
Ссылки

Как Google снижает ценность ссылок между аффилированными сайтами для борьбы с линк-схемами

Google использует модификацию алгоритмов расчета качества (типа PageRank), которая учитывает аффилированность между ссылающимися документами. Если система определяет, что сайты связаны (например, принадлежат одному владельцу, находятся в одной сети или имеют схожие паттерны трафика), ценность ссылок между ними агрессивно снижается. Вместо суммирования веса всех ссылок система учитывает только максимальный вклад от аффилированной группы, нейтрализуя эффект линк-ферм и PBN.

US7783639B1
2010-08-24

Ссылки
Антиспам
EEAT и качество

Как Google использует цепочки запросов и время взаимодействия для определения и ранжирования результатов, которые действительно нужны пользователям

Google анализирует последовательности запросов пользователей (цепочки запросов) и время между кликами и последующими запросами (время взаимодействия), чтобы определить удовлетворенность пользователя. Если пользователи часто переформулируют Запрос А в Запрос Б, прежде чем найти удовлетворительный результат, Google использует эти данные, чтобы ранжировать этот удовлетворительный результат выше по исходному Запросу А и предлагать Запрос Б в качестве связанного поиска.

US9342600B1
2016-05-17

Поведенческие сигналы
Семантика и интент
SERP

Как Google подменяет ссылки в выдаче, чтобы обойти медленные редиректы на мобильные версии сайтов

Google оптимизирует скорость загрузки, определяя, когда клик по результату поиска вызовет условный редирект (например, с десктопной версии на мобильную). Система заранее подменяет исходную ссылку в выдаче на конечный URL редиректа. Это позволяет устройству пользователя сразу загружать нужную страницу, минуя промежуточный запрос и экономя время.

US9342615B2
2016-05-17

Техническое SEO
SERP
Ссылки

Как Google классифицирует запросы как навигационные или исследовательские, чтобы регулировать количество показываемых результатов

Google использует систему для динамического определения количества отображаемых результатов поиска. Система классифицирует запрос как навигационный (поиск конкретного места/ресурса) или исследовательский (поиск вариантов). Классификация основана на анализе компонентов оценки релевантности (совпадение по названию vs. категории) и энтропии исторических кликов. При навигационном интенте количество результатов сокращается.

US9015152B1
2015-04-21

Семантика и интент
Поведенческие сигналы
Local SEO

Как Google использует контент веб-страниц для генерации, верификации и адаптации AI-ответов в поиске (SGE/AI Overviews)

Google использует Большие Языковые Модели (LLM) для создания генеративных сводок (AI Overviews/SGE). Для обеспечения точности система не полагается только на знания LLM, а обрабатывает контент из актуальных результатов поиска (SRDs). Патент описывает архитектуру этого процесса: как выбираются источники, как генерируется сводка на их основе (Grounding), как проверяется информация для добавления ссылок (Verification), и как ответ адаптируется под контекст и действия пользователя.

US20250005303A1
2025-01-02

SERP
EEAT и качество
Персонализация

Как Google итеративно распознает сущности на страницах и рассчитывает их важность с помощью PageRank

Google использует итеративный процесс для распознавания и устранения неоднозначности сущностей (людей, мест, понятий) в документах. Система начинает с известных фактов, находит упоминающие сущность документы, анализирует сопутствующие термины для уточнения модели распознавания и автоматически обнаруживает новые признаки. Патент также описывает расчет важности сущности путем суммирования PageRank ссылающихся документов, взвешенного на вероятность ссылки.

US8122026B1
2012-02-21

Семантика и интент
Ссылки
Knowledge Graph

Как Google использует нейросетевые эмбеддинги (Two-Tower Model) для семантического поиска изображений с учетом контекста страницы

Google использует систему поиска изображений, основанную на нейронных сетях (модель "Две Башни"). Система создает векторные представления (эмбеддинги) для поисковых запросов и для пар "изображение + посадочная страница", помещая их в общее семантическое пространство. Это позволяет находить релевантные изображения не по ключевым словам, а по близости векторов, учитывая как содержание картинки, так и контекст страницы, на которой она размещена.

US11782998B2
2023-10-10

Семантика и интент
Индексация
Мультимедиа

Как Google использует паттерны просмотра пользователей (Co-Visitation) и временную близость для определения тематики нетекстового контента (изображений и видео)

Google использует механизм для понимания контента без текста (изображения, видео), анализируя, какие другие (текстовые) страницы пользователи посещают в рамках той же сессии. Ключевые слова с этих текстовых страниц заимствуются и присваиваются нетекстовому ресурсу. Критически важным фактором является время перехода: чем быстрее пользователь перешел между ресурсами, тем больший вес получают ключевые слова.

US8572096B1
2013-10-29

Поведенческие сигналы
Семантика и интент
Мультимедиа