Как Google использует свой индекс для автоматического обновления устаревших ссылок в закладках, истории поиска и на веб-страницах

CANONICALIZATION OF UNIFORM RESOURCE IDENTIFIERS (Каноникализация унифицированных идентификаторов ресурсов)

US20130144836A1
Google LLC
2011-06-02
2013-06-06

Система Google поддерживает актуальность различных коллекций URL (закладки пользователей, история поиска, электронные письма), используя основной поисковый индекс как эталон канонических адресов. Если сохраненный URL устарел, система автоматически заменяет его на актуальную версию. Также описан механизм уведомления владельцев сайтов о неработающих исходящих ссылках.

Какую проблему решает

Патент решает проблему «гниения ссылок» (link rot). Когда веб-ресурсы перемещаются, меняют доменные имена или структуру, сохраненные идентификаторы (URI или URL) становятся недействительными (outdated URI). Это приводит к появлению «битых» ссылок в закладках пользователей, истории поиска и на веб-страницах, ухудшая пользовательский опыт. Изобретение направлено на автоматическое поддержание актуальности этих коллекций ссылок.

Что запатентовано

Запатентована система и метод для поддержания целостности коллекций URI путем их синхронизации с эталонным индексом документов (Document Index). Система использует этот индекс как источник истины для определения актуального канонического URI (Canonical URI) для ресурса и заменяет устаревшие или неканонические версии в различных хранилищах на актуальные.

Как это работает

Система функционирует в нескольких режимах:

Проактивное обновление (Pull/Push): Серверы, управляющие коллекциями URI (например, сервер закладок), либо периодически сверяют свои данные с Document Index (Pull), либо подписываются на службу публикации обновлений (URI Updates Publisher Server) для получения актуальных данных (Push).
Реактивное обновление (Real-time): Клиентские приложения (например, браузер или плагин) могут перехватить ошибку при клике по устаревшей ссылке, мгновенно запросить каноническую версию из индекса и перенаправить пользователя.
Уведомления вебмастеров: Система может идентифицировать веб-страницы, содержащие устаревшие исходящие ссылки, и уведомлять владельцев этих страниц о проблеме, предлагая актуальный Canonical URI для замены.

Актуальность для SEO

Высокая. Устаревание ссылок — постоянная проблема интернета. Поддержание функциональности ссылок критически важно для пользовательского опыта в экосистеме Google (например, закладки и история Chrome) и для связности веба в целом. Описанные механизмы являются фундаментальной инфраструктурой для обеспечения целостности данных.

Важность для SEO

Влияние на SEO минимальное (Инфраструктура/UX). Патент не описывает алгоритмы ранжирования. Он фокусируется на обновлении уже сохраненных идентификаторов для улучшения пользовательского опыта. Однако он подчеркивает критическую важность корректного технического управления каноникализацией и редиректами на сайте. Это гарантирует, что Google быстро распознает актуальные URL, что косвенно влияет на эффективность сканирования и консолидацию сигналов ранжирования.

Термины и определения

Add-on Application (Дополнительное приложение): Программное обеспечение (например, плагин, тулбар или встроенная функция браузера), которое может перехватывать ошибки доступа к URI, запрашивать канонические URI и выполнять перенаправление в реальном времени.
Backlinks (Обратные ссылки): Информация в Document Index о том, какие документы ссылаются на данный ресурс. Используется для поиска страниц, содержащих устаревшие исходящие URI.
Canonical URI (Канонический URI): Наиболее актуальная и предпочтительная версия URI для доступа к ресурсу, хранящаяся в Document Index. Может отличаться от сохраненного URI из-за перемещения ресурса или удаления ненужных параметров (например, идентификаторов сессий).
Crawler (Краулер): Компонент поисковой системы, который просматривает документы в интернете и определяет актуальные URI. Он обнаруживает изменения URI, например, через HTTP-редиректы (301/302), мета-обновления или анализ текста на странице.
Document Index (Индекс документов): Эталонная база данных (например, основной индекс Google). Хранит Canonical URI ресурса, другие (включая устаревшие) URI этого ресурса (Other URIs) и информацию об обратных ссылках (Backlinks).
Outdated URI (Устаревший URI): URI, который больше не является каноническим или не позволяет получить доступ к ресурсу (неработающая ссылка).
URI Collection (Коллекция URI): Любое хранилище ссылок. Примеры: закладки, история поиска, история браузера, ссылки в электронных письмах, SMS, сообщениях на форумах или ссылки на веб-странице.
URI Updates Publisher Server (Сервер публикации обновлений URI): Сервер-посредник, который получает список недавно измененных URI из Document Index и рассылает обновления подписчикам (например, серверам закладок). Также может отвечать за уведомление владельцев контента о битых ссылках.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает базовый метод обновления сохраненного URI.

Система получает сохраненный URI из URI collection.
Система обращается к Document Index, который хранит информацию о канонических URI.
Определяется, отличается ли Canonical URI для данного ресурса от сохраненного URI.
Если отличается, система заменяет сохраненный URI в коллекции на Canonical URI.

Claim 2 (Зависимый от 1): Описывает механизм оптимизации для больших коллекций.

Генерируется список уникальных URI из коллекции.
Проверка каноничности выполняется для этого уникального списка.
После определения Canonical URI, система заменяет каждое вхождение (each instance) устаревшего URI в исходной коллекции на канонический. (Например, если 100 пользователей добавили одну ссылку в закладки, она проверяется один раз, а обновляется у всех).

Claims 3-7 (Зависимые от 1): Уточняют типы коллекций, к которым применим метод: закладки (3), история поиска (4), сообщения (email/SMS) (5), дискуссионные группы/форумы (6), URI, включенные в документ (веб-страницу) (7).

Claim 9 (Независимый пункт): Описывает модель публикации/подписки (Push Model) с точки зрения издателя (URI Updates Publisher Server).

Система получает из Document Index список Canonical URIs, которые изменились с определенного момента времени.
Получает связанные с ними устаревшие URI.
Генерирует обновление URI (URI update).
Предоставляет это обновление подписчикам для замены устаревших URI.

Claim 12 (Зависимый от 9): Описывает механизм уведомления владельцев сайтов.

Идентифицируется документ, который содержит устаревший URI.
Получается контактный адрес менеджера контента этого документа.
Отправляется уведомление об устаревшем URI на этот адрес. (Claim 14 уточняет, что уведомление включает новый Canonical URI).

Где и как применяется

Изобретение описывает инфраструктурные процессы, тесно связанные с этапами сканирования и индексирования, но само обновление коллекций происходит асинхронно, вне основного конвейера обработки поискового запроса.

CRAWLING – Сканирование и Сбор данных
Crawler обнаруживает изменения URI во время сканирования контента. Это происходит путем обнаружения кодов редиректов (HTTP 301 или 302), мета-тегов обновления (refresh redirect) или анализа текста документа (например, "эта страница перемещена").

INDEXING – Индексирование и извлечение признаков
Это ключевой этап. Document Index обновляется на основе данных краулера и служит источником истины. Для ресурса сохраняется новый Canonical URI, старый URI помечается как альтернативный (Other URIs), также сохраняется информация об обратных ссылках (Backlinks).

Применение вне основного поискового конвейера (Инфраструктура и Экосистема)
Основная логика патента реализуется здесь:

Серверы коллекций (Bookmark/History/Mail Servers): Используют данные из Document Index (напрямую или через подписку) для обновления пользовательских данных.
Клиентские устройства (Браузеры): Используют Add-on Application для исправления ссылок в реальном времени при возникновении ошибок доступа.
URI Updates Publisher Server: Действует как посредник и система уведомлений. Он использует данные Backlinks из индекса, чтобы найти страницы с битыми ссылками и уведомить их владельцев.

На что влияет

Типы контента: Влияет на любые ресурсы, имеющие URI (документы, изображения, видео, потоки данных, подкасты).
Коллекции данных: Напрямую влияет на целостность данных в закладках, истории поиска, электронных письмах, сообщениях на форумах и исходящих ссылках на веб-страницах.
Ограничения: В патенте не упоминаются специфические ниши, типы запросов, языковые или географические ограничения.

Когда применяется

Периодически/По расписанию: Проактивное обновление коллекций и публикация обновлений выполняются периодически (например, проверка изменений с момента последней проверки).
Реактивно (В реальном времени): Активируется в момент, когда пользователь пытается получить доступ к ресурсу по устаревшему URI и получает ошибку (при использовании клиентского приложения).
При обнаружении изменений: Когда Crawler обновляет Document Index, это может служить триггером для генерации обновлений.

Пошаговый алгоритм

Патент описывает несколько взаимосвязанных процессов.

Процесс А: Проактивное обновление коллекции URI (Pull Model)

Генерация списка (Оптимизация): Сервер коллекции генерирует список уникальных URI из своей базы данных.
Извлечение URI: Система извлекает URI из списка уникальных URI.
Запрос к индексу: Система запрашивает Document Index для получения соответствующего Canonical URI.
Сравнение: Система сравнивает извлеченный URI и полученный Canonical URI.
Распространение обновлений: Если URI отличаются, система находит все вхождения устаревшего URI в основной коллекции (например, в аккаунтах разных пользователей) и заменяет их на Canonical URI.

Процесс Б: Публикация и подписка на обновления (Push Model)

Мониторинг индекса (Publisher): URI Updates Publisher Server периодически проверяет Document Index на наличие URI, которые изменились с момента последней проверки.
Генерация обновления (Publisher): Создается список обновлений, содержащий пары (Устаревший URI, Канонический URI).
Рассылка (Publisher): Обновление рассылается всем подписчикам.
Применение обновления (Subscriber): Сервер коллекции (подписчик) получает список и заменяет устаревшие URI в своей базе данных на канонические.

Процесс В: Коррекция в реальном времени (Add-on)

Обнаружение ошибки: Пользователь пытается получить доступ к ресурсу по URI, и браузер не может получить доступ (например, ошибка 404).
Перехват: Add-on Application перехватывает ошибку.
Запрос к индексу: Приложение запрашивает Canonical URI у Document Index.
Перенаправление: Если Canonical URI найден, приложение перенаправляет браузер на этот адрес, минуя показ ошибки пользователю.
Локальное обновление (Опционально): Если устаревший URI был сохранен локально (например, в закладках), он обновляется.

Процесс Г: Уведомление владельцев контента

Обнаружение устаревшего URI: Система идентифицирует устаревший URI (например, во время Процесса Б).
Поиск ссылающихся документов: Система запрашивает Document Index для получения Backlinks, чтобы найти документы, содержащие этот устаревший URI.
Идентификация владельца: Система определяет владельца или менеджера контента ссылающегося документа (например, путем поиска контактной информации на домене).
Уведомление: Система отправляет уведомление владельцу, сообщая об устаревшей ссылке и предлагая Canonical URI для замены.

Какие данные и как использует

Данные на входе

Система использует данные, полученные в процессе сканирования, индексирования и взаимодействия с пользователем.

Технические факторы:
- Коды ответа сервера: HTTP 301/302 используются краулером для обнаружения изменений. HTTP 404 (и другие ошибки) используются Add-on Application для реактивного обнаружения устаревших URI.
- Мета-теги: Краулер может использовать refresh redirect (мета-обновление) для обнаружения изменений.
Структурные данные (Индекс): Document Index хранит структурированные записи: Canonical URI, Other URIs (устаревшие/альтернативные) и Backlinks.
Ссылочные факторы:
- Backlinks: Данные об обратных ссылках критически важны для Процесса Г (идентификация документов с устаревшими исходящими ссылками).
Контентные факторы:
- Текст документа: Краулер может анализировать текст (например, "страница перемещена") для обнаружения изменений URI.
- Контактная информация: Система ищет контактные данные на сайтах для отправки уведомлений владельцам контента (Процесс Г).
Пользовательские данные: Сохраненные URI в коллекциях (закладки, история и т.д.).

Какие метрики используются и как они считаются

Патент не описывает сложных метрик, оценок или алгоритмов машинного обучения. Основные механизмы основаны на сравнении строк и управлении базами данных:

Сравнение URI: Основная операция — определение того, отличается ли сохраненный URI от Canonical URI. Это бинарное решение (отличается/не отличается), запускающее обновление.
Управление уникальностью: Генерация списка уникальных URI для оптимизации процесса обновления (Процесс А).
Временные метки: Используются в Процессе Б для определения URI, которые изменились «с определенного момента времени».

Индекс Google как единый источник истины: Document Index служит эталоном для определения Canonical URI не только для поиска, но и для всей экосистемы Google (закладки, история, почта). Google стремится к максимальной консистентности данных.
Автоматизация борьбы с «гниением ссылок»: Описана комплексная инфраструктура для борьбы с link rot на разных уровнях: в сервисах Google, на клиентских устройствах и в вебе в целом. Это направлено на значительное улучшение UX.
Критичность корректных редиректов: Эффективность всей системы напрямую зависит от способности Crawler своевременно и корректно обнаруживать изменения URI. Использование постоянных (301) редиректов является ключевым фактором для быстрого обновления индекса и пользовательских данных.
Активное уведомление вебмастеров: Патент описывает механизм, позволяющий Google активно уведомлять владельцев сайтов об устаревших исходящих ссылках (используя данные Backlinks) и предоставлять им корректный URL для замены. Это указывает на стремление улучшать общую гигиену ссылочного графа веба.
Инфраструктурный характер: Патент описывает внутренние процессы управления данными и не содержит прямых указаний на факторы ранжирования.

Best practices (это мы делаем)

Немедленное внедрение 301 редиректов: Это критически важно. При любых изменениях URL (миграция, изменение структуры) необходимо использовать постоянные (301) редиректы. Это гарантирует, что Crawler быстро обновит Document Index, что позволит системам, описанным в патенте, корректно обновить закладки и историю пользователей, обеспечивая им беспрепятственный возврат на ваш сайт.
Четкая стратегия каноникализации: Поддерживайте ясные и последовательные сигналы каноникализации (rel=canonical, XML Sitemaps). Это гарантирует, что Document Index правильно идентифицирует предпочтительный URI, который затем будет распространяться этой системой.
Мониторинг исходящих ссылок: Регулярно проверяйте исходящие ссылки на своем сайте на наличие ошибок (4xx/5xx). Хотя патент предполагает, что Google может уведомлять вебмастеров о битых ссылках (Процесс Г), проактивный мониторинг остается важным для UX и качества сайта.
Доступность контактной информации: Убедитесь, что контактная информация (например, страница контактов, email вебмастера или данные в Search Console) актуальна. Это может быть использовано для связи с вами в случае реализации механизма уведомлений, описанного в патенте.

Worst practices (это делать не надо)

Использование временных редиректов (302) для постоянных перемещений: Это замедляет процесс обновления Canonical URI в Document Index. В результате система не сможет оперативно обновить устаревшие ссылки в закладках пользователей.
Удаление страниц без редиректов (404): Если страница удалена без настройки редиректа на релевантную замену, Document Index не сможет определить новый Canonical URI. Пользователи, сохранившие ссылку, столкнутся с ошибкой, и автоматическая система обновления не сработает.
Использование сложных цепочек или нестандартных редиректов: Использование JavaScript-редиректов или длинных цепочек HTTP-редиректов может затруднить краулеру быстрое и точное определение нового Canonical URI, что замедлит работу всей инфраструктуры.

Стратегическое значение

Патент подтверждает, что инфраструктура Google глубоко интегрирована. Данные поискового краулера влияют не только на SERP, но и на работу других сервисов. Для SEO-стратегии это подчеркивает критическую важность технически безупречного управления миграциями и изменениями URL. Ошибки в настройке редиректов приводят не только к потере позиций и трафика из поиска, но и к прямому ухудшению UX для лояльных пользователей, которые не смогут вернуться на сайт по сохраненным ссылкам.

Практические примеры

Сценарий 1: Миграция сайта и обновление закладок пользователя

Ситуация: Пользователь сохранил закладку на http://old-site.com/page. Сайт переехал на https://new-site.com/page с настройкой 301 редиректа.
Действие Google (CRAWLING/INDEXING): Crawler обнаруживает 301 редирект. Document Index обновляет Canonical URI на новый адрес.
Действие Google (Обновление Коллекции): Сервер закладок Google (например, Chrome Sync) выполняет Процесс А или Б. Он сверяет закладку с индексом и автоматически обновляет её на https://new-site.com/page.
Результат: Пользователь кликает по старой закладке и попадает на новый адрес без ошибок.

Сценарий 2: Уведомление вебмастера о неработающей исходящей ссылке

Ситуация: На вашем сайте (Site A) есть ссылка на внешний ресурс http://siteB.com/resource. Site B удалил эту страницу (404).
Действие Google (CRAWLING/INDEXING): Crawler обнаруживает 404 ошибку на Site B. Document Index обновляется.
Действие Google (Уведомление): Система активирует Процесс Г. Она использует Backlinks, чтобы найти Site A как источник ссылки на устаревший URI.
Результат: Система может отправить вам (владельцу Site A) уведомление (например, через Search Console), информируя о неработающей исходящей ссылке и, если возможно, предлагая актуальную замену.

Влияет ли этот патент на ранжирование сайтов в поиске Google?

Нет, этот патент не описывает алгоритмы ранжирования. Он посвящен инфраструктуре для обновления сохраненных идентификаторов ресурсов (URI) в различных коллекциях, таких как закладки или история поиска. Его основная цель — улучшение пользовательского опыта путем исправления неработающих ссылок, а не оценка качества контента для целей поиска.

Как Google определяет новый канонический URL, если старый перестал работать?

Система полагается на данные, собранные краулером (Crawler). Краулер обнаруживает изменения, следуя по HTTP-редиректам (301/302), анализируя мета-теги обновления (meta refresh) или текст на странице. Для SEO это подчеркивает критическую важность настройки корректных 301 редиректов при изменении URL для быстрого обновления индекса.

Означает ли этот патент, что Google автоматически исправляет битые обратные ссылки, ведущие на мой сайт?

Нет, он этого не гарантирует. Патент описывает возможность (Claim 12, Процесс Г) уведомления владельца сайта-источника о том, что его исходящая ссылка устарела, и предоставления ему нового Canonical URI. Однако он не описывает механизм автоматического изменения контента на чужих сайтах. Ответственность за исправление ссылки лежит на владельце сайта-источника.

Что такое «URI Updates Publisher Server» и как он работает?

Это специализированный сервер-посредник. Он отслеживает изменения канонических URI в основном индексе Google (Document Index) и рассылает уведомления об этих изменениях подписчикам (Push Model). Подписчиками могут быть другие сервисы Google (например, сервер закладок, сервер истории поиска), которые хотят поддерживать свои базы данных URI в актуальном состоянии.

Может ли Google уведомить меня, если на моем сайте есть неработающие исходящие ссылки?

Да, патент описывает такой механизм (Процесс Г, Claim 12). Система может использовать данные об обратных ссылках (Backlinks) в индексе, чтобы найти документы, ссылающиеся на устаревший URI. Затем она может идентифицировать владельца этого документа и отправить уведомление. На практике такие уведомления часто интегрированы в Google Search Console.

Что произойдет, если я изменю URL страницы, но не настрою 301 редирект?

Краулер не сможет легко связать старый URL с новым, и Document Index не будет содержать актуальный Canonical URI для старого адреса. Пользователи, которые сохранили старый URL в закладках или истории поиска, будут сталкиваться с ошибкой (например, 404), и автоматическая система обновления, описанная в патенте, не сможет им помочь.

Что такое «Add-on Application» и используется ли это сейчас?

В патенте это описывается как плагин или тулбар браузера, который перехватывает ошибки доступа и пытается найти канонический URL в реальном времени (Процесс В). Хотя тулбары устарели, эта функциональность встроена в современные браузеры, такие как Google Chrome, особенно при использовании синхронизации аккаунта, для обеспечения актуальности закладок и истории.

В чем разница между каноникализацией в этом патенте и SEO-концепцией каноникализации?

В SEO каноникализация — это выбор предпочтительного URL для ранжирования среди дубликатов и консолидации сигналов. В данном патенте каноникализация — это процесс обновления сохраненной строки URI в базе данных (например, в закладке) до её актуальной, рабочей версии (Canonical URI) из индекса Google. Это разные процессы, хотя оба полагаются на корректное определение канонического адреса в индексе.

Как оптимизируется обновление больших коллекций URI?

Патент предлагает оптимизацию (Claim 2, Процесс А) для ситуаций, когда множество пользователей сохранили одну и ту же ссылку. Вместо проверки каждой закладки индивидуально, система создает список уникальных URI, проверяет их каноничность, а затем распространяет обновления на все экземпляры измененных URI во всей базе данных.

Какова основная ценность этого патента для SEO-специалиста?

Основная ценность заключается в понимании инфраструктуры Google и критической важности технического SEO. Корректная настройка 301 редиректов гарантирует не только передачу веса для ранжирования, но и обеспечивает бесшовный пользовательский опыт для лояльной аудитории, которая возвращается на сайт через закладки или историю поиска.

Как Google определяет свежесть документа, анализируя возраст ссылающихся страниц и динамику появления ссылок (Link Velocity)

Google использует методы для оценки свежести документа, когда дата его обновления неизвестна или ненадежна. Система анализирует даты обновления страниц, которые ссылаются на документ, а также историю появления и удаления этих ссылок (Link Velocity). Если на документ ссылаются недавно обновленные страницы или количество ссылок растет, он считается свежим.

US7797316B2
2010-09-14

Свежесть контента
Ссылки
Техническое SEO

Как Google непрерывно обновляет индекс и удаляет старые данные, не замедляя работу поиска с помощью механизма «Эпох»

Google использует инфраструктурный механизм «Эпох» для обновления поискового индекса в реальном времени. Система отслеживает активные поисковые запросы и гарантирует, что устаревшие данные (например, старые версии документов) удаляются только тогда, когда ни один активный запрос их больше не использует. Это позволяет поддерживать максимальную свежесть индекса без прерывания обслуживания пользователей.

US7769792B1
2010-08-03

Индексация
Свежесть контента

Как Google использует исторические данные о документах, ссылках и поведении пользователей для определения свежести, качества и борьбы со спамом

Фундаментальный патент Google, описывающий использование временных рядов данных для ранжирования. Система анализирует историю документа (дату создания, частоту и объем обновлений), историю ссылок (скорость появления, возраст, изменения анкоров), тренды запросов и поведение пользователей. Эти данные используются для определения свежести контента, выявления неестественной активности (спама) и оценки легитимности домена.

US7346839B2
2008-03-18

Свежесть контента
Антиспам
Ссылки

Как Google оптимизирует краулинговый бюджет, динамически изменяя частоту сканирования на основе популярности, значимых изменений контента и ошибок сервера

Google использует систему планирования сканирования для оптимизации ресурсов. Система динамически рассчитывает интервал сканирования для каждого ресурса, учитывая его популярность (например, количество подписчиков), частоту «значимых» изменений контента (особенно в визуально важных блоках) и состояние доступности (ошибки сервера). Это позволяет чаще сканировать важный и обновляемый контент и сокращать ресурсы на неизменный или недоступный контент.

US8868541B2
2014-10-21

Краулинг
Техническое SEO
Индексация

Как Google прогнозирует частоту обновления новых страниц для оптимизации краулингового бюджета

Google использует статистический метод для оценки того, как часто будет обновляться новый документ. Система анализирует исторические данные о частоте изменений похожих документов (например, страниц с аналогичной структурой URL или на том же домене), чтобы определить оптимальную частоту сканирования новой страницы. Это позволяет поддерживать свежесть индекса и эффективно расходовать краулинговый бюджет.

US20130212100A1
2013-08-15

Краулинг
Индексация
Свежесть контента

Как Google генерирует интерактивные и иерархические Sitelinks на основе структуры и популярности разделов сайта

Google анализирует навигационную иерархию сайта (DOM), популярность ссылок и глубину разделов для создания интерактивного представления ресурса (расширенных Sitelinks) в SERP. Это позволяет пользователям просматривать ключевые категории и вложенные ссылки через интерфейс вкладок, не покидая страницу результатов поиска.

US9348846B2
2016-05-24

Структура сайта
SERP
Ссылки

Как Google персонализирует поисковую выдачу, анализируя историю кликов и поведение пользователя на сайте

Google использует механизм для персонализации поисковой выдачи на основе истории взаимодействия пользователя с результатами поиска. Система отслеживает, какие сайты пользователь выбирает, как долго он на них остается (Dwell Time), частоту и контекст выбора. Основываясь на этих данных, предпочитаемые пользователем ресурсы повышаются в ранжировании при его последующих запросах.

US9037581B1
2015-05-19

Персонализация
Поведенческие сигналы
SERP

Как Google определяет структурно похожие запросы (sibling queries) для автоматического обучения NLP-моделей

Google использует метод для идентификации "родственных запросов" (sibling queries) — запросов с одинаковой структурой интента, но разными переменными (например, "погода в Москве" и "погода в Париже"). Система сравнивает шаблоны использования этих запросов в логах, основываясь на поведении пользователей, чтобы понять их взаимосвязь без традиционного NLP. Это позволяет автоматически генерировать масштабные наборы данных для обучения ИИ.

US11379527B2
2022-07-05

Семантика и интент
Поведенческие сигналы

Как Google определяет ключевые аспекты (фасеты) сущности для организации и диверсификации поисковой выдачи

Google использует систему для автоматической идентификации различных «аспектов» (подтем или фасетов) сущности в запросе. Анализируя логи запросов и базы знаний, система определяет, как пользователи исследуют информацию. Затем эти аспекты ранжируются по популярности и разнообразию и используются для организации результатов поиска в структурированном виде (mashup), облегчая пользователю навигацию и исследование темы.

US8458171B2
2013-06-04

Семантика и интент
SERP
Поведенческие сигналы

Как Google использует историю поиска и браузинга пользователя для персонализации и изменения результатов выдачи

Google записывает историю поиска и просмотров пользователя для последующей персонализации выдачи. Система может повышать в ранжировании ранее посещенные сайты, добавлять в текущую выдачу релевантные результаты из прошлых похожих запросов, а также понижать сайты, которые пользователь ранее видел, но проигнорировал. Патент также описывает создание "предпочитаемых локаций" на основе частоты посещений и времени пребывания на сайте.

US9256685B2
2016-02-09

Персонализация
Поведенческие сигналы
SERP

Как Google использует клики (CTR) и время на сайте (Click Duration) для выявления спама и корректировки ранжирования в тематических выдачах

Google использует итеративный процесс для улучшения классификации контента и выявления спама, анализируя поведенческие сигналы (CTR и продолжительность клика). Если пользователи быстро покидают документ или игнорируют его в выдаче, он помечается как спам или нерелевантный теме. Эти данные затем используются для переобучения классификатора и корректировки ранжирования для будущих тематических запросов.

US7769751B1
2010-08-03

Поведенческие сигналы
Антиспам
SERP

Как Google использует консенсус анкорных текстов для определения авторитетных источников и проверки фактов в Knowledge Graph

Google определяет, является ли веб-страница авторитетным источником о конкретной сущности (Entity), анализируя все анкорные тексты входящих ссылок. Система находит консенсусное описание (Center of Mass). Если оно совпадает с именем сущности и это имя присутствует в заголовке страницы, документ используется как эталон для проверки (Corroboration) фактов в базе знаний Google (Fact Repository).

US9208229B2
2015-12-08

Knowledge Graph
Ссылки
EEAT и качество

Как Google использует машинное обучение (Learning to Rank) для имитации оценок асессоров и улучшения ранжирования

Google использует технологию Learning to Rank для обучения статистических моделей, которые имитируют оценки человеческих асессоров. Модели анализируют объективные сигналы (статические и поведенческие) для пары запрос/документ и предсказывают, насколько релевантным этот документ сочтет человек. Эти прогнозы затем используются для ранжирования результатов поиска.

US8195654B1
2012-06-05

Поведенческие сигналы
SERP

Как Google выбирает, сортирует и форматирует динамические Sitelinks на основе типа контента и свежести страниц

Патент Google описывает систему генерации Sitelinks (саб-ссылок), которые ведут непосредственно на конечный контент (статьи, видео, товары), а не на разделы сайта. Система определяет категорию контента и применяет специфические правила сортировки (например, по свежести для новостей), которые отличаются от стандартного ранжирования. Также используется специальное форматирование для улучшения навигации в SERP.

US9081832B2
2015-07-14

Ссылки
SERP
Свежесть контента

Как Google выявляет ссылочный спам (Link Farms и Web Rings), анализируя чувствительность PageRank к изменениям в структуре ссылок

Google использует математический метод для обнаружения искусственного завышения PageRank. Система анализирует, насколько резко меняется ранг страницы при изменении «коэффициента связи» (coupling factor/damping factor). Если ранг страницы слишком чувствителен к этим изменениям (имеет высокую производную), это сигнализирует о наличии манипулятивных структур, таких как ссылочные фермы или веб-кольца.

US7509344B1
2009-03-24

Антиспам
Ссылки
Техническое SEO