Как Google определяет сайты, использующие Session ID в URL, для оптимизации краулинга и борьбы с дубликатами

IDENTIFICATION OF WEB SITES THAT CONTAIN SESSION IDENTIFIERS (Идентификация веб-сайтов, содержащих идентификаторы сессий)

US7886217B1
Google LLC
2003-09-29
2011-02-08

Google использует механизм для автоматического обнаружения сайтов, которые встраивают идентификаторы сессий (Session ID) в URL. Система скачивает страницу дважды и сравнивает внутренние ссылки. Если большая часть ссылок меняется (из-за разных ID), система генерирует правила для "очистки" URL. Это позволяет избежать повторного сканирования одного и того же контента и предотвращает заполнение индекса дубликатами.

Какую проблему решает

Патент решает проблему неэффективного сканирования и индексирования дублирующегося контента, вызванную использованием идентификаторов сессий (Session Identifiers или Session ID) в URL. Когда сайты встраивают Session ID для отслеживания пользователей, одна и та же страница становится доступной по множеству разных URL. Краулеры (spiders) могут воспринимать эти URL как уникальные страницы, что приводит к напрасной трате ресурсов сканирования (Crawl Budget) и заполнению поискового индекса дубликатами.

Что запатентовано

Запатентована система и метод для автоматического обнаружения веб-сайтов, использующих Session ID в URL, и последующей генерации правил для их извлечения. Метод основан на анализе изменений во внутренних ссылках (in-host links) при повторной загрузке одной и той же веб-страницы. Цель — создать "чистую" версию URL (clean URL) для эффективного обнаружения дубликатов перед сканированием.

Как это работает

Система работает в несколько этапов:

Обнаружение: Система загружает одну и ту же страницу с сайта (например, главную) два раза. При каждой загрузке сайт генерирует новые Session ID в ссылках.
Анализ ссылок: Извлекаются внутренние ссылки (ведущие на тот же хост) из обеих копий страницы.
Сравнение: Вычисляется доля ссылок, которые отличаются между двумя копиями.
Классификация: Если доля изменившихся ссылок превышает определенный порог (threshold), сайт классифицируется как использующий Session ID.
Генерация правил: Для таких сайтов генерируются правила (Session ID Rules), описывающие, как именно идентификатор встраивается в URL.
Применение при краулинге: При обнаружении нового URL с такого сайта система применяет правила для извлечения Session ID и создания clean URL. Этот clean URL используется для проверки, сканировалась ли страница ранее.

Актуальность для SEO

Средняя/Высокая. Хотя современные веб-фреймворки предпочитают использовать cookies для управления сессиями, использование параметров URL и Session ID все еще распространено, особенно в сложных или устаревших системах электронной коммерции и порталах. Эффективное управление краулинговым бюджетом и каноникализация URL остаются критически важными задачами для Google, и описанный механизм является фундаментальной частью этого процесса.

Важность для SEO

Патент имеет высокое значение для технического SEO (7/10). Он не описывает алгоритмы ранжирования, но напрямую касается эффективности сканирования (Crawl Budget) и чистоты индекса. Неспособность поисковой системы корректно обрабатывать Session ID приводит к индексации дубликатов, размыванию сигналов ранжирования и неэффективному расходованию краулингового бюджета, что критически важно для видимости сайта.

Термины и определения

Clean URL / Clean version of URL (Чистый URL): Версия URL, из которой был извлечен идентификатор сессии. Используется для определения того, была ли страница уже просканирована.
Fetch Bot (Робот-загрузчик): Компонент краулера (Spider), отвечающий за загрузку контента по заданным URL.
Fingerprint (Отпечаток): Уникальный идентификатор URL (например, результат применения хеш-функции), используемый URL Manager для быстрого определения того, был ли URL уже обработан.
In-host links / Local links (Внутренние ссылки): Ссылки, обнаруженные на странице, которые указывают на другие ресурсы на том же самом веб-сайте (хосте).
Session Identifier / Session ID (Идентификатор сессии): Строка символов (часто случайная), встраиваемая веб-сайтом в URL для отслеживания действий пользователя в рамках одного посещения. В широком смысле, любая часть URL, которая не влияет на основное содержание страницы.
Session ID Locator (Локатор Session ID): Компонент системы, отвечающий за идентификацию веб-сайтов, которые используют Session ID. Работает путем сравнения ссылок из двух разных копий одной страницы.
Session ID Rule Generator (Генератор правил Session ID): Компонент, который анализирует ссылки с Session ID и генерирует правила, описывающие, как именно сайт вставляет эти идентификаторы.
Spider (Краулер, Паук): Программа, которая автоматически обходит (сканирует) веб-документы, следуя по ссылкам.
URL Manager (Менеджер URL): Компонент краулера, который отслеживает, какие URL были сканированы и какие должны быть сканированы. Он отвечает за применение правил Session ID и генерацию Fingerprints.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает метод сканирования документов.

Система получает URL и загружает как минимум две разные копии документа, связанного с этим URL.
Система определяет, использует ли веб-сайт, соответствующий URL, идентификаторы сессий.
Это определение основано на сравнении URL, находящихся внутри документа, которые меняются между разными копиями.
Условие срабатывания: веб-сайт определяется как использующий Session ID, если доля (portion) URL, которые изменились между копиями документа, превышает установленный порог (threshold).

Claim 11 (Независимый пункт): Описывает метод идентификации сайтов (вне контекста текущего краулинга).

Загрузка как минимум двух разных копий документа с веб-сайта.
Извлечение и сравнение URL из этих копий.
Определение того, что веб-сайт использует Session ID, если сравнение показывает, что по крайней мере часть URL изменилась между копиями.

Claim 3 (Зависимый от 1): Детализирует процесс обработки URL после идентификации.

Если установлено, что сайт использует Session ID, система извлекает идентификатор из URL для получения clean URL.
Система определяет, был ли URL уже просканирован, путем сравнения полученного clean URL с набором clean URLs, которые представляют ранее просканированные страницы.

Claim 14 (Зависимый от 11): Описывает генерацию правил.

Если определено, что сайт использует Session ID, система анализирует извлеченные URL для генерации как минимум одного правила.
Это правило определяет, каким образом Session ID встраиваются в URL на данном сайте.

Где и как применяется

Изобретение применяется на этапе CRAWLING – Сканирование и Сбор данных. Оно является критически важной частью инфраструктуры сканирования, направленной на повышение его эффективности и качества собираемых данных.

Взаимодействие компонентов:

Session ID Locator: Работает проактивно или реактивно. Он загружает страницы, анализирует ссылки и классифицирует сайты.
Session ID Rule Generator: Получает данные от Session ID Locator и генерирует правила для конкретных сайтов. В патенте упоминается, что этот компонент может быть реализован как автоматически (с использованием методов классификации паттернов), так и вручную операторами.
URL Manager: Центральный компонент, использующий результаты работы предыдущих двух. Он обрабатывает кандидатные URL, применяет правила для создания clean URL, генерирует Fingerprint и принимает решение о необходимости сканирования, передавая задачу Fetch Bots.

INDEXING – Индексирование и извлечение признаков
Патент напрямую влияет на процессы каноникализации и дедупликации на этапе индексирования. Использование clean URL гарантирует, что в индекс не попадут дубликаты страниц с разными Session ID.

Входные данные:

Список сайтов, подозреваемых в использовании Session ID (опционально).
Кандидатные URL, извлеченные из ранее просканированных документов.
Содержимое веб-страниц (для анализа внутренних ссылок).

Выходные данные:

Классификация веб-сайта (использует/не использует Session ID).
Набор правил (Session ID Rules) для извлечения идентификаторов для конкретного сайта.
Нормализованные clean URLs.

На что влияет

Конкретные ниши или тематики: Наибольшее влияние оказывается на E-commerce, форумы, системы бронирования и любые другие типы сайтов, которые активно используют параметры URL для отслеживания состояния сессии пользователя.
Техническое состояние сайтов: Влияет на сайты, использующие устаревшие или некорректно настроенные CMS, которые полагаются на URL-based Session ID вместо Cookies.

Когда применяется

Алгоритм применяется в двух основных сценариях:

Идентификация (Определение использования Session ID):

Триггеры активации: Сайт попадает в список подозрительных. Это может быть инициировано автоматически, если URL Manager обнаруживает исключительно большое количество "разных" ссылок для одного сайта.
Пороговые значения: Доля внутренних ссылок (in-host links) на странице, которые изменились между двумя последовательными загрузками, должна превысить установленный порог (threshold).

Нормализация (Применение правил при краулинге):

Условия: Каждый раз, когда URL Manager обрабатывает новый URL.
Триггеры активации: Если хост обрабатываемого URL ранее был классифицирован как использующий Session ID.

Пошаговый алгоритм

Процесс разделен на две основные части: идентификация сайтов и применение знаний во время сканирования.

Процесс А: Идентификация сайтов, использующих Session ID (Session ID Locator)

Инициализация (Опционально): Получение списка сайтов, подозреваемых в использовании Session ID.
Загрузка копий: Для сайта из списка система дважды загружает одну и ту же страницу (например, главную).
Извлечение ссылок: Из обеих загруженных копий извлекаются локальные (in-host) ссылки.
Вычисление изменений: Система сравнивает два набора ссылок и вычисляет долю ссылок, которые изменились между двумя копиями.
Сравнение с порогом: Полученная доля сравнивается с предопределенным порогом.
Классификация: Если порог превышен, сайт помечается как использующий Session ID. (Альтернативный метод, упомянутый в патенте: проверка того, ведут ли изменившиеся ссылки на дублирующийся или почти дублирующийся контент).
Генерация правил: Если сайт использует Session ID, ссылки анализируются (с помощью Session ID Rule Generator) для определения правил, описывающих паттерн вставки идентификаторов (например, "вставить после имени хоста, отделить символами '/'").

Процесс Б: Обработка URL во время сканирования (URL Manager)

Получение кандидата: URL Manager получает кандидатный URL для сканирования из ранее обработанных документов.
Проверка хоста: Система проверяет, принадлежит ли URL сайту, который был идентифицирован как использующий Session ID.
Извлечение правил: Если да, система извлекает соответствующие правила (Session ID Rules) для этого сайта.
Нормализация: Система применяет правила для извлечения Session ID из кандидатного URL, получая clean URL.
Проверка дубликатов: URL Manager использует clean URL (часто через Fingerprint), чтобы определить, была ли эта страница уже просканирована ранее.
Планирование сканирования: Если страница не была просканирована, URL отправляется роботам (Fetch Bots) для загрузки.

Какие данные и как использует

Данные на входе

Патент фокусируется на инфраструктуре краулинга и использует следующие данные:

Технические факторы:
- Структура URL: Анализируются паттерны в URL (путь, параметры) для обнаружения и извлечения Session ID.
Контентные/Структурные факторы:
- Содержимое веб-документов: Анализируется (HTML-код) для извлечения всех содержащихся в нем ссылок (URL).

Какие метрики используются и как они считаются

Доля изменившихся ссылок (Fraction of links that change): Метрика, рассчитываемая путем сравнения набора внутренних (in-host) ссылок из первой копии страницы с набором из второй копии. $Fraction = \frac{Количество\ изменившихся\ внутренних\ ссылок}{Общее\ количество\ внутренних\ ссылок}$ .
Порог (Threshold): Предопределенное значение. Если $Fraction > Threshold$ , сайт классифицируется как использующий Session ID. Значение порога определяется эмпирически.
Fingerprint: Результат применения хеш-функции к clean URL. Используется для эффективного и быстрого сравнения URL и обнаружения дубликатов.
Near-duplicates (Почти дубликаты): Упоминается как альтернативный метод валидации. Если ссылки изменились, но ведут на контент, который является дубликатом или почти дубликатом, это подтверждает наличие Session ID.

Автоматическое обнаружение Session ID: Google обладает механизмом для автоматического определения сайтов, использующих Session ID в URL, без необходимости ручной настройки параметров. Это достигается путем двойной загрузки страницы и анализа изменчивости внутренних ссылок.
Нормализация URL критична для краулинга: Центральная идея патента — необходимость нормализации URL до "чистой" версии (clean URL) перед принятием решения о сканировании и индексировании.
Борьба с дубликатами и экономия ресурсов: Основная цель изобретения — предотвращение сканирования и индексирования одного и того же контента по разным URL. Это напрямую связано с оптимизацией краулингового бюджета (Crawl Budget).
Специфичные для сайта правила: Система не использует универсальный подход, а генерирует правила извлечения Session ID для каждого конкретного сайта (или группы сайтов) на основе анализа паттернов в его URL.
Использование Fingerprints для эффективности: Для быстрого обнаружения дубликатов используются отпечатки (Fingerprints) нормализованных URL, что является стандартной практикой в крупномасштабных системах сканирования.

Best practices (это мы делаем)

Избегать использования Session ID в URL: Это лучшая практика. Для отслеживания сессий следует использовать Cookies или методы Local Storage, которые не влияют на структуру URL, видимую поисковыми системами.
Внедрение канонических ссылок: Если использование Session ID в URL неизбежно (например, из-за ограничений CMS), критически важно использовать атрибут rel="canonical" на всех страницах. Каноническая ссылка должна указывать на clean URL (версию без Session ID). Это служит страховкой на случай сбоя автоматических систем Google.
Консистентность структуры URL: Убедитесь, что Session ID (если они используются) вставляются по четким и последовательным правилам. Это облегчит работу Session ID Rule Generator по автоматическому определению и применению правил очистки.
Управление параметрами URL: Хотя патент описывает автоматический механизм, рекомендуется использовать доступные инструменты для вебмастеров (например, в Google Search Console), чтобы явно указать, какие параметры URL следует игнорировать при сканировании.

Worst practices (это делать не надо)

Использование URL-based Session ID без контроля: Генерация большого количества уникальных URL для одного и того же контента из-за Session ID. Это гарантированно приведет к проблемам с дублированием контента и неэффективному расходованию краулингового бюджета.
Отсутствие канонических URL: Полагаться только на то, что Google автоматически распознает и обработает Session ID (как описано в патенте), рискованно. Отсутствие rel="canonical" усложняет работу поисковой системы.
Блокировка параметров в robots.txt: Попытка решить проблему путем блокировки URL с Session ID в robots.txt может привести к тому, что контент станет недоступен для сканирования (если краулер обнаруживает ссылки только в таком формате) или помешает консолидации сигналов.

Стратегическое значение

Патент подтверждает фундаментальную важность чистой, стабильной и канонической структуры URL для оптимального SEO. Системы сканирования Google направлены на максимальную эффективность и борьбу с дубликатами. Технические ошибки, приводящие к генерации множества вариативных URL (фасетная навигация, параметры отслеживания, Session ID), напрямую влияют на способность сайта полностью и корректно индексироваться. Стратегия технического SEO должна минимизировать такие проблемы на стороне сервера.

Практические примеры

Сценарий: Оптимизация E-commerce сайта, использующего Session ID

Ситуация: Сайт магазина использует параметр sid для отслеживания сессий. Карточка товара доступна по адресам: example.com/productA, example.com/productA?sid=12345, example.com/productA?sid=67890. Google тратит бюджет на сканирование всех вариантов.
Анализ (Как работает Google по патенту): Google скачивает главную страницу дважды. В первый раз видит ссылку /productA?sid=12345, во второй раз — /productA?sid=67890. Система замечает изменение и классифицирует сайт. Генерируется правило: "удалить параметр sid". Clean URL становится /productA.
Действия SEO-специалиста (Best Practice):
- Приоритет 1: Поставить задачу разработчикам перенастроить CMS (например, Magento, Bitrix) для использования Cookies вместо параметра sid в URL.
- Приоритет 2 (Если 1 невозможно): Убедиться, что на всех страницах с параметром sid элемент <link rel="canonical" href="https://example.com/productA"> указывает на версию без параметра.
Ожидаемый результат: Google консолидирует сигналы ранжирования на clean URL. Краулинговый бюджет перераспределяется на сканирование уникального контента, улучшается общая индексация сайта.

Что такое Session ID и почему это проблема для SEO?

Session ID — это идентификатор, который сайт присваивает пользователю для отслеживания его действий во время визита (например, для сохранения товаров в корзине). Проблема возникает, когда этот ID встраивается непосредственно в URL. Поскольку каждый визит генерирует новый ID, одна и та же страница становится доступной по множеству разных URL. Это приводит к дублированию контента в индексе и напрасной трате краулингового бюджета.

Как именно Google определяет, что сайт использует Session ID, согласно патенту?

Google использует метод сравнения. Система загружает одну и ту же страницу сайта дважды. Затем она извлекает все внутренние ссылки из обеих копий и сравнивает их. Если значительная доля ссылок отличается между двумя загрузками (поскольку сайт вставил разные Session ID) и эта доля превышает установленный порог, система делает вывод, что сайт использует идентификаторы сессий в URL.

Что такое "Clean URL" в контексте этого патента?

Clean URL — это нормализованная версия URL, из которой были удалены идентификаторы сессий. После того как Google определяет, как именно сайт встраивает Session ID, он генерирует правила для их удаления. Полученный Clean URL используется системой для проверки, сканировался ли этот контент ранее, избегая повторной обработки дубликатов.

Означает ли этот патент, что мне не нужно беспокоиться о Session ID, так как Google сам их обработает?

Нет, полагаться только на автоматическую обработку рискованно. Хотя Google имеет механизмы для обнаружения и обработки Session ID, этот процесс может быть неидеальным, особенно при сложной структуре URL. Лучшая практика для SEO — предотвращать проблему на своей стороне: использовать Cookies вместо URL-параметров или, как минимум, корректно настраивать rel="canonical".

Как использование Session ID влияет на краулинговый бюджет?

Влияние крайне негативное. Если у вас 1000 страниц, но из-за Session ID краулер видит 50000 уникальных URL, он потратит большую часть своего времени и ресурсов на сканирование дубликатов. Это означает, что реальный уникальный контент или новые страницы будут сканироваться и индексироваться значительно медленнее.

Что такое "in-host links" и почему система анализирует именно их?

In-host links (или локальные ссылки) — это ссылки, ведущие на тот же самый домен. Система анализирует именно их, потому что сайты обычно встраивают Session ID только во внутренние ссылки для отслеживания навигации пользователя по своему сайту. Внешние ссылки (ведущие на другие домены) обычно остаются неизменными.

Как генерируются правила для извлечения Session ID?

После того как система обнаружила, что ссылки меняются, компонент Session ID Rule Generator анализирует паттерны в этих изменениях. Например, он может определить, что идентификатор всегда является числовой строкой после параметра ?sid= или что он вставляется как директория сразу после хоста. В патенте упоминается, что это может делаться автоматически или вручную операторами.

Что делать, если моя CMS принудительно использует Session ID в URL?

Первый шаг — проверить настройки CMS, часто это можно изменить на использование Cookies. Если это невозможно, критически важно убедиться, что для каждой страницы с Session ID корректно прописан тег rel="canonical", указывающий на версию страницы без идентификатора (clean URL).

Использует ли Google этот метод для обработки других параметров URL, например, UTM-меток?

Патент сфокусирован именно на Session ID — параметрах, которые меняются при каждой загрузке, но не меняют контент. UTM-метки более статичны. Хотя базовые принципы нормализации URL применимы ко всем параметрам, метод "двойной загрузки и сравнения" предназначен именно для обнаружения динамически изменяющихся идентификаторов сессий.

Что такое "Fingerprint" URL и как он связан с Session ID?

Fingerprint — это хеш или уникальный отпечаток URL. Чтобы эффективно сравнивать миллионы URL, система сравнивает их короткие отпечатки. В контексте патента, Fingerprint генерируется из Clean URL (после удаления Session ID). Это гарантирует, что разные URL с разными Session ID, но ведущие на один контент, будут иметь одинаковый Fingerprint.

Как Google автоматически обнаруживает и удаляет идентификаторы сессий из URL для оптимизации сканирования и предотвращения дублирования

Google использует механизм для автоматического обнаружения идентификаторов сессий в URL-адресах во время сканирования. Система анализирует подстроки, которые выглядят случайными и повторяются в нескольких URL с одного сайта. Эти идентификаторы удаляются для создания «чистых» версий URL. Это позволяет поисковой системе распознавать дублирующийся контент и избегать повторного сканирования одних и тех же страниц, оптимизируя краулинговый бюджет.

US7886032B1
2011-02-08

Краулинг
Техническое SEO
Индексация

Как Google автоматически определяет и удаляет неважные URL-параметры для каноникализации и эффективного сканирования

Google использует систему для автоматического определения канонической формы URL. Система активно тестирует различные комбинации параметров в URL, чтобы определить, какие из них влияют на контент, а какие нет (например, tracking-коды или session ID). Неважные параметры удаляются с помощью правил перезаписи, что позволяет свести множество дублирующихся URL к единой канонической версии, экономя краулинговый бюджет.

US7827254B1
2010-11-02

Краулинг
Техническое SEO
Индексация

Как Google определяет, какие параметры URL влияют на контент, чтобы выбрать канонический URL и оптимизировать краулинг

Google использует систему для статистического анализа динамических URL-адресов и определения того, какие параметры являются значимыми для контента (content-relevant), а какие нет (content-irrelevant). Система группирует URL-адреса, ведущие на одинаковый контент, в «Классы эквивалентности» и выбирает один «Представительский URL» для сканирования и индексации, экономя краулинговый бюджет и решая проблемы дублированного контента.

US7680773B1
2010-03-16

Техническое SEO
Краулинг
Индексация

Как Google использует теорию информации (энтропию) для автоматического определения канонических URL и игнорирования нерелевантных параметров

Google применяет статистический анализ на основе теории информации для определения, какие параметры URL влияют на уникальность контента. Система вычисляет условную энтропию между значениями параметров и отпечатками контента (fingerprints). Это позволяет автоматически игнорировать нерелевантные параметры (например, session ID, трекинг-коды), определять канонический URL и оптимизировать краулинговый бюджет.

US9081861B2
2015-07-14

Техническое SEO
Краулинг
Индексация

Как Google объединяет разные URL в один результат, если они ведут на одну и ту же страницу (например, при мобильных редиректах)

Google использует механизм дедупликации для повышения разнообразия выдачи. Если несколько разных URL в результатах поиска перенаправляют пользователя на одну и ту же целевую страницу (например, из-за редиректа на мобильную версию, страницу входа или главную страницу), Google объединяет эти функциональные дубликаты в один замещающий результат.

US10007731B2
2018-06-26

SERP
Техническое SEO
Индексация

Как Google использует погоду, время и местоположение для понимания истинного намерения пользователя и адаптации поисковой выдачи

Google анализирует, как физическое окружение (погода, время, местоположение) влияет на то, что ищут пользователи. Система выявляет корреляции между средой и поведением пользователей в прошлом (включая длительность кликов), чтобы лучше понять текущий интент многозначных запросов. Затем она переранжирует выдачу или переписывает запрос для предоставления наиболее релевантных результатов и рекламы.

US8898148B1
2014-11-25

Семантика и интент
Поведенческие сигналы
Персонализация

Как Google консолидирует сигналы ранжирования между мобильными и десктопными версиями страниц, используя десктопный авторитет для мобильного поиска

Патент Google описывает механизм для решения проблемы недостатка сигналов ранжирования в мобильном вебе. Система идентифицирует корреляцию между мобильной страницей и её десктопным аналогом. Если мобильная версия недостаточно популярна сама по себе, она наследует сигналы ранжирования (например, обратные ссылки и PageRank) от авторитетной десктопной версии, улучшая её позиции в мобильном поиске.

US8996514B1
2015-03-31

Техническое SEO
Ссылки

Как Google использует клики и пропуски пользователей для оценки и корректировки правил близости терминов (Proximity Rules)

Google анализирует поведение пользователей для оценки эффективности правил близости (Proximity Rules), которые влияют на ранжирование в зависимости от расстояния между ключевыми словами на странице. Система отслеживает, кликают ли пользователи на результаты, где термины расположены далеко друг от друга, или пропускают их. На основе этих данных (Click Count, Skip Count) вычисляется оценка качества правила, что позволяет Google динамически адаптировать важность фактора близости.

US9146966B1
2015-09-29

Поведенческие сигналы
SERP

Как Google использует историю запросов в текущей сессии и статистические паттерны для переранжирования результатов

Google анализирует миллионы прошлых поисковых сессий, выявляя статистически значимые последовательности запросов («Пути Запросов»), которые заканчиваются кликом на определенный URL («Конечная Точка Контента»). Когда текущая сессия пользователя совпадает с историческим путем, Google переранжирует результаты, повышая те URL, которые исторически удовлетворяли пользователей в аналогичном контексте, пропорционально вероятности их выбора.

US7610282B1
2009-10-27

Поведенческие сигналы
SERP
Семантика и интент

Как Google динамически повышает порог качества для результатов поиска по «рискованным» запросам

Google оценивает «риск» поискового запроса, анализируя общее качество топовых результатов. Если запрос часто привлекает спам, кликбейт или нежелательный контент (особенно видео), система динамически повышает минимальный порог качества. Контент, не соответствующий этому повышенному стандарту, понижается в выдаче, при этом учитываются такие сигналы, как показатель просмотров (Watch Rate).

US11609949B2
2023-03-21

Антиспам
SERP
Поведенческие сигналы

Как Google использует машинное обучение и поведенческие данные для прогнозирования полезности документов и решает, что включать в поисковый индекс

Google использует модель машинного обучения для определения, какие документы включать в поисковый индекс. Модель обучается на исторических данных о кликах и показах, чтобы предсказать будущую «оценку полезности» (Utility Score) документа. Документы ранжируются по этой оценке, а также с учетом других факторов (например, PageRank, стоимость индексации, свежесть, квоты), и лучшие из них попадают в индекс.

US8255386B1
2012-08-28

Индексация
Поведенческие сигналы

Как Google рассчитывает репутационную значимость организаций и людей, используя данные из внешних источников для ранжирования

Google использует систему для оценки репутации и престижа сущностей (например, организаций или людей). Система не полагается только на предоставленные данные, а активно ищет «Дополнительные Аспекты» из внешних источников (например, профессиональные сети, СМИ). На основе этих данных рассчитываются две метрики: «Репутационная Значимость» (престиж относительно аналогов) и «Двустороннее Соответствие» (взаимная привлекательность), которые используются для ранжирования результатов поиска и рекомендаций.

US10878048B2
2020-12-29

EEAT и качество
SERP
Knowledge Graph

Как Google использует атрибуты пользователей и показатели предвзятости (Bias Measures) для персонализации ранжирования

Google анализирует, как разные группы пользователей (сегментированные по атрибутам, таким как интересы или демография) взаимодействуют с документами. Система вычисляет «показатель предвзятости» (Bias Measure), который показывает, насколько чаще или реже определенная группа взаимодействует с документом по сравнению с общей массой пользователей. При поиске Google определяет атрибуты пользователя и корректирует ранжирование, повышая или понижая документы на основе этих показателей предвзятости.

US9436742B1
2016-09-06

Персонализация
Поведенческие сигналы
SERP

Как Google определяет связанность документов с использованием Co-citation, анализа текста вокруг ссылок и паттернов пользовательского доступа

Google использует методы для ограничения результатов поиска на основе заданного контекста (например, набора URL-адресов или категории). Патент детализирует, как система определяет «связанность» между документами, используя такие методы, как анализ совместного цитирования (co-citation), анализ текста, окружающего ссылки в цитирующих документах, и анализ корреляции паттернов доступа пользователей.

US7305380B1
2007-12-04

Ссылки
SERP
Поведенческие сигналы

Как Google запоминает вопросы без авторитетного ответа и автономно сообщает его позже через Ассистента

Патент Google описывает механизм для обработки запросов, на которые в момент поиска нет качественного или авторитетного ответа. Система запоминает информационную потребность и продолжает мониторинг. Когда появляется информация, удовлетворяющая критериям качества (например, в Knowledge Graph), Google автономно доставляет ответ пользователю, часто встраивая его в следующий диалог с Google Assistant, даже если этот диалог не связан с исходным вопросом.

US11238116B2
2022-02-01

Knowledge Graph
Семантика и интент
EEAT и качество