Как Google автоматически обнаруживает и удаляет идентификаторы сессий из URL для оптимизации сканирования и предотвращения дублирования

CONTENT RETRIEVAL FROM SITES THAT USE SESSION IDENTIFIERS (Получение контента с сайтов, использующих идентификаторы сессий)

US7886032B1
Google LLC
2003-12-23
2011-02-08

Google использует механизм для автоматического обнаружения идентификаторов сессий в URL-адресах во время сканирования. Система анализирует подстроки, которые выглядят случайными и повторяются в нескольких URL с одного сайта. Эти идентификаторы удаляются для создания «чистых» версий URL. Это позволяет поисковой системе распознавать дублирующийся контент и избегать повторного сканирования одних и тех же страниц, оптимизируя краулинговый бюджет.

Какую проблему решает

Патент решает проблему неэффективного сканирования (crawling) и загрязнения индекса, вызванную использованием идентификаторов сессий (Session Identifiers) в URL. Когда веб-сайты встраивают уникальные ID в URL для отслеживания пользователей, краулер (spider) воспринимает одну и ту же страницу как множество разных URL. Это приводит к многократному сканированию идентичного контента (Duplicate Content), нерациональному расходованию краулингового бюджета и созданию массовых дублей в индексе.

Что запатентовано

Запатентована система автоматического обнаружения и нормализации URL, содержащих идентификаторы сессий. Система анализирует набор URL, полученных с одного хоста, для выявления подстрок, которые соответствуют характеристикам сессионных ID (например, случайность символов) и повторяются в разных URL. Эти идентификаторы затем удаляются для создания «чистых» (канонических) версий URL (Clean URLs).

Как это работает

Система интегрирована в процесс сканирования (Spider component):

Сканирование и Извлечение: Краулер (Fetch Bot) загружает документы, а Content Manager извлекает из них URL.
Анализ и Классификация: Система ищет подстроки в URL, которые выглядят случайными (высокая measure of randomness), имеют достаточную длину и повторяются в нескольких разных URL с того же сайта.
Нормализация: Обнаруженные Session Identifiers удаляются для создания Clean URL.
Дедупликация: URL Manager использует Clean URL (или его Fingerprint/хэш), чтобы проверить, сканировалась ли эта страница ранее, предотвращая повторную загрузку.
Адаптивное сканирование: Для последующего доступа система может использовать исходный URL с ID или генерировать новый ID, если сайт требует его наличия для отдачи контента.

Актуальность для SEO

Средняя. Хотя современные веб-платформы предпочитают использовать cookies для управления сессиями, многие устаревшие системы, крупные e-commerce платформы и форумы все еще генерируют URL с идентификаторами сессий. Более того, принципы автоматического обнаружения и нормализации параметров, не влияющих на контент, остаются фундаментальными для Google при обработке любых динамических URL (например, параметров отслеживания) и управлении краулинговым бюджетом.

Важность для SEO

(6/10). Патент имеет важное значение для технического SEO. Он описывает инфраструктурный механизм, с помощью которого Google справляется с распространенной причиной дублирования контента и проблем с краулинговым бюджетом. Хотя он не влияет напрямую на ранжирование, он подтверждает критическую необходимость обеспечения чистой, стабильной структуры URL для оптимальной индексации и эффективного сканирования.

Термины и определения

Clean URL (Чистый URL): Нормализованная версия URL, из которой удален идентификатор сессии. Используется системой для дедупликации и каноникализации контента.
Content Manager (Менеджер контента): Компонент системы сканирования, который обрабатывает загруженный контент, извлекает из него URL и анализирует их на наличие идентификаторов сессий.
Fetch Bot / Spider (Робот-загрузчик / Паук): Программа (краулер), которая загружает веб-документы по заданным URL.
Fingerprint (Отпечаток): Уникальный идентификатор (например, результат хэш-функции), рассчитанный на основе Clean URL. Используется для быстрого и эффективного сравнения URL и дедупликации.
Measure of Randomness (Мера случайности): Эвристическая метрика, используемая для оценки того, насколько подстрока похожа на случайно сгенерированный идентификатор, а не на часть контента или структуры сайта.
Session Identifier (Идентификатор сессии): Строка символов, встроенная в URL, используемая веб-сайтом для отслеживания сессии пользователя. Эта строка не влияет на основной контент, возвращаемый по URL.
URL Manager (Менеджер URL): Компонент, который управляет очередью сканирования, отслеживает обработанные URL и генерирует Fingerprints.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод обработки URL во время сканирования.

Извлечение набора URL из одного или нескольких документов, загруженных с веб-сайта.
Идентификация подстроки в наборе URL как Session Identifier. Эта идентификация основана на: (а) применении набора правил И (б) множественных вхождениях (multiple occurrences) этой подстроки в разных URL набора.
Генерация набора Clean URLs путем удаления идентифицированного Session Identifier.
Определение того, были ли другие URL уже сканированы, путем сравнения их чистых версий с уже сгенерированными Clean URLs.

Claims 7, 11, 17, 20 (Зависимые): Детализируют правила идентификации (упомянутые в Claim 1). Ключевым фактором является то, что подстрока должна демонстрировать по крайней мере определенную «меру случайности» (measure of randomness).

Claim 6 (Зависимый от 1): Описывает стратегию хранения и доступа (Adaptive Crawling).

Система хранит информацию на основе Clean URLs для целей дедупликации. Одновременно она сохраняет исходный набор URL (включая встроенные идентификаторы сессий) для использования при последующем доступе к этим URL, если ID необходим для корректной работы сайта.

Claim 2 (Зависимый от 1): Уточняет метод сравнения.

Сравнение чистых URL основано на вычислении и сравнении Fingerprint значений, полученных из этих чистых URL.

Где и как применяется

Изобретение является частью инфраструктуры сканирования и индексирования Google.

CRAWLING – Сканирование и Сбор данных
Это основной этап применения. Fetch Bots загружают контент. Content Manager извлекает URL. Система анализа URL (часть Content Manager и URL Manager) анализирует извлеченные URL на лету для обнаружения Session Identifiers. URL Manager использует Clean URL для дедупликации и планирования очереди сканирования.

INDEXING – Индексирование и извлечение признаков
На этапе индексирования происходит процесс каноникализации. Система использует Clean URL, сгенерированный во время сканирования, как предпочтительный (канонический) адрес для индексируемого контента. Это предотвращает попадание множества дубликатов одной и той же страницы в индекс.

Входные данные:

Набор URL-адресов, извлеченных из сканируемых документов (обычно группируемых по хосту/веб-сайту).

Выходные данные:

Clean URLs для каждого обработанного адреса.
Fingerprints этих Clean URLs для хранения в базе данных URL Manager.
Список уникальных URL, запланированных для последующего сканирования.

На что влияет

Конкретные ниши и типы сайтов: Наибольшее влияние оказывается на сайты, которые динамически генерируют URL для отслеживания пользователей. Это часто встречается в E-commerce (состояние корзины, история просмотра), на форумах, в системах бронирования и на любых сайтах, использующих устаревшие методы управления сессиями (параметры URL или перезапись пути вместо cookies).
Эффективность сканирования (Crawl Budget): Система напрямую влияет на оптимизацию краулингового бюджета, позволяя избежать сканирования дубликатов.

Когда применяется

Условия работы: Алгоритм применяется непрерывно во время процесса сканирования, когда краулер обрабатывает документы с определенного хоста и извлекает новые URL.
Триггеры активации: Обнаружение подстрок в URL, которые соответствуют эвристическим правилам для Session Identifiers. Критично сочетание двух факторов:
1. Структурные характеристики: Достаточная длина (например, 8+ символов) и высокая measure of randomness.
2. Повторение: Одна и та же строка повторяется в нескольких разных URL на сайте.

Пошаговый алгоритм

Сканирование документа: Fetch Bot загружает контент документа по заданному URL.
Извлечение URL: Content Manager парсит документ и извлекает все найденные в нем URL.
Анализ и Поиск Кандидатов: Извлеченные URL (анализируемые в контексте одного хоста) проверяются на наличие подстрок, которые могут быть Session Identifiers. Кандидаты должны соответствовать минимальной длине и показывать высокую measure of randomness.
Классификация и Идентификация: Кандидаты классифицируются как Session Identifiers, если они встречаются многократно в разных URL в пределах анализируемого набора.
Нормализация (Генерация Clean URL): Идентифицированные Session Identifiers удаляются из соответствующих URL для создания Clean URL.
Расчет Fingerprint: Для полученного Clean URL рассчитывается уникальный Fingerprint.
Дедупликация: URL Manager сравнивает новый Fingerprint с базой данных уже обработанных URL.
Планирование сканирования (Adaptive Crawling): Если URL уникален, он добавляется в очередь. URL Manager принимает решение о формате URL для сканирования: использовать исходный URL (с ID), Clean URL, или Clean URL с новым сгенерированным ID, в зависимости от того, как сайт реагирует на запросы без идентификатора.

Какие данные и как использует

Данные на входе

Технические факторы: Единственными входными данными, описанными в патенте, являются сами URL-адреса (структура URL), извлеченные из сканируемых страниц. Анализируются подстроки внутри этих URL.

Какие метрики используются и как они считаются

Система использует несколько эвристик и метрик для классификации подстрок:

Frequency of Occurrence (Частота встречаемости): Подсчет количества различных URL с одного сайта, в которых встречается одна и та же подстрока-кандидат. Высокая частота является сильным сигналом Session Identifier.
Minimum Length (Минимальная длина): Устанавливается пороговое значение длины подстроки (в патенте упоминается пример 8 символов).
Measure of Randomness (Мера случайности): Критическая метрика для отличия ID от контента. Патент предлагает конкретные методы расчета:
- Сравнение со словарем: Если подстрока отсутствует в словаре, она считается более случайной.
- Чередование типов символов (Alternations): Подсчет количества переключений между цифрами (0-9), строчными буквами (a-z) и заглавными буквами (A-Z). Например, строка "3uSS4A" имеет 4 таких чередования, что указывает на высокую степень случайности.
Fingerprint Calculation: Применение хэш-функции к Clean URL для создания уникального отпечатка.

Автоматическое обнаружение Session ID без известных паттернов: Google разработал эвристический механизм для определения идентификаторов сессий, который не полагается только на стандартные имена параметров (вроде sid или phpsessid). Система анализирует структуру URL и характеристики подстрок.
Ключевые индикаторы – Случайность и Повторение: Для идентификации Session Identifier система ищет комбинацию двух факторов: подстрока должна выглядеть случайной (высокая measure of randomness) и она должна повторяться в разных URL на одном и том же сайте.
Нормализация как основа каноникализации: Основная цель процесса — создать стабильный Clean URL. Это позволяет Google эффективно бороться с массовым дублированием контента и значительно экономить краулинговый бюджет.
Адаптивное сканирование (Adaptive Crawling): Система учитывает, что некоторые сайты требуют наличия Session Identifier для отдачи контента. Патент предусматривает возможность сохранения исходных ID или генерации новых для обеспечения доступа к контенту (Claim 6), при этом для индексации и дедупликации используется Clean URL.
Важность чистой архитектуры URL: Патент демонстрирует технические сложности, которые создают устаревшие методы управления сессиями, и подчеркивает важность предоставления поисковым системам чистых и стабильных URL.

Best practices (это мы делаем)

Использовать чистые, стабильные и человекопонятные URL: Это ключевая рекомендация. Избегайте использования любых идентификаторов сессий или переменных состояния в URL, если они не изменяют основной контент страницы.
Управление сессиями через Cookies: Для отслеживания состояния пользователя и управления сессиями используйте Cookies или localStorage, а не параметры в URL или перезапись пути (path rewriting). Это стандарт современной веб-разработки.
Применять явную каноникализацию (rel="canonical"): Несмотря на то, что Google может автоматически определять Clean URLs, полагаться на это не стоит. Всегда используйте rel="canonical", чтобы явно указать предпочтительную версию страницы, особенно если CMS генерирует URL с параметрами.
Мониторинг параметров URL в GSC: Регулярно проверяйте отчеты Google Search Console (Crawl Stats и Index Coverage) на предмет сканирования большого количества URL с параметрами. Это может указывать на проблемы с идентификацией сессий или фасетной навигацией.

Worst practices (это делать не надо)

Встраивание Session ID в URL: Это устаревшая практика, которая гарантированно создает проблемы с дублированием контента и неэффективно расходует краулинговый бюджет, заставляя Google активировать сложные механизмы нормализации.
Использование случайных строк для идентификации контента: Если структура URL для реального контента выглядит слишком случайной (например, использует длинные хэши вместо слагов), существует риск, что Google может ошибочно классифицировать часть URL как Session Identifier и некорректно нормализовать адрес.
Требование валидного Session ID для доступа к контенту: Создание сайтов, которые не отдают контент (например, возвращают ошибку или редирект), если в URL отсутствует валидный идентификатор сессии. Это значительно усложняет сканирование.

Стратегическое значение

Патент подтверждает фундаментальную важность технического SEO и информационной архитектуры. Чистая, логичная и стабильная структура URL является основой для эффективного сканирования и индексации. Google инвестирует значительные ресурсы в нормализацию данных. Стратегическая задача Senior SEO-специалиста — предоставить поисковой системе максимально чистые и однозначные данные на входе, чтобы минимизировать вероятность ошибок при автоматической обработке и направить краулинговый бюджет на полезный контент.

Практические примеры

Сценарий: Оптимизация краулингового бюджета на устаревшем E-commerce сайте

Ситуация: Интернет-магазин на устаревшей платформе генерирует URL для карточек товаров вида: http://example.com/shop/SESSID_a19f77b2/product/123.html.
Проблема: В логах сервера видно, что Googlebot сканирует тысячи URL для одного и того же товара с разными SESSID, тратя краулинговый бюджет.
Как работает Google (согласно патенту): Googlebot сканирует сайт. Система анализа URL видит, что подстрока SESSID_a19f77b2 имеет высокую measure of randomness (чередование символов) и повторяется в разных URL (например, в /product/123.html и /product/456.html). Она классифицирует ее как Session Identifier.
Нормализация: Система нормализует URL до http://example.com/shop/product/123.html для индексации и учета.
Действия SEO-специалиста:
- Приоритет 1 (Стратегическое решение): Поставить задачу разработчикам на переход от управления сессиями через URL к использованию Cookies.
- Приоритет 2 (Тактическое решение): Убедиться, что на всех страницах настроен тег rel="canonical", указывающий на чистую версию URL (без SESSID). Это поможет Google быстрее и точнее выбирать каноническую версию.

Как Google определяет, что является идентификатором сессии, а что — частью контента?

Система использует комбинацию факторов. Во-первых, она ищет подстроки с высокой "мерой случайности" (measure of randomness) — например, длинные строки с частым чередованием букв разного регистра и цифр. Во-вторых, критически важным является повторение: если одна и та же случайная строка встречается в нескольких разных URL на сайте, она с высокой вероятностью классифицируется как Session Identifier, а не как уникальный идентификатор контента.

Как именно измеряется «мера случайности» (measure of randomness)?

Патент предлагает конкретный метод: подсчет количества чередований (alternations) между типами символов — цифрами (0-9), строчными буквами (a-z) и прописными буквами (A-Z). Например, в строке «3uSS4A» есть 4 чередования. Чем больше таких чередований, тем выше оценка случайности. Также может использоваться сравнение со словарем.

Означает ли этот патент, что мне не нужно беспокоиться о Session ID в URL, так как Google сам их очистит?

Нет, это неверный вывод. Хотя Google разработал этот механизм для борьбы с проблемой, любая автоматическая система может давать сбои. Если вы используете Session ID в URL, вы тратите свой краулинговый бюджет, так как Google должен сначала скачать дублирующиеся страницы, а затем выполнить дополнительную работу по их анализу и нормализации. Лучшая практика — всегда предоставлять чистые и стабильные URL.

Может ли этот механизм ошибочно удалить важную часть URL?

Да, такой риск существует, хотя он минимизирован за счет проверки на повторение. Если вы используете длинные случайные строки для идентификации контента (например, хэши вместо слагов), и структура URL часто меняется, система может ошибочно принять идентификатор контента за Session Identifier. Это еще один аргумент в пользу использования человекопонятных URL.

Что такое "Fingerprint" в контексте этого патента и зачем он нужен?

Fingerprint — это уникальный идентификатор (обычно результат хэш-функции), рассчитанный на основе "чистого" URL (Clean URL). Он необходим для эффективной дедупликации. Вместо того чтобы сравнивать длинные строки URL между собой, система сравнивает короткие Fingerprints, что значительно быстрее определяет, был ли данный контент уже сканирован.

Что делать, если мой сайт требует наличия Session ID в URL для работы?

Это усложняет сканирование, но патент учитывает такие ситуации (Adaptive Crawling). Система может сохранить исходный URL с валидным Session Identifier и использовать его для доступа к контенту, но при этом использовать Clean URL для индексации. В некоторых случаях система может даже генерировать случайный ID. Тем не менее, рекомендуется модернизировать сайт для использования Cookies.

Как этот патент связан с краулинговым бюджетом (Crawl Budget)?

Связь прямая и критическая. Идентификаторы сессий создают практически бесконечное количество URL для одного и того же контента. Этот патент направлен на оптимизацию краулингового бюджета путем предотвращения повторного сканирования дубликатов, вызванных Session Identifiers, освобождая ресурсы для сканирования полезного контента.

Актуален ли этот патент, если я использую современные JavaScript фреймворки?

В большинстве случаев современные фреймворки используют чистые URL и управляют состоянием через API и локальное хранилище. Для таких сайтов этот патент менее актуален. Однако проблемы могут возникнуть, если используются устаревшие модули или сторонние скрипты, которые модифицируют URL для отслеживания.

Влияет ли этот механизм на ранжирование?

Прямого влияния нет, так как патент не описывает расчет релевантности или качества. Однако он имеет значительное косвенное влияние. За счет эффективной каноникализации и экономии краулингового бюджета, система позволяет Google быстрее находить и индексировать новый контент на сайте, а также корректно консолидировать сигналы ранжирования (например, ссылки) на каноническом URL.

Какова роль rel="canonical" в контексте этого патента?

rel="canonical" служит явным указанием вебмастера на предпочтительную версию страницы. Это значительно более сильный сигнал, чем автоматическое определение Clean URL, описанное в патенте. Если rel="canonical" настроен корректно (указывает на чистый URL без Session ID), Google, скорее всего, будет полагаться на него, а не на автоматический алгоритм нормализации.

Как Google определяет сайты, использующие Session ID в URL, для оптимизации краулинга и борьбы с дубликатами

Google использует механизм для автоматического обнаружения сайтов, которые встраивают идентификаторы сессий (Session ID) в URL. Система скачивает страницу дважды и сравнивает внутренние ссылки. Если большая часть ссылок меняется (из-за разных ID), система генерирует правила для "очистки" URL. Это позволяет избежать повторного сканирования одного и того же контента и предотвращает заполнение индекса дубликатами.

US7886217B1
2011-02-08

Краулинг
Техническое SEO
Индексация

Как Google автоматически определяет и удаляет неважные URL-параметры для каноникализации и эффективного сканирования

Google использует систему для автоматического определения канонической формы URL. Система активно тестирует различные комбинации параметров в URL, чтобы определить, какие из них влияют на контент, а какие нет (например, tracking-коды или session ID). Неважные параметры удаляются с помощью правил перезаписи, что позволяет свести множество дублирующихся URL к единой канонической версии, экономя краулинговый бюджет.

US7827254B1
2010-11-02

Краулинг
Техническое SEO
Индексация

Как Google определяет, какие параметры URL влияют на контент, чтобы выбрать канонический URL и оптимизировать краулинг

Google использует систему для статистического анализа динамических URL-адресов и определения того, какие параметры являются значимыми для контента (content-relevant), а какие нет (content-irrelevant). Система группирует URL-адреса, ведущие на одинаковый контент, в «Классы эквивалентности» и выбирает один «Представительский URL» для сканирования и индексации, экономя краулинговый бюджет и решая проблемы дублированного контента.

US7680773B1
2010-03-16

Техническое SEO
Краулинг
Индексация

Как Google использует теорию информации (энтропию) для автоматического определения канонических URL и игнорирования нерелевантных параметров

Google применяет статистический анализ на основе теории информации для определения, какие параметры URL влияют на уникальность контента. Система вычисляет условную энтропию между значениями параметров и отпечатками контента (fingerprints). Это позволяет автоматически игнорировать нерелевантные параметры (например, session ID, трекинг-коды), определять канонический URL и оптимизировать краулинговый бюджет.

US9081861B2
2015-07-14

Техническое SEO
Краулинг
Индексация

Как Google обнаруживает и консолидирует зеркальные сайты и разделы, используя взвешенные инфраструктурные, структурные и контентные сигналы

Google использует многофакторную систему для идентификации хостов (Hostnames) или разделов сайтов (Subtrees), которые являются зеркалами друг друга. Система анализирует взвешенные сигналы, включая IP-адреса, редиректы, структуру ссылок, данные WHOIS и степень дублирования контента. Это позволяет Google оптимизировать краулинговый бюджет, избегать индексации дубликатов и консолидировать сигналы ранжирования на канонической версии.

US8055626B1
2011-11-08

Индексация
Краулинг
Техническое SEO

Как Google определяет ключевые аспекты (фасеты) сущности для организации и диверсификации поисковой выдачи

Google использует систему для автоматической идентификации различных «аспектов» (подтем или фасетов) сущности в запросе. Анализируя логи запросов и базы знаний, система определяет, как пользователи исследуют информацию. Затем эти аспекты ранжируются по популярности и разнообразию и используются для организации результатов поиска в структурированном виде (mashup), облегчая пользователю навигацию и исследование темы.

US8458171B2
2013-06-04

Семантика и интент
SERP
Поведенческие сигналы

Как Google индексирует контент внутри мобильных приложений для показа в результатах поиска (App Indexing)

Google использует механизм для индексации контента, который пользователи просматривают в нативных мобильных приложениях. Система получает данные о просмотренном контенте и deep links напрямую от приложения на устройстве. Эта информация сохраняется в индексе (персональном или публичном) и используется для генерации результатов поиска, позволяя пользователям переходить к контенту внутри приложений напрямую из поисковой выдачи.

US10120949B2
2018-11-06

Индексация
SERP
Персонализация

Как Google использует время просмотра (Watch Time) и поведение пользователей для расчета независимой от запроса оценки качества видео

Google рассчитывает независимый от запроса сигнал качества (Q) для видео, анализируя корреляции между поведенческими метриками: временем просмотра, рейтингами и количеством просмотров. Система использует математические функции (Predictor и Voting) для моделирования качества и определения достоверности данных, а также активно фильтрует спам в рейтингах. Этот сигнал Q затем используется для ранжирования видео в поиске.

US8903812B1
2014-12-02

Поведенческие сигналы
SERP
Антиспам

Как Google использует данные веб-поиска и клики пользователей для классификации бизнесов и построения иерархии категорий

Google анализирует логи веб-поиска (введенные ключевые слова и последующие клики по результатам), чтобы понять, как пользователи интуитивно классифицируют бизнесы. Эти данные используются для автоматического построения динамической иерархической структуры категорий. Эта структура затем применяется для улучшения точности поиска, в частности, для оптимизации моделей распознавания речи в голосовых системах.

US7840407B2
2010-11-23

Поведенческие сигналы
Семантика и интент
Структура сайта

Как Google использует распределение кликов по разным типам запросов для оценки общего качества сайта (Website Quality Score)

Google оценивает качество сайта не по общему CTR, а по тому, в ответ на какие запросы он получает клики. Система сегментирует пользовательский фидбек (клики, CTR) по различным параметрам запроса (например, конкурентность, длина, популярность). Сайт считается качественным, если он получает много кликов в ответ на высококонкурентные и популярные запросы, а не только на низкочастотные или нечеткие.

US8615514B1
2013-12-24

Поведенческие сигналы

Как Google использует клики пользователей в поиске по картинкам для понимания содержания изображений и улучшения таргетинга

Google анализирует поведение пользователей в поиске по картинкам для идентификации содержания изображений. Если пользователи ищут определенный запрос (идею) и массово кликают на конкретное изображение в результатах, система связывает это изображение с данным запросом (концепцией). Эти данные используются для улучшения ранжирования в поиске картинок и для предложения релевантных ключевых слов рекламодателям, загружающим схожие изображения.

US11409812B1
2022-08-09

Поведенческие сигналы
Семантика и интент
SERP

Как Google использует данные о кликах и пропусках для валидации и удаления неэффективных синонимов в поиске

Google постоянно тестирует правила подстановки (синонимы) для расширения запросов. Этот патент описывает механизм оценки эффективности этих правил с помощью анализа поведения пользователей (клики и пропуски результатов). Если пользователи часто пропускают результаты, содержащие подставленный термин, система автоматически удаляет это правило, очищая понимание запросов от нерелевантных синонимов.

US8965875B1
2015-02-24

Поведенческие сигналы
Семантика и интент
EEAT и качество

Как Google использует машинное обучение и данные о длительности сессий для выявления битых Deep Links в мобильных приложениях

Google использует систему машинного обучения для анализа того, как долго пользователи взаимодействуют с контентом в приложении после перехода по Deep Link (Presentation Duration). Анализируя распределение этих временных интервалов, система классифицирует ссылку как рабочую или битую без необходимости прямого сканирования контента. Это позволяет Google удалять неработающие ссылки из индекса.

US10628511B2
2020-04-21

Ссылки
Индексация
Поведенческие сигналы

Как Google использует гибридную классификацию и данные о кликах пользователей для точного определения тематики контента

Google использует многоэтапный процесс для классификации контента в детальные иерархические категории. Система комбинирует традиционные методы классификации с анализом поисковых запросов и кликов пользователей (подтвержденных результатов поиска). Это позволяет точно определить узкоспециализированную тематику документа, фильтруя нерелевантные категории и взвешивая релевантность на основе TF-IDF и глубины иерархии.

US8145636B1
2012-03-27

Семантика и интент
Поведенческие сигналы

Как Google определяет ключевую тематику зданий и адресов, используя клики пользователей для показа релевантной рекламы

Google использует этот механизм для понимания основного назначения физического местоположения (адреса или здания). Система анализирует все бизнесы в этой локации и определяет, какие поисковые запросы чаще всего приводят к кликам по их листингам. Самый популярный запрос используется как доминирующее ключевое слово для выбора релевантной рекламы, когда пользователи ищут этот адрес или взаимодействуют с ним на Картах или в Street View.

US20120278171A1
2012-11-01

Local SEO
Семантика и интент
Поведенческие сигналы