Как Google позволяет верифицированным владельцам сайтов управлять скоростью сканирования (Crawl Rate) и выбирать предпочитаемый домен

SYSTEM AND METHOD FOR ENABLING WEBSITE OWNERS TO MANAGE CRAWL RATE IN A WEBSITE INDEXING SYSTEM (Система и метод, позволяющие владельцам веб-сайтов управлять скоростью сканирования в системе индексирования веб-сайтов)

US7599920B1
Google LLC
2006-10-12
2009-10-06

Анализ патента, лежащего в основе функций Google Search Console. Он описывает механизмы верификации прав собственности, выбора канонического (предпочитаемого) домена для консолидации сигналов и управления скоростью сканирования. Ключевой момент: система увеличивает скорость сканирования только тогда, когда текущий лимит является реальным ограничивающим фактором для краулера.

Какую проблему решает

Патент решает три ключевые проблемы взаимодействия между поисковой системой и владельцами сайтов:

Управление нагрузкой на сервер (Crawl Rate): Балансировка между необходимостью свежего индекса и риском перегрузки сервера из-за слишком агрессивного сканирования.
Каноникализация домена (Preferred Domain): Решение проблемы дублирования контента и размытия сигналов ранжирования (например, PageRank), когда сайт доступен по нескольким эквивалентным доменам (например, www и без www).
Авторизация доступа (Verification): Обеспечение того, что только авторизованные владельцы могут изменять критические настройки индексации.

Что запатентовано

Запатентована система управления индексированием (прообраз Google Search Console), предоставляющая верифицированным владельцам сайтов контроль над взаимодействием с веб-краулером. Система включает механизмы подтверждения прав (Site Owner Verification), выбора канонического домена (Preferred Domain Name) и управления лимитом скорости сканирования (Crawl Rate Limit). Ключевая инновация заключается в том, что система увеличивает лимит скорости только тогда, когда он является фактическим ограничивающим фактором для краулера.

Как это работает

Система функционирует через три основных механизма:

Верификация владельца: Владелец подтверждает права с помощью уникального Verification Tag или Verification File. Описан также процесс повторной верификации для отзыва прав.
Выбор предпочитаемого домена: Верифицированный владелец указывает канонический домен. Система использует это указание для перезаписи URL-адресов и консолидации метаданных на этом домене во время индексации.
Управление скоростью сканирования: Владелец может запросить изменение скорости. Система сравнивает текущий лимит (Crawl Rate Limit) с максимальной скоростью использования в прошлом (Past Utilization Value). Запрос на увеличение удовлетворяется, только если текущий лимит действительно сдерживает краулер. В противном случае владельцу сообщается, что лимит не является фактором.

Актуальность для SEO

Высокая. Описанные в патенте механизмы являются фундаментальными компонентами современных инструментов для вебмастеров, таких как Google Search Console. Верификация сайтов, управление каноническими доменами и возможность влиять на скорость сканирования (Crawl Budget Management) остаются критически важными аспектами технического SEO.

Важность для SEO

Патент имеет значительное влияние на техническое SEO (7/10). Он не описывает алгоритмы ранжирования, но определяет инфраструктуру, через которую SEO-специалисты управляют индексацией. Понимание логики управления скоростью сканирования помогает оптимизировать Crawl Budget и диагностировать проблемы на крупных сайтах. Механизмы выбора предпочитаемого домена напрямую влияют на каноникализацию и консолидацию ссылочного веса.

Термины и определения

Crawl Data (Данные сканирования): Статистические данные, собираемые во время сканирования. Включают количество посещенных страниц (Number of Pages Accessed), затраченное время на доступ (Time Expended on Access) и количество загруженных байтов (Bytes Downloaded).
Crawl Rate Limit (Лимит скорости сканирования): Текущее ограничение максимальной скорости, с которой краулер может сканировать сайт.
Limiting Factor (Ограничивающий фактор): Состояние, при котором Crawl Rate Limit сдерживает фактическую скорость сканирования. Определяется, когда фактическая скорость близка к лимиту.
Past Utilization Value (Значение прошлого использования): Максимальная фактическая скорость сканирования (maximum crawl rate), зафиксированная за определенный период времени (например, за последние 5-10 сеансов сканирования).
Preferred Domain Name (Предпочитаемое доменное имя): Доменное имя, выбранное владельцем сайта в качестве канонического для использования в индексе, когда сайт доступен по нескольким эквивалентным доменам.
Site Owner Verification (Верификация владельца сайта): Процесс подтверждения прав собственности на веб-сайт.
Verification Tag/File (Верификационный тег/файл): Уникальный идентификатор (мета-тег или файл), размещаемый на сайте для верификации.

Ключевые утверждения (Анализ Claims)

Патент содержит 36 пунктов формулы изобретения. Ключевые независимые пункты описывают механизм управления скоростью сканирования.

Claim 1 (Независимый пункт): Описывает метод индексирования с управлением скоростью сканирования.

Система сканирует веб-сайт в соответствии с текущим Crawl Rate Limit.
Система сохраняет Crawl Data.
Система предоставляет владельцу механизм управления скоростью, отображая часть Crawl Data и позволяя выбрать новый лимит.
Система сравнивает максимальную скорость сканирования за период (Past Utilization Value) с текущим Crawl Rate Limit.
На основе сравнения определяется, является ли текущий лимит ограничивающим фактором (limiting factor).
В ответ на запрос об увеличении скорости сканирования система увеличивает Crawl Rate Limit только тогда, когда текущий лимит является ограничивающим фактором.

Ядро изобретения заключается в условном увеличении скорости. Система проверяет, действительно ли установленный лимит мешает краулеру сканировать быстрее. Если краулер не достигает лимита (например, из-за медленного сервера), лимит не увеличивается.

Claim 5 (Зависимый от 1): Детализирует определение ограничивающего фактора.

Лимит считается ограничивающим фактором, только если разница между текущим Crawl Rate Limit и максимальной скоростью использования (Past Utilization Value) меньше предопределенной величины (например, 10% от лимита).

Claims 3 и 4 (Зависимые от 1): Детализируют обратную связь.

Если лимит не является ограничивающим фактором, система информирует владельца, что запрос на более высокую скорость может не изменить фактическую скорость сканирования, или может запретить выбор более высокой скорости.

Где и как применяется

Изобретение затрагивает этапы сканирования и индексирования и реализуется через интерфейс для вебмастеров (например, GSC).

CRAWLING – Сканирование и Сбор данных
Основной этап применения Crawl Rate Control. Crawl Rate Control Module управляет данными в Per-Site Info DB (База данных информации о сайте), где хранится Crawl Rate Limit. Роботы (Googlebot) или Планировщик (URL Server) используют этот лимит для контроля частоты запросов к сайту. Также на этом этапе собираются Crawl Data и рассчитывается Past Utilization Value.

INDEXING – Индексирование и извлечение признаков
На этом этапе применяется механизм Preferred Domain Name. Когда система обнаруживает ссылки на сайт, использующие непредпочитаемые домены, она перезаписывает URL-адреса на предпочитаемый домен перед индексацией и генерацией метаданных (например, PageRank). Это обеспечивает каноникализацию на уровне домена.

Входные данные:

Текущий Crawl Rate Limit и Past Utilization Value.
Запросы от владельца сайта (изменение скорости, выбор домена).
Verification Tag/File на сайте.
Список эквивалентных доменных имен.

Выходные данные:

Обновленный Crawl Rate Limit.
Уведомления и статистика сканирования для владельца сайта.
Запись о Preferred Domain Name в Domain Name Database.
Переписанные (каноникализированные) URL-адреса для индекса.

На что влияет

Конкретные типы сайтов: Наибольшее влияние на крупные сайты (E-commerce, новостные порталы), где управление Crawl Budget и нагрузкой на сервер критично. Также важно для сайтов со сложной историей доменов, требующих консолидации сигналов.
Техническое состояние: Влияет на взаимодействие с сайтами, имеющими медленные серверы или ограниченную пропускную способность.

Когда применяется

Триггеры активации (Crawl Rate): Запрос от верифицированного владельца на изменение скорости сканирования. Логика проверки фактора активируется при запросе на увеличение скорости.
Триггеры активации (Preferred Domain): Наличие указания от владельца и обнаружение эквивалентных доменов в процессе индексации.
Временные рамки: Изменения скорости могут применяться немедленно или в следующей сессии. Предпочитаемый домен применяется постоянно.

Пошаговый алгоритм

Патент описывает несколько взаимосвязанных процессов.

Процесс А: Управление скоростью сканирования (Crawl Rate Control)

Сбор данных (Фоновый): Система сканирует сайт, соблюдая Crawl Rate Limit, собирает Crawl Data и рассчитывает Past Utilization Value.
Запрос на изменение: Верифицированный владелец запрашивает изменение скорости (например, "Faster").
Оценка фактора: Система определяет, является ли Crawl Rate Limit ограничивающим фактором.
- Условие: Если (Crawl Rate Limit - Past Utilization Value) < Порог (например, 10%), то лимит является фактором.
Применение изменений:
- Если лимит является фактором: Система увеличивает Crawl Rate Limit.
- Если лимит НЕ является фактором: Система информирует владельца об этом и не увеличивает Crawl Rate Limit.
- Если запрошено снижение скорости: Система снижает Crawl Rate Limit безусловно.

Процесс Б: Выбор предпочитаемого домена (Preferred Domain Name Selection)

Предоставление списка: Система предоставляет владельцу список верифицированных эквивалентных доменов.
Выбор и валидация: Владелец указывает предпочитаемый домен. Система проверяет его валидность.
Сохранение предпочтения: Выбор сохраняется в Domain Name Database.
Применение при индексации: Система перезаписывает URL-адреса, используя предпочитаемый домен, и консолидирует метаданные на нем.

Процесс В: Повторная верификация владельца (Site Owner Re-Verification)

Запрос: Текущий верифицированный владелец инициирует процесс повторной верификации.
Отображение списка: Система предоставляет список всех Verification Tag/File, существующих для сайта.
Редактирование: Владелец удаляет недействительные теги/файлы с сайта.
Повторная верификация: Система проверяет наличие оставшихся тегов/файлов. Владельцы, чьи идентификаторы отсутствуют, теряют статус верифицированных.

Какие данные и как использует

Данные на входе

Технические факторы (Crawl/System Data):
- Number of Pages Accessed: Количество документов, к которым обращались краулеры.
- Time Expended on Access: Время, затраченное на доступ (включая время ответа сервера).
- Bytes Downloaded: Объем загруженных данных.
Факторы Верификации:
- Наличие Verification File на сервере.
- Наличие Verification Tag (мета-тег) в коде страницы.
Факторы Домена:
- URL-адреса (для определения домена и перезаписи).
- Список эквивалентных доменов.

Какие метрики используются и как они считаются

Crawl Rate Limit: Заданное значение максимальной скорости сканирования.
Past Utilization Value (Maximum Crawl Rate): Вычисляется как максимальная фактическая скорость сканирования, наблюдавшаяся за определенный прошлый период (например, за последние N сессий).
Ограничивающий фактор (Limiting Factor): Логическое значение (Да/Нет). Рассчитывается путем сравнения Crawl Rate Limit и Past Utilization Value. Условие срабатывания: ИСТИНА, если фактическая скорость близка к лимиту (разница меньше порога).
Статистика сканирования: Агрегированные данные из Crawl Data (среднее, мин, макс значения по страницам, байтам и времени загрузки).

Условное управление скоростью сканирования: Google предоставляет инструменты для управления Crawl Rate Limit, но сохраняет за собой финальное решение об увеличении скорости. Запрос на увеличение удовлетворяется только тогда, когда текущий лимит действительно является узким местом.
Диагностика эффективности сканирования: Если система указывает, что лимит не является фактором, это означает, что медленное сканирование вызвано другими причинами – например, низкой производительностью сервера или низким интересом Google к сайту (Crawl Demand).
Приоритет консолидации сигналов (Preferred Domain): Патент демонстрирует важность каноникализации на уровне хоста. Система активно использует указания владельца для перезаписи URL и консолидации метаданных (например, PageRank) на одном домене.
Верификация как основа доступа: Все критические настройки доступны только верифицированным владельцам. Описан надежный механизм верификации и управления доступом (повторная верификация).
Прозрачность взаимодействия: Система предоставляет статистику сканирования и информирует владельца о причинах, по которым изменение скорости может быть неэффективным.

Best practices (это мы делаем)

Мониторинг статистики сканирования (Crawl Stats): Регулярно анализируйте данные сканирования (Crawl Data) в GSC. Это позволяет понять фактическое использование ресурсов (Past Utilization Value) и выявить проблемы с производительностью сервера (высокое время ответа).
Оптимизация производительности сервера: Прежде чем запрашивать увеличение скорости сканирования, убедитесь, что сервер быстро отвечает на запросы. Если сервер медленный, Crawl Rate Limit не будет являться ограничивающим фактором, и запрос будет неэффективен.
Использование лимита для защиты сервера: Активно снижайте Crawl Rate Limit, если Googlebot создает чрезмерную нагрузку в пиковые часы или во время технических работ. Патент подтверждает, что запросы на снижение скорости обрабатываются.
Консолидация сигналов через предпочитаемый домен: Используйте механизм выбора Preferred Domain Name (в дополнение к 301 редиректам) для консолидации всех сигналов ранжирования на одном каноническом хосте (например, версия с www или без).
Контроль доступа и повторная верификация: Регулярно проводите аудит верифицированных пользователей в GSC. Используйте механизм повторной верификации для удаления неактуальных верификационных файлов/тегов бывших сотрудников или подрядчиков.

Worst practices (это делать не надо)

Слепое увеличение скорости: Запрашивать максимальную скорость сканирования в надежде улучшить индексацию, не анализируя, является ли текущий лимит фактором. Это не сработает, если у сайта низкий Crawl Demand или медленный сервер.
Игнорирование проблем с производительностью: Попытки увеличить скорость сканирования при медленном хостинге. Это не улучшит сканирование и может ухудшить доступность сайта для пользователей.
Игнорирование настройки предпочитаемого домена: Оставлять сайт доступным по нескольким доменам без четкой каноникализации приводит к размыванию ссылочного веса и дублированию контента.

Стратегическое значение

Патент раскрывает механику управления бюджетом сканирования (Crawl Budget). Он подтверждает, что бюджет состоит из Crawl Rate Limit (ограничение по скорости/мощности сервера) и Crawl Demand (интерес Google к сайту). Патент описывает управление только первой частью. Стратегически важно понимать, что для большинства сайтов ограничивающим фактором является именно Crawl Demand. Работа над качеством и авторитетностью сайта для повышения Crawl Demand важнее, чем манипуляции с настройками скорости.

Практические примеры

Сценарий 1: Диагностика медленной индексации (Запрос отклонен)

Ситуация: Владелец сайта замечает медленную индексацию и запрашивает увеличение скорости в GSC.
Анализ системы (по патенту): Система проверяет Past Utilization Value (например, 2 запроса/сек) и текущий Crawl Rate Limit (например, 10 запросов/сек). Лимит не является фактором.
Результат: Система не увеличивает лимит и показывает уведомление (как на FIG. 24): "Скорость сканирования не является фактором... вы можете не увидеть разницы в скорости".
Действия SEO: Фокус на повышении Crawl Demand (качество, ссылки) или оптимизации скорости сервера, если она является причиной низкого Utilization Value.

Сценарий 2: Успешное увеличение скорости после апгрейда сервера

Ситуация: Крупный сайт переехал на мощный хостинг и запрашивает увеличение скорости.
Анализ системы (по патенту): Система видит, что Crawl Rate Limit составляет 5 запросов/сек, и Past Utilization Value также близок к 5 запросам/сек. Лимит является фактором.
Результат: Система увеличивает Crawl Rate Limit и показывает уведомление (как на FIG. 25), рекомендующее выбрать опцию "Faster". Сканирование ускоряется.

Гарантирует ли запрос на увеличение скорости сканирования в GSC, что Googlebot будет сканировать сайт быстрее?

Нет, не гарантирует. Согласно патенту, система увеличит Crawl Rate Limit только в том случае, если текущий лимит является ограничивающим фактором (limiting factor). Если сайт сканируется медленно по другим причинам (например, медленный ответ сервера или низкий интерес Google к сайту – низкий Crawl Demand), лимит не будет увеличен, и фактическая скорость не изменится.

Как система определяет, что текущий лимит скорости является "ограничивающим фактором"?

Система сравнивает текущий Crawl Rate Limit с Past Utilization Value (максимальной фактической скоростью сканирования за последнее время). Если фактическая скорость близка к лимиту (например, разница менее 10%), то лимит считается ограничивающим фактором. Это означает, что краулер мог бы сканировать быстрее, если бы не установленное ограничение.

Что делать, если я запросил увеличение скорости, но Google сообщает, что лимит не является фактором?

Это сигнал о том, что медленное сканирование вызвано не лимитом Google. Необходимо сосредоточиться на двух направлениях: 1) Улучшение производительности сервера (уменьшение времени ответа, TTFB), чтобы краулер мог физически загружать страницы быстрее. 2) Повышение Crawl Demand (спроса на сканирование) путем улучшения качества контента, авторитетности и ссылочного профиля.

Насколько важна настройка предпочитаемого домена (Preferred Domain Name), если уже настроены 301 редиректы?

Она остается важным дополнительным сигналом. Патент описывает, что выбор Preferred Domain Name используется системой для перезаписи URL-адресов и консолидации метаданных (таких как PageRank) еще на этапе индексации. Это гарантирует корректную консолидацию сигналов на уровне хоста, даже если внешние ссылки ведут на неканонические версии.

Как работает механизм повторной верификации владельцев сайта?

Он позволяет текущему верифицированному владельцу увидеть список всех верификационных токенов (файлов или мета-тегов), используемых для подтверждения прав на сайт. Владелец может удалить неактуальные токены (например, бывших сотрудников) с сервера. При запуске повторной верификации система аннулирует доступ пользователей, чьи токены были удалены.

Могу ли я всегда уменьшить скорость сканирования?

Да. Согласно патенту (Claim 6), запросы на уменьшение скорости сканирования (опция "Slower") обрабатываются. Это надежный способ снизить нагрузку на сервер, если активность Googlebot вызывает проблемы с производительностью.

Влияет ли настройка Crawl Rate Limit на ранжирование сайта?

Напрямую нет. Однако она влияет на управление Crawl Budget. Если лимит слишком низкий для большого и часто обновляемого сайта, это может привести к задержкам в индексации контента, что косвенно повлияет на видимость сайта в поиске. Слишком высокий лимит может перегрузить сервер, ухудшив пользовательский опыт.

Что такое "Past Utilization Value" и как он используется?

Past Utilization Value — это метрика, отражающая максимальную фактическую скорость, с которой краулер сканировал сайт за недавний период (например, за последние 5-10 сеансов). Она используется как эталон текущей производительности взаимодействия сайта с краулером для принятия решения о возможности увеличения Crawl Rate Limit.

Может ли владелец поддомена управлять скоростью сканирования всего домена?

В патенте указано, что в некоторых реализациях контроль скорости сканирования может быть ограничен только верифицированными владельцами корневого домена. Это сделано для того, чтобы владельцы поддоменов или виртуальных хостов не могли влиять на распределение пропускной способности всего веб-сайта.

Как быстро применяются изменения Crawl Rate Limit?

Согласно патенту, изменение скорости сканирования (как увеличение, так и уменьшение), указанное владельцем сайта, может быть применено немедленно, даже в середине сеанса сканирования. В других реализациях изменение применяется во время следующего сеанса сканирования.

Как Google позволяет владельцам сайтов выбирать предпочтительный (канонический) домен для индексации и управлять скоростью сканирования

Патент описывает механизмы Google для решения проблемы дублирования контента, возникающей из-за нескольких эквивалентных доменных имен (например, с WWW и без). Верифицированные владельцы могут указать предпочтительный домен, который Google будет использовать для перезаписи URL-адресов перед индексацией, консолидируя сигналы ранжирования. Патент также описывает интерфейсы для управления верификацией владельцев и контроля скорости сканирования (Crawl Rate).

US7930400B1
2011-04-19

Индексация
Краулинг
Техническое SEO

Как Google управляет доступом к настройкам сайта (GSC), позволяет выбирать канонический домен и регулировать скорость сканирования

Патент описывает инфраструктуру Google Search Console для подтверждения владения сайтом. Верифицированные владельцы получают возможность отзывать доступ у других пользователей, указывать предпочитаемый домен (Preferred Domain Name) для консолидации сигналов ранжирования и регулировать предельную скорость сканирования (Crawl Rate Limit) с учетом фактической нагрузки.

US8533226B1
2013-09-10

Индексация
Краулинг
Техническое SEO

Как Google обнаруживает и консолидирует зеркальные сайты и разделы, используя взвешенные инфраструктурные, структурные и контентные сигналы

Google использует многофакторную систему для идентификации хостов (Hostnames) или разделов сайтов (Subtrees), которые являются зеркалами друг друга. Система анализирует взвешенные сигналы, включая IP-адреса, редиректы, структуру ссылок, данные WHOIS и степень дублирования контента. Это позволяет Google оптимизировать краулинговый бюджет, избегать индексации дубликатов и консолидировать сигналы ранжирования на канонической версии.

US8055626B1
2011-11-08

Индексация
Краулинг
Техническое SEO

Как Google прогнозирует частоту обновления новых страниц для оптимизации краулингового бюджета

Google использует статистический метод для оценки того, как часто будет обновляться новый документ. Система анализирует исторические данные о частоте изменений похожих документов (например, страниц с аналогичной структурой URL или на том же домене), чтобы определить оптимальную частоту сканирования новой страницы. Это позволяет поддерживать свежесть индекса и эффективно расходовать краулинговый бюджет.

US20130212100A1
2013-08-15

Краулинг
Индексация
Свежесть контента

Как Google приоритизирует сканирование, управляет краулинговым бюджетом и повторно использует контент

Google использует распределенную систему планирования для оптимизации сканирования. Приоритет URL определяется их важностью (Page Importance/PageRank) и специальными коэффициентами (Boost Factor). Система фильтрует постоянно недоступные страницы и решает, загружать ли контент заново или использовать кэшированную версию (Reuse), основываясь на истории изменений и важности страницы.

US8042112B1
2011-10-18

Краулинг
Свежесть контента
Индексация

Как Google рассчитывает авторитетность страниц на основе их близости к доверенным сайтам-источникам (Seed Sites)

Google использует метод ранжирования страниц, основанный на измерении «расстояния» в ссылочном графе от набора доверенных исходных сайтов (Seed Sites) до целевой страницы. Чем короче путь от доверенных источников до страницы, тем выше ее рейтинг авторитетности. Длина ссылки увеличивается (а ее ценность падает), если исходная страница имеет большое количество исходящих ссылок. Этот механизм позволяет эффективно рассчитывать показатели доверия (Trust) в масштабах всего веба.

US9165040B1
2015-10-20

Ссылки
EEAT и качество
Антиспам

Как Google динамически повышает порог качества для результатов поиска по «рискованным» запросам

Google оценивает «риск» поискового запроса, анализируя общее качество топовых результатов. Если запрос часто привлекает спам, кликбейт или нежелательный контент (особенно видео), система динамически повышает минимальный порог качества. Контент, не соответствующий этому повышенному стандарту, понижается в выдаче, при этом учитываются такие сигналы, как показатель просмотров (Watch Rate).

US11609949B2
2023-03-21

Антиспам
SERP
Поведенческие сигналы

Как Google использует гибридную классификацию и данные о кликах пользователей для точного определения тематики контента

Google использует многоэтапный процесс для классификации контента в детальные иерархические категории. Система комбинирует традиционные методы классификации с анализом поисковых запросов и кликов пользователей (подтвержденных результатов поиска). Это позволяет точно определить узкоспециализированную тематику документа, фильтруя нерелевантные категории и взвешивая релевантность на основе TF-IDF и глубины иерархии.

US8145636B1
2012-03-27

Семантика и интент
Поведенческие сигналы

Как Google корректирует позиционную предвзятость (Position Bias) при обучении моделей ранжирования на кликах пользователей

Google использует механизм для устранения позиционной предвзятости (Position Bias) при обучении моделей ранжирования (Learning to Rank). Система анализирует, на какой позиции находился кликнутый результат, и присваивает этому клику вес важности. Клики по нижним позициям получают больший вес, чем клики по ТОП-1. Это позволяет модели учиться определять истинную релевантность, а не просто копировать существующий порядок выдачи.

US20210125108A1
2021-04-29

Поведенческие сигналы
SERP

Как Google использует клики пользователей для определения составных фраз (N-грамм) в запросах

Google анализирует, какие результаты поиска выбирают пользователи, чтобы понять, являются ли последовательные слова в запросе единой фразой (например, "Нью Йорк") или отдельными терминами. Если пользователи преимущественно кликают на результаты, содержащие эту последовательность как неразрывную фразу, система определяет ее как составную (Compound) и использует это знание для улучшения ранжирования и понимания запроса.

US8086599B1
2011-12-27

Семантика и интент
Поведенческие сигналы
SERP

Как Google автоматически превращает текст на странице в ссылки на результаты поиска для монетизации контента

Патент Google описывает технологию автоматического анализа контента веб-страницы для выявления ключевых тем и терминов. Система генерирует релевантные поисковые запросы и динамически встраивает гиперссылки в текст страницы. При клике пользователь перенаправляется на страницу результатов поиска (SERP). Ключевая особенность: система приоритизирует термины с высоким потенциалом дохода от рекламы.

US7788245B1
2010-08-31

Ссылки
SERP
Семантика и интент

Как Google использует крупномасштабное машинное обучение и данные о поведении пользователей для предсказания кликов и ранжирования результатов

Google использует систему машинного обучения для создания модели ранжирования, которая предсказывает вероятность клика пользователя по документу. Модель обучается на огромных массивах данных о прошлых поисках (запросы, документы, клики). Система учитывает базовую вероятность клика (Prior Probability), основанную на позиции и предыдущей оценке документа, а затем корректирует её с помощью правил, выявляющих, какие признаки (Features) документа и запроса влияют на выбор пользователя.

US7231399B1
2007-06-12

Поведенческие сигналы

Как Google выявляет ссылочный спам (Link Farms и Web Rings), анализируя чувствительность PageRank к изменениям в структуре ссылок

Google использует математический метод для обнаружения искусственного завышения PageRank. Система анализирует, насколько резко меняется ранг страницы при изменении «коэффициента связи» (coupling factor/damping factor). Если ранг страницы слишком чувствителен к этим изменениям (имеет высокую производную), это сигнализирует о наличии манипулятивных структур, таких как ссылочные фермы или веб-кольца.

US7509344B1
2009-03-24

Антиспам
Ссылки
Техническое SEO

Как Google динамически обновляет выдачу в реальном времени, если пользователь не кликает на результаты

Google отслеживает взаимодействие с поисковой выдачей в реальном времени. Если пользователь просматривает результаты, но не кликает на них в течение определенного времени (определяемого моделью поведения), система интерпретирует это как имплицитную отрицательную обратную связь. На основе анализа этих «отвергнутых» результатов Google автоматически пересматривает запрос (корректируя веса или заменяя термины) и динамически предоставляет новый набор результатов.

US20150169576A1
2015-06-18

Поведенческие сигналы
SERP
Семантика и интент

Как Google автоматически изучает синонимы, анализируя последовательные запросы пользователей и вариации анкорных текстов

Google использует методы для автоматического определения синонимов, акронимов и эквивалентных фраз. Система анализирует логи запросов: если пользователь быстро меняет запрос, сохраняя часть слов (например, с «отели в париже» на «гостиницы в париже»), система учится, что «отели» и «гостиницы» эквивалентны. Также анализируются вариации анкорных текстов, указывающих на одну и ту же страницу.

US6941293B1
2005-09-06

Семантика и интент
Ссылки