Как Google определяет частоту и приоритет сканирования страниц на основе PageRank, частоты обновления контента и времени с последнего визита

SCHEDULER FOR SEARCH ENGINE CRAWLER (Планировщик для краулера поисковой системы)

US7725452B1
Google LLC
2004-05-20
2010-05-25

Google использует автоматизированную систему планирования для оптимизации ресурсов сканирования. Для каждого URL рассчитываются оценки приоритета (Scores) на основе его важности (PageRank), исторической частоты изменения контента (Content Change Frequency) и времени, прошедшего с момента последнего сканирования (Age). Это определяет, будет ли страница сохранена в индексе, как часто она будет сканироваться (ежедневно, в реальном времени или редко) и нужно ли загружать ее заново.

Какую проблему решает

Патент решает проблему эффективного управления ограниченными ресурсами сканирования в условиях, когда размер Интернета значительно превышает возможности поисковой системы. Он автоматизирует процесс определения приоритетов: какие страницы сканировать, с какой частотой их переобходить и какие страницы следует удалить из индекса. Цель — поддерживать максимальную актуальность и качество индекса, фокусируясь на важных и часто меняющихся документах, не перегружая инфраструктуру краулера.

Что запатентовано

Запатентована система и метод для планирования сканирования (Scheduler). Ядром изобретения является механизм расчета приоритета сканирования на основе трех ключевых факторов: квери-независимой оценки важности (PageRank), частоты изменения контента (Content Change Frequency), определяемой исторически, и возраста документа (Age, время с последнего сканирования). Система вычисляет различные оценки (Scores) и сравнивает их с динамическими порогами для принятия решений о сканировании.

Как это работает

Система работает в несколько этапов:

Сбор истории: При каждом сканировании система сохраняет в журнале (History Log) временную метку, PageRank и контрольные суммы контента (Content Checksum) и ссылок (Link Checksum).
Анализ изменений: Планировщик сравнивает контрольные суммы из последовательных сканирований для расчета фактической частоты изменения контента (Content Change Frequency).
Вычисление оценок: Для каждого URL вычисляются оценки, такие как Crawl Score (приоритет сканирования), Daily Score (необходимость частого сканирования) и Keep Score (ценность для индекса). Эти оценки являются функциями от PageRank, частоты изменений и Age.
Определение порогов: Пороговые значения (Thresholds) рассчитываются динамически на основе статистической выборки URL и целевых показателей системы (размер индекса, пропускная способность краулера).
Планирование: На основе сравнения оценок с порогами URL распределяются по слоям сканирования (Base, Daily, Real-time), определяется необходимость их загрузки из сети (Crawl) или использования копии из кэша (Reuse), а также принимается решение об удалении низкоприоритетных URL из индекса.

Актуальность для SEO

Высокая. Несмотря на возраст патента, описанные принципы остаются фундаментальными для работы поисковых систем. Оптимизация краулингового бюджета (Crawl Budget Optimization) является критически важной задачей в современном SEO. Приоритизация на основе авторитетности (аналог PageRank), частоты обновлений и свежести по-прежнему лежит в основе управления ресурсами сканирования Google.

Важность для SEO

Патент имеет критическое значение (9/10) для понимания процессов сканирования и индексации. Он предоставляет конкретное понимание механизмов, которые Google использует для определения частоты обхода страниц. Это напрямую влияет на скорость попадания нового или обновленного контента в индекс. Понимание того, что авторитетность (PageRank) и частота значимых обновлений являются ключевыми множителями в формулах приоритета, дает четкое направление для стратегий по управлению индексацией сайта.

Термины и определения

Age (Возраст документа): Метрика, связанная со временем последнего сканирования. Может определяться как время, прошедшее с момента последней загрузки, или рассчитываться с учетом ожидаемого срока жизни документа (expected_shelf_life).
Base Layer (Базовый слой): Основной набор URL, разделенный на сегменты (Segments). Сканируется циклически, сегмент за сегментом. Предназначен для менее приоритетных URL.
Content Change Frequency (Частота изменения контента): Метрика, показывающая, как часто меняется содержимое документа. Определяется путем анализа History Log и сравнения Content Checksum.
Content Checksum (Контрольная сумма контента): Числовое значение (фингерпринт), вычисленное на основе содержимого документа. Используется для точного определения факта изменения контента между сканированиями.
Crawl Score (Оценка сканирования): Композитная оценка, определяющая приоритет сканирования URL. Вычисляется как функция от PageRank, Content Change Frequency и Age. Используется для решения, будет ли URL загружаться из сети (Crawl) или из репозитория (Reuse).
Daily Crawl Layer (Слой ежедневного сканирования): Набор URL, требующих более частого сканирования, чем Base Layer (например, ежедневно).
Daily Score (Ежедневная оценка): Композитная оценка, определяющая, следует ли переместить URL в Daily Crawl Layer.
History Log (Журнал истории): Хранилище записей о предыдущих сканированиях URL, включая временные метки, статус, чек-суммы и PageRank на момент сканирования.
Keep Score (Оценка хранения): Оценка, определяющая ценность URL для индекса. Используется для решения об удалении URL из индекса для освобождения места. В одном из вариантов реализации равна PageRank.
Link Checksum (Контрольная сумма ссылок): Числовое значение, вычисленное на основе всех исходящих ссылок на странице. Используется для определения изменений в наборе ссылок.
PageRank: Квери-независимая оценка (query-independent score) важности документа. Ключевой фактор во всех расчетах планировщика.
Real-time Layer (Слой реального времени): Набор URL, требующих сканирования многократно в течение одной эпохи (например, каждые несколько минут).
URL Scheduler (Планировщик URL): Компонент системы, который определяет расписание сканирования и управляет распределением URL по слоям.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод планирования индексирования (сканирования) документов.

Система получает набор идентификаторов документов (URL).
Для каждого URL выполняется:
1. Определение квери-независимой оценки (PageRank).
2. Определение частоты изменения контента (content change frequency) путем сравнения информации, сохраненной при последовательных загрузках документа.
3. Определение возраста документа (age), связанного со временем последней загрузки.
4. Вычисление первой оценки (First Score) для URL, которая является функцией от PageRank, частоты изменений и age.
5. Сравнение первой оценки с пороговым значением.
6. Условное планирование индексирования документа на основе результата сравнения.

Ядром изобретения является использование комбинации трех фундаментальных параметров — важности (PageRank), изменчивости (частота изменений) и устаревания (age) — для принятия автоматизированного решения о приоритете сканирования. "Первая оценка" может относиться к Crawl Score, Daily Score или Keep Score.

Claim 3 и 9 (Зависимые): Уточняют механизм определения частоты изменений.

Частота изменения контента определяется путем сравнения контрольных сумм контента (content checksums), сохраненных в журнале истории для последовательных загрузок документа.

Claim 5, 6, 11 и 12 (Зависимые): Детализируют способ определения порогового значения.

Пороговое значение определяется с использованием оценок, вычисленных для выборки (sample set) URL. Оно также определяется с учетом целевого размера (target size) набора документов, подлежащих сканированию (т.е. пропускной способности краулера или размера индекса).

Это означает, что система использует динамические пороги, рассчитываемые на основе статистического распределения оценок в вебе и текущих возможностей инфраструктуры.

Где и как применяется

Изобретение является центральным элементом архитектуры сканирования.

CRAWLING – Сканирование и Сбор данных (Crawling & Data Acquisition)
Это основная область применения патента. URL Scheduler управляет всем процессом планирования.

Планирование (Crawl Scheduling): Система определяет, какие URL сканировать и когда, используя расчетные оценки (Crawl Score, Daily Score, Keep Score).
Управление бюджетом (Crawl Budget Management): Ресурсы оптимизируются путем выбора URL выше Crawl Threshold и удаления URL ниже Keep Threshold.
Входные данные: History logs (с чек-суммами и временными метками), текущие данные PageRank от Page Rankers.
Выходные данные: Файл расписания (Schedule Output File) со списком URL и флагами (Daily Flag, Crawl/Reuse Flag), который передается краулерам (Robots).

INDEXING – Индексирование и извлечение признаков (Indexing & Feature Extraction)
На этом этапе генерируются данные для планировщика.

Процесс: Фильтры контента (Content filters) вычисляют новые Content Checksum и Link Checksum после загрузки контента. Page Rankers пересчитывают PageRank.
Выходные данные: Обновленный History log и данные PageRank, которые передаются обратно в URL Scheduler.

На что влияет

Все типы контента и сайтов: Механизм применяется ко всем URL, но оказывает разное влияние в зависимости от характеристик сайта.
Авторитетные ресурсы (Высокий PageRank): Получают преимущество во всех оценках, что гарантирует их присутствие в индексе (высокий Keep Score) и более частое сканирование.
Динамичный контент (Новости, Блоги, E-commerce): Сайты с высокой частотой изменений чаще попадают в Daily или Real-time layer, при условии достаточного PageRank.
Статический контент: Если контент не меняется, частота сканирования снижается, но периодический обход гарантируется фактором Age.

Когда применяется

Условия применения: Алгоритм применяется ко всем URL в базе данных системы, для которых доступна история сканирования и PageRank.
Частота применения: Процесс планирования выполняется регулярно, обычно перед началом каждой эпохи (Epoch), например, ежедневно.
Пересчет порогов: Пороговые значения (Thresholds) пересчитываются периодически для адаптации к изменениям в вебе и возможностям инфраструктуры (изменение target size).

Пошаговый алгоритм

Патент описывает два основных процесса: Инициализация (определение порогов) и Планирование.

Процесс А: Инициализация и определение порогов

Выборка данных: Случайным образом выбирается статистически значимый набор URL (например, 1-10 миллионов).
Вычисление оценок для выборки: Для каждого URL в выборке вычисляются Keep Score, Crawl Score и Daily Score на основе их PageRank, Content Change Frequency и Age.
Сортировка: URL сортируются по убыванию для каждой из трех оценок, формируя три отсортированных списка.
Определение порогов: На основе целевых показателей системы (Target Size) определяются пороговые значения:
- Keep Threshold: Устанавливается на основе целевого размера индекса (например, если нужно сохранить 70% URL, порог ставится на уровне 70-го процентиля).
- Crawl Threshold: Устанавливается на основе пропускной способности краулера (например, если можно скачать 50% URL).
- Daily Threshold: Устанавливается на основе целевого размера слоя ежедневного сканирования (например, 20%).
Сохранение порогов: Пороговые значения сохраняются для использования в основном процессе.

Процесс Б: Выполнение планирования (для всей базы URL)

Обработка сегментов: Система последовательно обрабатывает все сегменты Base layer.
Вычисление оценок: Для всех URL в сегменте вычисляются Keep Score, Crawl Score и Daily Score.
Фильтрация по Keep Score: Выбираются URL, у которых Keep Score выше Keep Threshold. Остальные удаляются из индекса.
Установка флагов сканирования: Для оставшихся URL:
- Если Crawl Score выше Crawl Threshold, устанавливается флаг Crawl (скачать из сети). Иначе — флаг Reuse (использовать копию).
- Если Daily Score выше Daily Threshold, устанавливается Daily Flag (переместить в Daily crawl layer).
Запись результата: Выбранные URL с их PageRank и флагами записываются в Schedule Output File.

Какие данные и как использует

Данные на входе

Планировщик использует исторические, ссылочные и системные данные.

Ссылочные факторы:
- PageRank (текущий): Актуальная оценка важности страницы. Главный фактор авторитетности.
Временные факторы (из History Log):
- Timestamp: Временная метка последнего сканирования (используется для расчета Age).
Технические/Системные факторы (из History Log):
- Content Checksum и Link Checksum: Хеши контента и ссылок из предыдущих сканирований (используются для расчета Content Change Frequency).
- Crawl Status и Error Condition: Статус предыдущих попыток сканирования.
- Download Time: Время загрузки страницы при предыдущем сканировании.
Системные данные:
- Thresholds: Предварительно рассчитанные пороговые значения.

Какие метрики используются и как они считаются

1. Content Change Frequency (Частота изменения контента)

Как считается: Анализом History Log. Сравнение Content Checksum (и/или Link Checksum) последовательных сканирований. Если чек-суммы отличаются, фиксируется изменение. На основе временных меток вычисляется частота.

2. Age (Возраст)

Как считается (Вариант 1): Текущее время - Время последнего сканирования.
Как считается (Вариант 2):

Три кита планирования сканирования: Патент четко определяет три фактора, управляющих приоритетом сканирования (Crawl Score): Важность (PageRank), Изменчивость (Content Change Frequency) и Устаревание (Age). Ни один фактор сам по себе не гарантирует максимального приоритета; важна их комбинация.
PageRank критичен для индексации и частоты сканирования: PageRank является основой для Keep Score (решение о хранении в индексе) и мощным множителем в Crawl Score и Daily Score. Авторитетность является базовым требованием для эффективного сканирования.
Частота изменений определяется исторически и точно: Система полагается не на внешние сигналы (например, Sitemap changefreq), а на фактическую историю изменений контента, отслеживаемую через Content Checksum. Это позволяет точно определить оптимальную частоту сканирования.
Адаптивные пороги и управление ресурсами: Система динамически адаптируется к росту Интернета и возможностям инфраструктуры. Пороги вычисляются статистически на основе выборки URL и целевых показателей загрузки. Сканирование рассматривается как ресурс, который распределяется по приоритетам.
Многоуровневая система сканирования: Использование слоев (Base, Daily, Real-time) и различных оценок позволяет тонко настраивать частоту обхода для разных типов контента, от сканирования раз в несколько минут до раза в несколько месяцев.

Best practices (это мы делаем)

Комплексное повышение авторитетности (PageRank): Поскольку PageRank влияет на все аспекты сканирования (Keep, Crawl, Daily Scores), стратегический фокус на построении качественного ссылочного профиля и оптимизации внутренней перелинковки критически важен для обеспечения стабильной индексации и увеличения частоты сканирования.
Регулярное и значимое обновление контента: Для повышения Content Change Frequency необходимо вносить реальные изменения в контент. Обновляйте основное содержимое, добавляйте актуальные данные (отзывы, цены, новости). Это повышает Crawl Score и Daily Score ключевых страниц.
Оптимизация структуры для быстрого обнаружения обновлений: Размещайте новый или обновленный контент на страницах с высоким PageRank и высокой частотой сканирования (например, на главной или в основных категориях). Это ускоряет обнаружение изменений краулером.
Поддержание "вечнозеленого" контента: Для статических страниц, которые редко меняются, необходимо обеспечить высокий PageRank. Это гарантирует их сохранение в индексе (высокий Keep Score) и регулярное пересканирование за счет фактора Age.
Мониторинг логов сервера: Анализируйте частоту посещений Googlebot. Снижение частоты сканирования важных страниц может сигнализировать о падении их Crawl Score, что требует анализа авторитетности и частоты обновлений.

Worst practices (это делать не надо)

Имитация обновлений (Fake Updates): Внесение незначительных изменений (например, изменение даты публикации без изменения текста) для манипуляции Content Change Frequency. Поскольку система использует Content Checksum, она может определить фактическую значимость изменений и проигнорировать "шум".
Создание большого количества низкокачественных страниц: Страницы с низким PageRank будут иметь низкий Keep Score и станут первыми кандидатами на удаление из индекса, а также будут редко сканироваться, неэффективно расходуя краулинговый бюджет.
Игнорирование внутренней перелинковки: Недостаток внутренних ссылок на важные страницы снижает их внутренний PageRank, что напрямую ведет к снижению всех оценок сканирования и уменьшению частоты обхода.

Стратегическое значение

Этот патент подтверждает фундаментальную важность управления краулинговым бюджетом (Crawl Budget Management). Он демонстрирует, что Google рассматривает сканирование как инвестицию ресурсов и стремится максимизировать отдачу, фокусируясь на авторитетном и свежем контенте. Патент доказывает, что ссылочный авторитет (PageRank) влияет не только на ранжирование, но и является основой для принятия решений о сканировании и индексации. Долгосрочная SEO-стратегия должна включать оптимизацию архитектуры и контент-плана для максимизации эффективности сканирования.

Практические примеры

Сценарий: Ускорение индексации для крупного E-commerce сайта

Задача: Обеспечить быструю индексацию новых товаров и актуальность цен/наличия.

Применение принципов патента:

Повышение PageRank Категорий: Усиление страниц категорий внешними и внутренними ссылками для повышения их Keep Score и Daily Score.
Увеличение Change Frequency Категорий: Регулярное обновление листингов в категориях (ротация товаров, вывод новинок). Это повышает частоту сканирования категорий и ускоряет обнаружение новых товаров.
Увеличение Change Frequency Товаров: Обеспечение обновления информации на карточках товаров (цены, наличие, новые отзывы). Изменение Content Checksum повышает Crawl Score товара и частоту его проверки краулером.
Ожидаемый результат: Ключевые категории перемещаются в Daily Crawl Layer. Товары сканируются чаще, поддерживая актуальность данных в поиске. Новые товары обнаруживаются быстрее через часто сканируемые категории.

Что важнее для частоты сканирования: PageRank или частота обновления контента?

Оба фактора критически важны, так как они перемножаются в формулах расчета оценок (Daily Score, Crawl Score). Высокий PageRank при статичном контенте приведет к периодическому, но не частому сканированию. Высокая частота обновлений при низком PageRank также не гарантирует высокого приоритета, и страница даже может быть удалена из индекса (низкий Keep Score). Максимальная частота достигается при комбинации обоих факторов.

Как Google определяет, что контент действительно изменился?

Патент описывает использование Content Checksum — это хеш-сумма, вычисленная на основе содержимого документа. При каждом сканировании система вычисляет новую чек-сумму и сравнивает ее с сохраненной в History Log. Если значения отличаются, контент считается измененным. Это позволяет точно обнаруживать изменения в тексте.

Что такое Keep Score и почему моя страница может быть удалена из индекса?

Keep Score определяет целесообразность хранения URL в индексе Google. В патенте предлагается использовать PageRank в качестве Keep Score. Если ресурсы системы ограничены, а Keep Score страницы ниже динамически рассчитанного порога (Keep Threshold), она может быть удалена, чтобы освободить место для более важных URL. Это подчеркивает важность работы над авторитетностью для поддержания индексации.

Как рассчитываются пороговые значения (Thresholds)? Они фиксированы?

Нет, пороги не фиксированы. Они рассчитываются динамически на основе возможностей системы и статистики. Google берет случайную выборку URL, считает их оценки (Scores) и сортирует. Затем, исходя из целевых показателей (например, сколько URL система может сканировать ежедневно), устанавливается порог на уровне соответствующего процентиля. Это позволяет адаптироваться к изменениям в вебе.

Что означает флаг Crawl/Reuse?

Этот флаг указывает, как система должна получить контент. Если Crawl Score выше порога, устанавливается флаг Crawl, и краулер загрузит страницу из Интернета. Если Crawl Score ниже порога (но Keep Score достаточен для хранения), устанавливается флаг Reuse, и система может использовать последнюю сохраненную копию документа из своего репозитория, экономя ресурсы.

Как повлиять на Content Change Frequency?

Необходимо регулярно вносить значимые изменения в контент страницы. Обновление текста, добавление новых блоков (отзывы, комментарии), изменение цен или наличия товара. Также патент упоминает Link Checksum, поэтому изменение набора исходящих ссылок на странице также учитывается как изменение.

Что такое Age документа и как он влияет на сканирование?

Age — это время, прошедшее с момента последнего сканирования. Он используется как множитель в расчете Crawl Score. Чем больше времени прошло с последнего визита (чем старше Age), тем выше становится Crawl Score, даже если частота изменений низкая. Это механизм, гарантирующий, что даже статический контент будет периодически пересканироваться.

Учитывает ли эта система данные из файла Sitemap (параметр changefreq или lastmod)?

Патент не упоминает использование данных из Sitemap. Описанная система полагается исключительно на собственный исторический анализ фактических изменений контента (через Content Checksum) и PageRank. Это соответствует заявлениям Google о том, что параметр changefreq игнорируется, а lastmod используется как рекомендация, но не заменяет внутренний анализ частоты изменений.

Что такое Base layer, Daily layer и Real-time layer?

Это разные уровни частоты сканирования. Base layer содержит большинство URL и сканируется медленно (например, раз в несколько недель/месяцев). Daily layer содержит более важные и часто меняющиеся URL, которые сканируются ежедневно. Real-time layer содержит критически важные URL (например, главные страницы мировых новостных агентств), которые сканируются очень часто, возможно, каждые несколько минут.

Влияет ли скорость загрузки сайта на эти оценки?

Патент упоминает поле Download Time в History Log, которое фиксирует время загрузки страницы. Хотя в приведенных примерах формул этот параметр явно не используется, он может учитываться в других реализациях функции расчета оценок или использоваться для регулирования нагрузки на сервер (что косвенно влияет на общий краулинговый бюджет сайта).

Как Google приоритизирует сканирование, управляет краулинговым бюджетом и повторно использует контент

Google использует распределенную систему планирования для оптимизации сканирования. Приоритет URL определяется их важностью (Page Importance/PageRank) и специальными коэффициентами (Boost Factor). Система фильтрует постоянно недоступные страницы и решает, загружать ли контент заново или использовать кэшированную версию (Reuse), основываясь на истории изменений и важности страницы.

US8042112B1
2011-10-18

Краулинг
Свежесть контента
Индексация

Как Google оптимизирует краулинговый бюджет, динамически изменяя частоту сканирования на основе популярности, значимых изменений контента и ошибок сервера

Google использует систему планирования сканирования для оптимизации ресурсов. Система динамически рассчитывает интервал сканирования для каждого ресурса, учитывая его популярность (например, количество подписчиков), частоту «значимых» изменений контента (особенно в визуально важных блоках) и состояние доступности (ошибки сервера). Это позволяет чаще сканировать важный и обновляемый контент и сокращать ресурсы на неизменный или недоступный контент.

US8868541B2
2014-10-21

Краулинг
Техническое SEO
Индексация

Как Google оптимизирует график повторного сканирования на основе частоты изменений и важности контента

Google использует адаптивную систему планирования повторного сканирования. Система оценивает, как часто меняется документ (Change Period) и насколько он важен (Importance Rank, например, PageRank). На основе этих данных рассчитывается оптимальная частота сканирования (Crawl Period), которая корректируется для обеспечения свежести индекса и эффективного использования ресурсов.

US8386459B1
2013-02-26

Краулинг
Свежесть контента
Техническое SEO

Как Google прогнозирует частоту обновления новых страниц для оптимизации краулингового бюджета

Google использует статистический метод для оценки того, как часто будет обновляться новый документ. Система анализирует исторические данные о частоте изменений похожих документов (например, страниц с аналогичной структурой URL или на том же домене), чтобы определить оптимальную частоту сканирования новой страницы. Это позволяет поддерживать свежесть индекса и эффективно расходовать краулинговый бюджет.

US20130212100A1
2013-08-15

Краулинг
Индексация
Свежесть контента

Как Google динамически приоритизирует сканирование страниц, когда Googlebot отстает от графика

Google использует адаптивную систему управления сканированием. Если краулер не успевает обработать все запланированные URL (отстает от графика), система динамически меняет приоритеты. Вместо хронологического порядка приоритет отдается наиболее важным страницам (на основе Importance Rank/PageRank), чтобы гарантировать свежесть индекса для ключевого контента, даже если другие страницы дольше ждут своей очереди.

US8666964B1
2014-03-04

Краулинг
Свежесть контента
Индексация

Как Google использует контекст пользователя и интерактивное уточнение для обучения моделей поиска

Google может инициировать поиск пассивно, основываясь на контексте действий пользователя (например, чтении статьи или телефонном звонке). Система позволяет пользователю уточнить этот поиск, выбрав один из использованных критериев (например, тапнув на сущность в тексте), чтобы повысить его значимость. Реакция пользователя на уточненные результаты используется для машинного обучения и улучшения взвешивания критериев в будущих поисковых запросах.

US11568003B2
2023-01-31

Семантика и интент
Персонализация
Поведенческие сигналы

Как Google динамически переоценивает значимость факторов ранжирования, основываясь на их надежности в контексте конкретной выдачи

Google использует механизм для повышения качества ранжирования путем анализа надежности (Trustworthiness) различных факторов, влияющих на позицию документа. Если система обнаруживает значительную разницу в надежности сигналов среди результатов поиска, она снижает влияние менее достоверных факторов. Это гарантирует, что документы, получившие высокие оценки за счет ненадежных или легко манипулируемых сигналов, не будут ранжироваться выше документов с более достоверными показателями качества и релевантности.

US9623119B1
2017-04-18

EEAT и качество
Поведенческие сигналы
SERP

Как Google агрегирует поведенческие данные из похожих запросов для ранжирования редких и длиннохвостых запросов

Google использует механизм обобщения запросов для улучшения ранжирования, особенно когда исторических данных по исходному запросу недостаточно. Система создает варианты запроса (удаляя стоп-слова, используя синонимы, стемминг или частичное совпадение) и агрегирует данные о поведении пользователей (клики, dwell time) из этих вариантов. Это позволяет оценить качество документа для исходного запроса, используя статистику из семантически близких запросов.

US9110975B1
2015-08-18

Поведенческие сигналы
Семантика и интент
SERP

Как Google использует историю браузера, закладки и поведение пользователей для персонализации результатов поиска в e-commerce

Система отслеживает поведение пользователей (клики, время на сайте, покупки) и их сохраненные закладки (content pointers) в сетевой среде. На основе этих данных создается персональная модель релевантности и иерархия предпочтений. Эта модель используется для дополнения запросов, переранжирования результатов поиска и предоставления рекомендаций, обеспечивая персонализированный опыт в e-commerce.

US7089237B2
2006-08-08

Поведенческие сигналы
Персонализация
SERP

Как Google использует анализ сопутствующих ссылок (co-citation) и нормализацию веса для определения связанных сайтов и конкурентов

Google анализирует структуру ссылок для поиска сайтов, связанных с выбранным документом и находящихся на том же уровне обобщения (например, конкурентов). Система определяет, на какие еще сайты ссылаются источники, цитирующие исходный документ (co-citation). Для повышения точности вес ссылок нормализуется: снижается влияние множественных ссылок с одного хоста и ссылок со страниц-каталогов (хабов).

US6754873B1
2004-06-22

Ссылки
SERP
Техническое SEO

Как Google использует данные из Local Search и Google Maps для распознавания географических названий в основном поиске

Google анализирует поведение пользователей в интерфейсах с отдельными полями ввода "Что?" и "Где?" (например, в Google Maps). На основе этой статистики система определяет, является ли термин однозначным названием местоположения ("Нью-Йорк") или нет ("Пицца"). Это позволяет поиску отличать локальные запросы от общих и формировать "черные списки" для терминов, которые похожи на города, но ими не являются (например, "Орландо Блум").

US8782030B1
2014-07-15

Local SEO
Семантика и интент
Поведенческие сигналы

Как Google предсказывает ваш следующий запрос на основе контента, который вы просматриваете, и истории поиска других пользователей

Google использует систему контекстной информации, которая анализирует контент на экране пользователя (например, статью или веб-страницу) и предсказывает, что пользователь захочет искать дальше. Система не просто ищет ключевые слова на странице, а использует исторические данные о последовательностях запросов (Query Logs). Она определяет, что другие пользователи искали после того, как вводили запросы, связанные с текущим контентом, и предлагает эти последующие запросы в качестве рекомендаций.

US20210232659A1
2021-07-29

Семантика и интент
Поведенческие сигналы
Персонализация

Как Google использует историю поиска, поведение и многофакторные профили пользователей для персонализации поисковой выдачи

Google создает детальные профили пользователей на основе истории запросов, взаимодействия с результатами (клики, время просмотра) и анализа контента посещенных страниц. Эти профили (включающие интересы по терминам, категориям и ссылкам) используются для корректировки стандартных оценок ранжирования. Степень персонализации динамически регулируется уровнем уверенности системы в профиле (Confidence Score).

US9298777B2
2016-03-29

Персонализация
Поведенческие сигналы
SERP

Как Google использует клики и пропуски пользователей для оценки и корректировки правил близости терминов (Proximity Rules)

Google анализирует поведение пользователей для оценки эффективности правил близости (Proximity Rules), которые влияют на ранжирование в зависимости от расстояния между ключевыми словами на странице. Система отслеживает, кликают ли пользователи на результаты, где термины расположены далеко друг от друга, или пропускают их. На основе этих данных (Click Count, Skip Count) вычисляется оценка качества правила, что позволяет Google динамически адаптировать важность фактора близости.

US9146966B1
2015-09-29

Поведенческие сигналы
SERP

Как Google определяет язык и языковую релевантность страницы, анализируя контекст входящих и исходящих ссылок

Google использует контекст входящих и исходящих ссылок для определения языковой релевантности ресурса. Система анализирует язык анкоров, URL, контент ссылающихся и целевых страниц, а также качество ссылок и тип страницы (например, «языковой шлюз»). Это позволяет точно идентифицировать релевантные языки, даже если на самой странице мало текста.

US9098582B1
2015-08-04

Ссылки
Мультиязычность
Семантика и интент