SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google прогнозирует частоту обновления новых страниц для оптимизации краулингового бюджета

ESTIMATING RATE OF CHANGE OF DOCUMENTS (Оценка скорости изменения документов)
  • US20130212100A1
  • Google LLC
  • 2012-12-26
  • 2013-08-15
  • Краулинг
  • Индексация
  • Свежесть контента
  • Техническое SEO
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Google использует статистический метод для оценки того, как часто будет обновляться новый документ. Система анализирует исторические данные о частоте изменений похожих документов (например, страниц с аналогичной структурой URL или на том же домене), чтобы определить оптимальную частоту сканирования новой страницы. Это позволяет поддерживать свежесть индекса и эффективно расходовать краулинговый бюджет.

Описание

Какую проблему решает

Патент решает проблему эффективного планирования сканирования (crawling) для поддержания свежести поискового индекса. Постоянное сканирование всех документов требует огромных ресурсов. Системе необходимо прогнозировать, когда документ изменится, чтобы запланировать его повторное сканирование максимально близко к моменту изменения. Эта задача особенно сложна для недавно обнаруженных документов или документов с короткой историей сканирования, по которым еще не накоплена статистика изменений.

Что запатентовано

Запатентован метод оценки скорости изменения (Change Rate) документа, основанный на исторических данных об изменениях других, похожих документов. Система определяет сходство на основе метаданных, в первую очередь шаблонов URL (URL Patterns). Для нового документа система находит похожие документы и использует распределение их скоростей изменения (Prior Distribution) для статистического прогнозирования скорости изменения нового документа.

Как это работает

Ключевой механизм основан на предположении, что документы в пределах одного домена, сайта или директории имеют схожие скорости изменения.

  • Сбор метаданных: Для нового документа извлекаются метаданные (шаблон URL, тип документа, категория).
  • Поиск похожих документов: Система ищет документы с наиболее специфичным совпадающим шаблоном URL.
  • Анализ истории: Анализируется распределение скоростей изменения этих похожих документов (Prior Distribution).
  • Статистическая оценка: Используя это распределение и статистические методы (например, оценку максимального апостериорного правдоподобия — MAP estimate), система вычисляет наиболее вероятную скорость изменения для нового документа.
  • Планирование и корректировка: На основе этой оценки планируется следующее сканирование. После сканирования оценка корректируется на основе фактических наблюдений, постепенно уточняя реальную скорость изменения.

Актуальность для SEO

Высокая. Оптимизация краулингового бюджета и поддержание свежести индекса являются постоянными приоритетами для Google. Описанные методы, использующие шаблоны URL и статистическое прогнозирование для планирования сканирования, остаются фундаментальными для эффективной работы поисковых систем в масштабах интернета.

Важность для SEO

Патент имеет значительное влияние на SEO, особенно для крупных сайтов и ресурсов с часто обновляемым контентом. Он напрямую влияет на скорость индексации нового контента и скорость отражения обновлений в поиске. Понимание этого механизма критически важно для управления краулинговым бюджетом, так как он показывает, что структура URL и согласованность частоты обновлений внутри разделов сайта напрямую влияют на эффективность сканирования.

Детальный разбор

Термины и определения

Change Rate (Скорость изменения)
Частота, с которой изменяется содержимое документа. Является ключевой метрикой для прогнозирования момента следующего изменения и планирования сканирования.
Change Rate Estimator (Оценщик скорости изменения)
Модуль поисковой системы, отвечающий за расчет предполагаемой скорости изменения документа.
Change Signals (Сигналы изменения)
Любые данные, указывающие на вероятность изменения документа. Включают историю сканирования, данные от вебмастеров (логи, фиды), уровень ошибок на домене (например, 404) и т.д.
Metadata (Метаданные)
Данные, ассоциированные с документом, используемые для поиска похожих документов. Включают URL, домен, термины в URL (например, "/archive"), тип документа (PDF, HTML), категорию контента (новости, блог).
Method-of-Moments (Метод моментов)
Статистический метод, используемый для подбора (fitting) параметров Prior Distribution путем сравнения моментов распределения (среднее, дисперсия и т.д.).
Maximum A-Posteriori (MAP) estimate (Оценка максимального апостериорного правдоподобия)
Статистический метод, используемый для вычисления наиболее вероятной Change Rate документа на основе Prior Distribution и наблюдаемых данных (если они есть).
Prior Distribution (Априорное распределение)
Распределение существующих скоростей изменения группы похожих документов. Используется как базовое предположение о том, как может вести себя новый документ из этой группы.
URL Pattern (Шаблон URL)
Структура URL, используемая для иерархической группировки документов (например, "example.org/news/" схож с "example.org/news/article1").

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод оценки скорости изменения.

  1. Система получает первый документ.
  2. Извлекаются метаданные для первого документа.
  3. Система получает существующие скорости изменения (existing change rates) для вторых документов, выбранных на основе этих метаданных (т.е. похожих документов).
  4. Вычисляется предполагаемая скорость изменения (estimated change rate) для первого документа на основе скоростей изменения вторых документов.

Claim 2 (Зависимый от 1): Уточняет метод вычисления.

Вычисление предполагаемой скорости изменения включает расчет Maximum A-Posteriori (MAP) estimate с учетом априорного распределения (Prior Distribution), основанного на существующих скоростях изменения, и выбор наиболее вероятной скорости.

Claims 3 и 4 (Зависимые от 1): Описывают применение оценки.

Предполагаемая скорость изменения используется для планирования сканирования (scheduling a crawl) первого документа. После выполнения сканирования по расписанию, предполагаемая скорость изменения корректируется на основе результатов сканирования (т.е. было ли изменение).

Claims 5 и 6 (Зависимые от 1): Уточняют роль URL.

Метаданные включают URL документа. Получение существующих скоростей изменения включает идентификацию документов, имеющих шаблон URL (URL pattern), схожий с URL первого документа.

Claim 7 (Зависимый от 6): Уточняет метод обработки распределения.

Система измеряет распределение существующих скоростей изменения и подбирает параметры распределения, используя Method-of-Moments.

Claim 9 (Независимый пункт): Описывает альтернативный вариант метода, использующий более широкий набор данных.

  1. Система получает первый документ и его метаданные.
  2. Определяются вторые документы, связанные с первым на основе метаданных.
  3. Вычисляется предполагаемая скорость изменения для первого документа на основе сигналов изменения (change signals) для вторых документов (а не только их change rates).

Claim 11 (Зависимый от 9): Уточняет типы сигналов.

Change signals включают данные, полученные от вебмастера, связанного со вторыми документами (например, логи или фиды обновлений).

Где и как применяется

Изобретение напрямую связано с управлением процессом сканирования и поддержанием свежести данных.

CRAWLING – Сканирование и Сбор данных
Это основная фаза применения патента. Модуль Change Rate Estimator взаимодействует с планировщиком сканирования (Crawl Scheduling).

  • Планирование: Система использует рассчитанную estimated change rate, чтобы определить, когда следует повторно посетить документ. Это напрямую влияет на управление краулинговым бюджетом (Crawl Budget Management).
  • Обнаружение: Когда краулер обнаруживает новый документ, этот механизм активируется для определения начальной частоты сканирования.

INDEXING – Индексирование и извлечение признаков
На этом этапе система обрабатывает историю сканирования и вычисляет фактические скорости изменения для документов с достаточной историей.

  • Расчет и хранение: Система должна хранить историю изменений и рассчитывать Change Rates. Эти данные затем агрегируются по шаблонам URL для формирования Prior Distributions, которые используются на этапе CRAWLING.
  • Извлечение признаков: Извлечение метаданных (тип документа, категория контента), которые могут использоваться для оценки скорости изменения.

Входные данные:

  • Новый документ (или документ с короткой историей сканирования).
  • Метаданные документа (URL, домен, тип, категория).
  • База данных исторических Change Rates для корпуса документов, агрегированная по метаданным (например, по URL Patterns).
  • Change Signals (например, данные от вебмастеров, уровень ошибок на домене).

Выходные данные:

  • Estimated Change Rate для документа.
  • Расписание следующего сканирования документа.

На что влияет

  • Конкретные типы контента: Наибольшее влияние оказывается на контент, сгруппированный в структурированные разделы: новостные статьи, карточки товаров в e-commerce, посты в блогах, страницы аукционов.
  • Специфические запросы: Влияет на свежесть результатов по запросам, требующим актуальной информации (QDF - Query Deserves Freshness).
  • Конкретные ниши или тематики: Критично для новостных порталов, сайтов с объявлениями, форумов и любых сайтов, где скорость обновления контента высока.

Когда применяется

  • Триггеры активации: Алгоритм активируется, когда система сталкивается с документом, для которого невозможно надежно определить скорость изменения на основе его собственной истории. В патенте упоминается, что это актуально для недавно обнаруженных документов или документов с небольшим количеством сканирований (например, 1-4 сканирования).
  • Условия применения: Применяется, если система может найти достаточное количество похожих документов (на основе метаданных/URL Pattern) с известной историей изменений для формирования надежного Prior Distribution.
  • Исключения: Для документов с обширной историей сканирования (например, более шести сканирований) система может полагаться на фактическую историю изменений этого документа, а не на прогнозируемую оценку на основе похожих страниц.

Пошаговый алгоритм

Процесс оценки скорости изменения нового документа:

  1. Получение документа: Система обнаруживает новый документ в корпусе (например, во время сканирования сайта).
  2. Извлечение метаданных: Извлекаются метаданные документа, такие как полный URL, домен, термины в URL, тип документа (например, PDF) и категория контента.
  3. Идентификация похожих документов: Система ищет другие документы в индексе, которые имеют схожие метаданные. Приоритет отдается наиболее специфичному совпадению шаблона URL (например, совпадение по директории предпочтительнее совпадения только по домену).
  4. Получение априорного распределения: Система извлекает существующие скорости изменения (Change Rates) для группы похожих документов. Этот набор данных формирует Prior Distribution. В некоторых реализациях параметры этого распределения могут быть предварительно рассчитаны для шаблона URL с использованием Method-of-Moments.
  5. Учет дополнительных сигналов: Система может учитывать другие Change Signals, такие как данные от вебмастера или уровень ошибок на домене, для корректировки модели.
  6. Расчет предполагаемой скорости изменения: Вычисляется MAP estimate на основе Prior Distribution. Система выбирает наиболее вероятную скорость изменения для нового документа. В патенте упоминается формула для априорного распределения: P(λ∣t,n)∝(e−λt)n(1−e−λt)nP(λ|t,n) ∝ (e^{-\lambda t})^n (1-e^{-\lambda t})^nP(λ∣t,n)∝(e−λt)n(1−e−λt)n, где переменная 'n' регулирует силу априорного распределения.
  7. Сохранение и планирование: Рассчитанная скорость сохраняется как метаданные документа, и на ее основе планируется следующее сканирование.
  8. Итеративное уточнение: При следующем сканировании система проверяет, изменился ли документ. Этот факт фиксируется в истории сканирования. Estimated Change Rate пересчитывается с учетом новых данных. Процесс повторяется, позволяя оценке постепенно приближаться к фактической скорости изменения документа.

Какие данные и как использует

Данные на входе

Патент фокусируется на использовании метаданных и исторических данных для планирования сканирования.

  • Технические факторы:
    • URL-структура: Критически важный фактор. Используется для определения URL Patterns и поиска похожих документов на уровне домена, поддомена или директории.
    • Тип документа: (Например, PDF, HTML, JavaScript). Может использоваться как метаданные для поиска документов с похожими характеристиками изменения.
    • Код ответа: Упоминается, что высокий уровень ошибок (например, 404) на домене может быть сигналом изменения доступности других страниц на этом домене.
  • Контентные факторы:
    • Категория документа: Система может классифицировать контент (например, срочные новости, блог, аукцион, рецепт) и использовать эту категорию как метаданные для оценки скорости изменения.
    • Индикаторы архивации: Наличие терминов типа "/archive" в URL или контенте может указывать на низкую вероятность изменения.
  • Внешние сигналы (Change Signals):
    • Данные от вебмастеров: Логи, фиды или другие индикаторы от вебмастера о истории изменений документа или прогнозируемых изменениях.

Какие метрики используются и как они считаются

  • Change Rate (λ): Основная метрика, которую система пытается оценить. Представляет собой частоту изменений.
  • Prior Distribution Parameters (t, n): Параметры, описывающие априорное распределение. 't' представляет ожидаемый период между изменениями, а 'n' представляет силу уверенности (strength of the belief), основанную на количестве наблюдаемых интервалов (сканирований).
  • MAP estimate: Статистическая оценка, используемая для определения наиболее вероятной Change Rate. Рассчитывается с использованием вероятности Пуассоновского процесса (Poisson process likelihood) в дополнение к Prior Distribution.
  • Методы анализа: Method-of-Moments используется для определения формы базового распределения скоростей изменения для группы похожих документов.

Выводы

  1. Структура URL критически важна для эффективности сканирования: Google предполагает, что страницы с похожими шаблонами URL (например, в одной директории) имеют схожую частоту обновлений. Система использует эту иерархию для прогнозирования поведения новых страниц.
  2. "Наследование" частоты сканирования: Новые документы "наследуют" предполагаемую скорость изменения от своих структурных соседей. Если раздел сайта обновляется часто, новые страницы в этом разделе будут сканироваться часто с момента их обнаружения.
  3. Согласованность ускоряет обучение: Если документы в рамках одного URL Pattern действительно обновляются с одинаковой частотой, система быстрее определит оптимальный график сканирования. Несогласованность затрудняет прогнозирование.
  4. Система самокорректируется, но с задержкой: Начальная оценка может быть неточной, но система итеративно корректирует Change Rate на основе фактических наблюдений. Однако для накопления достаточной истории требуется время (упоминается до 6 сканирований). Сила априорного распределения (параметр 'n') контролируется, чтобы не мешать системе сходиться к правильной скорости изменения.
  5. Использование внешних сигналов: Система может использовать не только историю сканирования, но и другие Change Signals, включая данные от вебмастеров и анализ ошибок на сайте, для более точной оценки частоты изменений.

Практика

Best practices (это мы делаем)

  • Логичная и последовательная структура URL: Проектируйте структуру сайта так, чтобы она отражала логику контента. Это помогает Google корректно определять URL Patterns и применять правильные Prior Distributions.
  • Группировка контента по частоте обновления: Размещайте контент с одинаковой частотой обновления в общих директориях (шаблонах URL). Например, держите часто обновляемые новости в /news/, а редко обновляемые архивные материалы в /archive/.
  • Предоставление четких сигналов об изменениях: Используйте атрибут lastmod в XML Sitemaps и поддерживайте его актуальность. Это может выступать в роли Change Signal, помогая системе быстрее определить фактическую скорость изменения.
  • Мониторинг ошибок сканирования: Поддерживайте низкий уровень ошибок (404, 5xx) на сайте. Высокий уровень ошибок может негативно повлиять на оценку доступности и скорости изменения страниц на домене.
  • Оптимизация краулингового бюджета для крупных сайтов: Используйте понимание этого механизма для управления сканированием. Если нужно ускорить индексацию нового раздела, убедитесь, что он находится в структуре, которая исторически часто сканируется, или предоставьте явные сигналы о его важности.

Worst practices (это делать не надо)

  • Хаотичная структура URL: Использование неструктурированных URL или URL, не отражающих иерархию контента, затрудняет для Google поиск шаблонов и приводит к неоптимальному планированию сканирования.
  • Смешивание статического и динамического контента в одном разделе: Размещение страниц, которые никогда не меняются, рядом со страницами, которые меняются ежечасно, в рамках одного URL Pattern. Это создает "шум" в Prior Distribution и может привести к слишком частому сканированию статики или слишком редкому сканированию динамики.
  • Игнорирование скорости загрузки и доступности сервера: Если сервер медленно отвечает или часто недоступен, это нарушает график сканирования, необходимый для точного определения Change Rate, и может привести к снижению частоты сканирования.

Стратегическое значение

Этот патент подчеркивает важность технического SEO и архитектуры сайта для эффективного взаимодействия с поисковыми системами. Он демонстрирует, что Google не рассматривает страницы изолированно, а активно ищет закономерности на уровне всего сайта для оптимизации своих ресурсов. Для Senior SEO-специалистов это подтверждает необходимость стратегического подхода к структуре сайта, управлению контентом и краулинговым бюджетом, особенно при запуске новых сайтов или разделов.

Практические примеры

Сценарий: Запуск нового раздела блога на E-commerce сайте

  1. Задача: Необходимо, чтобы новые статьи блога быстро индексировались и часто проверялись на обновления.
  2. Применение патента: Система Google будет оценивать Change Rate новых статей на основе истории похожих страниц.
  3. Действия SEO-специалиста:
    • Создать четкий URL Pattern, например, /blog/new-post-slug/.
    • На начальном этапе публиковать контент регулярно (например, ежедневно), чтобы сформировать Prior Distribution для шаблона /blog/ с высокой скоростью изменения.
    • Убедиться, что в этот раздел не попадают статические страницы (например, Политика конфиденциальности).
    • Добавить раздел в Sitemap с корректным lastmod.
  4. Ожидаемый результат: Google быстро определит, что шаблон /blog/ часто обновляется, и будет присваивать новым статьям высокую Estimated Change Rate, обеспечивая их быстрое сканирование и индексацию.

Сценарий: Управление архивным контентом

  1. Задача: Снизить нагрузку на сервер от сканирования старого новостного архива, который больше не обновляется.
  2. Применение патента: Google использует историю изменений в разделе для планирования будущих сканирований.
  3. Действия SEO-специалиста:
    • Переместить архивный контент под отдельный URL Pattern, например, /archive/2020/post-slug/.
    • Полностью прекратить обновление контента в этом разделе.
  4. Ожидаемый результат: Со временем Google накопит статистику по шаблону /archive/, увидит, что контент не меняется, и сформирует Prior Distribution с очень низкой скоростью изменения. Частота сканирования этого раздела значительно снизится, экономя краулинговый бюджет.

Вопросы и ответы

Как структура URL влияет на частоту сканирования новых страниц?

Структура URL имеет решающее значение. Google предполагает, что страницы с похожими шаблонами URL (например, находящиеся в одной директории) обновляются с одинаковой частотой. Когда обнаруживается новая страница, система смотрит на историческую частоту обновления страниц с таким же шаблоном URL и использует эти данные для определения того, как часто сканировать новую страницу.

Что произойдет, если я размещу часто обновляемый контент рядом со статическим?

Это неоптимальная стратегия. Если статический и динамический контент смешаны в рамках одного шаблона URL, это создает противоречивые сигналы для Change Rate Estimator. В результате система может либо слишком часто сканировать статический контент (тратя краулинговый бюджет), либо слишком редко сканировать динамический контент (снижая свежесть индекса).

Как быстро Google узнает реальную частоту обновления страницы?

Патент предполагает, что начальная оценка основана на похожих страницах, но система итеративно уточняет ее с каждым сканированием. Упоминается, что этот метод используется для документов с короткой историей (например, 1-4 сканирования). Можно предположить, что после 6 или более сканирований система начинает больше полагаться на фактическую историю изменений самой страницы.

Использует ли Google данные из Sitemap (например, lastmod или changefreq) в этом механизме?

Да, патент упоминает возможность использования Change Signals, помимо истории сканирования. К ним относятся данные от вебмастеров. Хотя Sitemap напрямую не упоминается, актуальные данные в lastmod являются явным сигналом изменения, который система может использовать для более точной оценки Change Rate или для корректировки Prior Distribution.

Как этот патент влияет на управление краулинговым бюджетом?

Он лежит в основе управления краулинговым бюджетом. Система использует этот механизм для распределения ресурсов сканирования, отдавая приоритет контенту с высокой прогнозируемой скоростью изменения. Понимая, как формируется эта оценка, SEO-специалисты могут влиять на нее через архитектуру сайта и стратегию публикации контента.

Что такое "Method-of-Moments" и как он используется?

Это статистический метод, который Google использует для анализа исторических данных об изменениях группы похожих страниц. Он помогает определить общую форму распределения скоростей изменения (Prior Distribution) для определенного шаблона URL. Это позволяет системе делать более точные предположения о поведении новых страниц в этом шаблоне.

Влияет ли скорость загрузки страницы на этот алгоритм?

Патент напрямую не упоминает скорость загрузки как фактор для расчета Change Rate. Однако, если страница загружается медленно или недоступна, краулер не сможет выполнить сканирование по расписанию. Это нарушает сбор данных, необходимых для точной оценки скорости изменения, и может привести к общему снижению частоты сканирования сайта.

Что делать, если новый раздел сайта сканируется слишком редко?

Если новый раздел сканируется редко, это может означать, что он унаследовал низкую Estimated Change Rate от родительского шаблона URL, или система не нашла достаточно данных для формирования прогноза. Необходимо предоставить явные сигналы: регулярно обновлять контент в этом разделе, убедиться, что он доступен через Sitemap с актуальным lastmod, и, возможно, использовать инструменты Google Search Console для запроса индексации.

Могут ли ошибки 404 повлиять на частоту сканирования других страниц?

Да. В патенте упоминается, что система может использовать уровень ошибок на домене как один из Change Signals. Если система обнаруживает, что многие документы на домене недоступны (возвращают 404), это может быть интерпретировано как индикатор изменения доступности других страниц на этом домене, что может повлиять на планирование сканирования.

Применяется ли этот механизм к файлам PDF так же, как к HTML-страницам?

Да. Патент указывает, что тип документа (например, PDF) может использоваться как часть метаданных для поиска похожих документов. Если система видит, что PDF-файлы на определенном домене редко меняются, новый PDF на этом домене унаследует низкую предполагаемую скорость изменения и будет сканироваться реже.

Похожие патенты

Как Google оптимизирует краулинговый бюджет, динамически изменяя частоту сканирования на основе популярности, значимых изменений контента и ошибок сервера
Google использует систему планирования сканирования для оптимизации ресурсов. Система динамически рассчитывает интервал сканирования для каждого ресурса, учитывая его популярность (например, количество подписчиков), частоту «значимых» изменений контента (особенно в визуально важных блоках) и состояние доступности (ошибки сервера). Это позволяет чаще сканировать важный и обновляемый контент и сокращать ресурсы на неизменный или недоступный контент.
  • US8868541B2
  • 2014-10-21
  • Краулинг

  • Техническое SEO

  • Индексация

Как Google оптимизирует график повторного сканирования на основе частоты изменений и важности контента
Google использует адаптивную систему планирования повторного сканирования. Система оценивает, как часто меняется документ (Change Period) и насколько он важен (Importance Rank, например, PageRank). На основе этих данных рассчитывается оптимальная частота сканирования (Crawl Period), которая корректируется для обеспечения свежести индекса и эффективного использования ресурсов.
  • US8386459B1
  • 2013-02-26
  • Краулинг

  • Свежесть контента

  • Техническое SEO

Как Google определяет частоту и приоритет сканирования страниц на основе PageRank, частоты обновления контента и времени с последнего визита
Google использует автоматизированную систему планирования для оптимизации ресурсов сканирования. Для каждого URL рассчитываются оценки приоритета (Scores) на основе его важности (PageRank), исторической частоты изменения контента (Content Change Frequency) и времени, прошедшего с момента последнего сканирования (Age). Это определяет, будет ли страница сохранена в индексе, как часто она будет сканироваться (ежедневно, в реальном времени или редко) и нужно ли загружать ее заново.
  • US7725452B1
  • 2010-05-25
  • Краулинг

  • Индексация

  • Свежесть контента

Как Google приоритизирует сканирование, управляет краулинговым бюджетом и повторно использует контент
Google использует распределенную систему планирования для оптимизации сканирования. Приоритет URL определяется их важностью (Page Importance/PageRank) и специальными коэффициентами (Boost Factor). Система фильтрует постоянно недоступные страницы и решает, загружать ли контент заново или использовать кэшированную версию (Reuse), основываясь на истории изменений и важности страницы.
  • US8042112B1
  • 2011-10-18
  • Краулинг

  • Свежесть контента

  • Индексация

Как Google использует метаданные XML Sitemap (lastmod, changefreq, priority) для планирования и приоритизации сканирования
Патент Google, описывающий фундаментальные механизмы протокола Sitemaps. Планировщик сканирования использует метаданные, предоставленные веб-сайтами: lastmod для предотвращения сканирования неизмененного контента, changefreq для прогнозирования обновлений и priority в качестве повышающего коэффициента (boost factor) в очереди сканирования, оптимизируя краулинговый бюджет.
  • US7769742B1
  • 2010-08-03
  • Краулинг

  • Техническое SEO

  • Свежесть контента

Популярные патенты

Как Google использует тематические списки предпочтительных и нежелательных сайтов (Editorial Opinion) для корректировки ранжирования
Google может заранее определять "Темы запросов" (Query Themes) и назначать для них списки "Предпочтительных" (Favored) и "Нежелательных" (Non-Favored) источников. Если запрос пользователя соответствует теме, система корректирует ранжирование: повышает предпочтительные источники и понижает нежелательные, используя "Параметр редакторского мнения" (Editorial Opinion Parameter).
  • US7096214B1
  • 2006-08-22
  • EEAT и качество

  • Антиспам

  • SERP

Как Google индексирует контент внутри мобильных приложений для показа в результатах поиска (App Indexing)
Google использует механизм для индексации контента, который пользователи просматривают в нативных мобильных приложениях. Система получает данные о просмотренном контенте и deep links напрямую от приложения на устройстве. Эта информация сохраняется в индексе (персональном или публичном) и используется для генерации результатов поиска, позволяя пользователям переходить к контенту внутри приложений напрямую из поисковой выдачи.
  • US10120949B2
  • 2018-11-06
  • Индексация

  • SERP

  • Персонализация

Как Google использует историю запросов в текущей сессии и статистические паттерны для переранжирования результатов
Google анализирует миллионы прошлых поисковых сессий, выявляя статистически значимые последовательности запросов («Пути Запросов»), которые заканчиваются кликом на определенный URL («Конечная Точка Контента»). Когда текущая сессия пользователя совпадает с историческим путем, Google переранжирует результаты, повышая те URL, которые исторически удовлетворяли пользователей в аналогичном контексте, пропорционально вероятности их выбора.
  • US7610282B1
  • 2009-10-27
  • Поведенческие сигналы

  • SERP

  • Семантика и интент

Как Google динамически формирует Панели Знаний, выбирая блоки информации на основе истории поисковых запросов пользователей
Google использует гибридный подход для создания структурированных страниц о сущностях (например, Панелей Знаний). Система анализирует исторические данные о том, что пользователи чаще всего ищут об этой сущности или её классе. На основе этого анализа динамически выбираются блоки информации (например, «Награды», «Саундтрек»), которые дополняют стандартный набор данных, позволяя автоматически адаптировать выдачу под актуальные интересы аудитории.
  • US10110701B2
  • 2018-10-23
  • Knowledge Graph

  • Поведенческие сигналы

  • Персонализация

Как Google персонализирует поисковую выдачу, анализируя историю кликов и поведение пользователя на сайте
Google использует механизм для персонализации поисковой выдачи на основе истории взаимодействия пользователя с результатами поиска. Система отслеживает, какие сайты пользователь выбирает, как долго он на них остается (Dwell Time), частоту и контекст выбора. Основываясь на этих данных, предпочитаемые пользователем ресурсы повышаются в ранжировании при его последующих запросах.
  • US9037581B1
  • 2015-05-19
  • Персонализация

  • Поведенческие сигналы

  • SERP

Как Google использует «Локальный авторитет» для переранжирования документов на основе их взаимосвязей внутри конкретной выдачи
Google может улучшить ранжирование, анализируя структуру ссылок внутри начального набора результатов поиска. Документы, на которые часто ссылаются другие высокорелевантные документы по этому же запросу («локальные эксперты»), получают повышение. Этот процесс включает строгие фильтры для обеспечения независимости этих ссылок-голосов.
  • US6526440B1
  • 2003-02-25
  • Ссылки

  • Антиспам

  • SERP

Как Google использует историю физических перемещений пользователя для фильтрации и персонализации результатов поиска
Google может собирать и хранить историю физических перемещений пользователя (Location History). Патент описывает интерфейс, позволяющий пользователю осознанно включать свои прошлые местоположения (например, «места, где я был на прошлой неделе») в качестве фильтра для нового поискового запроса, чтобы сделать результаты более релевантными личному опыту.
  • US8874594B2
  • 2014-10-28
  • Персонализация

  • Поведенческие сигналы

  • Local SEO

Как Google в Autocomplete динамически выбирает между показом общих категорий и конкретных подсказок в зависимости от «завершенности запроса»
Google анализирует «меру завершенности запроса» (Measure of Query Completeness) по мере ввода текста пользователем. Если намерение неясно и существует много вариантов продолжения (низкая завершенность, высокая энтропия), система предлагает общие категории (например, «Регионы», «Бизнесы»). Если намерение становится ясным (высокая завершенность, низкая энтропия), система переключается на конкретные подсказки или сущности.
  • US9275147B2
  • 2016-03-01
  • Семантика и интент

  • Поведенческие сигналы

  • Персонализация

Как Google использует историю местоположений для определения физической активности пользователя и гиперперсонализации поиска
Google анализирует историю перемещений пользователя (местоположения и скорость), чтобы определить его текущую физическую активность (например, поход, шоппинг) и способ передвижения (например, пешком, на автобусе). Эта информация используется для радикальной персонализации: система корректирует ранжирование результатов, изменяет запросы и формирует подсказки, чтобы они соответствовали контексту реальных действий пользователя.
  • US20150006290A1
  • 2015-01-01
  • Поведенческие сигналы

  • Персонализация

  • Local SEO

Как Google динамически переоценивает значимость факторов ранжирования, основываясь на их надежности в контексте конкретной выдачи
Google использует механизм для повышения качества ранжирования путем анализа надежности (Trustworthiness) различных факторов, влияющих на позицию документа. Если система обнаруживает значительную разницу в надежности сигналов среди результатов поиска, она снижает влияние менее достоверных факторов. Это гарантирует, что документы, получившие высокие оценки за счет ненадежных или легко манипулируемых сигналов, не будут ранжироваться выше документов с более достоверными показателями качества и релевантности.
  • US9623119B1
  • 2017-04-18
  • EEAT и качество

  • Поведенческие сигналы

  • SERP

seohardcore