Анализ патента Google, описывающего систему оценки качества документов на основе исторических данных. Система анализирует, как контент, ссылки и поведение пользователей меняются с течением времени. Патент описывает механизмы определения свежести контента, выявления спама через анализ скорости роста ссылок и оценки авторитетности домена. Особое внимание уделяется тому, как система учится на предпочтениях пользователей, повышая в ранжировании документы, которые пользователи выбирают чаще, даже если эти документы старше или изначально ранжировались ниже.
Описание
Какую задачу решает
Патент направлен на улучшение качества результатов поиска. Он решает проблему, когда стандартные алгоритмы ранжирования могут некорректно оценивать «устаревшие» (stale) документы по сравнению со «свежими» (fresher), не учитывая реальные предпочтения пользователей. Также патент описывает методы борьбы со спам-техниками, направленными на искусственное завышение ранга, путем анализа исторических данных и выявления неестественных паттернов в развитии документа.
Что запатентовано
Запатентована система и метод генерации поисковых результатов на основе исторических данных (history data), связанных с документами. Изобретение охватывает сбор и анализ широкого спектра временных факторов: даты создания документа, частоты и объема обновлений контента, динамики появления и исчезновения ссылок, изменения анкорного текста, а также анализа запросов и поведения пользователей (частота выбора документа и время, проведенное на нем). Эти данные используются для генерации или изменения оценки (score) документа.
Как это работает
Система собирает исторические данные через компонент History Component и использует их в компоненте Ranking Component для оценки документов. Ключевые механизмы включают:
- Анализ поведения пользователей: Система определяет, насколько часто документ выбирается из результатов поиска с течением времени. Особо отмечается механизм, когда пользователи предпочитают более старый и ниже ранжируемый документ более новому и выше ранжируемому (Claim 1).
- Анализ времени взаимодействия: Измеряется время, которое пользователи проводят на документе (Dwell Time). Снижение этого времени может указывать на устаревание контента.
- Анализ обновлений контента: Оценивается частота (Update Frequency Score — UF) и объем (Update Amount Score — UA) изменений контента.
- Анализ динамики ссылок: Отслеживается скорость появления новых ссылок и исчезновения старых. Резкие всплески (spikes) могут сигнализировать о спаме или актуальной теме.
- Нормализация по возрасту: Оценка ссылок может корректироваться с учетом даты создания документа (inception date).
Актуальность для SEO
Критически высокая. Патент описывает фундаментальные концепции, которые лежат в основе современных систем ранжирования, такие как анализ свежести (Freshness/QDF), поведенческие факторы (выбор пользователя, Dwell Time) и сложные методы обнаружения ссылочного спама на основе анализа трендов. Учитывая изобретателей (Jeffrey Dean, Paul Haahr, Monika Henzinger и др.), эти концепции, несомненно, интегрированы в ядро поиска Google.
Важность для SEO
Патент имеет критическое значение (95/100) для понимания SEO-стратегии. Он демонстрирует, что Google анализирует не только статическое состояние сайта, но и его развитие во времени. Понимание того, как Google интерпретирует свежесть контента, скорость роста ссылок и, что особенно важно, поведение пользователей (клики и время на сайте), является ключом к построению эффективной долгосрочной стратегии продвижения. Игнорирование этих динамических факторов может привести к потере позиций из-за классификации контента как устаревшего или сайта как спамного.
Детальный разбор
Термины и определения
- Anchor Text (Анкорный текст)
- Текст, в который встроена гиперссылка. Патент рассматривает изменение анкорного текста с течением времени как сигнал обновления или смены фокуса документа.
- Dwell Time (Время взаимодействия)
- (Термин не используется в патенте, но описывается концепция). Количество времени, которое один или несколько пользователей тратят на доступ к документу после выбора его из результатов поиска.
- Fresh document (Свежий документ)
- Документ, который был недавно создан или обновлен. Характеризуется, например, ростом числа новых ссылок или недавними изменениями контента.
- History Data (Исторические данные)
- Данные, связанные с документом, которые собираются с течением времени. Включают дату создания, обновления контента, анализ запросов, ссылочные критерии, анкорный текст, трафик, поведение пользователей и т.д.
- Inception Date (Дата создания/обнаружения)
- Дата, когда поисковая система впервые узнала о документе, проиндексировала его или обнаружила первую ссылку на него. Используется для нормализации других метрик.
- Stale document (Устаревший документ)
- Документ, который не обновлялся в течение определенного времени и может содержать устаревшие данные. Может характеризоваться снижением трафика или уменьшением количества новых ссылок.
- Update Amount Score (UA) (Оценка объема обновления)
- Метрика, представляющая, насколько сильно изменился контент документа с течением времени.
- Update Frequency Score (UF) (Оценка частоты обновления)
- Метрика, представляющая, как часто обновляется документ.
Ключевые утверждения (Анализ Claims)
Данный патент (AU2007200526B2) является дивизионным (разделенным) патентом. Хотя его Описание (Description) охватывает широкий спектр исторических факторов, его Claims (Формула изобретения) сфокусированы узко на использовании поведения пользователей для корректировки ранжирования, особенно в контексте свежести.
Claim 1 (Независимый пункт): Описывает метод генерации результатов поиска.
- Идентификация документа.
- Определение степени, в которой этот идентифицированный документ выбирается пользователями с течением времени по сравнению с другим документом, который (а) ранжируется выше и (б) является более новым (more recent).
- Генерация оценки (score) для идентифицированного документа на основе этого определения.
- Ранжирование идентифицированного документа в списке результатов поиска на основе этой оценки.
Система активно изучает предпочтения пользователей в контексте свежести. Если пользователи систематически игнорируют более новый, высоко ранжируемый результат и выбирают более старый, ниже ранжируемый документ, система использует это как сигнал для повышения оценки старого документа. Это механизм обратной связи, позволяющий корректировать алгоритмы свежести на основе реального поведения.
Claims 2-3 (Зависимые): Уточняют, что определение степени выбора может основываться на поведении как одного пользователя, так и агрегированном поведении множества пользователей.
Claims 4-5 (Зависимые): Детализируют анализ трендов выбора.
- Определение первой скорости выбора документа в первый период времени.
- Определение второй скорости выбора во второй период времени.
- Сравнение скоростей для определения увеличения или уменьшения скорости выбора.
- Генерация оценки на основе этого тренда (увеличение/уменьшение).
Система не просто смотрит на текущий CTR, но анализирует динамику. Рост популярности документа (увеличение скорости выбора) является позитивным сигналом для ранжирования.
Claims 6-9 (Зависимые): Вводят фактор времени, проведенного на документе (Dwell Time).
- Определение количества времени, которое пользователи тратят на доступ к документу после выбора.
- Использование этого времени при генерации оценки.
- Анализ трендов: сравнение времени доступа в первый и второй периоды для выявления увеличения или уменьшения среднего времени.
- Генерация оценки на основе этого тренда.
Если среднее время, которое пользователи проводят на странице, уменьшается, это может сигнализировать о том, что информация устарела или стала менее релевантной (например, устаревшее расписание). Система использует этот тренд для корректировки оценки.
Где и как применяется
Изобретение затрагивает практически все этапы работы поисковой системы, так как основано на сборе и анализе исторических данных.
CRAWLING и INDEXING (Сканирование и Индексирование)
На этих этапах происходит сбор первичных исторических данных. Система фиксирует Inception Date, сохраняет версии документа (или их сигнатуры/хэши) для последующего анализа изменений контента (UF, UA), фиксирует появление/исчезновение ссылок и изменения анкорного текста. Также происходит извлечение тем документа (Document Topics).
QUNDERSTANDING (Понимание Запросов)
Анализ исторических данных о запросах (Query Analysis). Система отслеживает частоту появления определенных терминов в запросах с течением времени для выявления «горячих» тем (hot topics) или срочных новостей.
RANKING и RERANKING (Ранжирование и Переранжирование)
Основное применение патента. Компонент Ranking Component использует данные, собранные History Component, для генерации или модификации Ranking Score.
- Расчет динамических оценок: Используются метрики, основанные на скорости изменений (скорость роста ссылок, скорость обновления контента).
- Применение поведенческих трендов: Данные о поведении пользователей (скорость выбора, время на документе), собранные при взаимодействии с SERP, обрабатываются и используются для корректировки ранжирования. Система может повысить старый документ, если пользователи предпочитают его новому (Claim 1).
- Детекция спама: Анализ исторических паттернов (резкие скачки в ранжировании, неестественный рост ссылок или анкоров) используется для идентификации и понижения спамных документов.
Входные данные:
- Временные метки (даты создания, обновления, появления ссылок).
- Различные версии контента документа и анкорного текста.
- Логи взаимодействия пользователей с SERP (клики, время доступа).
- Данные о домене (DNS, регистрация).
Выходные данные:
- Оценка документа (Score), скорректированная с учетом исторических данных.
- Флаги спама или устаревания (Staleness).
На что влияет
- Конкретные типы контента: Влияет на все типы контента. Особенно сильно влияет на контент, где важна актуальность (новости, расписания, FAQ), но также и на «вечнозеленый» контент, где авторитетность и стабильный интерес пользователей важнее новизны.
- Специфические запросы: Влияет как на запросы, требующие свежести (QDF), так и на запросы, где результаты меняются со временем (например, «чемпион мира»).
- Конкретные ниши или тематики: Сильное влияние в конкурентных коммерческих нишах, где часто встречаются попытки спама (анализ доменов, истории ранжирования, ссылочного профиля).
Когда применяется
- Триггеры активации: Сбор данных происходит постоянно. Применение в ранжировании происходит при каждом запросе, используя предварительно рассчитанные исторические метрики.
- Обнаружение аномалий: Механизмы активируются при обнаружении значительных изменений: резкий рост числа ссылок, значительное изменение контента или тем документа, изменение паттернов поведения пользователей (например, резкое снижение времени на сайте).
- Исключения: Патент упоминает возможность делать исключения для авторитетных документов (например, правительственных сайтов, веб-директорий), позволяя им быстрее расти в ранге при всплеске ссылок, не считая это спамом.
Пошаговый алгоритм
Патент описывает множество алгоритмов для разных типов исторических данных. Рассмотрим алгоритм, основанный на поведении пользователей (Claims 1-9).
- Сбор данных (Непрерывный процесс): Система отслеживает взаимодействие пользователей с результатами поиска. Для каждого документа фиксируется:
- Частота выбора (Selection Rate) в разные периоды времени.
- Время, проведенное пользователем на документе (Dwell Time) в разные периоды времени.
- Контекст выбора (запрос, позиция документа, характеристики других документов в выдаче).
- Анализ трендов выбора:
- Сравнение скорости выбора документа в текущий период (T2) с предыдущим периодом (T1).
- Определение тренда: увеличение, уменьшение или стабильность.
- Анализ трендов времени взаимодействия:
- Сравнение среднего времени доступа к документу в период T2 с периодом T1.
- Определение тренда: увеличение, уменьшение или стабильность.
- Анализ предпочтений (Staleness vs Freshness):
- Идентификация ситуаций, когда пользователь выбирает Документ А (старый, ранг ниже) вместо Документа Б (новый, ранг выше).
- Определение степени (частоты) такого предпочтения с течением времени.
- Генерация оценки (Scoring):
- Генерация оценки на основе выявленных трендов. Позитивные тренды (рост выбора, рост времени взаимодействия) увеличивают оценку.
- Корректировка оценки Документа А, если он систематически предпочитается Документу Б.
- Применение в ранжировании: Использование сгенерированной оценки для определения позиции документа в списке результатов поиска.
Какие данные и как использует
Патент описывает использование широкого спектра исторических данных.
Данные на входе
- Контентные факторы: Текст документа, заголовки (Title), видимый контент. Система анализирует изменения в этих элементах, игнорируя неважные части (Javascript, комментарии, реклама, навигация).
- Технические факторы: Данные регистрации домена (дата окончания регистрации), записи DNS, информация о неймсерверах (Name Servers), IP-адреса, временные метки сервера.
- Ссылочные факторы: Входящие (back links) и исходящие (forward links) ссылки. Анкорный текст. Даты появления и исчезновения ссылок. Характеристики ссылающихся документов (авторитетность, доверие, свежесть).
- Поведенческие факторы: Клики (выбор документа из SERP), время, проведенное на документе (Dwell Time). Данные, поддерживаемые пользователем (закладки, избранное). Трафик на документ.
- Временные факторы: Дата создания/обнаружения документа (Inception Date). Даты обновлений контента. Возраст ссылок.
- Структурные факторы: Извлечение тем документа (Topic Extraction).
Какие метрики используются и как они считаются
- History-adjusted link score (H): Оценка ссылок, скорректированная по времени. Упоминается формула: H=L/log(F+2), где L – оценка ссылок, F – время, прошедшее с даты создания.
- Content Update Score (U): Оценка обновления контента. U=f(UF, UA), где UF – частота обновлений, UA – объем обновлений.
- Скорость роста ссылок (Link Velocity): Количество новых ссылок за период времени или скорость изменения этого количества (тренд).
- Свежесть ссылки (Link Freshness): Определяется датой появления/изменения ссылки, анкора или документа, содержащего ссылку.
- Распределение возраста ссылок (Age Distribution): Функция, определяющая распределение дат создания ссылок на документ.
- Тренды поведения пользователей: Изменение скорости выбора документа и среднего времени доступа к нему между двумя периодами времени.
- Мера предпочтения устаревшего контента: Степень, в которой старый документ выбирается чаще нового, более высоко ранжируемого.
- Энтропия запросов (Entropy of queries): Метрика, оценивающая разнообразие запросов, по которым документ появляется в результатах.
Выводы
- Ранжирование — это динамический процесс: Патент подчеркивает переход от статического анализа к оценке документов во времени. Google интересует не только текущее состояние сайта, но и история его развития: как менялся контент, как росли ссылки, как менялся интерес пользователей.
- Поведение пользователей корректирует алгоритмы: Claims 1-5 показывают конкретный механизм обратной связи. Если алгоритмы предпочитают свежий контент, но пользователи систематически выбирают более старый результат, система скорректирует ранжирование в пользу старого документа. Система учится тому, что предпочитают пользователи для конкретного запроса.
- Dwell Time как критический сигнал качества и актуальности: Claims 6-9 фокусируются на времени взаимодействия. Снижение среднего времени, которое пользователи проводят на странице, интерпретируется как сигнал устаревания или потери релевантности.
- Комплексный подход к свежести: Свежесть оценивается не только по дате публикации. Она включает частоту и объем обновлений контента (UF, UA), а также динамику ссылочного профиля (появление новых ссылок с «живых» сайтов).
- Продвинутые методы обнаружения спама: Патент детально описывает, как анализ исторических данных используется для выявления искусственных манипуляций:
- Резкие всплески (spikes) в количестве ссылок или изменениях анкорного текста.
- Анализ связей между независимыми пирами (Linkage of Independent Peers).
- Использование гистерезиса или порогов максимального роста ранга для предотвращения быстрого продвижения спама.
- Важность легитимности домена: Исторические данные о домене (длительность регистрации, стабильность DNS) используются как сигналы доверия и для отличия легитимных сайтов от временных (doorway domains).
Практика
Best practices (это мы делаем)
- Фокус на удовлетворении интента и удержании пользователя: Это критически важно. Необходимо создавать контент, который полностью отвечает на запрос пользователя и стимулирует его провести на странице достаточно времени. Работайте над улучшением Dwell Time и снижением показателей отказов (pogo-sticking), так как тренды вовлеченности напрямую влияют на ранжирование (Claims 6-9).
- Стратегическое обновление контента: Регулярно и значительно обновляйте важный контент. Система оценивает как частоту (UF), так и объем (UA) изменений, игнорируя незначительные правки. Увеличение скорости изменений (acceleration trend) может положительно сказаться на оценке.
- Поддержание актуальности «Вечнозеленого» контента: Даже для контента, который не устаревает быстро, необходимо поддерживать положительные поведенческие тренды. Если интерес пользователей (выбор в SERP) к старому авторитетному контенту остается высоким, система будет поддерживать его ранжирование, даже если появляются более свежие материалы (Claim 1).
- Естественное и последовательное наращивание ссылок: Сосредоточьтесь на получении ссылок с авторитетных и регулярно обновляемых (свежих) ресурсов. Последовательный рост ссылочного профиля предпочтительнее резких скачков.
- Мониторинг и обновление анкорного текста: Убедитесь, что анкорный текст входящих ссылок соответствует текущему фокусу страницы. Значительные расхождения между контентом и историческим анкорным текстом могут привести к проблемам с релевантностью.
- Долгосрочная регистрация домена: Для важных проектов регистрируйте и продлевайте домен на максимальный срок (например, 10 лет). Это используется как сигнал легитимности домена.
Worst practices (это делать не надо)
- Искусственное наращивание ссылок (Link Schemes): Покупка большого количества ссылок за короткий период, обмен ссылками или получение ссылок с сайтов без редакционного контроля (guest books, «free for all» pages). Резкие всплески (spikes) в количестве ссылок и неестественные паттерны анкорного текста используются для обнаружения спама.
- Использование временных доменов (Doorway Domains): Создание сайтов на доменах с коротким сроком регистрации и частой сменой хостинга/NS-серверов для быстрого получения трафика. Система использует эти сигналы для идентификации нелегитимных доменов.
- Имитация обновления контента: Незначительные изменения контента, изменение дат публикации без реального обновления материала. Система умеет отличать существенные обновления (UA) от изменений в шаблонах, датах или рекламе.
- Игнорирование снижения вовлеченности: Допускать снижение CTR из выдачи или уменьшение времени, проводимого пользователями на сайте. Это прямые сигналы устаревания контента для системы.
- Резкая смена тематики домена: Покупка старых доменов и полное изменение их тематики. Система может обнаружить значительное изменение тем (Document Topics) и анкорного текста, что приведет к игнорированию или дисконтированию исторических сигналов (ссылок, оценок).
Стратегическое значение
Этот патент подтверждает стратегическую важность анализа данных во времени и критическую роль поведенческих факторов в ранжировании. Он демонстрирует, что Google обладает сложными механизмами для оценки свежести, качества и легитимности сайтов на основе их истории. Долгосрочная SEO-стратегия должна фокусироваться на стабильном развитии ресурса, построении доверия как на уровне домена, так и через поведение пользователей, и избегании любых действий, которые могут быть интерпретированы как неестественные или манипулятивные паттерны роста.
Практические примеры
Сценарий 1: Повышение авторитетной статьи (Claim 1)
- Ситуация: По запросу «принципы работы TCP/IP» в ТОП-1 находится свежая, но поверхностная статья (Документ Б), а на позиции 5 — старая, но глубокая и авторитетная статья (Документ А).
- Действие пользователя: Пользователи часто прокручивают выдачу, игнорируют Документ Б и кликают на Документ А.
- Реакция системы: Система определяет, что Документ А (старый, ранг ниже) выбирается чаще, чем Документ Б (новый, ранг выше).
- Результат: Система генерирует повышенную оценку для Документа А и повышает его в ранжировании, признавая его большую ценность для пользователей, несмотря на возраст.
Сценарий 2: Пессимизация устаревшего расписания (Claims 6-9)
- Ситуация: Документ с расписанием автобусов хорошо ранжируется. Пользователи ранее проводили на нем в среднем 45 секунд (Период T1).
- Изменение: Расписание изменилось, но владелец сайта его не обновил.
- Действие пользователя: Пользователи заходят на страницу, видят неверные данные и быстро уходят. Среднее время на сайте упало до 5 секунд (Период T2).
- Реакция системы: Система обнаруживает значительное уменьшение времени доступа к документу при сравнении T2 и T1.
- Результат: Система интерпретирует это как признак устаревания (staleness) и понижает оценку документа.
Вопросы и ответы
Как Google определяет дату создания документа (Inception Date)?
Патент предлагает несколько методов: дата первого индексирования документа поисковой системой, дата обнаружения первой ссылки на документ, дата регистрации домена, или дата первого упоминания документа в других источниках (например, новостях или форумах). Система может использовать комбинацию этих методов.
Всегда ли более свежий контент ранжируется выше?
Нет. Патент описывает сложный подход. Для некоторых запросов свежесть критична (новости, FAQ). Однако, если пользователи систематически предпочитают более старый документ новому, который ранжируется выше (Claim 1), система научится этому и повысит старый документ. Качество и релевантность, подтвержденные поведением пользователей, могут перевесить фактор новизны.
Как Google измеряет обновление контента? Достаточно ли изменить дату публикации?
Недостаточно. Система оценивает как частоту (Update Frequency — UF), так и объем (Update Amount — UA) изменений. При расчете UA система может игнорировать изменения в неважных частях документа (шаблон, навигация, реклама, даты) и фокусироваться на основном контенте. Важны существенные обновления.
Что такое Dwell Time и как он используется?
Хотя термин «Dwell Time» не используется, патент описывает измерение «количества времени, которое пользователи тратят на доступ к документу» (Claims 6-9). Система отслеживает тренды: если среднее время взаимодействия снижается, это интерпретируется как сигнал устаревания или потери релевантности, что ведет к понижению оценки документа.
Как патент предлагает бороться со ссылочным спамом?
Патент предлагает анализировать временные характеристики ссылок. Резкий всплеск (spike) количества входящих ссылок может сигнализировать о покупке ссылок или других манипуляциях. Также анализируется профиль роста анкорного текста: неестественно согласованный (много одинаковых анкоров) или неестественно разрозненный рост может указывать на синтетически сгенерированный граф ссылок.
Влияет ли скорость получения ссылок (Link Velocity) на ранжирование?
Да, очень сильно. Система отслеживает скорость появления новых ссылок. Быстрый рост может быть положительным сигналом для нового сайта (по сравнению с медленным ростом старого), но также может быть индикатором спама. Снижение скорости появления новых ссылок может указывать на то, что документ устарел (stale).
Имеет ли значение срок регистрации домена?
Да. Патент утверждает, что ценные (легитимные) домены часто оплачиваются на несколько лет вперед, в то время как временные (doorway/illegitimate) домены редко используются более года. Дата истечения срока действия домена используется как фактор прогнозирования легитимности домена и связанных с ним документов.
Что произойдет, если я куплю старый домен и полностью сменю его тематику?
Патент описывает механизмы для обнаружения этого. Система мониторит темы документа (Document Topics) и анкорный текст с течением времени. Значительное изменение тем или расхождение нового контента со старым анкорным текстом может указывать на смену владельца. В этом случае предыдущие индикаторы (оценки, ссылки, анкорный текст) могут быть проигнорированы или дисконтированы.
Может ли мой сайт быть пессимизирован за слишком быстрый рост в результатах поиска?
Да. Патент предлагает использовать гистерезис или устанавливать максимальный порог роста ранга за определенный период времени для предотвращения быстрого продвижения спама. Исключения могут делаться для авторитетных сайтов (например, правительственных) или сайтов, которые стабильно высоко ранжировались в течение долгого времени.
Влияет ли история трафика на ранжирование?
Да. Система может отслеживать временные характеристики трафика на документ. Значительное сокращение трафика может указывать на то, что документ устарел или был заменен другим. Также система может идентифицировать повторяющиеся паттерны трафика (сезонность) и соответствующим образом корректировать оценку.