Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Google

    Как Google использует агрегированную релевантность связанных документов (сайта или автора) для переранжирования отдельных страниц

    RANKING OF DOCUMENTS BASED ON ANALYSIS OF RELATED DOCUMENTS (Ранжирование документов на основе анализа связанных документов)
    • US8548995B1
    • Google LLC
    • 2013-10-01
    • 2003-09-10
    2003 EEAT и качество Патенты Google Семантика и интент Ссылки

    Google анализирует набор документов, связанных с целевой страницей (например, другие страницы того же сайта или статьи того же автора). Система вычисляет агрегированную оценку для этого набора, отражающую общую тематическую релевантность или авторитетность источника. Эта оценка затем используется для модификации (повышения) ранжирования отдельной целевой страницы.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает задачу повышения точности ранжирования путем выхода за рамки анализа отдельного документа. Он предлагает механизм для учета контекста источника документа — например, веб-сайта, автора или издателя. Это позволяет общей релевантности, качеству или авторитетности группы связанных документов влиять на ранжирование отдельного документа из этой группы, способствуя продвижению контента из авторитетных источников.

    Что запатентовано

    Запатентована система и метод для модификации исходного ранжирования документа путем анализа набора связанных с ним документов (Related Set). Система вычисляет агрегированную оценку (Related Set Score), которая показывает, насколько весь связанный набор релевантен критерию ранжирования (например, запросу). Эта агрегированная оценка комбинируется с исходной оценкой документа для получения финального результата.

    Как это работает

    Ключевой механизм работает следующим образом:

    • Идентификация связей: Для ранжируемого документа (d) определяется набор связанных документов (Related Set D) на основе критерия схожести (Similarity Criterion) — например, тот же сайт или тот же автор.
    • Агрегация и оценка: Система оценивает релевантность всего набора D. Ключевой метод (защищенный в Claim 1) — это создание Pseudo-document путем объединения (конкатенации) всех документов в D и его последующая оценка по критерию ранжирования.
    • Вычисление Related Set Score: Результатом оценки агрегированного набора является Related Set Score.
    • Модификация ранжирования: Исходная оценка документа d модифицируется путем комбинирования с Related Set Score (например, с помощью взвешенной суммы) для получения финальной оценки.

    Актуальность для SEO

    Высокая. Несмотря на дату подачи (2003 год), описанные концепции являются фундаментальными для современного поиска. Этот патент описывает базовый механизм для вычислительной оценки Тематической Авторитетности (Topical Authority) сайта и Экспертности Автора (Author Expertise), что является ядром принципов E-E-A-T. Принцип использования групповых характеристик для оценки отдельных элементов остается крайне актуальным.

    Важность для SEO

    Патент имеет критическое стратегическое значение (90/100). Он предоставляет алгоритмическую основу того, как авторитетность на уровне сайта и автора влияет на ранжирование отдельных страниц. Он подтверждает, что страница не ранжируется изолированно, а в контексте связанного с ней корпуса контента. Это подчеркивает стратегическую важность построения авторитетных тематических ресурсов.

    Детальный разбор

    Термины и определения

    Document (d) (Документ)
    Отдельный элемент (веб-страница, новостная статья, пост), подвергающийся ранжированию.
    Initial Ranking Score (Исходная оценка ранжирования)
    Оценка, присвоенная документу d стандартными алгоритмами до применения данного механизма. В патенте также first relevance score.
    Inverse Document Frequency (IDF)
    Метрика, используемая в альтернативных реализациях для идентификации «сильных терминов» (strong terms) в Related Set D. Термины, редкие в общем корпусе, но частые в наборе D, имеют высокий IDF.
    Pseudo-document (Псевдодокумент)
    Виртуальный документ, созданный путем объединения (конкатенации) всех документов в Related Set D. Используется для расчета агрегированной релевантности набора.
    Related Set D (Связанный набор)
    Коллекция документов, идентифицированных как связанные с документом d на основе Similarity Criterion.
    Related Set Score (Оценка связанного набора)
    Агрегированная оценка, рассчитанная путем применения Scoring Criterion к Related Set D (чаще всего через Pseudo-document). В патенте также second relevance score.
    Scoring Criterion (Критерий оценки)
    Основа для оценки релевантности. Может быть поисковым запросом, темой, географическим регионом.
    Similarity Criterion (Критерий схожести)
    Правило, используемое для определения Related Set D (например, тот же автор, тот же веб-сайт, тот же издатель, тот же раздел).

    Ключевые утверждения (Анализ Claims)

    Claim 1 (Независимый пункт): Описывает основной защищенный метод ранжирования.

    1. Идентификация первого документа и определение первой оценки релевантности (Initial Ranking Score) путем сравнения Scoring Criterion с документом.
    2. Идентификация набора связанных документов (Related Set D). Уточняется, что связь основана на принадлежности к одному и тому же веб-сайту (associated with a same web site).
    3. Расчет второй оценки релевантности (Related Set Score). Метод расчета включает:
      • Конкатенацию (объединение) документов из Related Set D в единый Pseudo-document.
      • Применение Scoring Criterion к этому Pseudo-document.
    4. Расчет финальной оценки релевантности как взвешенной суммы (weighted sum) первой и второй оценок.
    5. Передача ранжированного списка, где документ позиционируется на основе финальной оценки.

    Ядром изобретения является конкретный метод, при котором агрегированная релевантность веб-сайта измеряется путем рассмотрения всего сайта как одного большого документа (Pseudo-document). Если этот агрегированный документ релевантен критерию оценки (запросу), генерируется высокая вторая оценка, которая затем повышает оценку отдельной страницы.

    Claims 3, 4, 6 (Зависимые пункты): Расширяют определение критериев схожести, которые могут использоваться для формирования Related Set D:

    • Claim 3: Схожесть авторства (similarity in authorship).
    • Claim 4: Схожесть источника публикации (similarity in publication source).
    • Claim 6: Включение в один и тот же раздел публикации (same section of a publication).

    Где и как применяется

    Изобретение применяется на финальных этапах ранжирования для корректировки оценок релевантности.

    INDEXING – Индексирование и извлечение признаков
    На этом этапе система должна извлечь и сохранить данные, необходимые для определения Similarity Criterion. Это включает структуру сайта (хосты, домены), информацию об авторстве и данные об издателе. Related Sets могут быть предварительно рассчитаны или генерироваться во время запроса.

    RANKING – Ранжирование
    На этапе L2 или L3 рассчитываются Initial Ranking Scores для документов на основе Scoring Criterion (например, запроса).

    RERANKING – Переранжирование
    Основное применение патента. Система извлекает или генерирует Related Set D для документа. Затем она вычисляет Related Set Score и использует его для модификации Initial Ranking Score. Это механизм, применяющий контекстуальные и авторитетные сигналы.

    Входные данные:

    • Целевой документ (d) и его Initial Ranking Score.
    • Scoring Criterion (например, поисковый запрос).
    • Данные для определения Related Set D (связи между документами).

    Выходные данные:

    • Модифицированная (финальная) оценка ранжирования для документа d.

    На что влияет

    • Конкретные типы контента: Патент явно упоминает применение к новостным статьям, сообщениям Usenet и общему веб-поиску. Механизм эффективен для контента, где авторитетность источника или автора имеет значение.
    • Конкретные ниши или тематики: Оказывает сильное влияние в YMYL-тематиках и профессиональных областях. Этот механизм является технической реализацией Topical Authority, позволяя сайтам, глубоко прорабатывающим тему, получать преимущество.

    Когда применяется

    • Условия работы: Алгоритм применяется в процессе ранжирования или переранжирования для документов, у которых может быть идентифицирован значимый Related Set D.
    • Вариативность применения: Патент упоминает, что этот метод может использоваться как для модификации существующих рейтингов, так и для создания ранжирования «с нуля», если начальные оценки у всех документов одинаковы (т.е. дифференциация только за счет Related Set Score).

    Пошаговый алгоритм

    Процесс работы системы для корректировки ранжирования документа (d).

    1. Генерация начального набора: Система определяет набор релевантных документов и присваивает им Initial Ranking Scores на основе Scoring Criterion.
    2. Идентификация связанного набора (D): Для документа (d) определяется Related Set D с использованием Similarity Criterion (например, тот же автор, тот же сайт).
    3. Расчет Related Set Score (Основной метод — Псевдодокумент):
      1. Документы в наборе D объединяются (конкатенируются) в единый Pseudo-document.
      2. Scoring Criterion применяется к Pseudo-document для получения Related Set Score.
    4. Расчет Related Set Score (Альтернативный метод — Агрегация):
      1. Scoring Criterion применяется к каждому документу в наборе D индивидуально.
      2. Индивидуальные оценки комбинируются (например, усредняются, суммируются) для получения Related Set Score.
    5. Взвешивание (Опционально): Внутри набора D более новые документы могут получить больший вес, а дубликаты могут быть дисконтированы.
    6. Модификация начальной оценки: Initial Ranking Score и Related Set Score комбинируются. Патент предлагает две формулы:
      • Взвешенная сумма (Claim 1): α(Initial_Score) + β(Related_Set_Score).
      • Бустинг: Initial_Score × (1 + β × Related_Set_Score).

      (Где α и β – предопределенные константы).

    7. Финальное ранжирование: Набор документов пересортировывается на основе модифицированных оценок.

    Какие данные и как использует

    Данные на входе

    • Структурные и Технические факторы: Данные, используемые для Similarity Criterion:
      • URL-структура, хост, домен (для определения «того же веб-сайта»).
      • Структура разделов сайта или издания.
    • Метаданные/Авторство:
      • Имя автора, Email адрес (для сообщений на форумах).
      • Название издателя/источника новостей.
    • Контентные факторы: Содержимое исходного документа и всех документов в Related Set D. Контент используется для оценки релевантности по отношению к Scoring Criterion.
    • Временные факторы: Возраст документов в Related Set D. Упоминается возможность придавать больший вес более новым документам.
    • Ссылочные факторы: Упоминаются как возможный Similarity Criterion: документы, ссылающиеся на d, или документы, на которые ссылается d.

    Какие метрики используются и как они считаются

    • Метрики: Initial Ranking Score и Related Set Score.
    • Весовые коэффициенты (α, β): Предопределенные константы. В качестве примера приводятся значения α=0.8 и β=0.2.
    • Методы анализа Related Set: Для расчета Related Set Score могут использоваться сложные методы анализа агрегированного контента (помимо простого сопоставления с запросом):
      • Strong Terms (Сильные термины): Идентификация значимых терминов в наборе D с использованием Inverse Document Frequency (idf).
      • Geographical Relevance Vector (Вектор географической релевантности): Расчет уверенности в том, что набор D релевантен определенному региону.
      • Topic Scores Vector (Вектор тематических оценок): Расчет уверенности для тем, охватываемых набором D (используя классификацию).

    Выводы

    1. Трансфер авторитетности и релевантности: Ключевой вывод — авторитетность и релевантность источника (сайта, автора) напрямую переносятся на отдельные документы этого источника. Если источник в целом релевантен теме, отдельный документ получает преимущество в ранжировании.
    2. Алгоритмическая основа Topical Authority: Этот патент описывает механизм работы тематической авторитетности. Весь сайт рассматривается как Related Set. Если этот набор высоко релевантен теме (Scoring Criterion), то Related Set Score будет высоким, что повысит ранжирование отдельных страниц.
    3. Концепция Псевдодокумента: Идея объединения связанных страниц в единое целое (Pseudo-document) для расчета агрегированной релевантности (Claim 1) критически важна. Это позволяет оценить общий тематический охват и глубину экспертизы источника.
    4. Выход за рамки анализа одной страницы: Подтверждается, что ранжирование сильно зависит от контекста, выходящего за пределы конкретного URL. Качество и релевантность соседних или связанных документов критически важны.
    5. Важность «сильных терминов» (IDF): Упоминание IDF для анализа Related Set D подчеркивает важность использования специфической, экспертной терминологии в контенте для установления тематической релевантности и демонстрации экспертизы.

    Практика

    Best practices (это мы делаем)

    • Построение Тематической Авторитетности (Topical Authority): Это критически важно. Необходимо обеспечить всестороннее освещение темы на сайте. Весь этот контент формирует Related Set. Чем полнее охват и выше качество этого набора, тем выше будет Related Set Score для релевантных запросов, что напрямую повысит ранжирование отдельных статей.
    • Развитие и продвижение Авторства (E-E-A-T): Патент подтверждает, что система может группировать контент по автору. Весь корпус работ автора (Related Set) влияет на ранжирование его отдельных статей. Необходимо развивать авторов как экспертов и обеспечивать четкую атрибуцию контента (например, с помощью микроразметки).
    • Четкая структура сайта и тематическая чистота: Необходимо обеспечить понятную архитектуру сайта, чтобы поисковая система могла легко идентифицировать Related Set на основе критерия «тот же веб-сайт» или «тот же раздел». Избегайте публикации нетематического контента, который «размывает» Pseudo-document.
    • Использование экспертной терминологии (Strong Terms): Последовательно используйте специфическую, релевантную терминологию по всему сайту. Использование терминов с высоким IDF (специфичных для ниши) помогает повысить агрегированную оценку релевантности Related Set D.

    Worst practices (это делать не надо)

    • Публикация разрозненного контента («Все обо всем»): Создание сайта без четкой тематической направленности снижает эффективность этого механизма. Related Set D будет содержать нерелевантный контент, что приведет к низкому Related Set Score для специфических запросов (эффект размытия).
    • Непоследовательное качество контента: Публикация нескольких высококачественных страниц не даст максимального эффекта, если остальная часть сайта (Related Set) имеет низкое качество. Система оценивает совокупность контента.
    • Игнорирование авторства и анонимный контент: Отсутствие четко идентифицируемых авторов не позволяет системе использовать авторство как критерий связи, лишая контент потенциального буста от репутации автора (особенно в YMYL).
    • Фокус только на оптимизации отдельных страниц: Стратегия создания отдельных, оптимизированных страниц без работы над общим тематическим наполнением сайта и авторитетностью источника.

    Стратегическое значение

    Этот патент является фундаментальным элементом, объясняющим, почему концепции Topical Authority и E-E-A-T критически важны в SEO. Он предоставляет алгоритмическую основу для оценки экспертизы и авторитетности источника. Долгосрочная стратегия должна быть направлена на то, чтобы стать лучшим источником информации по теме (создание сильного Related Set D), а не просто на ранжирование отдельных страниц.

    Практические примеры

    Сценарий: Бустинг новой статьи за счет Topical Authority сайта

    1. Контекст: Сайт «VetExpert.com» опубликовал сотни экспертных статей о здоровье собак (высокий Topical Authority).
    2. Действие: Сайт публикует новую статью (d) по запросу «симптомы диабета у такс». Ее начальная оценка (Initial Score) средняя.
    3. Критерий схожести: Тот же веб-сайт (VetExpert.com).
    4. Связанный набор (D): Все остальные статьи на VetExpert.com.
    5. Расчет Related Set Score: Система создает Pseudo-document из набора D. Так как сайт в целом очень релевантен здоровью собак и связанным заболеваниям, Related Set Score получается высоким для запроса «симптомы диабета у такс».
    6. Результат: Высокий Related Set Score комбинируется с Initial Score (через взвешенную сумму), значительно повышая финальный рейтинг новой статьи. Она обгоняет аналогичную статью на менее авторитетном сайте.

    Сценарий: Бустинг статьи за счет Авторитетности Автора (Author Authority)

    1. Контекст: Доктор Смит является признанным экспертом по квантовой физике и опубликовал 50 статей в разных научных журналах.
    2. Действие: Доктор Смит публикует новую статью (d) «Основы квантовых вычислений» на своем блоге.
    3. Критерий схожести: Тот же автор (Доктор Смит).
    4. Связанный набор (D): 50 предыдущих статей Доктора Смита (если Google может их связать).
    5. Расчет Related Set Score: Агрегированный контент работ автора (Pseudo-document) высоко релевантен теме квантовых вычислений. Related Set Score очень высок.
    6. Результат: Новая статья (d) получает значительный буст благодаря установленному авторитету автора и ранжируется высоко, несмотря на то, что опубликована на личном блоге.

    Вопросы и ответы

    Что такое «Pseudo-document» (Псевдодокумент) и почему это важно для SEO?

    Pseudo-document – это виртуальный документ, созданный путем объединения (конкатенации) всех документов из связанного набора (например, всех страниц сайта или всех статей автора). Важность для SEO огромна: это означает, что Google оценивает релевантность всего вашего корпуса контента целиком по отношению к конкретному запросу. Это подчеркивает важность создания целостного, тематически связанного контента (Topical Authority).

    Как система определяет «Related Set D» (Связанный набор документов)?

    Система использует Similarity Criterion (Критерий схожести). Патент перечисляет несколько ключевых критериев: принадлежность к одному веб-сайту (основной критерий в Claim 1), один и тот же автор, один и тот же источник публикации (СМИ) или один и тот же раздел. Также упоминаются связи через ссылки (входящие или исходящие).

    Как именно агрегированная оценка (Related Set Score) влияет на итоговый рейтинг?

    Финальная оценка является комбинацией исходной оценки документа и Related Set Score. Патент предлагает два метода: взвешенная сумма (например, 80% исходной оценки + 20% оценки группы) или бустинг (множитель). В Claim 1 защищен метод взвешенной суммы. В любом случае, высокий Related Set Score повышает итоговый рейтинг.

    Является ли этот патент подтверждением работы Topical Authority и E-E-A-T?

    Да, этот патент описывает базовый алгоритмический механизм для этих концепций. Анализируя весь контент сайта (Related Set по сайту), система оценивает Topical Authority. Анализируя весь корпус работ автора (Related Set по автору), система оценивает Экспертизу и Авторитетность автора (ключевые части E-E-A-T).

    Может ли контент не по теме навредить моим позициям согласно этому патенту?

    Да, из-за эффекта размытия (dilution). Если вы добавляете большое количество контента, не связанного с вашей основной темой, этот контент попадает в Pseudo-document. Это снижает общую тематическую релевантность Pseudo-document, тем самым уменьшая Related Set Score и ослабляя бустинг для ваших профильных страниц.

    Влияет ли качество и возраст старых статей на ранжирование новых?

    Да, напрямую. Старые статьи входят в Related Set. Если они качественные и релевантные, они повышают Related Set Score. Однако патент также упоминает возможность придавать больший вес более новым документам внутри связанного набора при расчете его оценки, что подчеркивает важность обновления контента.

    Что такое «сильные термины» (strong terms/IDF) и как их использовать?

    «Сильные термины» — это слова, которые часто встречаются в вашем Related Set, но относительно редки в интернете в целом (высокий IDF). Это специализированная, нишевая терминология. Их использование в контенте помогает системе идентифицировать экспертизу источника и повышает агрегированную оценку релевантности.

    Что важнее: релевантность отдельной страницы или релевантность всего сайта?

    Важны оба фактора, так как финальная оценка является их комбинацией (например, взвешенной суммой). Однако этот патент показывает механизм, при котором высокая релевантность всего сайта (высокий Related Set Score) может компенсировать недостаточную оптимизацию отдельной страницы (средний Initial Ranking Score).

    Может ли страница ранжироваться высоко только за счет Related Set Score?

    Да. Патент упоминает, что в некоторых реализациях исходная оценка (Initial Ranking Score) может быть одинаковой для всех документов или отсутствовать. В этом случае Related Set Score становится определяющим фактором ранжирования, что подчеркивает силу авторитетности источника.

    Актуален ли этот патент, учитывая его возраст (подан в 2003 году)?

    Он чрезвычайно актуален. Описанные в нем механизмы являются базовыми принципами оценки авторитетности и контекстной релевантности. Хотя конкретные реализации и алгоритмы (например, переход от IDF к векторным представлениям) эволюционировали, фундаментальная идея использования агрегированных сигналов группы для оценки индивида остается центральной в современном поиске.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.