Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Google

    Как Google использует прямую отправку контента для ускоренного индексирования, вычисления оценки оригинальности автора и переранжирования дубликатов

    SYSTEMS AND METHODS FOR INDEXING CONTENT (Системы и методы индексирования контента)
    • US11347760B2
    • Google LLC
    • 2022-05-31
    • 2013-05-17
    2013 Индексация Краулинг Патенты Google Свежесть контента

    Патент Google описывает систему, позволяющую авторам напрямую отправлять контент поисковой системе до или сразу после публикации. Система проверяет новизну контента и может проиндексировать его немедленно, без сканирования URL. Также она использует эти данные для расчета «Original Author Score» — метрики, показывающей, насколько часто автор публикует уникальный контент первым. При обнаружении дубликатов в выдаче система может повысить результат автора с более высоким показателем оригинальности.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает несколько ключевых задач в поиске:

    • Задержка индексации: Устраняет временной лаг между публикацией контента и его появлением в индексе, который возникает при стандартном сканировании (crawling).
    • Атрибуция авторства и борьба со скрейпингом: Помогает поисковой системе точно определить первоисточник контента, особенно в ситуациях, когда контент копируется (дублируется) на разных ресурсах. Это направлено против SEO-манипуляций, связанных с публикацией чужого контента.
    • Качество выдачи: Улучшает SERP путем повышения позиций контента от авторов, систематически создающих оригинальные материалы, по сравнению с агрегаторами или источниками, копирующими контент.

    Что запатентовано

    Запатентована система, которая позволяет ускоренно индексировать контент, определять оригинальность автора и корректировать ранжирование. Ключевым элементом является механизм прямой отправки контента (submitted content) поисковой системе через специальный интерфейс. Система индексирует новый контент, минуя стандартный краулинг (вплоть до индексации без посещения URL), вычисляет метрику оригинальности автора (Original Author Score) на основе истории публикаций и использует эту метрику для переранжирования результатов при обнаружении дублирующегося контента в выдаче.

    Как это работает

    Система работает в трех основных направлениях:

    1. Ускоренное индексирование: Автор отправляет контент и ссылку на него через интерфейс. Система проверяет контент на новизну по индексу известного контента (Index of Known Content). Если контент новый, он может быть немедленно проиндексирован, и фиксируется точная временная метка (timestamp).
    2. Оценка оригинальности автора: Система анализирует историю публикаций автора. Original Author Score рассчитывается как процент контента (или его частей, например, shingles), который был впервые обнаружен поисковой системой именно от этого автора (first instances).
    3. Переранжирование дубликатов: При обработке запроса система получает ранжированные результаты. Если обнаруживаются два результата с похожим контентом (удовлетворяют similarity criterion), система сравнивает Author Scores их источников. Если разница в оценках авторов превышает порог (authorship differential), результат от более оригинального автора повышается в выдаче (swap).

    Актуальность для SEO

    Высокая. Механизмы, описанные в патенте, напрямую соотносятся с современными инструментами Google (например, API индексирования) и стратегическим фокусом на E-E-A-T и борьбе с неоригинальным контентом (Helpful Content System). Установление первоисточника и скорость индексации остаются критически важными задачами для поиска в 2025 году.

    Важность для SEO

    Патент имеет критическое значение для SEO (9/10). Он описывает конкретные механизмы, позволяющие Google (1) индексировать контент почти мгновенно, (2) количественно оценивать оригинальность на уровне автора/сайта и (3) активно понижать в выдаче сайты, копирующие контент, отдавая предпочтение первоисточникам. Это подчеркивает важность использования инструментов для быстрой индексации и стратегическую необходимость создания уникального контента.

    Детальный разбор

    Термины и определения

    Author Score (Оценка автора)
    Метрика, указывающая на вероятность того, что сущность является автором оригинального контента. Может быть комбинацией Original Author Score и Citation Score.
    Authorship Differential (Разница в авторстве)
    Разница между Author Scores двух сущностей. Используется как триггер для переранжирования, если превышает определенный порог.
    Citation Score (Оценка цитирования)
    Метрика, соответствующая частоте цитирования контента, связанного с сущностью.
    Entity (Сущность)
    Источник контента. Может быть индивидуальным автором, издателем, веб-сайтом, доменом или субдоменом.
    First Instance (Первый экземпляр)
    Контент (или его часть, например, shingle), который впервые появился в Index of Known Content от конкретной сущности. Определяется по временной метке (timestamp) — нет идентичного контента с более ранней меткой.
    Index of Known Content (Индекс известного контента)
    База данных, содержащая представления контента (например, shingles), полученные через стандартное сканирование или прямую отправку. Используется для проверки новизны и расчета авторских оценок.
    Original Author Score (Оценка оригинальности автора)
    Ключевая метрика патента. Соответствует проценту контента, связанного с сущностью, который является First Instance в индексе известного контента.
    Shingles (Шинглы)
    Метод представления контента в виде набора последовательных токенов (слов). Используется для эффективного сравнения документов на схожесть и определения новизны.
    Similarity Criterion (Критерий схожести)
    Условие, используемое для определения того, что два документа являются дубликатами или очень похожи. Основывается на пересечении шинглов или других методах сравнения.
    Submitted Content (Отправленный контент)
    Контент, который сущность напрямую отправляет поисковой системе через специальный интерфейс для индексации и атрибуции авторства.

    Ключевые утверждения (Анализ Claims)

    Патент US11347760B2 является продолжением (Continuation) нескольких более ранних заявок. Текст патента описывает три взаимосвязанных изобретения: (A) Ускоренное индексирование, (B) Расчет оценки оригинальности автора и (C) Переранжирование на основе авторства.

    Аспект А: Ускоренное индексирование (Claims 1-10 в US11347760B2)

    Claim 1 и 8 (US11347760B2): Описывают систему и метод для индексации контента, полученного напрямую.

    1. Система предоставляет интерфейс для отправки контента для высокоприоритетной индексации.
    2. Получение submitted content от сущности, заявляющей авторство, и ссылки (link) на контент.
    3. В ответ на определение того, что контент является новым по отношению к известному контенту.
    4. Ключевой момент: Добавление контента в индекс (Claim 1) или выпуск высокоприоритетного запроса на индексацию (Claim 8) происходит без посещения / без сканирования (without visiting / without crawling) интернет-адреса.

    Система позволяет проиндексировать контент немедленно на основе того, что было отправлено через интерфейс, минуя необходимость сканирования (crawling) самого URL.

    Аспект B: Расчет оценки оригинальности автора (Описано в тексте, FIG. 27-32)

    Описывается метод определения вероятности того, что сущность является автором оригинального контента.

    1. Получение и сохранение представления контента в Index of Known Content (например, в виде шинглов с временными метками).
    2. Расчет Original Author Score путем идентификации множества шинглов, связанных с сущностью, и вычисления процента этих шинглов, которые являются First Instances (первыми экземплярами) в индексе.

    Аспект C: Переранжирование на основе авторства (Описано в тексте, FIG. 10-19)

    Описывается метод переранжирования результатов поиска.

    1. Получение ранжированных результатов, где Результат 1 (Автор 1) выше Результата 2 (Автор 2).
    2. Определение того, что документы схожи (similarity criterion).
    3. Определение того, что Автор 2 значительно более «оригинален», чем Автор 1 (authorship differential), путем сравнения их Author Scores.
    4. В ответ на это — перестановка (swapping) результатов поиска.

    Где и как применяется

    Изобретение затрагивает практически все ключевые этапы поиска.

    CRAWLING – Сканирование и Сбор данных
    Система предоставляет альтернативный и приоритетный канал сбора данных, минуя стандартный Googlebot. Она может принимать контент напрямую через интерфейс (UI) или API. Может инициировать high priority request для краулера.

    INDEXING – Индексирование и извлечение признаков
    Основной этап применения. Полученный контент обрабатывается: генерируются shingles, которые сохраняются в Index of Known Content вместе с timestamp и идентификатором сущности. Индексация может происходить без посещения URL. На этом этапе (или в офлайн-процессе) происходит расчет и обновление Original Author Score и Citation Score.

    RANKING – Ранжирование
    На этом этапе генерируются первичные ранжированные результаты поиска на основе стандартных сигналов релевантности.

    RERANKING – Переранжирование
    Критический этап применения аспекта C. Система анализирует результаты этапа RANKING на предмет наличия дубликатов. Если дубликаты найдены, система извлекает Author Scores. Если разница в оценках (authorship differential) превышает порог, происходит корректировка порядка (swapping) для повышения позиций оригинального автора.

    Входные данные:

    • Отправленный контент (текст или HTML) и его URL.
    • Идентификатор сущности (автора/сайта).
    • Временная метка отправки.
    • Для переранжирования: Ранжированные результаты поиска.

    Выходные данные:

    • Обновленный Index of Known Content.
    • Запрос на высокоприоритетное сканирование.
    • Обновленный Original Author Score в Author Database.
    • Переранжированные результаты поиска.

    На что влияет

    • Конкретные типы контента: Наибольшее влияние на текстовый контент, который легко копируется: новости, статьи, блоги, обзоры товаров.
    • Ниши и тематики: Критическое влияние в высококонкурентных нишах, time-sensitive тематиках (Новости) и YMYL-тематиках, где атрибуция контента оригинальному источнику имеет первостепенное значение.

    Когда применяется

    • Триггеры активации (Индексация): Отправка контента сущностью через предоставленный интерфейс. Ускоренное индексирование активируется только если контент признан новым.
    • Триггеры активации (Переранжирование): Обнаружение в результатах поиска двух или более документов, удовлетворяющих similarity criterion.
    • Пороговые значения (Переранжирование): Перестановка происходит только если authorship differential (разница в оценках авторов) превышает предопределенный порог.
    • Особые случаи (Временная метка): Если разница в авторстве незначительна, система может использовать временные метки индексации как решающий фактор.

    Пошаговый алгоритм

    Процесс А: Ускоренное индексирование и обработка контента

    1. Получение данных: Система получает submitted content, ссылку (URL) и идентификатор сущности. Фиксируется timestamp.
    2. Генерация представления: Контент разбивается на шинглы (set of shingles). К каждому шинглу применяется хеш-функция.
    3. Оценка новизны (Evaluation): Система сравнивает набор шинглов с Index of Known Content.
    4. Определение новизны: Если менее чем пороговое число шинглов уже присутствует в индексе, контент считается новым.
    5. Сохранение в индексе: Представление контента, временная метка, URL и идентификатор сущности сохраняются в Index of Known Content.
    6. Индексация/Сканирование: Если контент новый, система либо индексирует его напрямую (без посещения URL), либо инициирует high priority request для сканирования URL.

    Процесс Б: Расчет Original Author Score

    1. Идентификация контента сущности: Система выбирает контент, связанный с сущностью в Index of Known Content.
    2. Анализ шинглов: Идентифицируется множество шинглов для этого контента.
    3. Определение первых экземпляров (First Instances): Для каждого шингла проверяется его временная метка. Шингл считается First Instance, если в индексе нет идентичного шингла с более ранней временной меткой.
    4. Расчет процента: Вычисляется процент шинглов, которые являются First Instances. Это значение является Original Author Score.
    5. Обновление базы данных: Оценка сохраняется в Author Database.

    Процесс В: Переранжирование на основе авторства

    1. Получение результатов: Система получает ранжированные результаты поиска.
    2. Идентификация кандидатов: В результатах идентифицируются Первый результат (R1, выше) и Второй результат (R2, ниже).
    3. Проверка схожести: Определяется, удовлетворяют ли документы R1 и R2 критерию схожести (similarity criterion). Если нет, процесс останавливается.
    4. Получение оценок авторов: Извлекаются Author Scores для сущностей R1 (AS1) и R2 (AS2).
    5. Сравнение оценок: Вычисляется разница (authorship differential) между AS2 и AS1.
    6. Проверка порога: Если AS2 превышает AS1 на предопределенный порог, активируется переранжирование.
    7. Перестановка: R2 и R1 меняются местами в ранжированных результатах.

    Какие данные и как использует

    Данные на входе

    • Контентные факторы: Текст или HTML документа. Используется для генерации шинглов и сравнения схожести.
    • Технические факторы: URL (ссылка на местоположение контента).
    • Временные факторы: Временная метка (timestamp) получения сообщения или первой индексации контента. Критически важна для определения First Instance и расчета Original Author Score.
    • Ссылочные факторы (Косвенно): Упоминается Citation Score, который зависит от частоты цитирования (ссылок) на контент автора.
    • Данные о сущности: Идентификатор сущности (автора/сайта), связывающий контент с источником.

    Какие метрики используются и как они считаются

    • Shingles (Шинглы): Генерируются путем применения w-shingling к тексту документа. Для сравнения могут использоваться хеш-значения шинглов.
    • Similarity Criterion (Критерий схожести): Определяется как процент идентичных шинглов между двумя документами. Если процент выше порога, документы считаются похожими.
    • First Instance (Первый экземпляр): Шингл считается первым экземпляром, если его timestamp является самым ранним среди всех идентичных шинглов в индексе.
    • Original Author Score (Оценка оригинальности автора): Рассчитывается как процент шинглов автора, которые являются First Instances. Формула: (Количество First Instance шинглов автора) / (Общее количество шинглов автора).
    • Citation Score (Оценка цитирования): Рассчитывается на основе частоты цитирования контента автора.
    • Author Score (Оценка автора): Комбинированная метрика. Может быть взвешенной суммой Original Author Score и Citation Score.

    Выводы

    1. Скорость индексации как конкурентное преимущество: Патент подтверждает наличие механизмов для почти мгновенной индексации контента через прямую отправку. Это позволяет авторам «застолбить» авторство и гарантировать, что их контент будет известен системе раньше, чем его успеют скопировать.
    2. Количественная оценка оригинальности (Original Author Score): Google имеет конкретную метрику для оценки того, насколько часто сущность (автор или сайт) публикует уникальный контент первой. Эта метрика основана на точном сравнении временных меток появления контента в индексе.
    3. Оригинальность как прямой фактор ранжирования (через Reranking): Original Author Score используется не просто как один из сигналов, а как триггер для агрессивного переранжирования. При наличии дублирующегося контента система активно повышает первоисточник, даже если его изначальная позиция была ниже.
    4. Индексация без краулинга: Патент явно описывает возможность индексации контента без необходимости посещения URL (without visiting the Internet address), что значительно ускоряет процесс.
    5. Защита от скрейпинга: Механизм переранжирования напрямую направлен против сайтов, копирующих контент. Даже если скрейпер лучше оптимизирован по другим факторам, его результат будет понижен в пользу оригинального автора.
    6. Важность временных меток (Timestamps): Точное время попадания контента в индекс имеет решающее значение как для расчета Original Author Score, так и для разрешения споров об авторстве, когда оценки авторов близки.

    Практика

    Best practices (это мы делаем)

    • Использовать механизмы быстрой отправки контента: Активно применять доступные инструменты (например, Indexing API, инструменты в Search Console), которые соответствуют описанному в патенте интерфейсу прямой отправки. Это критично для новостных сайтов и ресурсов с часто обновляемым контентом.
    • Фокус на создании 100% оригинального контента: Стратегия должна быть направлена на максимизацию Original Author Score. Это достигается только путем публикации уникального контента, который не встречается где-либо еще в вебе на момент публикации.
    • Обеспечивать максимальную скорость публикации и индексации: Минимизировать время между созданием контента и его отправкой в поисковую систему. Чем раньше контент попадет в индекс, тем выше вероятность, что он будет зафиксирован как First Instance.
    • Контроль синдикации: При передаче контента партнерам критически важно убедиться, что ваша версия проиндексирована первой. Задерживайте публикацию на партнерских площадках или требуйте использования rel=canonical.
    • Улучшение общих сигналов авторитетности (E-E-A-T): Поскольку Author Score может включать Citation Score, работа над получением качественных ссылок и упоминаний остается важной для подтверждения авторства и авторитетности.

    Worst practices (это делать не надо)

    • Публикация неоригинального контента (Копипаст, Агрегация без добавленной ценности): Этот патент напрямую пессимизирует такие стратегии. Систематическая публикация чужого контента приведет к низкому Original Author Score и потере позиций в пользу первоисточников при переранжировании.
    • Поверхностный рерайтинг: Поскольку система использует shingles для сравнения, простой замены слов может быть недостаточно для обхода similarity criterion. Контент должен быть уникальным по структуре и содержанию.
    • Задержка с индексацией нового контента: Полагаться только на стандартный краулинг опасно. Если скрейперы проиндексируют ваш контент быстрее вас, вы рискуете потерять статус First Instance для этого контента.
    • Манипуляции с датами публикации: Изменение дат на сайте не повлияет на timestamp, зафиксированный системой в момент первой подачи или обнаружения контента.

    Стратегическое значение

    Патент подтверждает стратегию Google по борьбе с контентным спамом и продвижению первоисточников. Он показывает, что оригинальность контента является измеримой величиной и напрямую влияет на ранжирование. Для долгосрочной SEO-стратегии это означает, что инвестиции в создание уникального, качественного контента и обеспечение его быстрой индексации являются фундаментальными. Сайты, которые не производят оригинальный контент, будут систематически проигрывать в видимости.

    Практические примеры

    Сценарий 1: Защита авторства новостной статьи

    1. Действие: Новостное издание публикует срочную новость и немедленно отправляет контент в Google через Indexing API (соответствует механизму прямой отправки в патенте).
    2. Работа системы: Google получает контент, генерирует шинглы, проверяет новизну (контент новый) и фиксирует временную метку. Шинглы помечаются как First Instance для этого издания. Original Author Score издания повышается.
    3. Результат: Через 10 минут новость копируют агрегаторы. При поиске по этой теме Google идентифицирует дубликаты. Система сравнивает Author Scores и, видя высокий показатель у первоисточника, гарантирует ему ТОП-1, понижая агрегаторы (reranking).

    Сценарий 2: Пессимизация сайта с ворованными обзорами

    1. Ситуация: Сайт А публикует оригинальные обзоры техники. Сайт Б (скрейпер) автоматически копирует их и публикует у себя.
    2. Работа системы: Google анализирует историю публикаций. Сайт А имеет 95% First Instance контента (Высокий Original Author Score). Сайт Б имеет 2% (Низкий Original Author Score).
    3. Ранжирование: По запросу «обзор модели X» изначально Сайт Б ранжируется на позиции 3, а Сайт А на позиции 5 (например, из-за лучших поведенческих факторов у Б).
    4. Переранжирование: Система обнаруживает, что контент идентичен (similarity criterion выполнен). Разница в Author Scores огромна (authorship differential выполнен). Система меняет результаты местами: Сайт А получает позицию 3 (или выше), Сайт Б понижается.

    Вопросы и ответы

    Что такое «Original Author Score» и как он рассчитывается?

    Original Author Score — это метрика, которая количественно оценивает, насколько часто сущность (автор или сайт) публикует оригинальный контент первой. Она рассчитывается как процент частей контента (например, шинглов), которые впервые были обнаружены поисковой системой именно от этой сущности (First Instances). Если вы всегда публикуете уникальный контент и делаете это быстрее всех, ваша оценка будет высокой.

    Как система определяет, что контент является «First Instance» (Первым экземпляром)?

    Это определяется исключительно по временной метке (timestamp) попадания контента в индекс Google (Index of Known Content). Система сравнивает шинглы нового контента с уже существующими в индексе. Если идентичный шингл найден, сравниваются временные метки. Тот, у кого метка самая ранняя, считается первоисточником этого фрагмента контента.

    Может ли система проиндексировать контент вообще без краулинга URL?

    Да, патент (Claim 1 в US11347760B2) явно указывает на возможность добавления отправленного контента в индекс без посещения (without visiting) интернет-адреса. Это означает, что система может полагаться исключительно на данные, полученные через интерфейс отправки, для включения контента в поиск, хотя последующий краулинг для верификации все равно может произойти.

    Как этот патент влияет на сайты-агрегаторы или сайты с синдицированным контентом?

    Патент представляет прямую угрозу для сайтов, полагающихся на неоригинальный контент. Их Original Author Score будет низким. При обнаружении дубликатов в выдаче система будет активно понижать их результаты в пользу первоисточников. При синдикации критически важно гарантировать, что ваш оригинал индексируется первым.

    Является ли описанный в патенте механизм тем же самым, что и Google Indexing API?

    Патент не использует термин Indexing API, но описываемый функционал (прямая подача контента для ускоренной индексации и фиксации временной метки) полностью соответствует возможностям современного Google Indexing API. Можно считать, что этот патент описывает алгоритмическую основу для работы таких инструментов.

    Как система обнаруживает дубликаты в выдаче?

    Система использует критерий схожести (similarity criterion), основанный на сравнении шинглов (shingles) документов. Если процент идентичных шинглов между двумя документами превышает установленный порог (например, 90%), документы считаются достаточно похожими для активации механизма переранжирования на основе авторства.

    Насколько сильным будет повышение в ранжировании для оригинального автора?

    Патент описывает механизм перестановки (swapping). Если оригинальный автор (с высоким Author Score) находится ниже в выдаче, чем копирующий сайт (с низким Author Score), система меняет их местами. Это агрессивное повышение, направленное на восстановление приоритета первоисточника.

    Что важнее для переранжирования дубликатов: Original Author Score или временная метка?

    Патент описывает оба механизма. В первую очередь сравниваются Author Scores (комбинация оригинальности и цитируемости). Если разница значительна, побеждает автор с более высоким Score. Если же оценки близки, система может использовать временную метку индексации (timestamp) как решающий фактор — побеждает тот, кто был проиндексирован раньше.

    Достаточно ли сделать поверхностный рерайтинг, чтобы контент считался новым?

    Скорее всего, нет. Использование шинглов позволяет обнаруживать не только точные копии, но и структурно похожий контент с заменой синонимов. Чтобы контент был признан новым (new relative to the known content), он должен иметь значительный процент уникальных шинглов, что требует глубокой переработки материала или создания полностью оригинального текста.

    Влияет ли ссылочный профиль на оценку автора в этом патенте?

    Да, влияет. Патент упоминает Citation Score (оценку цитирования), которая соответствует частоте ссылок на контент автора. Эта оценка может комбинироваться с Original Author Score для формирования итоговой Author Score, которая используется при переранжировании. Таким образом, ссылки остаются важным сигналом авторитетности.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.