SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google использует оценку новизны (Novelty Score) для ранжирования новостей и блогов, отдавая приоритет первоисточникам

DETECTING NOVEL DOCUMENT CONTENT (Обнаружение нового контента в документах)
  • US7451120B1
  • Google LLC
  • 2006-03-20
  • 2008-11-11
  • Свежесть контента
  • SERP
  • Семантика и интент
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Google анализирует темпоральную последовательность документов (например, новости по одной теме) для выявления нового контента. Система идентифицирует «информационные фрагменты» (сущности, факты) и их взаимодействия. Документы, которые первыми вводят важные фрагменты или значительно дополняют существующие, получают более высокую оценку новизны (Novelty Score) и ранжируются выше, вытесняя вторичный контент.

Описание

Какую проблему решает

Патент решает проблему избыточности (redundancy) контента в агрегаторах новостей (например, Google News) или результатах поиска по блогам. Когда множество статей освещают одну и ту же историю, часто повторяется одна и та же информация. Цель изобретения — идентифицировать и повысить в ранжировании те документы, которые вносят новую информацию (novel information) в развивающуюся тему, позволяя пользователям видеть новые факты, а не пересказ уже известных.

Что запатентовано

Запатентована система для присвоения оценки новизны (Novelty Score) документам в темпорально упорядоченной последовательности. Система анализирует каждый документ для выявления «информационных фрагментов» (Information Nuggets), таких как именованные сущности, и их «взаимодействий» (Interactions). Оценка новизны рассчитывается на основе того, сколько новой и важной информации документ вводит впервые по сравнению с предыдущими документами в последовательности или насколько он улучшает (дополняет) существующую информацию.

Как это работает

Система работает в несколько этапов:

  • Упорядочивание: Определяется темпоральная последовательность документов (Sequence S) по теме (например, новостной кластер).
  • Извлечение фрагментов: В каждом документе идентифицируются Information Nuggets (сущности, факты) и Interactions (связи между ними).
  • Оценка важности: Рассчитывается важность каждого фрагмента для отдельного документа (используя варианты TF-IDF или взвешивание по глубине в тексте — WTF) и для всей последовательности.
  • Расчет новизны: Для каждого документа определяется его вклад. Это может быть сумма важности фрагментов, которые этот документ ввел впервые, или общее «улучшение» (Delta Importance) информации в последовательности после появления этого документа.
  • Ранжирование: Документам присваивается Novelty Score, который используется для их ранжирования в кластере.

Актуальность для SEO

Высокая. С учетом огромного объема публикуемого контента и скорости распространения новостей, способность Google отличать первоисточники и статьи с добавленной ценностью от вторичного контента критически важна. Этот патент, одним из авторов которого является Krishna Bharat (ключевая фигура в создании Google News), описывает фундаментальный механизм для оценки оригинальности и новизны, что является ключевым компонентом ранжирования в Google News и при обработке запросов, требующих свежести (QDF).

Важность для SEO

Патент имеет критическое значение (9/10), особенно для новостных сайтов, блогов и любых ресурсов, освещающих трендовые или развивающиеся темы. Он показывает, что простого освещения темы недостаточно; для высокого ранжирования в конкурентной среде необходимо вносить новую фактическую информацию. Это напрямую влияет на контент-стратегию, подчеркивая важность оригинального репортажа, добавления новых сущностей и установления новых связей между фактами.

Детальный разбор

Термины и определения

Depth of sentence (Глубина предложения)
Количество предложений, предшествующих данному предложению в документе. Используется для взвешивания важности информации в метрике WTF.
Information Nugget (t) (Информационный фрагмент)
Последовательность текста, несущая информацию. Примеры включают именованные сущности (Named Entities), термины из заголовка или числа.
Interaction (i) (Взаимодействие)
Пара информационных фрагментов, встречающихся в непосредственной близости друг от друга (например, в одном предложении или абзаце).
Na(t, A) (Важность фрагмента для документа)
Метрика, измеряющая важность информационного фрагмента (t) для конкретного документа (A). Может рассчитываться с использованием TF-IDF или WTF.
Ns(t, S) (Важность фрагмента для последовательности)
Метрика, измеряющая важность информационного фрагмента (t) для всей последовательности документов (S). Агрегирует Na(t, A) по всем документам.
Ia(i, A) (Важность взаимодействия для документа)
Метрика, измеряющая важность взаимодействия (i) для конкретного документа (A).
Is(i, S) (Важность взаимодействия для последовательности)
Метрика, измеряющая важность взаимодействия (i) для всей последовательности документов (S).
Novelty Score (NOVa) (Оценка новизны)
Итоговая оценка, присваиваемая документу (A), отражающая количество новой и важной информации, которую он вносит в последовательность (S).
Sequence (S) (Последовательность)
Темпорально упорядоченный набор документов, например, кластер новостных статей по одной теме.
WTF (Weighted Term Frequency) (Взвешенная частота термина по глубине)
Сумма совпадений фрагмента или взаимодействия в документе, взвешенная обратно пропорционально глубине предложения, в котором они встречаются. Чем раньше в тексте, тем выше вес.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает базовый метод обнаружения новизны, фокусируясь на взаимодействиях.

  1. Система определяет упорядоченную последовательность документов.
  2. Определяется количество нового контента в каждом документе путем выявления пар текстовых последовательностей (Interactions), которые встречаются в непосредственной близости друг к другу.
  3. Каждому документу присваивается Novelty Score на основе определенного количества нового контента.
  4. Документы предоставляются (например, ранжируются) на основе присвоенных Novelty Scores.

Claim 5 (Зависимый от 3 и 1): Детализирует расчет важности взаимодействия для документа с использованием WTF.

Важность взаимодействия (i) для документа (A), Ia(i,A)I_a(i, A)Ia​(i,A), рассчитывается как WTF(i,A)WTF(i, A)WTF(i,A). Формула WTF взвешивает вхождения обратно пропорционально квадратному корню из глубины предложения в документе. Это означает, что взаимодействия, упомянутые ранее в тексте, считаются более важными.

Claim 8 (Зависимый от 7 и 1): Определяет один из способов расчета Novelty Score.

Novelty Score рассчитывается путем определения суммы важности Is(i,S)I_s(i, S)Is​(i,S) (важность взаимодействия для последовательности) для всех взаимодействий (i), которые данный документ ввел ВПЕРВЫЕ в упорядоченной последовательности.

Claim 12 (Независимый пункт): Описывает метод оценки новизны с фокусом на информационных фрагментах и специфической формуле важности (с учетом Certificate of Correction).

  1. Идентификация текстовых последовательностей (Information Nuggets) в документе.
  2. Определение значения важности Na(t,A)N_a(t, A)Na​(t,A) для каждого фрагмента (t). В этом пункте важность определяется как TF(t,A)∗WTF(t,A)TF(t, A) * WTF(t, A)TF(t,A)∗WTF(t,A).
  3. Присвоение оценки (Novelty Score) документу на основе этих значений важности.
  4. Ранжирование и отображение документа на основе оценки.

Где и как применяется

Изобретение применяется на нескольких этапах обработки поисковых данных, преимущественно в контексте новостного поиска или поиска по блогам.

CRAWLING – Сканирование и Сбор данных
На этом этапе система должна фиксировать точное время публикации (timestamp) документа, что критически важно для построения темпоральной последовательности (Sequence S).

INDEXING – Индексирование и извлечение признаков
Основная часть анализа происходит здесь или в процессе, аналогичном индексированию для специализированных вертикалей (например, Google News).

  • Кластеризация: Документы группируются по темам (новостные кластеры) и упорядочиваются по времени.
  • NLP и Извлечение Сущностей: Система применяет NLP для идентификации Information Nuggets (именованные сущности, числа, ключевые фразы) и Interactions (связи между ними).
  • Расчет метрик: Вычисляются метрики важности (Na, Ia, Ns, Is) и итоговый Novelty Score для каждого документа в кластере.

RANKING – Ранжирование / RERANKING – Переранжирование
На этапе формирования выдачи (например, внутри новостного блока или в вертикали Google News) Novelty Score используется как ключевой сигнал для ранжирования документов внутри кластера. Документы с более высоким Novelty Score получают приоритет.

На что влияет

  • Конкретные типы контента: Наибольшее влияние оказывается на новостные статьи, посты в блогах и любой контент, связанный с развивающимися событиями или трендовыми темами.
  • Специфические запросы: Запросы, связанные с актуальными событиями (QDF - Query Deserves Freshness), где пользователи ищут последнюю информацию.
  • Форматы контента: Статьи, содержащие фактическую информацию, именованные сущности и четкие связи между ними. Меньше влияет на мнения или обзоры без новых фактов.

Когда применяется

  • Условия работы алгоритма: Алгоритм применяется к набору документов, которые идентифицированы как относящиеся к одной теме и могут быть упорядочены во времени (темпоральная последовательность).
  • Триггеры активации: Активируется при обработке новостных кластеров или при обнаружении всплеска публикаций по определенной теме.
  • Временные рамки: Патент упоминает возможность ограничения временного окна анализа для долгоживущих последовательностей. Например, могут учитываться только документы за T1 дней до и T2 дней после анализируемого документа (например, +/- 7 дней), чтобы старая информация не влияла на оценку текущей новизны.
  • Особые случаи: Упоминается возможность разделения кредита за новизну между всеми документами, опубликованными в течение короткого времени (например, 15 минут) после первого введения фрагмента.

Пошаговый алгоритм

Процесс анализа последовательности документов S.

  1. Инициализация: Определение темпорально упорядоченной последовательности документов S = {A1, A2, ..., An}.
  2. Идентификация фрагментов: В каждом документе последовательности идентифицируются все информационные фрагменты (t) и взаимодействия (i).
  3. Расчет важности для документа (Цикл по документам): Для каждого документа Aj:
    • Для каждого фрагмента (t) определяется его важность Na(t,Aj)N_a(t, A_j)Na​(t,Aj​) (например, используя TF-IDF или WTF).
    • Для каждого взаимодействия (i) определяется его важность Ia(i,Aj)I_a(i, A_j)Ia​(i,Aj​).
  4. Расчет важности для последовательности:
    • Для каждого уникального фрагмента (t) во всей последовательности рассчитывается его общая важность Ns(t,S)N_s(t, S)Ns​(t,S) (например, как сумма Na по всем документам).
    • Для каждого уникального взаимодействия (i) рассчитывается его общая важность Is(i,S)I_s(i, S)Is​(i,S).
  5. Расчет оценки новизны (Novelty Score): Для каждого документа A определяется его Novelty Score. Это может быть выполнено одним из способов или их комбинацией:
    • Метод 1 (Первоисточник): Сумма Ns для всех фрагментов (t) + Сумма Is для всех взаимодействий (i), которые документ A ввел впервые.
    • Метод 2 (Улучшение/Delta): Расчет общего улучшения (Total Improvement) фрагментов и взаимодействий. Для этого сравнивается важность Ns и Is в последовательности ДО документа A (S1) и ПОСЛЕ включения документа A ({S1, A}). Рассчитывается разница (Delta Importance) или нормализованная разница (Normalized Delta Importance).
  6. Ранжирование: Документы последовательности S ранжируются относительно друг друга на основе рассчитанных Novelty Scores.

Какие данные и как использует

Данные на входе

  • Контентные факторы: Текст документа является основным источником данных. Анализируется расположение слов, структура предложений и абзацев. Идентифицируются именованные сущности (Named Entities), числа и термины в заголовках (title terms).
  • Структурные факторы: Глубина предложения (Depth of sentence) в документе используется для взвешивания важности информации (WTF). Информация в начале документа имеет больший вес.
  • Временные факторы: Временная метка (timestamp) публикации документа критически важна для определения порядка документов в последовательности и идентификации того, какой документ первым ввел информацию.

Какие метрики используются и как они считаются

Система вычисляет несколько ключевых метрик для оценки важности и новизны.

1. Важность для Документа (Na, Ia):

  • TF-IDF вариант: Na(t,A)=TF(t,A)∗IDF(t)N_a(t, A) = TF(t, A) * IDF(t)Na​(t,A)=TF(t,A)∗IDF(t). IDF измеряется по последовательности S.
  • WTF (Weighted Term Frequency): Используется вместо стандартного TF.
    WTF(t,A)=∑s1depth of sentence s in AWTF(t, A) = \sum_{s} \frac{1}{\sqrt{\text{depth of sentence s in A}}}WTF(t,A)=s∑​depth of sentence s in A​1​ (Сумма по всем предложениям s, содержащим t в A).

2. Важность для Последовательности (Ns, Is):

  • Frequency: Количество документов в S, содержащих фрагмент/взаимодействие.
  • Cumulative Na/Ia: Сумма Na(t, A) или Ia(i, A) по всем документам A в S.
  • Cumulative squashed Na/Ia: Сумма log(Na(t, A)) или log(Ia(i, A)).

3. Novelty Score (NOVa):

Рассчитывается как комбинация следующих величин:

  • Первичное введение (First Introduction): Сумма Ns(t, S) и/или Is(i, S) для элементов, впервые введенных документом A.
  • Общее улучшение (Total Improvement): Сумма улучшений (Delta Importance) для всех фрагментов/взаимодействий в документе A.
  • Delta Importance (для фрагментов): Насколько увеличилась важность фрагмента после добавления документа A.
    Ns(t,{S1,A})−Ns(t,S1)N_s(t, \{S_1, A\}) - N_s(t, S_1)Ns​(t,{S1​,A})−Ns​(t,S1​) (где S1 - документы, предшествующие A).
  • Normalized Delta Importance:
    Ns(t,{S1,A})−Ns(t,S1)Ns(t,{S1,A})\frac{N_s(t, \{S_1, A\}) - N_s(t, S_1)}{N_s(t, \{S_1, A\})}Ns​(t,{S1​,A})Ns​(t,{S1​,A})−Ns​(t,S1​)​

Выводы

  1. Приоритет первоисточников и добавленной ценности: Патент описывает механизм, который систематически выявляет и поощряет документы, добавляющие новую информацию к существующей теме. Сайты, которые просто переписывают или агрегируют известные факты, будут иметь низкий Novelty Score.
  2. Важность сущностей (Information Nuggets): Основой анализа являются Information Nuggets (именованные сущности, факты, числа). Способность системы распознавать и отслеживать эти фрагменты в потоке документов подчеркивает важность наличия четкой фактической информации в контенте.
  3. Связи имеют значение (Interactions): Недостаточно просто упомянуть новую сущность; важно также установить новые связи (Interactions) между ней и другими сущностями. Документ, который первым описывает связь между двумя известными фактами, также получает высокий Novelty Score.
  4. Структура документа и WTF: Метрика WTF (Weighted Term Frequency) явно указывает на то, что информация, расположенная ближе к началу документа (меньшая Depth of sentence), имеет больший вес. Это подтверждает важность принципа «перевернутой пирамиды» в журналистике и SEO.
  5. Темпоральность как ключ к новизне: Novelty Score по своей природе зависит от времени. Оценка документа зависит от того, что было опубликовано до него. Быть первым критически важно, хотя патент и предусматривает возможность разделения кредита за новизну в течение короткого окна (например, 15 минут).
  6. Механизмы оценки новизны: Система может оценивать новизну двумя основными способами: как абсолютный вклад (первое упоминание важных фрагментов) или как относительное улучшение (Delta Importance) общего информационного поля.

Практика

Best practices (это мы делаем)

  • Фокус на оригинальном репортаже и новых фактах: При освещении новостей или трендовых тем стремитесь добавлять новые Information Nuggets. Это могут быть новые имена, места, цифры, цитаты или детали, которые отсутствовали в предыдущих публикациях по этой теме.
  • Оптимизация структуры контента (WTF): Размещайте самую важную и новую информацию как можно ближе к началу статьи. Метрика WTF придает больший вес фрагментам, найденным в первых предложениях. Используйте принцип «перевернутой пирамиды».
  • Установление новых связей (Interactions): Ищите новые связи между уже известными сущностями. Если все знают, что «Компания X» запускает «Продукт Y», но вы первыми сообщаете, что «CEO Z» из «Компании X» будет представлять «Продукт Y» на «Конференции W», вы создаете новые ценные взаимодействия.
  • Скорость публикации: Поскольку новизна оценивается темпорально, скорость имеет решающее значение. Стремитесь быть первым источником новой информации, чтобы максимизировать Novelty Score по методу "First Introduction".
  • Обеспечение точных временных меток: Корректные временные метки (timestamps) критически важны для правильного позиционирования вашего документа в Temporally Ordered Sequence.

Worst practices (это делать не надо)

  • Агрегация и переписывание без добавленной ценности: Создание статей, которые только суммируют информацию из других источников, не добавляя новых фрагментов или взаимодействий. Такие статьи получат минимальный Novelty Score.
  • «Вода» в начале статьи и "закапывание" фактов: Длинные вступления, которые отодвигают ключевые факты и сущности вглубь текста. Это снижает вес информации из-за метрики WTF (большая Depth of sentence).
  • Игнорирование контекста и связей: Упоминание фактов или сущностей изолированно, без установления четких связей (Interactions) с другими элементами истории.
  • Медленная реакция на события: Публикация информации после того, как она уже стала широко известной и освещена другими источниками.

Стратегическое значение

Этот патент подтверждает стратегию Google по приоритизации оригинальности и глубины контента, особенно в новостном поиске. Для издателей и SEO-специалистов это означает, что инвестиции в качественную журналистику, эксклюзивную информацию и скорость реакции являются ключевыми факторами успеха. Построение авторитета в нише связано не только с качеством сайта (E-E-A-T), но и с его способностью постоянно генерировать новый, фактически ценный контент (высокий Novelty Score).

Практические примеры

Сценарий: Освещение запуска нового смартфона

  1. Документ A1 (Первый слух): Публикуется новость, что «Apple» (Nugget 1) планирует выпустить «iPhone 17» (Nugget 2) в «Сентябре» (Nugget 3). Создается базовый Novelty Score.
  2. Документ A2 (Вторичный контент): Сайт переписывает новость A1, не добавляя фактов. Его Novelty Score близок к нулю.
  3. Документ A3 (Добавление деталей): Сайт проводит расследование и сообщает, что «iPhone 17» получит новый чип «A19» (Nugget 4) и камеру «48MP» (Nugget 5). Этот сайт получает высокий Novelty Score, так как ввел новые важные фрагменты.
  4. Документ A4 (Новые взаимодействия): Сайт сообщает, что производство чипа «A19» (Nugget 4) задерживается на заводе «TSMC» (Nugget 6) из-за «Проблем с литографией» (Nugget 7). Это вводит новые сущности и критически важные взаимодействия. Документ A4 получает наивысший Novelty Score и занимает первое место в новостном кластере.

Действия SEO-специалиста для сайта A4: Убедиться, что ключевые новые факты (A19, TSMC, Проблемы с литографией) и их связь расположены в первом или втором предложении статьи для максимизации WTF.

Вопросы и ответы

Что такое «Information Nugget» в контексте этого патента?

Это ключевая единица информации в тексте. Патент определяет их как последовательности текста, несущие информацию, и приводит конкретные примеры: именованные сущности (имена людей, организаций, локаций), термины, встречающиеся в заголовке документа, и числа (например, статистика, даты). Для SEO это означает, что наличие и новизна конкретных фактов и сущностей в статье напрямую влияют на ее ранжирование в темпоральных последовательностях.

Что такое «Interaction» и почему это важно?

Interaction — это пара информационных фрагментов, которые встречаются близко друг к другу в тексте (например, в одном предложении). Это отражает связь между сущностями или фактами. Например, в предложении «CEO уволил Директора», «CEO» и «Директор» образуют взаимодействие. Важность этого в том, что система ценит не только новые факты, но и новые связи между фактами. Документ, который первым раскрывает важную связь, получит высокий Novelty Score.

Как метрика WTF (Weighted Term Frequency) влияет на написание текстов?

WTF взвешивает важность информации обратно пропорционально глубине предложения, в котором она находится. Чем раньше фрагмент встречается в тексте, тем выше его вес. Это прямое подтверждение необходимости использовать принцип «перевернутой пирамиды»: самая важная и новая информация должна быть в первых абзацах. Длинные вступления снижают потенциальный Novelty Score.

Как система определяет, какой документ был первым, если два сайта опубликовали новость почти одновременно?

Система использует временные метки (timestamps) для построения темпоральной последовательности. Патент также упоминает механизм для обработки почти одновременных публикаций: вместо того, чтобы отдавать весь кредит за новизну строго первому документу, кредит может быть разделен между всеми документами, опубликованными в течение короткого временного окна (например, T=15 минут) после первого введения информации.

Применяется ли этот патент только к Google News?

Хотя основное применение описано в контексте новостных агрегаторов и блогов, механизмы оценки новизны могут применяться в любом месте, где Google нужно ранжировать темпорально упорядоченный контент. Это может включать основную выдачу по запросам, требующим свежести (QDF), или специальные блоки с актуальной информацией (Top Stories). Если ваш контент конкурирует в трендовой тематике, он, вероятно, оценивается по схожим принципам.

Что важнее для Novelty Score: ввести совершенно новый факт или дополнить существующий?

Патент описывает оба варианта как способы получения высокого Novelty Score. Введение совершенно нового, важного фрагмента (First Introduction) дает значительный прирост. Однако значительное дополнение или уточнение существующей информации (Total Improvement / Delta Importance) также высоко ценится. Выбор стратегии зависит от стадии развития темы: в начале важнее новые факты, позже — глубина и новые связи.

Как рассчитывается важность фрагмента для всей последовательности (Ns)?

Патент предлагает несколько способов, чаще всего это агрегация важности фрагмента по всем документам (Cumulative Na). Например, если фрагмент часто упоминается и всегда в начале статей (высокий WTF), его общая важность Ns будет высокой. Это означает, что первичное введение такого важного фрагмента даст больший Novelty Score, чем введение минорного факта.

Как этот патент связан с E-E-A-T?

Патент напрямую не упоминает E-E-A-T или авторитетность сайта как факторы в расчете Novelty Score; расчет основан на контенте и времени. Однако он тесно связан с понятием экспертизы через фокус на оригинальном контенте. Сайты, которые постоянно генерируют высокий Novelty Score, демонстрируют экспертизу и часто являются первоисточниками (Original Reporting), что способствует укреплению их E-E-A-T сигналов.

Как система обрабатывает числа как Information Nuggets?

Патент указывает, что числа могут быть квантованы (quantized suitably). Это означает, что система может распознавать эквивалентность близких значений. Например, если один источник указывает высоту горы как 29,000 футов, а другой – 29,028 футов, система может определить, что это эквивалентные Information Nuggets, и не будет считать второе значение новым фактом.

Что делать, если моя статья является аналитикой или мнением, а не новостью с новыми фактами?

Если статья не содержит новых фактических Information Nuggets, она, вероятно, получит низкий Novelty Score в рамках этого конкретного алгоритма. Однако это не означает, что она не будет ранжироваться по другим факторам. Для аналитики важно создавать новые Interactions — предлагать новые интерпретации или устанавливать ранее не очевидные связи между известными фактами, что также может быть расценено как новизна.

Похожие патенты

Как Google оценивает качество новостных источников, кластеризует статьи и ранжирует новости на основе свежести, оригинальности и авторитетности
Детальный разбор основополагающего патента Google News. Система оценивает источники по скорости реакции на события, оригинальности контента и авторитетности (ссылки, просмотры). Новостные сюжеты (кластеры) ранжируются по свежести и качеству источников. Статьи внутри сюжета сортируются с использованием «Модифицированной оценки свежести», которая дает значительное преимущество авторитетным изданиям.
  • US7568148B1
  • 2009-07-28
  • Свежесть контента

  • EEAT и качество

Как Google вычисляет схожесть документов, используя значимость слов, их описательность и распознавание фраз
Google использует алгоритм для определения схожести документов, который превосходит традиционный TF-IDF. Система вычисляет Оценку Значимости (Prominence Score) и Оценку Описательности (Descriptiveness Score) для отдельных слов и фраз. Учитывается, где именно на странице расположены термины и насколько информативными они являются в целом. Это позволяет точнее определять релевантность и тематическую близость контента.
  • US7958136B1
  • 2011-06-07
  • Семантика и интент

Как Google адаптирует ранжирование контента под частоту посещений пользователя, балансируя между важностью и новизной
Google использует механизм для персонализации лент контента (например, Новости, Discover). Система анализирует, как часто пользователь запрашивает контент. Для частых посетителей приоритет отдается новизне, чтобы избежать повторов. Для редких посетителей приоритет отдается важности контента, чтобы они не пропустили ключевые материалы, даже если они были опубликованы давно.
  • US9477376B1
  • 2016-10-25
  • Персонализация

  • Поведенческие сигналы

  • Свежесть контента

Как Google находит, оценивает и показывает «интересные факты» о сущностях в поиске
Google идентифицирует «уникальные» или «интересные» факты о сущностях, анализируя документы, на которые ссылаются с использованием триггеров (например, «fun facts»). Система извлекает предложения, кластеризует их для поиска лучшей формулировки и оценивает качество факта на основе авторитетности источника, уникальности терминов и топикальности. Эти факты затем показываются в выдаче в виде специальных блоков.
  • US11568274B2
  • 2023-01-31
  • Knowledge Graph

  • Семантика и интент

  • EEAT и качество

Как Google агрегирует новости, блоги и форумы в «Кластеры историй» и ранжирует комментарии на основе аккредитации и экспертности авторов
Патент Google, описывающий систему агрегации новостного контента из разных жанров (СМИ, блоги, форумы) в единые «Кластеры историй». Система ранжирует эти кластеры, учитывая жанр источника, и применяет сложный алгоритм для ранжирования комментариев, отдавая приоритет «аккредитованным» экспертам и лицам, непосредственно упомянутым в новостях.
  • US9760629B1
  • 2017-09-12
  • EEAT и качество

  • Свежесть контента

  • Семантика и интент

Популярные патенты

Как Google алгоритмически вычисляет и ранжирует экспертов по темам на основе анализа их контента
Google использует систему для автоматического определения экспертности авторов (Identities) в конкретных темах (Topics). Система анализирует корпус документов, оценивая, насколько сильно автор связан с документом (Identity Score) и насколько документ релевантен теме (Topic Score). Эти оценки перемножаются и суммируются по всем документам, формируя итоговый рейтинг экспертности автора в данной области.
  • US8892549B1
  • 2014-11-18
  • EEAT и качество

  • Семантика и интент

Как Google персонализирует поисковые подсказки (Autocomplete) на основе недавно просмотренного медиаконтента
Google использует информацию о недавно потребленном пользователем медиаконтенте (видео, аудио, книги, игры) для персонализации поисковых подсказок. Система извлекает атрибуты (аспекты) из этого контента, такие как названия, имена актеров или артистов, и повышает в ранжировании те подсказки, которые соответствуют этим атрибутам. Влияние потребления медиа на подсказки зависит от времени, прошедшего с момента просмотра, типа контента и того, делился ли им пользователь.
  • US9268880B2
  • 2016-02-23
  • Персонализация

  • Семантика и интент

  • Мультимедиа

Как Google оценивает качество изображений, комбинируя визуальные характеристики, распознанный контент и социальные сигналы для ранжирования
Google использует систему для автоматического определения качества изображений, анализируя три класса характеристик: техническое качество (резкость, экспозиция), содержание (объекты, лица, ландшафты) и социальную популярность (просмотры, шеры, рейтинги). Система присваивает баллы этим характеристикам, взвешивает их (учитывая репутацию пользователей, оставивших отзывы) и формирует общий рейтинг для выбора лучших изображений.
  • US9858295B2
  • 2018-01-02
  • Мультимедиа

  • Поведенческие сигналы

  • SERP

Как Google ранжирует и рекомендует источники контента (каналы, профили) на основе внутренних ссылок, аннотаций и кликов по ним
Google использует механизм для ранжирования и рекомендации источников контента (например, YouTube-каналов или профилей) внутри платформ. Система анализирует, как часто источник упоминается в аннотациях, описаниях и комментариях к контенту, который просматривал пользователь. Ключевым фактором ранжирования является не только количество упоминаний, но и общее число кликов (активаций) по этим ссылкам.
  • US9235625B2
  • 2016-01-12
  • Ссылки

  • Поведенческие сигналы

  • Мультимедиа

Как Google находит, оценивает и показывает «интересные факты» о сущностях в поиске
Google идентифицирует «уникальные» или «интересные» факты о сущностях, анализируя документы, на которые ссылаются с использованием триггеров (например, «fun facts»). Система извлекает предложения, кластеризует их для поиска лучшей формулировки и оценивает качество факта на основе авторитетности источника, уникальности терминов и топикальности. Эти факты затем показываются в выдаче в виде специальных блоков.
  • US11568274B2
  • 2023-01-31
  • Knowledge Graph

  • Семантика и интент

  • EEAT и качество

Как Google использует цепочки запросов и время взаимодействия для определения и ранжирования результатов, которые действительно нужны пользователям
Google анализирует последовательности запросов пользователей (цепочки запросов) и время между кликами и последующими запросами (время взаимодействия), чтобы определить удовлетворенность пользователя. Если пользователи часто переформулируют Запрос А в Запрос Б, прежде чем найти удовлетворительный результат, Google использует эти данные, чтобы ранжировать этот удовлетворительный результат выше по исходному Запросу А и предлагать Запрос Б в качестве связанного поиска.
  • US9342600B1
  • 2016-05-17
  • Поведенческие сигналы

  • Семантика и интент

  • SERP

Как Google определяет связанность документов с использованием Co-citation, анализа текста вокруг ссылок и паттернов пользовательского доступа
Google использует методы для ограничения результатов поиска на основе заданного контекста (например, набора URL-адресов или категории). Патент детализирует, как система определяет «связанность» между документами, используя такие методы, как анализ совместного цитирования (co-citation), анализ текста, окружающего ссылки в цитирующих документах, и анализ корреляции паттернов доступа пользователей.
  • US7305380B1
  • 2007-12-04
  • Ссылки

  • SERP

  • Поведенческие сигналы

Как Google использует "ложные пропуски" (Fake Skips) для точной оценки качества своих правил синонимов
Google анализирует поведение пользователей для оценки качества синонимов, используемых при переписывании запросов. Патент вводит метрику "Fake Skip" (Ложный пропуск). Она фиксируется, если пользователь пропустил результат с синонимом, но кликнул на результат ниже, который также содержит этот синоним и исходный термин. Это позволяет точнее калибровать систему синонимов и не пессимизировать хорошие правила из-за неоднозначного поведения пользователей.
  • US8909627B1
  • 2014-12-09
  • Поведенческие сигналы

  • Семантика и интент

  • SERP

Как Google извлекает готовые ответы из авторитетных источников для формирования Featured Snippets
Google использует систему для предоставления прямых ответов на естественном языке (в виде абзацев или списков) на запросы с четким намерением. Система заранее анализирует авторитетные источники, извлекает пары «заголовок-текст», соответствующие популярным шаблонам вопросов, и сохраняет их в специальной базе данных. При получении соответствующего запроса система извлекает готовый ответ из этой базы и отображает его в выдаче.
  • US9448992B2
  • 2016-09-20
  • Семантика и интент

  • EEAT и качество

  • Индексация

Как Google проверяет работоспособность Deep Links и обратную совместимость перед индексированием контента мобильных приложений
Google использует автоматизированную систему верификации для индексирования контента мобильных приложений. Перед добавлением в индекс система эмулирует запуск приложения по Deep Link, проверяя корректность загрузки, отсутствие ошибок и соответствие контента связанной веб-странице. Также система тестирует обратную совместимость ссылок при обновлениях приложения, гарантируя, что в поиск попадают только функциональные результаты.
  • US9645980B1
  • 2017-05-09
  • Индексация

  • Ссылки

  • Техническое SEO

seohardcore