Как Google вычисляет Оценку Оригинальности Сайта (Site Originality Score) для борьбы со скопированным контентом

DETECTING CONTENT SCRAPING (Обнаружение скрапинга контента)

US8909628B1
Google LLC
2012-11-02
2014-12-09

Google использует систему для количественной оценки оригинальности контента на уровне сайта. Система анализирует, какая доля контента (n-граммы) на сайте впервые появилась именно на нем, основываясь на дате первого сканирования (Crawl Time Stamp). На основе этого соотношения вычисляется Оценка Оригинальности Сайта (Site Originality Score), которая затем используется как фактор ранжирования для продвижения первоисточников и понижения сайтов-копипастеров.

Какую проблему решает

Патент решает проблему идентификации и противодействия скрапингу (копированию) контента между разными сайтами. Цель изобретения — разработать механизм для количественной оценки того, является ли сайт преимущественно первоисточником контента или агрегатором/копипастером чужого контента. Это позволяет поисковой системе продвигать сайты с более оригинальным контентом по сравнению с сайтами, копирующими контент из других источников.

Что запатентовано

Запатентована система для вычисления Site Originality Score (Оценки Оригинальности Сайта). Эта оценка представляет собой меру оригинальности контента на сайте. Она рассчитывается путем определения соотношения количества контента (измеренного в n-граммах), который впервые был обнаружен поисковой системой на этом сайте, к общему количеству контента, отобранного с этого сайта. Эта оценка используется как сигнал для ранжирования ресурсов.

Как это работает

Система работает следующим образом:

Сэмплирование: Из ресурсов на анализируемом сайте отбираются образцы контента (n-граммы или шинглы).
Определение происхождения: Для каждой отобранной n-граммы система проверяет базу данных Shingles Data, чтобы найти самую раннюю временную метку сканирования (Crawl Time Stamp) этой n-граммы во всем веб-корпусе.
Атрибуция: Если URL, связанный с самой ранней временной меткой, принадлежит анализируемому сайту, n-грамма засчитывается как оригинальная для этого сайта.
Наследование (Inheritance): Если оригинальный источник больше не содержит эту n-грамму, право оригинальности может быть передано сайту со следующей самой ранней временной меткой.
Расчет оценки: Вычисляется Site Originality Score как соотношение (Ratio) агрегированного количества оригинальных n-грамм к общему количеству отобранных n-грамм.

Актуальность для SEO

Высокая. Приоритезация оригинального контента и борьба со скрапингом остаются фундаментальными задачами для Google. Этот патент описывает конкретный механизм для количественной оценки оригинальности на уровне сайта, что напрямую связано с текущими усилиями по улучшению качества поиска (например, Helpful Content System) и вознаграждению создателей контента.

Важность для SEO

Патент имеет критическое значение (9/10) для SEO. Он описывает конкретный механизм, с помощью которого Google математически оценивает оригинальность сайта и использует эту оценку (Site Originality Score) как фактор ранжирования. Сайты, которые систематически копируют контент, будут иметь низкую оценку и могут быть понижены в выдаче, в то время как первоисточники получат преимущество. Это напрямую влияет на стратегии создания контента и скорость индексации.

Термины и определения

Crawl Time Stamp (Временная метка сканирования): Метка времени, указывающая, когда конкретная n-грамма (шингл) была просканирована поисковой системой на определенном URL. Используется для определения первоисточника контента.
Earliest Crawl Time Stamp (Самая ранняя временная метка сканирования): Самая первая временная метка, когда система обнаружила конкретную n-грамму в интернете.
Inheritance (Наследование): Механизм, при котором сайт может унаследовать статус "оригинального" для определенной n-граммы, даже если изначально она появилась на другом сайте. Это происходит, если n-грамма больше не доступна на исходном сайте, а у наследующего сайта следующая самая ранняя Crawl Time Stamp.
MinHash: Алгоритм хеширования, упомянутый в описании как возможный метод для последовательного и эффективного сэмплирования n-грамм из ресурсов.
N-gram (N-грамма): Непрерывная последовательность из N элементов (например, слов) из заданного текста. В патенте упоминаются значения N от 1 до 10.
Shingle (Шингл): Термин, используемый как синоним n-граммы. Непрерывная подпоследовательность слов, полученная из ресурсов.
Shingles Data (Данные о шинглах): База данных, содержащая шинглы, URL-адреса, где они были обнаружены, и соответствующие Crawl Time Stamp. Включает указание на URL, где шингл был впервые просканирован.
Site (Сайт): Коллекция ресурсов. Может быть определен гибко: как домен (example.com), субдомен (www.example.com) или поддиректория (example.com/subdirectory/).
Site Originality Score (Оценка оригинальности сайта): Метрика, представляющая меру оригинальности контента на сайте. Рассчитывается на основе соотношения оригинального контента к общему объему контента на сайте.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод определения оригинальности и его использование в поиске.

Идентификация множества n-грамм в ресурсах, связанных с определенным веб-сайтом.
Определение для каждого ресурса количества n-грамм, которые произошли из этого ресурса. Происхождение определяется на основе самой ранней Crawl Time Stamp для n-граммы.
Вычисление первого агрегированного количества (First Aggregate Count) n-грамм, которые произошли с этого веб-сайта.
Вычисление второго агрегированного количества (Second Aggregate Count) всех идентифицированных n-грамм на этом веб-сайте.
Определение Site Originality Score для веб-сайта на основе первого и второго агрегированных количеств.
Использование Site Originality Score при ранжировании результатов поиска, идентифицирующих ресурсы этого веб-сайта в ответ на поисковый запрос.

Ядром изобретения является метод количественной оценки оригинальности сайта на основе временных меток первого сканирования контента и использование этой оценки как фактора ранжирования.

Claim 2 (Зависимый от 1): Уточняет метод идентификации (сэмплирования) n-грамм.

Идентификация n-грамм включает вычисление хеш-значения (hash value) для каждой n-граммы в ресурсе и выбор множества n-грамм на основе их хеш-значений. (В описании патента упоминается алгоритм MinHash и выбор n-грамм с наивысшими хеш-значениями для обеспечения согласованности).

Claim 4 (Зависимый от 1): Определяет формулу расчета Site Originality Score.

Оценка вычисляется как отношение (Ratio) числителя и знаменателя. Числитель основан на первом агрегированном количестве (оригинальные n-граммы), а знаменатель — на втором (все n-граммы).

Claims 5, 6, 7 (Зависимые от 4): Описывают модификации формулы.

Отношение может быть умножено на заданное значение (Claim 5), к отношению может быть добавлено заданное значение (Claim 6), или и то, и другое (Claim 7). Это позволяет калибровать итоговую оценку.

Claim 9 (Независимый пункт): Описывает метод с акцентом на механизм наследования (Inheritance).

Процесс аналогичен Claim 1, но явно включает условие наследования: n-грамма, которая произошла с другого сайта, наследуется анализируемым сайтом, если она больше не доступна на другом сайте, и Crawl Time Stamp для n-граммы на анализируемом сайте является следующей самой ранней временной меткой (next earliest crawl time stamp).

Где и как применяется

Изобретение затрагивает несколько ключевых этапов поиска, полагаясь на данные, собранные во время сканирования, для вычисления метрик на этапе индексирования, которые затем используются при ранжировании.

CRAWLING – Сканирование и Сбор данных
На этом этапе система собирает контент и, что критически важно для этого патента, фиксирует Crawl Time Stamp для обнаруженного контента (n-грамм). Точность и частота сканирования напрямую влияют на способность системы определять первоисточник.

INDEXING – Индексирование и извлечение признаков
Это основной этап применения логики патента.

Извлечение признаков: Система извлекает n-граммы (шинглы) из ресурсов.
Хранение данных: Система обновляет Shingles Data, сохраняя связь между шинглом, URL и Crawl Time Stamp.
Вычисление метрик: Site Originality Engine анализирует эти данные (вероятно, в офлайн-режиме или в процессе индексации) для вычисления и обновления Site Originality Score для различных сайтов (доменов, субдоменов или директорий).

RANKING – Ранжирование
На этом этапе Site Originality Score используется как сигнал ранжирования. Ranking Engine использует эту оценку как часть вычисления итоговых оценок для ресурсов, найденных на этом сайте. Сайты с более высоким Site Originality Score могут получить преимущество.

Входные данные:

Ресурсы (веб-страницы) сайта (Site Data).
Глобальная база данных Shingles Data с URL и Crawl Time Stamp.

Выходные данные:

Site Originality Score для анализируемого сайта.

На что влияет

Конкретные типы контента: Наибольшее влияние оказывается на текстовый контент, который легко копировать (новости, статьи, описания товаров, блоги).
Конкретные ниши или тематики: Сильное влияние в нишах, где распространено агрессивное копирование контента, например, в новостных агрегаторах, некоторых сегментах e-commerce, сайтах с рецептами или текстами песен.
Определение сайта: Патент указывает, что система может применять оценку не только к домену в целом, но и к субдоменам или поддиректориям, рассматривая их как отдельные "сайты" для анализа оригинальности.

Когда применяется

Временные рамки: Оценка может рассчитываться за определенное временное окно (например, за последнюю неделю или месяц) или на основе всех доступных данных сканирования.
Частота применения: Вычисление Site Originality Score происходит периодически во время индексации/анализа корпуса. Применение оценки происходит в реальном времени во время ранжирования результатов поиска.

Пошаговый алгоритм

Процесс вычисления Site Originality Score

Определение границ сайта: Система определяет набор ресурсов, составляющих "сайт" (домен, субдомен или поддиректория).
Сэмплирование N-грамм: Система отбирает образцы n-грамм из ресурсов сайта. Это может быть сделано методично, например, с использованием MinHash для выбора n-грамм с наивысшими хеш-значениями для обеспечения согласованности выборки.
Определение происхождения N-грамм: Для каждой отобранной n-граммы система обращается к Shingles Data для идентификации URL, связанного с самой ранней Crawl Time Stamp (Earliest Crawl Time Stamp) для этой n-граммы.
Проверка наследования (Inheritance Check): Если самая ранняя метка принадлежит другому сайту, система проверяет, доступна ли эта n-грамма все еще на том сайте.
- Если ДА: Атрибуция остается за другим сайтом. (В описании патента упоминается исключение: если разница во времени минимальна, например, менее дня, оригинальность может быть засчитана).
- Если НЕТ: Система ищет следующую самую раннюю Crawl Time Stamp. Если она принадлежит анализируемому сайту, он наследует статус оригинала.
Подсчет и Агрегация: Система подсчитывает:
- F (First aggregate count): Количество отобранных n-грамм, которые произошли (или были унаследованы) с анализируемого сайта.
- T (Second aggregate count): Общее количество отобранных n-грамм с сайта.
Вычисление Оценки: Система вычисляет Site Originality Score, используя F и T. Например, по формуле $(F/T) * C + Z$ , где C и Z — константы.
Применение в Ранжировании: Ranking Engine использует полученную оценку как сигнал для ранжирования ресурсов сайта.

Какие данные и как использует

Данные на входе

Система полагается на следующие типы данных:

Контентные факторы: Текст ресурсов используется для генерации n-грамм (шинглов). Структура и последовательность слов критически важны.
Технические факторы: URL-адреса ресурсов используются для атрибуции происхождения контента и определения границ сайта.
Временные факторы: Crawl Time Stamp является ключевым элементом данных. Он используется для определения того, какой сайт первым представил определенный фрагмент контента.

Какие метрики используются и как они считаются

First Aggregate Count (F): Агрегированное количество n-грамм, отобранных с сайта, которые были впервые обнаружены системой на этом сайте (или унаследованы им).
Second Aggregate Count (T): Общее агрегированное количество n-грамм, отобранных с сайта.
Site Originality Score: Основная метрика, рассчитываемая на основе F и T. Патент предлагает несколько вариантов формул:
- Базовое отношение: $F/T$
- С множителем (C): $(F/T) * C$
- Со смещением (Z): $(F/T) + Z$
- Комбинированная: $(F/T) * C + Z$
Методы анализа текста: Используется шинглирование (n-gram generation) и хеширование (например, MinHash) для эффективного сравнения и согласованного сэмплирования контента.

Оригинальность как количественный фактор ранжирования на уровне сайта: Патент четко устанавливает, что Google имеет механизм для математического расчета оригинальности сайта (Site Originality Score) и использует его для ранжирования результатов поиска (Claim 1). Это не просто фильтр дубликатов, а именно оценка всего сайта (или его раздела).
Зависимость от скорости сканирования (Crawl Speed): Определение первоисточника полностью основано на Crawl Time Stamp. Сайт, который был просканирован первым, признается оригиналом. Это подчеркивает критическую важность скорости индексации для создателей контента.
Механизм наследования (Inheritance) для управления жизненным циклом контента: Система учитывает динамику интернета. Если первоисточник исчезает (например, удаляет статью или происходит миграция сайта), статус оригинала не теряется, а передается следующему сайту в хронологическом порядке (Claim 9).
Гибкость в определении "Сайта": Система может анализировать оригинальность не только на уровне домена, но и на уровне субдоменов или поддиректорий. Это позволяет дифференцированно оценивать платформы с пользовательским контентом (UGC) или крупные порталы.
Согласованное сэмплирование через хеширование: Использование хеширования (например, MinHash) для выбора n-грамм гарантирует, что система сравнивает сайты последовательно и эффективно, не требуя анализа всего контента.

Best practices (это мы делаем)

Обеспечение максимально быстрой индексации: Поскольку статус оригинала определяется тем, кто был просканирован первым (Crawl Time Stamp), критически важно оптимизировать скорость обнаружения и сканирования нового контента. Используйте XML Sitemaps, Google Indexing API (где применимо) и обеспечьте высокую скорость ответа сервера.
Публикация оригинального контента: Основной вывод: для достижения высокого Site Originality Score необходимо сосредоточиться на создании уникального контента, который не был опубликован ранее где-либо еще.
Тщательное управление миграциями сайтов: При смене домена механизм наследования (Inheritance) может помочь сохранить накопленный "кредит оригинальности". Необходимо обеспечить корректный переезд (301 редиректы), чтобы помочь системе связать старый и новый домены.
Структурирование крупных сайтов (UGC): Если сайт содержит как авторский контент, так и агрегированный/UGC, рассмотрите возможность их разделения на разные субдомены или поддиректории. Это позволит системе оценивать Site Originality Score для этих разделов независимо.
Управление синдикацией: Если вы синдицируете контент, убедитесь, что ваша версия индексируется первой. Рекомендуйте партнерам использовать rel="canonical", указывающий на ваш оригинал, чтобы консолидировать сигналы.

Worst practices (это делать не надо)

Скрапинг и автоматическое копирование контента: Этот патент напрямую направлен против таких практик. Сайты, занимающиеся этим, будут иметь низкий Site Originality Score и рискуют быть пониженными в ранжировании.
Задержка публикации после синдикации: Если вы публикуете контент у себя позже, чем на сторонних платформах (например, соцсети, блог-платформы), вы рискуете потерять статус первоисточника, если они будут просканированы быстрее.
Медленный хостинг и проблемы с доступностью: Если Googlebot не может быстро сканировать ваш сайт, возрастает риск того, что ваш контент будет впервые проиндексирован на сайте скрейпера, и вы потеряете статус первоисточника.
Использование стандартных описаний (E-commerce): Использование описаний товаров от поставщиков или производителей без уникализации снижает Site Originality Score магазина.

Стратегическое значение

Этот патент подтверждает стратегию Google по вознаграждению создателей оригинального контента и борьбе с веб-спамом в виде скрапинга. Site Originality Score является мощным инструментом для автоматического определения ценности источника. Долгосрочная SEO-стратегия должна быть построена на создании уникальной ценности. Для новостных сайтов и блогов скорость публикации и индексации становится не просто преимуществом, а необходимостью для поддержания статуса первоисточника.

Практические примеры

Сценарий 1: Новостной сайт и агрегатор

Действие: Новостной сайт (Сайт А) публикует срочную новость в 10:00. Агрегатор (Сайт Б) копирует её в 10:05.
Обработка Google: Сайт А использует Indexing API. Googlebot сканирует Сайт А в 10:01 и фиксирует Crawl Time Stamp для n-грамм этой новости. Googlebot сканирует Сайт Б в 10:07.
Результат: Система определяет Сайт А как первоисточник. При расчете Site Originality Score эта новость увеличивает числитель (F) для Сайта А. Для Сайта Б она увеличивает только знаменатель (T), тем самым снижая его общую оценку оригинальности. Сайт А получает преимущество в ранжировании.

Сценарий 2: Миграция домена и наследование

Действие: Авторитетный блог (OldBlog.com) провел ребрендинг и переехал на NewBlog.com. Настроены 301 редиректы, и OldBlog.com постепенно удаляется из индекса.
Обработка Google: Изначально n-граммы контента были атрибутированы OldBlog.com. По мере удаления старого сайта из индекса система обнаруживает, что контент там больше не доступен.
Результат: Благодаря механизму Inheritance, система проверяет следующую самую раннюю Crawl Time Stamp для этих n-грамм, которая теперь принадлежит NewBlog.com. NewBlog.com наследует статус оригинала, сохраняя высокий Site Originality Score.

Что важнее для определения первоисточника: дата публикации, указанная на сайте, или дата сканирования Google (Crawl Time Stamp)?

Согласно патенту, система полагается исключительно на Crawl Time Stamp — время, когда контент был фактически обнаружен поисковой системой. Дата, указанная на сайте или в микроразметке, не упоминается в этом патенте как фактор для расчета Site Originality Score. Поэтому критически важно обеспечить быструю индексацию контента.

Как этот патент влияет на синдикацию контента? Теряю ли я оригинальность, если разрешаю другим сайтам перепечатывать мои статьи?

Да, это представляет риск. Если партнерский сайт будет просканирован с вашим контентом раньше, чем ваш собственный сайт, партнер может быть признан первоисточником для расчета Site Originality Score. Чтобы минимизировать этот риск, убедитесь, что ваш сайт индексируется первым, и требуйте от партнеров использования тега rel="canonical", указывающего на ваш оригинал.

Как работает механизм наследования (Inheritance) при миграции сайта?

Если вы переносите контент на новый домен (Сайт Б) со старого (Сайт А), изначально Сайт А является оригиналом. Механизм наследования активируется, когда контент становится недоступным на Сайте А (например, после обработки редиректов). Система ищет следующую самую раннюю Crawl Time Stamp для этого контента. Если это Сайт Б, он наследует статус оригинала. Это помогает сохранить Site Originality Score после миграции.

Влияет ли этот алгоритм на сайты с пользовательским контентом (UGC)?

Да. Если пользователи копируют контент с других сайтов и публикуют его на UGC-платформе, это снизит Site Originality Score платформы. Однако патент упоминает, что "сайт" может быть определен как субдомен или поддиректория. Разделение UGC и авторского контента на разные субдомены может помочь изолировать влияние низкокачественного UGC на основной контент сайта.

Как система обеспечивает последовательность при выборе образцов контента (сэмплировании)?

Система использует методический подход с использованием хеширования (например, MinHash, упомянутый в описании). Вместо случайного выбора, система вычисляет хеши для всех n-грамм и может выбрать те, у которых самые высокие хеш-значения. Это гарантирует, что при повторном анализе того же контента будут выбраны те же самые образцы, обеспечивая согласованность оценки.

Если я перепишу статью (сделаю рерайт), будет ли она считаться оригинальной?

Это зависит от глубины переработки. Система анализирует n-граммы (последовательности слов). Если рерайт достаточно глубокий, чтобы сгенерировать новые n-граммы, которые ранее не встречались в интернете, контент будет считаться оригинальным с точки зрения этого алгоритма. Если же изменения поверхностны и значительная часть n-грамм совпадает с уже существующим контентом, это может негативно повлиять на оценку.

Что произойдет, если два сайта опубликуют идентичный контент почти одновременно?

В описании патента упоминается возможность использования временного порога (threshold time). Если разница между сканированием контента на Сайте А и Сайте Б очень мала (например, в пределах одного дня), система может засчитать оригинальность обоим сайтам или применить более мягкую логику, чтобы не наказывать за почти одновременную публикацию.

Является ли Site Originality Score оценкой на уровне страницы или сайта?

Это оценка на уровне сайта (Site Originality Score). Система агрегирует данные об оригинальности n-грамм со всех ресурсов сайта для вычисления итоговой оценки. Эта общая оценка затем используется как сигнал при ранжировании отдельных ресурсов этого сайта.

Как этот патент влияет на E-commerce сайты, использующие описания от поставщиков?

Это оказывает значительное негативное влияние. Описания от поставщиков или производителей обычно индексируются на их сайтах или на сайтах крупных ритейлеров раньше. Использование этих стандартных описаний снижает Site Originality Score магазина. Для успешного SEO в E-commerce критически важно создавать уникальные описания товаров и добавлять уникальный контент.

Как этот патент связан с Helpful Content System (HCS)?

Существует прямая концептуальная связь. HCS нацелена на поощрение полезного и оригинального контента. Site Originality Score предоставляет конкретную метрику для оценки оригинальности на уровне сайта, что является ключевым компонентом того, что Google считает "полезным контентом". Низкая оценка оригинальности может быть сильным индикатором неполезного контента.

Как Google использует консенсус между сайтами для валидации ключевых слов и ранжирования изображений и видео

Google агрегирует описания (метки) изображения или видео со всех сайтов, где этот контент размещен. Чтобы метка была принята как надежная («Final Label») и использовалась для ранжирования, она должна подтверждаться несколькими независимыми группами источников (консенсус). Этот механизм двойной группировки (по домену и по смыслу) снижает влияние спама и значительно повышает релевантность поиска медиаконтента.

US8275771B1
2012-09-25

Антиспам
Семантика и интент
Мультимедиа

Как Google определяет оригинальность контента для расчета Авторского Ранга (Author Rank) и влияния на ранжирование

Google использует систему для идентификации оригинального контента и повышения авторитета его создателей. Система разбивает документы на фрагменты (content pieces) и отслеживает их первое появление. Авторы (включая домены) ранжируются на основе количества созданного ими оригинального контента и частоты его копирования другими. Ранг автора затем используется для повышения в выдаче документов этого автора, особенно свежих публикаций.

US8983970B1
2015-03-17

EEAT и качество
Свежесть контента
SERP

Как Google использует данные аналитики в реальном времени и контролируемый трафик для установления оригинального авторства контента

Google патентует метод для точной идентификации автора контента до того, как его обнаружит веб-краулер. Система использует уникальные идентификаторы (например, код веб-аналитики) и отслеживает первую активность автора с неопубликованным контентом (например, переходы по скрытым ссылкам между черновиками). Это позволяет зафиксировать временную метку в реальном времени, защищая от плагиата и обеспечивая корректную атрибуцию в поиске.

US9372927B1
2016-06-21

EEAT и качество
Индексация
Краулинг

Как Google определяет свежесть документа, анализируя возраст ссылающихся страниц и динамику появления ссылок (Link Velocity)

Google использует методы для оценки свежести документа, когда дата его обновления неизвестна или ненадежна. Система анализирует даты обновления страниц, которые ссылаются на документ, а также историю появления и удаления этих ссылок (Link Velocity). Если на документ ссылаются недавно обновленные страницы или количество ссылок растет, он считается свежим.

US7797316B2
2010-09-14

Свежесть контента
Ссылки
Техническое SEO

Как Google использует исторические данные о документах, ссылках и поведении пользователей для определения свежести, качества и борьбы со спамом

Фундаментальный патент Google, описывающий использование временных рядов данных для ранжирования. Система анализирует историю документа (дату создания, частоту и объем обновлений), историю ссылок (скорость появления, возраст, изменения анкоров), тренды запросов и поведение пользователей. Эти данные используются для определения свежести контента, выявления неестественной активности (спама) и оценки легитимности домена.

US7346839B2
2008-03-18

Свежесть контента
Антиспам
Ссылки

Как Google планировал использовать социальные связи, сети доверия и экспертизу для персонализации и переранжирования поисковой выдачи

Google запатентовал метод использования данных из социальных сетей («member networks») для влияния на ранжирование. Пользователи могли явно одобрять («endorse») результаты поиска. Эти одобрения показывались другим связанным пользователям (друзьям или людям, ищущим экспертное мнение) и использовались для переранжирования выдачи, добавляя персонализированный слой доверия.

US8825639B2
2014-09-02

Персонализация
EEAT и качество
Поведенческие сигналы

Как Google использует фразы и тематические кластеры из истории пользователя для персонализации результатов поиска

Google может строить модель интересов пользователя, анализируя семантически значимые фразы и тематические кластеры в контенте, который пользователь потребляет (просматривает, сохраняет, печатает). При последующих запросах система повышает в ранжировании те документы, которые содержат фразы, одновременно релевантные запросу и присутствующие в профиле интересов пользователя.

US7580929B2
2009-08-25

Персонализация
Семантика и интент
Поведенческие сигналы

Как Google использует генеративный ИИ для создания динамических и гиперперсонализированных бизнес-профилей

Google разрабатывает систему, которая заменяет статические бизнес-профили динамическими «курируемыми профилями», генерируемыми ИИ (например, LLM). Эти профили адаптируются в реальном времени под конкретного пользователя, учитывая его запрос, предпочтения, историю поиска и демографию, чтобы показать наиболее релевантный контент, продукты и описания бренда.

US20250054045A1
2025-02-13

Персонализация
Поведенческие сигналы
Семантика и интент

Как Google использует консенсус источников для выбора и валидации фактов в Knowledge Graph и прямых ответах

Система Google для выбора наилучшего ответа на фактические запросы. Она оценивает потенциальные ответы из разных источников и вычисляет «Оценку Поддержки» (Supported Score) на основе их согласованности. Факт отображается, только если он значительно превосходит противоречащие и несвязанные данные, обеспечивая высокую точность ответа.

US7953720B1
2011-05-31

Knowledge Graph
EEAT и качество
Семантика и интент

Как Google использует историю поиска и браузинга пользователя для персонализации и изменения результатов выдачи

Google записывает историю поиска и просмотров пользователя для последующей персонализации выдачи. Система может повышать в ранжировании ранее посещенные сайты, добавлять в текущую выдачу релевантные результаты из прошлых похожих запросов, а также понижать сайты, которые пользователь ранее видел, но проигнорировал. Патент также описывает создание "предпочитаемых локаций" на основе частоты посещений и времени пребывания на сайте.

US9256685B2
2016-02-09

Персонализация
Поведенческие сигналы
SERP

Как Google использует время пребывания на странице (Dwell Time) для оценки качества и корректировки ранжирования

Google анализирует продолжительность визитов пользователей на страницы из результатов поиска (Dwell Time). Система рассчитывает метрику, сравнивающую количество «длинных кликов» (длительных визитов) с общим количеством кликов для конкретного документа по конкретному запросу. Этот показатель используется как сигнал качества, независимый от позиции в выдаче, для повышения или понижения документа в ранжировании.

US8661029B1
2014-02-25

Поведенческие сигналы
SERP

Как Google находит фактические ответы, начиная с потенциальных ответов и связывая их с запросами пользователей (Reverse Question Answering)

Google использует метод «обратного ответа на вопрос» для эффективного поиска фактов. Вместо глубокого анализа запроса система начинает с идентификации потенциальных ответов (например, дат, измерений) в индексе. Затем она определяет, для каких запросов эти ответы релевантны, анализируя, какие документы высоко ранжируются и получают клики по этим запросам. Это позволяет точно сопоставлять факты с разнообразными формулировками вопросов.

US9116996B1
2015-08-25

Поведенческие сигналы
Семантика и интент

Как Google перенаправляет пользователей на «идеальные» запросы (KHRQ), анализируя поведение и удовлетворенность

Google анализирует логи запросов, чтобы определить «известные высокоранжированные запросы» (KHRQ) — те, которые пользователи вводят часто и которыми остаются довольны (редко переформулируют или долго изучают результаты). Система вычисляет вероятность того, что исходный запрос пользователя лучше заменить на KHRQ, основываясь на сходстве запросов и исторических цепочках переформулировок. Это позволяет направлять пользователей к наиболее эффективным формулировкам.

US7870147B2
2011-01-11

Семантика и интент
Поведенческие сигналы
SERP

Как Google определяет скрытый локальный интент в запросах для повышения релевантности местных результатов

Google использует механизм для определения того, подразумевает ли запрос (например, «ресторан») поиск локальной информации, даже если местоположение не указано. Система анализирует агрегированное поведение пользователей для расчета «степени неявной локальной релевантности» запроса. Если этот показатель высок, Google повышает в ранжировании результаты, соответствующие местоположению пользователя.

US8200694B1
2012-06-12

Local SEO
Поведенческие сигналы
Семантика и интент

Как Google персонализирует поиск, повышая в выдаче объекты, которые пользователь ранее явно отметил как интересные

Google использует механизм персонализации поисковой выдачи. Если пользователь явно отметил определенный объект (например, место, компанию, веб-страницу) как интересующий его, этот объект получит значительное повышение в ранжировании при последующих релевантных запросах этого пользователя. Уровень повышения зависит от степени интереса, указанной пользователем.

US20150242512A1
2015-08-27

Персонализация
Поведенческие сигналы
SERP