SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google использует шинглирование для обнаружения дубликатов и связывания повторяющихся фрагментов текста в разных документах

IDENTIFYING AND LINKING SIMILAR PASSAGES IN A DIGITAL TEXT CORPUS (Идентификация и связывание похожих отрывков в цифровом текстовом корпусе)
  • US8122032B2
  • Google LLC
  • 2007-07-20
  • 2012-02-21
  • Индексация
  • Ссылки
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Google использует технологию шинглирования (shingling) для анализа больших коллекций документов (например, книг или веб-страниц) с целью выявления идентичных или почти идентичных отрывков текста. Система находит общие последовательности текста, ранжирует их по значимости (длине и частоте) и создает гиперссылки между документами, содержащими эти отрывки.

Описание

Какую проблему решает

Патент решает проблему навигации в больших цифровых корпусах (Corpus), таких как оцифрованные книги (например, Google Books), где отсутствуют естественные гиперссылки между документами. Изобретение позволяет автоматически идентифицировать общие сегменты текста (цитаты, дубликаты, заимствования) и создавать навигационные ссылки между ними, улучшая пользовательский опыт и имитируя веб-браузинг.

Что запатентовано

Запатентована система (Passage Mining Engine), которая использует технику шинглирования (shingling) для обнаружения идентичных или почти идентичных отрывков текста (Similar Passages) в разных документах. Система идентифицирует общие последовательности шинглов, объединяет их, ранжирует на основе длины и частоты встречаемости («интересности») и создает структуру ссылок между документами, содержащими эти отрывки.

Как это работает

Механизм работает в несколько этапов:

  • Шинглирование (Shingling): Текст разбивается на перекрывающиеся последовательности слов фиксированной длины (shingles).
  • Генерация Таблицы Шинглов: Создается индекс (Shingle Table), сопоставляющий каждый уникальный шингл с документами и позициями, где он встречается.
  • Построение Последовательностей (Sequencing): Система идентифицирует непрерывные последовательности (Sequences) шинглов, которые являются общими для исходного и одного или нескольких целевых документов.
  • Объединение (Merging): Перекрывающиеся общие последовательности объединяются для формирования максимально длинных похожих отрывков.
  • Ранжирование (Ranking): Отрывки ранжируются на основе эвристик (длина и частота), чтобы найти наиболее «интересные» или «популярные».

Актуальность для SEO

Высокая. Технология шинглирования остается фундаментальным и эффективным методом в информационном поиске (Information Retrieval) для обнаружения дубликатов и почти дубликатов (near-duplicates) в больших масштабах. Это критически важно для индексирования, каноникализации и выявления плагиата.

Важность для SEO

Среднее влияние (6/10). Патент в первую очередь описывает инфраструктуру и функции для улучшения навигации в закрытых корпусах (например, Google Books), а не алгоритм веб-ранжирования. Однако он имеет критическое значение для понимания того, как Google алгоритмически обнаруживает дублированный, синдицированный и цитируемый контент в вебе. Понимание этого механизма необходимо для эффективного управления уникальностью контента и стратегиями синдикации.

Детальный разбор

Термины и определения

Corpus (Корпус)
Набор цифровых документов (например, книги, веб-страницы), хранящихся в системе.
Passage Mining Engine (Система анализа отрывков)
Компонент, который анализирует текст документов в корпусе для выявления похожих отрывков.
Sequence (Последовательность)
Один или несколько смежных шинглов, которые появляются в том же порядке как в исходном документе (Source Document), так и хотя бы в одном целевом документе (Target Document).
Shingle (Шингл)
Группа смежных слов в порядке чтения текста (N-грамма). Смежные шинглы перекрываются (скользящее окно).
Shingle Table (Таблица шинглов)
Индекс, который сопоставляет каждый уникальный шингл (Shingle ID) с документами (Doc ID) и позициями (Pos ID), где этот шингл встречается.
Shingle Bucket (Корзина шинглов)
Запись в Shingle Table, содержащая список всех вхождений для конкретного Shingle ID.
Similar Passage (Похожий отрывок)
Отрывок в исходном документе, который также встречается в похожей (часто идентичной) форме в одном или нескольких целевых документах. Формируется путем объединения (Merging) перекрывающихся Sequences.
Source Gap (Разрыв в источнике)
Шингл в исходном документе, который не встречается в других документах корпуса (или исключен из Shingle Table). Определяет границы между группами последовательностей.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод идентификации похожих отрывков с использованием шинглирования и секвенирования.

  1. Построение Shingle Table для корпуса.
  2. Для целевого шингла в исходном документе, идентификация других документов, содержащих его.
  3. Идентификация следующего шингла в исходном документе (расположенного сразу после целевого).
  4. Идентификация подмножества документов, которые также содержат этот следующий шингл сразу после целевого.
  5. Определение Sequence смежных шинглов, общей для исходного документа и подмножества документов.
  6. Объединение (Merging) перекрывающихся шинглов в последовательности для формирования объединенной последовательности.
  7. Определение Similar Passage на основе объединенной последовательности и его сохранение.

Это алгоритмический процесс поиска точных совпадений текстовых сегментов. Ключевым моментом является требование смежности и сохранения порядка: система итеративно проверяет, что шинглы следуют друг за другом в одинаковом порядке как в исходном, так и в целевом документе. Это обеспечивает высокую точность при поиске дубликатов и цитат.

Claim 5 (Зависимый от 1): Уточняет роль Source Gap.

Шингл, который встречается только в исходном документе (Source Gap), используется для определения границы (завершения) текущей Sequence.

Claim 6 и 7 (Зависимые от 1): Детализируют механизм ранжирования отрывков.

Similar Passage ранжируется относительно других отрывков в документе. Ранжирование основано на вычислении оценки (score), которая учитывает длину отрывка и частоту его появления в других документах корпуса.

Claim 8 и 9 (Зависимые от 1): Описывают применение результатов в пользовательском интерфейсе.

Система отображает найденный Similar Passage и предоставляет гиперссылку, позволяющую пользователю перейти к другому документу, содержащему этот отрывок.

Где и как применяется

Изобретение применяется на этапе обработки данных после их сбора.

INDEXING – Индексирование и извлечение признаков
Это основная фаза применения патента. Passage Mining Engine обрабатывает Corpus для извлечения признаков (похожих отрывков) и построения базы данных Similar Passage DB. Это включает:

  • Анализ текста: Процессы Shingling и Sequencing анализируют содержимое для выявления общих последовательностей.
  • Обнаружение дубликатов: Технология фундаментальна для систем обнаружения дубликатов и почти дубликатов.
  • Ранжирование отрывков: Процессы Merging и Ranking определяют границы и значимость общих отрывков.

Патент указывает, что этот анализ выполняется офлайн, периодически или инкрементально, а не в реальном времени в ответ на запрос.

METASEARCH (Уровень представления UI)
Результаты работы (Similar Passage DB) используются веб-сервером для генерации пользовательского интерфейса (например, в Google Books), отображения популярных фрагментов и создания гиперссылок.

Входные данные:

  • Цифровой текстовый Corpus (документы с Doc ID и позициями слов Pos ID).

Выходные данные:

  • Similar Passage DB, хранящая идентифицированные отрывки, их местоположение в разных документах и их ранги (scores).

На что влияет

  • Типы контента: Влияет на любой контент, где происходит дублирование: оцифрованные книги, описания товаров в E-commerce, синдицированные статьи, новости, юридические документы.
  • Ниши и тематики: Особенно актуально для E-commerce (описания от производителей), новостных агрегаторов и академических ресурсов (цитирование и плагиат).

Когда применяется

  • Условия работы: Алгоритм применяется во время обработки корпуса (индексирования).
  • Триггеры активации: Процесс анализа запускается при обнаружении шингла, присутствующего более чем в одном документе (т.е. не являющегося Source Gap).
  • Частота применения: Офлайн. Периодически для обновления корпуса или инкрементально при добавлении новых документов.

Пошаговый алгоритм

Процесс работы Passage Mining Engine:

  1. Подготовка и Шинглирование (Shingling):
    1. Нормализация текста (нижний регистр, токенизация, возможное удаление стоп-слов).
    2. Разбивка документов на перекрывающиеся шинглы фиксированного размера (например, 8 слов).
  2. Генерация Таблицы Шинглов (Generate Shingle Table):
    1. Создание индекса (Shingle Table), который сопоставляет каждый уникальный Shingle ID со списком (Shingle Bucket) его вхождений (Doc ID, Pos ID).
    2. Шинглы, встречающиеся только один раз, могут быть исключены (они определяют Source Gap).
  3. Построение Последовательностей (Build Shingle Sequences): Для каждого исходного документа:
    1. Итерация по шинглам документа в порядке их следования.
    2. Если шингл определяет Source Gap, завершить все активные последовательности.
    3. Если это не разрыв, найти целевые документы, содержащие этот шингл.
    4. Проверить, расширяет ли текущий шингл существующую активную последовательность в целевом документе (т.е. следует ли он непосредственно за предыдущим шинглом).
    5. Если расширяет, обновить последовательность. Если нет, завершить старую и/или начать новую.
  4. Объединение Последовательностей в Отрывки (Merge Sequences into Passages):
    1. Группировка идентифицированных последовательностей (границы часто определяются Source Gaps).
    2. Объединение перекрывающихся последовательностей внутри группы. Например, если Документ А и Б имеют общее совпадение 1-20, а Документ А и В — совпадение 10-30, они объединяются, чтобы идентифицировать полный отрывок 1-30 в Документе А.
    3. Короткие последовательности (например, менее 12 слов) могут быть отброшены.
  5. Ранжирование Отрывков (Rank Passages):
    1. Вычисление оценки (score) для каждого похожего отрывка на основе эвристик длины и частоты встречаемости.
    2. Фильтрация отрывков, которые слишком короткие/длинные или слишком частые/редкие.

Какие данные и как использует

Данные на входе

  • Контентные факторы: Основным входным сигналом является сырой текст документов. Применяется нормализация. Стоп-слова и пунктуация могут быть исключены из шинглов.
  • Структурные факторы: Система критически зависит от последовательного порядка слов (использование Pos ID) для идентификации смежных шинглов и построения последовательностей.

Какие метрики используются и как они считаются

  • Shingle Size: Предопределенное количество слов в шингле (например, 8).
  • Minimum Sequence Length: Порог минимальной длины последовательности (например, 12 слов) для фильтрации общих фраз.
  • Passage Score (Оценка отрывка): Метрика для ранжирования «интересности» отрывка. Рассчитывается на основе оценки длины (LS) и оценки частоты (FS).
  • Формула оценки: Патент предлагает использовать взвешенное геометрическое среднее:

Выводы

  1. Точное и масштабируемое обнаружение дубликатов: Патент детально описывает, как Google использует шинглирование для масштабного обнаружения точных или почти точных дубликатов текста. Этот метод очень эффективен для выявления скопированного контента, плагиата и синдикации.
  2. Фокус на последовательности и порядке слов: Обнаружение фокусируется на Sequences смежных слов в строгом порядке. Это отличает его от методов семантического поиска, которые ищут сходство по смыслу.
  3. Идентификация «интересного» контента: Система не просто находит дубликаты, но и ранжирует их. Цель — выделить значимые общие отрывки (например, популярные цитаты), фильтруя шаблонный текст или слишком распространенные фразы с помощью оценок длины и частоты.
  4. Автоматическое создание связей на основе контента: Основная цель, описанная в патенте, — создать структуру ссылок (гипертекст) между документами на основе общего контента, улучшая навигацию.
  5. Фундамент для инфраструктуры поиска: Эта технология является необходимой частью конвейера индексирования, обеспечивая данные для процессов каноникализации и управления дублированным контентом.

Практика

Best practices (это мы делаем)

  • Обеспечение оригинальности основного контента: Этот патент демонстрирует, насколько точно Google может алгоритмически обнаружить скопированный текст. Основной контент страницы должен быть уникальным, чтобы избежать проблем с дублированием.
  • Уникализация описаний в E-commerce: Критически важно создавать уникальные описания товаров, а не полагаться на текст производителя. Общие описания будут идентифицированы с помощью шинглирования как Similar Passages, присутствующие на множестве других сайтов.
  • Добавление уникальной ценности при синдикации: При использовании синдицированного контента или длинных цитат необходимо предоставлять значительную уникальную ценность (аналитику, комментарии) помимо общего текста. Всегда используйте rel=canonical для указания первоисточника.
  • Создание «цитируемого» контента (Стратегически): Разрабатывайте контент, содержащий авторитетные формулировки. Патент показывает, что Google измеряет частоту повторного использования текста. Если ваш контент часто цитируется (высокая частота), это может косвенно служить сигналом авторитетности (E-E-A-T).

Worst practices (это делать не надо)

  • Плагиат и копирование контента: Использование чужого контента без изменений крайне неэффективно, так как он будет точно идентифицирован как дубликат с помощью шинглирования.
  • Легкий рерайтинг/Спиннинг (Spinning): Хотя описанный метод фокусируется на точных последовательностях, шинглирование является основой для систем обнаружения почти дубликатов (near-duplicates). Поверхностное изменение текста может быть недостаточным для обеспечения уникальности.
  • Публикация шаблонного контента (Boilerplate): Размещение больших объемов дублированного контента без добавления уникальной ценности может размыть основное содержание страницы.

Стратегическое значение

Патент подтверждает алгоритмическую способность Google идентифицировать и картировать общий контент по всему интернету на лексическом уровне. Хотя Google активно использует семантический анализ (NLP, Entities), этот патент напоминает, что обнаружение дубликатов на основе точного совпадения остается фундаментальной частью инфраструктуры индексирования. Долгосрочная стратегия должна фокусироваться на оригинальности.

Практические примеры

Сценарий: Управление описаниями товаров в E-commerce

  1. Ситуация: Интернет-магазин использует стандартные описания товаров от производителя, которые также используют десятки конкурентов.
  2. Анализ (на основе патента): Используя шинглирование, Google идентифицирует эти описания как Similar Passages. Система видит, что последовательности шинглов на всех этих сайтах идентичны.
  3. Действие SEO-специалиста: Инициируется проект по созданию уникальных описаний для приоритетных товаров, добавляя обзоры, детали применения и уникальные характеристики.
  4. Ожидаемый результат: Новые описания гарантируют, что последовательности шинглов уникальны для сайта. Это устраняет проблему дублированного контента на уровне продукта и повышает потенциал ранжирования по релевантным запросам.

Вопросы и ответы

Что такое «шингл» (Shingle) и как работает шинглирование?

Шингл — это группа смежных слов из текста, следующих в порядке чтения (например, 8 слов). Шинглирование — это процесс разбиения текста на такие шинглы с перекрытием (сдвиг на одно слово). Этот метод позволяет эффективно сравнивать тексты: если два документа имеют много общих шинглов, следующих в одинаковом порядке, они содержат идентичные участки текста.

Описывает ли этот патент, как Google ранжирует документы в поиске?

Нет, напрямую он не описывает ранжирование документов. Он описывает, как Google ранжирует сами Similar Passages по «интересности» (длине и частоте) для улучшения навигации (например, в Google Books). Однако технология обнаружения дубликатов, описанная здесь, является важной частью инфраструктуры индексирования, влияющей на каноникализацию.

Как эта технология влияет на синдикацию контента или цитирование?

Она позволяет Google точно идентифицировать синдицированный контент и цитаты как Similar Passages. Для SEO это означает, что Google знает, что этот текст не уникален для вашего сайта. Необходимо добавлять значительную уникальную ценность вокруг этого контента и использовать правильную атрибуцию (например, rel=canonical).

Может ли эта система обнаружить парафразированный контент или спиннинг (рерайтинг)?

Описанный метод фокусируется на точных смежных последовательностях слов. Если парафразирование значительно изменяет порядок слов, этот конкретный метод может не обнаружить сходство. Однако шинглирование часто используется как основа для систем обнаружения почти дубликатов (near-duplicates), которые могут быть устойчивы к небольшим изменениям и поверхностному рерайтингу.

Что делает общий отрывок «интересным» согласно патенту?

«Интересность» определяется эвристической оценкой, учитывающей длину отрывка и частоту его встречаемости в корпусе. Цель состоит в том, чтобы отфильтровать очень короткие фразы (незначимые) и очень частые или длинные пассажи (шаблонный текст или целые книги), сосредоточившись на значимых цитатах.

Что такое «Source Gap» (Разрыв в источнике) и почему он важен?

Source Gap — это шингл в исходном документе, который не встречается ни в одном другом документе. Он важен, потому что действует как граница. Когда система обнаруживает Source Gap, она завершает текущие активные последовательности общих шинглов, разделяя разные похожие отрывки в одном документе.

Выполняется ли этот процесс в реальном времени при запросе пользователя?

Нет. Патент описывает это как офлайн-процесс, выполняемый Passage Mining Engine периодически или инкрементально во время индексирования и анализа корпуса. Результаты сохраняются в базе данных и используются позже.

Как это связано с каноникализацией?

Эта технология является фундаментальной для каноникализации. Прежде чем выбрать каноническую версию из набора дубликатов, Google должен сначала идентифицировать эти дубликаты. Шинглирование и построение последовательностей, описанные здесь, являются эффективным методом для точной идентификации документов с идентичным контентом.

Какие конкретные метрики используются для ранжирования похожих отрывков?

Используется формула, основанная на взвешенном геометрическом среднем оценки длины (LS) и оценки частоты (FS). Приведен пример весов: 0.7 для длины и 0.3 для частоты. Также применяются фильтры, например, рассматриваются только отрывки длиной от 10 до 100 слов с частотой от 1 до 1000.

Как интернет-магазинам следует управлять описаниями товаров на основе этого патента?

Следует избегать использования стандартных описаний от производителей, которые используются сотнями других продавцов. Поскольку Google легко идентифицирует этот текст как Similar Passages с помощью шинглирования, такие страницы вряд ли будут хорошо ранжироваться. Стратегия должна заключаться в создании уникальных описаний продуктов.

Похожие патенты

Как Google использует алгоритмы "Shingling" для эффективного обнаружения дубликатов и похожего контента в масштабах веба
Патент описывает эффективные алгоритмы (Shingling) для создания цифровых отпечатков веб-страниц. Разбивая контент на перекрывающиеся последовательности (шинглы) и выбирая репрезентативное подмножество, Google может быстро сравнивать миллиарды документов для выявления дубликатов, почти дубликатов (near-duplicates) и шаблонного контента.
  • US8131751B1
  • 2012-03-06
  • Индексация

Как Google использует Min-Hashing и Shingling для выявления дубликатов и классификации взаимосвязей между документами в большом корпусе
Google применяет техники Shingling и Min-Hashing для эффективного сравнения миллионов документов (например, книг или веб-страниц). Система кластеризует похожие документы, а затем детально анализирует сходство на уровне фрагментов, чтобы классифицировать их взаимосвязь: являются ли они идентичными, переформатированными версиями или содержат перекрывающийся текст.
  • US8527516B1
  • 2013-09-03
  • Индексация

Как Google определяет дублированный и переработанный (spun) контент, анализируя относительный порядок слов
Патент Google, описывающий метод обнаружения похожих или почти дублирующихся документов, устойчивый к локальным изменениям текста (например, замене синонимов или перестановке слов). Вместо анализа последовательных фраз, система анализирует упорядоченные пары слов, которые не обязательно стоят рядом. Это позволяет идентифицировать структурное сходство контента даже при значительном изменении формулировок.
  • US7734627B1
  • 2010-06-08
  • Индексация

  • Антиспам

Как Google создает цифровые отпечатки контента для выявления почти дубликатов страниц в масштабе интернета
Google использует метод для эффективного обнаружения почти дубликатов документов. Система генерирует компактный цифровой отпечаток (fingerprint) для каждого документа путем выборки перекрывающихся блоков текста (shingling), вычисления контрольных сумм и их сжатия. Сравнивая эти отпечатки с использованием расстояния Хэмминга, Google может быстро определить, являются ли два документа практически идентичными, что критично для каноникализации и экономии ресурсов индекса.
  • US7707157B1
  • 2010-04-27
  • Индексация

  • SERP

Как Google извлекает ключевые концепции и сущности, анализируя контекст вокруг повторяющихся цитат и отрывков текста
Google анализирует, как одни и те же отрывки текста (например, цитаты) используются в разных документах. Система собирает весь окружающий текст (контекст) вокруг каждого вхождения отрывка и использует статистический анализ (например, TF-IDF), чтобы определить ключевые термины, сущности и концепции, связанные с этим отрывком. Это позволяет связывать документы по смыслу и улучшать навигацию.
  • US9323827B2
  • 2016-04-26
  • Семантика и интент

  • Индексация

  • Knowledge Graph

Популярные патенты

Как Google использует цепочки запросов и время взаимодействия для определения и ранжирования результатов, которые действительно нужны пользователям
Google анализирует последовательности запросов пользователей (цепочки запросов) и время между кликами и последующими запросами (время взаимодействия), чтобы определить удовлетворенность пользователя. Если пользователи часто переформулируют Запрос А в Запрос Б, прежде чем найти удовлетворительный результат, Google использует эти данные, чтобы ранжировать этот удовлетворительный результат выше по исходному Запросу А и предлагать Запрос Б в качестве связанного поиска.
  • US9342600B1
  • 2016-05-17
  • Поведенческие сигналы

  • Семантика и интент

  • SERP

Как Google использует цитирования на веб-страницах для ранжирования книг в основной выдаче
Google использует механизм для определения релевантных книг по общим информационным запросам, даже если пользователь не искал книгу специально. Система анализирует, какие книги цитируются на топовых веб-страницах в выдаче. Книги получают оценку, основанную на авторитетности цитирующих страниц и контексте цитирования, и затем подмешиваются в результаты поиска.
  • US8392429B1
  • 2013-03-05
  • Ссылки

  • SERP

  • EEAT и качество

Как Google использует машинное обучение и поведенческие данные для прогнозирования полезности документов и решает, что включать в поисковый индекс
Google использует модель машинного обучения для определения, какие документы включать в поисковый индекс. Модель обучается на исторических данных о кликах и показах, чтобы предсказать будущую «оценку полезности» (Utility Score) документа. Документы ранжируются по этой оценке, а также с учетом других факторов (например, PageRank, стоимость индексации, свежесть, квоты), и лучшие из них попадают в индекс.
  • US8255386B1
  • 2012-08-28
  • Индексация

  • Поведенческие сигналы

Как Google использует данные о совместном посещении сайтов (Co-Visitation) для персонализации и повышения релевантности выдачи
Google использует поведенческие данные сообщества пользователей для определения тематической связи между сайтами. Если пользователи часто посещают Сайт А и Сайт Б в течение короткого промежутка времени (Co-Visitation), система создает "Вектор повышения" (Boost Vector). Этот вектор используется для повышения в выдаче тематически связанных сайтов, основываясь на истории посещений пользователя или контексте текущего сайта, улучшая персонализацию и релевантность.
  • US8874570B1
  • 2014-10-28
  • Поведенческие сигналы

  • Персонализация

  • SERP

Как Google создает и использует базу «идеальных» ответов (Canonical Content Items) для ответов на вопросы пользователей
Google использует систему для идентификации и создания «канонических элементов контента» — образцовых объяснений тем, часто в формате вопрос-ответ. Система анализирует огромные массивы существующего контента, кластеризует похожие вопросы и ответы и выбирает или синтезирует идеальную версию. Когда пользователь задает вопрос, система сопоставляет его с этой базой данных, чтобы мгновенно предоставить высококачественный, модельный ответ.
  • US9396263B1
  • 2016-07-19
  • Семантика и интент

  • EEAT и качество

Как Google выбирает, сортирует и форматирует динамические Sitelinks на основе типа контента и свежести страниц
Патент Google описывает систему генерации Sitelinks (саб-ссылок), которые ведут непосредственно на конечный контент (статьи, видео, товары), а не на разделы сайта. Система определяет категорию контента и применяет специфические правила сортировки (например, по свежести для новостей), которые отличаются от стандартного ранжирования. Также используется специальное форматирование для улучшения навигации в SERP.
  • US9081832B2
  • 2015-07-14
  • Ссылки

  • SERP

  • Свежесть контента

Как Google использует анализ со-цитирования (Co-citation) для группировки результатов поиска по темам
Google использует механизм кластеризации для организации поисковой выдачи, особенно при неоднозначных запросах. Система анализирует, какие внешние страницы одновременно ссылаются на несколько результатов поиска (со-цитирование). На основе этого вычисляется показатель сходства, который учитывает и нормализует популярность страниц, чтобы точно сгруппировать результаты по конкретным темам (например, отделить «Saturn» как планету от «Saturn» как автомобиль).
  • US7213198B1
  • 2007-05-01
  • Ссылки

  • SERP

Как Google использует внешние сигналы (соцсети, новости, блоги) для верификации реальной популярности контента и фильтрации накруток
Google верифицирует популярность контента (например, видео) проверяя, упоминается ли он на внешних источниках: блогах, новостных сайтах и в социальных сетях. Это позволяет формировать списки "популярного", отражающие подлинный широкий интерес, отфильтровывая контент с искусственно завышенными просмотрами или узконишевой популярностью. Система также учитывает географическую релевантность внешних упоминаний.
  • US9465871B1
  • 2016-10-11
  • Антиспам

  • SERP

  • Ссылки

Как Google в Автоподсказках (Suggest) предлагает искать запрос в разных вертикалях поиска (Картинки, Новости, Карты)
Патент описывает механизм "разветвления" (forking) автоподсказок Google Suggest. Система анализирует введенные символы и определяет, в каких вертикалях поиска (Корпусах) — таких как Картинки, Новости или Карты — пользователи чаще всего ищут предложенный запрос. Если корреляция с конкретной вертикалью высока (на основе Corpus Score), система предлагает пользователю искать сразу в ней, наряду со стандартным универсальным поиском.
  • US9317605B1
  • 2016-04-19
  • Семантика и интент

  • SERP

  • Поведенческие сигналы

Как Google использует время взаимодействия пользователя с сайтом (Dwell Time) для расчета оценки качества всего сайта
Google использует агрегированные данные о продолжительности визитов пользователей на сайт для расчета метрики качества этого сайта (Site Quality Score). Система измеряет время взаимодействия (включая Dwell Time — время от клика в выдаче до возврата обратно), фильтрует аномальные визиты и нормализует данные по типам контента. Итоговая оценка используется как независимый от запроса сигнал для ранжирования и принятия решений об индексировании.
  • US9195944B1
  • 2015-11-24
  • Поведенческие сигналы

  • Индексация

  • SERP

seohardcore