SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google использует семантические сигнатуры на основе фраз для выявления и удаления дубликатов контента

PHRASE-BASED DETECTION OF DUPLICATE DOCUMENTS IN AN INFORMATION RETRIEVAL SYSTEM (Обнаружение дубликатов документов в системе поиска информации на основе фраз)
  • US7711679B2
  • Google LLC
  • 2004-07-26
  • 2010-05-04
  • Семантика и интент
  • Индексация
  • SERP
  • Техническое SEO
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Google использует механизм для обнаружения дубликатов и почти дубликатов контента. Система анализирует, какие семантически связанные фразы (related phrases) содержатся в документе. Затем она выбирает несколько ключевых предложений с наибольшей концентрацией этих фраз для создания уникальной сигнатуры документа. Если сигнатуры двух документов совпадают, они считаются дубликатами и удаляются из индекса или поисковой выдачи.

Описание

Какую проблему решает

Патент решает проблему наличия множественных копий одного и того же документа или почти идентичных документов в большом корпусе (например, в Интернете). Включение дубликатов в результаты поиска снижает разнообразие выдачи и ухудшает пользовательский опыт. Система направлена на эффективное обнаружение и устранение этих дубликатов как на этапе индексирования, так и при формировании результатов поиска.

Что запатентовано

Запатентован метод обнаружения дубликатов, основанный на сравнении семантических сигнатур документов. Сигнатура (document description) генерируется путем выбора ключевых предложений документа, которые содержат наибольшее количество семантически связанных фраз (related phrases). Если сигнатуры двух документов совпадают, они идентифицируются как дубликаты.

Как это работает

Система функционирует на базе инфраструктуры, которая идентифицирует значимые фразы (good phrases) и определяет семантические связи между ними (related phrases) на основе показателя Information Gain (отношение фактической частоты совместной встречаемости к ожидаемой).

Процесс обнаружения дубликатов включает:

  • Анализ документа: Определение набора related phrases, присутствующих в документе.
  • Ранжирование предложений: Каждое предложение документа оценивается по количеству содержащихся в нем related phrases.
  • Генерация сигнатуры: Выбирается Топ-N (например, 5-10) предложений с наивысшим рейтингом. Они формируют document description.
  • Сравнение: Сигнатура (например, в виде хэша) сравнивается с сигнатурами других документов.
  • Устранение дубликатов: При совпадении сигнатур документы помечаются как дубликаты. Система оставляет более авторитетную версию (например, с более высоким PageRank), а остальные удаляет из индекса или результатов поиска.

Актуальность для SEO

Высокая. Борьба с дублированным контентом остается критически важной задачей для поддержания качества и разнообразия поисковой выдачи. Описанный механизм предлагает семантический подход к выявлению дубликатов, который сложнее обойти, чем простое сравнение текста. Учитывая развитие NLP и акцент Google на понимании контента, использование фразовых и семантических сигнатур для управления индексом крайне актуально.

Важность для SEO

Патент имеет высокое стратегическое значение для SEO (8.5/10). Он раскрывает механизм, с помощью которого Google определяет уникальность контента не на уровне слов, а на уровне концентрации семантически связанных концепций (related phrases) в ключевых предложениях. Это напрямую влияет на стратегии создания контента, синдикации и рерайтинга, подчеркивая необходимость создания подлинной семантической уникальности для успешного индексирования и ранжирования.

Детальный разбор

Термины и определения

Document Description (Описание документа / Сигнатура)
Набор из Топ-N предложений документа, выбранных и упорядоченных на основе количества содержащихся в них related phrases. Используется как уникальная сигнатура для обнаружения дубликатов.
Good Phrase (Хорошая фраза)
Фраза (включая отдельные слова), которая встречается в корпусе достаточно часто и/или имеет "выделенное" использование, и которая обладает предсказательной силой в отношении других фраз.
Information Gain (Прирост информации)
Метрика для определения связи между фразами. Рассчитывается как отношение фактической частоты совместной встречаемости двух фраз к ожидаемой частоте (если бы они были независимы). Высокий Information Gain указывает на сильную связь.
Related Phrases (Связанные фразы)
Две фразы считаются связанными, если показатель Information Gain между ними превышает определенный порог. Это означает, что появление одной фразы в документе значительно увеличивает вероятность появления другой.
Document significance measure (Показатель значимости документа)
Независимая от запроса метрика качества или авторитетности документа. PageRank приводится в патенте как пример (Claim 4). Используется для выбора канонической версии среди дубликатов.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод обнаружения дубликатов.

  1. Система выбирает первый и второй документы из набора.
  2. Система сравнивает document description первого документа с document description второго документа.
  3. Определяется, что такое document description: это выбранный набор предложений документа, которые отобраны и упорядочены в зависимости от количества related phrases в этих предложениях.
  4. Определяется, что такое related phrase: фраза g(j) связана с фразой g(k), если Information Gain между ними превышает порог. Information Gain определяется как функция фактической и ожидаемой частоты совместной встречаемости.
  5. Если описания документов совпадают, система идентифицирует документы как дубликаты.

Ядро изобретения — использование семантической сигнатуры, основанной на концентрации связанных концепций в ключевых предложениях, для выявления концептуальных, а не только текстуальных дубликатов.

Claim 2 (Зависимый от 1): Уточняет применение метода к результатам поиска.

  1. Система получает запрос и формирует набор результатов поиска.
  2. На основе идентификации дубликатов (по методу из Claim 1), система исключает как минимум один из дублирующихся документов из набора результатов поиска.

Claim 3 и 4 (Зависимые от 2): Уточняют критерии выбора документа для исключения. Исключается документ с более низким показателем значимости (document significance measure). Claim 4 уточняет, что этот показатель может включать PageRank.

Claim 6 (Зависимый от 1): Детализирует процесс генерации document description. Для каждого документа описание генерируется путем выбора предложений и их упорядочивания в зависимости от количества related phrases в них.

Claim 11 и 12 (Зависимые): Описывают способ хранения и сравнения сигнатур. Предложения в document description конкатенируются, вычисляется хэш-значение. Сравнение описаний происходит путем сравнения их хэш-значений.

Где и как применяется

Изобретение может применяться на двух ключевых этапах поисковой архитектуры.

CRAWLING и INDEXING – Сканирование, Сбор данных и Индексирование
Механизм используется для поддержания чистоты индекса. При сканировании нового документа (Claim 9) система генерирует его document description (сигнатуру) на основе related phrases. Эта сигнатура сравнивается с сигнатурами уже проиндексированных документов. Если обнаружен дубликат, новый документ может быть отброшен (Claim 5), или может быть выбрана более авторитетная версия.

RERANKING – Переранжирование
Механизм применяется к набору документов, отобранных на этапе RANKING (Claim 2). Перед показом пользователю система анализирует результаты поиска для выявления дубликатов. Сигнатуры документов сравниваются, и дубликаты удаляются из финальной выдачи (SERP), чтобы повысить ее разнообразие.

Предварительные вычисления (INDEXING): Для работы этого механизма система должна предварительно рассчитать данные о фразах в масштабе всего корпуса: идентифицировать Good Phrases, рассчитать Information Gain и определить Related Phrases.

Входные данные:

  • Текст документа.
  • Данные о связях между фразами и их Information Gain (Related Phrases).
  • Показатели авторитетности документов (например, PageRank).

Выходные данные:

  • Сгенерированная сигнатура документа (Document Description).
  • Решение о том, является ли документ дубликатом.
  • Очищенный от дубликатов индекс или набор результатов поиска.

На что влияет

  • Типы контента: Наибольшее влияние оказывается на текстовый контент, подверженный копированию или синдикации: новостные статьи, описания товаров, пресс-релизы, справочная информация.
  • Конкретные ниши: Влияет на ниши, где часто используется рерайтинг, спиннинг или генерация контента на основе шаблонов (e-commerce, агрегаторы новостей).

Когда применяется

  • Триггеры активации (Индексирование): Активируется при обработке каждого нового или обновленного документа для проверки его уникальности перед добавлением в основной индекс.
  • Триггеры активации (Ранжирование): Активируется при формировании страницы результатов поиска для устранения дубликатов в реальном времени перед показом пользователю.
  • Условие срабатывания: Совпадение (полное или в пределах заданного допуска) сигнатур (Document Descriptions) двух документов.

Пошаговый алгоритм

Процесс А: Генерация сигнатуры документа (Document Description Generation)

  1. Идентификация фраз: Документ обрабатывается для выявления всех присутствующих в нем Good Phrases и Related Phrases.
  2. Ранжирование предложений: Каждое предложение документа оценивается. Подсчитывается количество вхождений Related Phrases в предложение.
  3. Сортировка и выбор: Предложения сортируются по убыванию количества Related Phrases.
  4. Формирование сигнатуры: Топ-N (например, 5-10) предложений с наивысшим рейтингом выбираются и формируют Document Description.

Процесс Б: Обнаружение и устранение дубликатов

  1. Получение сигнатур: Для сравниваемых документов генерируются или извлекаются их сигнатуры (Процесс А).
  2. Сравнение сигнатур: Сигнатуры сравниваются. В одном из вариантов реализации (Claim 11, 12) сравнение происходит путем вычисления хэша от конкатенированных предложений сигнатуры и проверки наличия этого хэша в базе данных.
  3. Идентификация дубликатов: Если хэши совпадают, документы идентифицируются как дубликаты.
  4. Выбор версии для сохранения: Сравниваются показатели значимости дубликатов (например, PageRank). Документ с наивысшим показателем сохраняется.
  5. Устранение: Остальные дубликаты удаляются из индекса или исключаются из результатов поиска.

Какие данные и как использует

Данные на входе

Патент фокусируется на использовании фразовой информации и структуры документа.

  • Контентные факторы: Текст документа, структура предложений.
  • Системные данные (Phrase Data): Критически важные данные, рассчитанные заранее:
    • Список Good Phrases.
    • Данные о Related Phrases и значениях Information Gain.
  • Факторы авторитетности: Упоминаются document significance measure (Claim 3) и PageRank (Claim 4) как критерии для выбора версии документа при обнаружении дубликатов.

Какие метрики используются и как они считаются

  • Information Gain (I(j,k)): Основная метрика для определения связи между фразами. Формула, предложенная в описании: I(j,k)=A(j,k)/E(j,k)I(j,k) = A(j,k)/E(j,k)I(j,k)=A(j,k)/E(j,k). Где A(j,k) — фактическая частота совместной встречаемости, E(j,k) — ожидаемая частота.
  • Sentence Score (Оценка предложения): Количество Related Phrases, содержащихся в предложении. Используется для ранжирования предложений при создании сигнатуры.
  • Hash Value (Хэш-значение): Результат применения хэш-функции к Document Description. Используется для быстрого сравнения сигнатур.

Выводы

  1. Уникальность определяется семантикой, а не только текстом: Google использует семантические сигнатуры для идентификации дубликатов. Сигнатура основана на related phrases (концепциях), а не просто на совпадении слов. Это означает, что документы с разным текстом, но одинаковым набором ключевых концепций в основных предложениях могут быть признаны дубликатами.
  2. Ключевые предложения формируют сигнатуру: Не весь документ используется для определения уникальности, а только Топ-N предложений с наибольшей концентрацией related phrases. Это "смысловое ядро" документа.
  3. Важность Related Phrases и Information Gain: Система полагается на предварительно вычисленные статистические связи между фразами. Это позволяет системе понимать тематику и значимость предложений.
  4. Авторитетность как решающий фактор: При обнаружении дубликатов система явно предпочитает документ с более высоким независимым показателем значимости (например, PageRank). Авторитетность является решающим фактором при выборе канонической версии.
  5. Два уровня применения: Обнаружение дубликатов происходит как превентивно (во время индексирования для поддержания чистоты индекса), так и реактивно (во время обработки запроса для очистки результатов поиска).

Практика

Best practices (это мы делаем)

  • Обеспечение семантической уникальности: При создании контента фокусируйтесь на уникальности смыслового ядра. Убедитесь, что набор и концентрация related phrases в ваших ключевых предложениях отличаются от контента конкурентов или других страниц вашего сайта. Добавляйте новую ценность, а не просто переписывайте текст.
  • Насыщение контента связанными концепциями: Используйте естественно связанные фразы и сущности при раскрытии темы. Это помогает сформировать четкую тематическую сигнатуру (document description) и подтверждает релевантность контента.
  • Усиление авторитетности (PageRank/E-E-A-T): Поскольку при обнаружении дубликатов сохраняется наиболее авторитетная версия, необходимо постоянно работать над улучшением сигналов авторитетности сайта и страниц. Это страховка на случай, если ваш контент будет скопирован.
  • Управление синдикацией контента: При синдикации контента убедитесь, что каноническая версия (оригинал на вашем сайте) является наиболее авторитетной. Используйте канонические ссылки как дополнительный сигнал управления дубликатами.

Worst practices (это делать не надо)

  • Поверхностный рерайтинг и спиннинг: Техники, которые меняют слова на синонимы, но сохраняют набор базовых концепций (related phrases) в ключевых предложениях, неэффективны против этого механизма. Если смысловое ядро остается прежним, система идентифицирует такой контент как дубликат.
  • Создание множества страниц с очень похожим смыслом (Каннибализация/Дорвеи): Создание большого количества страниц (например, локальных лендингов), которые используют идентичный набор related phrases в ключевых предложениях, увеличивает риск их классификации как внутренних дубликатов.
  • Синдикация без добавления ценности: Публикация чужого контента (например, описаний товаров от производителя) без существенных изменений. Семантическая сигнатура будет идентична оригиналу, и страница будет отфильтрована.

Стратегическое значение

Патент подтверждает, что Google анализирует контент на глубоком семантическом уровне, используя совместную встречаемость фраз для понимания тем и выявления уникальности. Это подчеркивает переход от анализа ключевых слов к анализу тем и концепций (related phrases). Для SEO-стратегии это означает, что уникальность контента — это не технический показатель (процент уникальности текста), а семантический показатель (уникальность набора и концентрации связанных идей).

Практические примеры

Сценарий: Выявление поверхностного рерайтинга статьи о "Кето диете"

  1. Оригинальный Документ А: Содержит related phrases: "кетоз", "низкое потребление углеводов", "высокое потребление жиров", "потеря веса", "инсулин". Ключевые предложения насыщены этими фразами. Система генерирует Сигнатуру А.
  2. Документ Б (Рерайт): Текст переписан с использованием синонимов, но для раскрытия темы используются те же концепции: "состояние кетоза", "минимизация углеводов", "увеличение жиров в рационе", "снижение массы тела", "уровень инсулина".
  3. Анализ Системы: Несмотря на разницу в тексте, система определяет, что набор related phrases в Документе Б идентичен Документу А.
  4. Генерация Сигнатуры: Ключевые предложения Документа Б (с наибольшей концентрацией этих фраз) выбираются для Сигнатуры Б.
  5. Сравнение: Система обнаруживает, что Сигнатура А и Сигнатура Б совпадают (их хэши идентичны).
  6. Результат: Документ Б классифицируется как дубликат. Если Документ А более авторитетен, Документ Б будет исключен из выдачи.

Вопросы и ответы

Как система определяет, какие фразы являются "связанными" (Related Phrases)?

Связь определяется с помощью метрики Information Gain. Система анализирует весь корпус документов и вычисляет, насколько часто две фразы встречаются вместе по сравнению с тем, как часто они встречаются по отдельности. Если фактическая совместная встречаемость значительно превышает ожидаемую (т.е. Information Gain выше порога), фразы считаются связанными. Это статистический, а не ручной процесс.

Означает ли этот патент, что техническая уникальность текста больше не важна?

Техническая уникальность остается важной, но ее недостаточно. Патент показывает, что Google стремится определить семантическую уникальность. Если вы перепишете текст, но сохраните тот же набор связанных концепций (related phrases) в ключевых предложениях, система может сгенерировать идентичную сигнатуру и признать контент дубликатом.

Как генерируется сигнатура документа для выявления дубликатов?

Система ранжирует все предложения в документе по количеству содержащихся в них related phrases. Затем она выбирает Топ-N (например, 5-10) предложений с наибольшим количеством таких фраз. Эти предложения объединяются и формируют сигнатуру (document description), которая часто хэшируется для быстрого сравнения.

Что произойдет, если мой контент украдут и опубликуют на более авторитетном сайте?

Согласно патенту, если система идентифицирует два документа как дубликаты (на основе совпадения сигнатур), она сравнивает их показатели значимости, такие как PageRank. Версия на более авторитетном сайте, вероятно, будет сохранена, а ваша версия может быть исключена. Это подчеркивает важность быстрого индексирования и построения авторитетности вашего ресурса.

Как этот механизм влияет на каннибализацию контента внутри одного сайта?

Он может усугубить проблемы каннибализации. Если несколько страниц на вашем сайте имеют очень похожий набор related phrases и схожую структуру ключевых предложений, они могут генерировать идентичные сигнатуры. Система может посчитать их внутренними дубликатами и выбрать только одну для ранжирования, игнорируя остальные.

Эффективен ли этот метод против контента, сгенерированного ИИ или спиннинга?

Да, он разработан так, чтобы быть устойчивым к поверхностным изменениям текста. Спиннинг или простой рерайтинг (включая ИИ-генерацию на основе чужого контента) часто сохраняют исходные концепции. Если набор related phrases в ключевых предложениях не меняется, система все равно обнаружит дубликат.

Как я могу убедиться, что мой контент семантически уникален с точки зрения этого патента?

Необходимо не просто переписывать существующую информацию, а добавлять ценность: включать уникальные данные, новые связанные концепции, экспертные мнения или изменять глубину раскрытия темы. Убедитесь, что ключевые предложения вашего текста содержат уникальный набор или уникальную комбинацию related phrases по сравнению с конкурентами.

Применяется ли этот механизм только во время индексирования?

Нет. Патент описывает два сценария применения. Первый — во время индексирования, чтобы предотвратить попадание дубликатов в индекс. Второй — во время формирования результатов поиска (RERANKING), чтобы очистить выдачу от дубликатов непосредственно перед показом пользователю.

Влияет ли структура документа (например, порядок абзацев) на обнаружение дубликатов?

Прямо не влияет, так как система анализирует предложения независимо от их расположения в документе для генерации сигнатуры. Система выберет Топ-N предложений, где бы они ни находились. Однако косвенно влияет: если ключевая информация сконцентрирована в определенных предложениях, они с большей вероятностью попадут в сигнатуру.

Чем этот метод обнаружения дубликатов отличается от стандартного метода шинглов (shingling)?

Метод шинглов сравнивает документы на основе совпадения коротких последовательностей слов (n-грамм) для оценки текстуального сходства. Описанный в патенте метод оценивает семантическое сходство. Он выбирает только наиболее значимые предложения (насыщенные связанными фразами) и использует их как сигнатуру, фокусируясь на ядре контента.

Похожие патенты

Как Google вычисляет семантическую схожесть контента с помощью векторов тем и косинусного сходства
Google использует механизм для эффективного определения семантической схожести документов. Система генерирует «Сигнатуру Документа» — вектор, состоящий из абстрактных тем (Topics) и весов (Weights), показывающих значимость каждой темы. Схожесть вычисляется путем сравнения этих векторов с использованием Косинусного Сходства (Cosine Similarity), что позволяет системе понимать тематические взаимосвязи в масштабе.
  • US8886648B1
  • 2014-11-11
  • Семантика и интент

  • Индексация

Как Google строит и динамически обновляет индекс на основе тем и векторных представлений для семантического поиска
Google индексирует документы, присваивая им семантическую "сигнатуру" — вектор, состоящий из абстрактных тем (Topics) и весов (Weights), определяющих их значимость. Патент описывает инфраструктуру для эффективного обновления этого тематического индекса при изменении контента или обновлении моделей NLP Google. Система использует эти векторы для быстрого определения схожести контента через Cosine Similarity.
  • US8756236B1
  • 2014-06-17
  • Индексация

  • Семантика и интент

Как Google определяет и фильтрует дубликаты в выдаче, сравнивая релевантные запросу сниппеты вместо целых страниц
Google использует механизм для улучшения разнообразия поисковой выдачи, предотвращая показ нескольких результатов с идентичным контентом по конкретному запросу. Вместо сравнения документов целиком, система извлекает только те части (сниппеты), которые релевантны запросу. Если эти сниппеты у разных документов слишком похожи, они считаются дубликатами для данного запроса, и менее релевантные результаты фильтруются.
  • US6615209B1
  • 2003-09-02
  • SERP

Как Google использует метаданные для поиска дубликатов, объединения версий документов и консолидации сигналов ранжирования
Патент описывает, как Google идентифицирует различные версии одного и того же документа (например, научных статей) путем генерации, нормализации и сравнения нескольких идентификаторов на основе метаданных (автор, название, дата). Это позволяет Google объединять дубликаты в кластеры и консолидировать сигналы ранжирования, такие как общее количество цитирований.
  • US8316292B1
  • 2012-11-20
  • Индексация

  • Техническое SEO

Как Google использует связанные фразы и расширения запросов для генерации сниппетов в поисковой выдаче
Google использует запатентованный метод для автоматической генерации описаний документов (сниппетов) в результатах поиска. Система анализирует предложения в документе и ранжирует их на основе наличия трех элементов: самой фразы из запроса, семантически связанных фраз (определенных через Information Gain) и расширений фразы запроса. Наиболее релевантные предложения выбираются для формирования сниппета.
  • US7584175B2
  • 2009-09-01
  • Семантика и интент

  • SERP

  • Персонализация

Популярные патенты

Как Google определяет, когда показывать обогащенный результат для сущности, и использует консенсус веба для исправления данных
Google использует механизм для определения того, когда запрос явно относится к конкретной сущности (например, книге). Если один результат значительно доминирует над другими по релевантности, система активирует «обогащенный результат». Этот результат агрегирует данные из разных источников (структурированные данные, веб-страницы, каталоги товаров) и использует наиболее популярные варианты данных из интернета для проверки и исправления информации о сущности.
  • US8577897B2
  • 2013-11-05
  • SERP

  • Семантика и интент

  • EEAT и качество

Как Google использует исторические данные о кликах по Сущностям для ранжирования нового или редко посещаемого контента
Google решает проблему «холодного старта» для новых страниц, у которых нет собственных поведенческих данных. Система агрегирует историю кликов на уровне Сущностей (Entities). Если сущности, упомянутые на новой странице, исторически имеют высокий CTR по целевому запросу, страница получает бустинг в ранжировании, наследуя поведенческие сигналы через эти сущности.
  • US10303684B1
  • 2019-05-28
  • Поведенческие сигналы

  • Семантика и интент

  • SERP

Как Google определяет скрытый интент сессии, используя универсальные уточняющие слова, и переранжирует выдачу
Google идентифицирует универсальные слова-модификаторы (например, «фото», «отзывы», «pdf»), которые пользователи часто добавляют к разным запросам. Если такое слово появляется в сессии, система определяет скрытый интент пользователя. Затем Google переранжирует выдачу, основываясь на том, какие документы исторически предпочитали пользователи с таким же интентом, адаптируя результаты под контекст сессии.
  • US8868548B2
  • 2014-10-21
  • Семантика и интент

  • Поведенческие сигналы

  • Персонализация

Как Google персонализирует мобильную выдачу, повышая в ранжировании приложения, которые пользователь часто использует (Affinity Score)
Google рассчитывает «Affinity Score» для мобильных приложений на основе того, как часто и долго пользователь их использует (относительное вовлечение). При поиске с мобильного устройства система повышает в ранжировании результаты (deep links), ведущие в приложения с высоким Affinity Score, делая выдачу более персонализированной.
  • US10248698B2
  • 2019-04-02
  • Персонализация

  • Поведенческие сигналы

  • SERP

Как Google нормализует поведенческие сигналы (Dwell Time), калибруя показатели «короткого» и «длинного» клика для разных категорий сайтов
Google использует механизм для устранения предвзятости в поведенческих сигналах, таких как продолжительность клика (Dwell Time). Поскольку пользователи взаимодействуют с разными типами контента по-разному, система определяет, что считать «коротким кликом» и «длинным кликом» отдельно для каждой категории (например, Новости, Недвижимость, Словари). Это позволяет более точно оценивать качество ресурса, сравнивая его показатели с нормами его конкретной ниши.
  • US8868565B1
  • 2014-10-21
  • Поведенческие сигналы

  • SERP

Как Google генерирует связанные запросы (Related Searches), используя сущности из топовых результатов и сохраняя структуру исходного запроса
Google использует систему для автоматической генерации уточнений запросов (например, «Связанные запросы»). Система анализирует топовые документы в выдаче и извлекает из них ключевые сущности. Затем эти сущности комбинируются с важными терминами исходного запроса, при этом строго сохраняется исходный порядок слов, чтобы создать релевантные и естественно звучащие предложения для дальнейшего поиска.
  • US8392443B1
  • 2013-03-05
  • Семантика и интент

  • Поведенческие сигналы

Как Google собирает и структурирует данные о поведении пользователей в Поиске по картинкам (включая ховеры, клики и 2D-позицию)
Патент Google описывает инфраструктуру для детального сбора данных в Поиске по картинкам. Система фильтрует общие логи, фиксируя не только клики, но и наведение курсора (ховеры), длительность взаимодействия и точное 2D-расположение (строка/столбец) изображения на выдаче. Эти данные агрегируются в Модель Запросов Изображений для оценки релевантности.
  • US8898150B1
  • 2014-11-25
  • Поведенческие сигналы

  • SERP

  • Мультимедиа

Как Google интегрирует поиск в инструменты создания контента и использует распространение ссылок для расчета репутации автора
Google разработал систему (UDS), интегрирующую поиск в инструменты создания контента (Email, блоги, форумы). Система автоматически уточняет запросы на основе контекста и профилей пользователей. Если автор вставляет ссылку, а читатель кликает по ней, Google использует это взаимодействие для расчета «оценки репутации» автора и как поведенческий сигнал качества контента.
  • US7844603B2
  • 2010-11-30
  • Ссылки

  • Поведенческие сигналы

  • EEAT и качество

Как Google использует историю физических перемещений пользователя для фильтрации и персонализации результатов поиска
Google может собирать и хранить историю физических перемещений пользователя (Location History). Патент описывает интерфейс, позволяющий пользователю осознанно включать свои прошлые местоположения (например, «места, где я был на прошлой неделе») в качестве фильтра для нового поискового запроса, чтобы сделать результаты более релевантными личному опыту.
  • US8874594B2
  • 2014-10-28
  • Персонализация

  • Поведенческие сигналы

  • Local SEO

Как Google использует данные о кликах разных групп пользователей (популяций) для локализации и персонализации ранжирования
Google адаптирует результаты поиска, анализируя, как разные группы пользователей (популяции), определяемые по местоположению, языку или демографии, взаимодействуют с выдачей. Система рассчитывает «Сигнал Популяции» (Population Signal) на основе исторических кликов группы и корректирует ранжирование. Также используется механизм сглаживания для компенсации нехватки данных по конкретным группам.
  • US7454417B2
  • 2008-11-18
  • Персонализация

  • Поведенческие сигналы

  • SERP

seohardcore