Как Google использует метаданные для поиска дубликатов, объединения версий документов и консолидации сигналов ранжирования

IDENTIFYING MULTIPLE VERSIONS OF DOCUMENTS (Идентификация нескольких версий документов)

US8316292B1
Google LLC
2005-11-18
2012-11-20

Патент описывает, как Google идентифицирует различные версии одного и того же документа (например, научных статей) путем генерации, нормализации и сравнения нескольких идентификаторов на основе метаданных (автор, название, дата). Это позволяет Google объединять дубликаты в кластеры и консолидировать сигналы ранжирования, такие как общее количество цитирований.

Какую проблему решает

Патент решает проблему наличия множества версий одного и того же документа в интернете. Это приводит к двум основным проблемам: 1) Зашумление поисковой выдачи дубликатами, что снижает разнообразие (diversity) и ухудшает пользовательский опыт. 2) Распыление сигналов ранжирования. Например, значимость документа (особенно citation count для научных работ) распределяется между его версиями, не давая точной оценки общей авторитетности.

Что запатентовано

Запатентована система для автоматической идентификации и кластеризации различных версий одного документа. Ключевая особенность — генерация нескольких candidate identifiers (кандидатных идентификаторов) для каждого документа на основе его метаданных (автор, заголовок, дата и т.д.). Эти идентификаторы нормализуются с помощью language specific rules и сравниваются с использованием similarity measure (меры сходства), что позволяет обнаруживать дубликаты даже при наличии вариаций в метаданных.

Как это работает

Система работает следующим образом:

Генерация идентификаторов: Для каждого документа создается несколько candidate identifiers путем комбинирования разных элементов метаданных (например, {Фамилия автора, Заголовок} и {Фамилия автора, Издатель, Дата}).
Нормализация: Идентификаторы обрабатываются с помощью language specific rules — удаление пунктуации, стоп-слов, приведение к нижнему регистру, стандартизация дат.
Сравнение и Кластеризация: Нормализованные идентификаторы сравниваются с использованием similarity measure (например, Edit Distance). Документы с похожими идентификаторами группируются в кластеры.
Консолидация сигналов: После идентификации версий система суммирует их сигналы, например, общий citation count.

Актуальность для SEO

Высокая. Дедупликация и каноникализация являются фундаментальными процессами. Хотя методы Google эволюционировали, идентификация на основе метаданных остается критически важной, особенно для структурированного контента, Google Scholar (изобретатели патента являются его ключевыми разработчиками) и сущностей в Knowledge Graph. Механизм обеспечивает надежный способ консолидации сигналов.

Важность для SEO

Патент имеет высокое значение для SEO (75/100), особенно для издателей, академических ресурсов и сайтов со структурированным контентом. Он описывает механизм, лежащий в основе консолидации сигналов ранжирования (таких как цитируемость или PageRank) с разных версий контента на каноническую версию. Это подчеркивает критическую важность точности и согласованности метаданных для правильной атрибуции авторитетности.

Термины и определения

Candidate Identifiers (Кандидатные идентификаторы): Набор идентификаторов (строк или кортежей), сгенерированных для документа на основе его метаданных. Для одного документа создается несколько таких идентификаторов, чтобы учесть возможные вариации в данных.
Citation Count (Количество цитирований): Метрика, отражающая количество ссылок на документ из других документов. Используется как показатель значимости, особенно для академических работ. Патент описывает метод суммирования citation count всех версий документа.
Clustering (Кластеризация): Процесс группировки документов, идентифицированных как версии одного и того же документа, на основе схожести их candidate identifiers.
Edit Distance (Редакционное расстояние): Одна из возможных метрик Similarity Measure. Это минимальное количество операций (вставка, удаление, замена символа), необходимых для преобразования одного идентификатора в другой.
Language Specific Rules (Правила, специфичные для языка): Набор правил для нормализации и стандартизации candidate identifiers. Включает удаление пунктуации, приведение к нижнему регистру, удаление стоп-слов (например, "the", "vol"), нормализацию лигатур и стандартизацию дат.
Metadata (Метаданные): Информация, описывающая документ: имена авторов, заголовок, издатель, дата публикации, название журнала/конференции, идентификаторы (DOI, ISBN, URL) и т.д.
Similarity Measure (Мера сходства): Метрика для сравнения двух candidate identifiers. Может быть основана на строковых метриках (например, Edit Distance, Jaccard Coefficient) или на формате идентификатора.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод идентификации версий документов.

Система создает несколько candidate identifiers для каждого документа на основе его текстовых элементов (метаданных).
Каждый идентификатор обрабатывается согласно language specific rules (в зависимости от языка документа) для создания стандартизированных идентификаторов.
Определяется схожесть стандартизированных идентификаторов на основе similarity measures.
На основе этой схожести система определяет, что два документа на одном языке являются разными версиями одного и того же документа.

Ядром изобретения является использование множественных идентификаторов, их нормализация и последующее сравнение на основе схожести (а не точного совпадения), что обеспечивает устойчивость к вариациям в метаданных.

Claim 2 (Зависимый): Уточняет типы документов.

Метод применим к научной литературе: журнальные статьи, материалы конференций, академические работы и записи о цитировании.

Claim 3 и 4 (Зависимые): Уточняют состав candidate identifiers.

Первый идентификатор может включать фамилию первого автора и заголовок. Второй может включать имя издателя, дату публикации или информацию о цитировании. Это подтверждает стратегию использования разных комбинаций метаданных.

Claim 5 (Зависимый): Описывает вариативность генерации идентификаторов.

Создание идентификаторов может включать обработку по правилам изменения, таким как ротация, реверсия или перестановка элементов метаданных.

Claim 8 (Зависимый): Уточняет similarity measure.

Мера схожести определяется, по крайней мере частично, на основе edit distance между идентификаторами. Это позволяет системе считать идентификаторы похожими, даже если они не идентичны.

Claim 10 (Зависимый): Описывает итеративный процесс кластеризации.

Документ сравнивается с существующими кластерами. Если найдено сходство, он добавляется в кластер; в противном случае создается новый кластер.

Claim 14 (Зависимый): Описывает многоуровневую кластеризацию.

Документы могут сначала кластеризоваться на основе сходства первого идентификатора, а затем сортироваться и перекластеризоваться на основе общих мер сходства (включая другие идентификаторы) для повышения эффективности и точности.

Где и как применяется

Этот патент описывает процессы, происходящие на этапе индексирования, для обеспечения качества и чистоты индекса.

CRAWLING – Сканирование и Сбор данных
На этом этапе система собирает документы и их сырые метаданные, которые будут использоваться в качестве входных данных.

INDEXING – Индексирование и извлечение признаков
Основное применение патента. Процесс является частью конвейера индексирования (Indexing System), отвечающего за дедупликацию и каноникализацию.

Извлечение признаков: Извлечение метаданных (автор, заголовок и т.д.).
Дедупликация и Кластеризация: Генерация, нормализация и сравнение candidate identifiers для группировки версий одного документа (выполняется Document Matching Subsystem).
Консолидация сигналов: Суммирование сигналов (например, Citation Count) всех документов в кластере. Эти консолидированные данные сохраняются в индексе.

RANKING – Ранжирование
Механизм напрямую не участвует в ранжировании, но оказывает на него критическое влияние. Он гарантирует, что система ранжирования оперирует чистым набором уникальных документов с консолидированными сигналами авторитетности.

RERANKING – Переранжирование
Благодаря работе этого механизма, система может гарантировать, что в выдаче не будут показаны разные версии одного и того же документа, улучшая разнообразие SERP (SERP diversity).

Входные данные:

Набор документов и их метаданные (авторы, заголовок, дата, издатель, DOI, ISBN, URL и т.д.).
Сырые данные о цитировании (Citation Count) для каждой версии.
Набор Language Specific Rules.

Выходные данные:

Кластеры документов, идентифицированных как версии одного и того же документа.
Консолидированные метрики (например, общий Citation Count) для каждого кластера.

На что влияет

Конкретные типы контента и ниши: Патент явно указывает на применимость к "научной литературе" (scholarly literature) и юридическим документам. Механизм наиболее эффективен для контента с богатыми и структурированными метаданными (академические исследования, издательское дело, возможно, e-commerce с уникальными идентификаторами товаров).
Влияние на сигналы: Напрямую влияет на консолидацию сигналов авторитетности, таких как цитирование и, предположительно, ссылочный вес (PageRank), предотвращая их распыление между дубликатами.
Языковые ограничения: Claim 1 указывает, что метод идентифицирует версии на одном и том же языке, так как использует специфичные для языка правила нормализации.

Когда применяется

Условия применения: Алгоритм применяется в процессе индексирования ко всем документам, для которых удалось извлечь достаточный объем метаданных.
Частота применения: При каждом обнаружении нового документа или при переиндексации существующего контента.

Пошаговый алгоритм

Процесс А: Идентификация и Кластеризация Версий

Сбор данных: Система получает набор документов для анализа.
Генерация Кандидатных Идентификаторов: Для каждого документа создается несколько candidate identifiers путем комбинирования его метаданных. Например:
- ID1 = {Фамилия Автора 1, Заголовок}
- ID2 = {Фамилия Автора 1, Издатель, Дата}
Нормализация (Language Specific Rules): Каждый идентификатор обрабатывается для стандартизации:
- Удаление пунктуации и стоп-слов.
- Приведение к нижнему регистру.
- Стандартизация формата дат и чисел.
- Нормализация лигатур.
Сравнение и Кластеризация: Система сравнивает идентификаторы документов, используя Similarity Measure (например, Edit Distance). Это может включать:
- Итеративную кластеризацию (Claim 10): Документы (возможно, предварительно отсортированные) итеративно проверяются. Документ добавляется в существующий кластер, если найдено сходство (например, Edit Distance <= 4), или создает новый кластер.
- Многоуровневую кластеризацию (Claim 14): Группировка по первому идентификатору, затем сортировка и повторная группировка для учета сходства по другим идентификаторам.
Идентификация версий: Все документы внутри одного кластера считаются версиями одного и того же документа.

Процесс Б: Консолидация сигналов

Идентификация кластеров: Используются результаты Процесса А.
Суммирование метрик: Для каждого кластера система суммирует метрики всех входящих в него версий. Например, общий Citation Count = Сумма Citation Count всех версий.
Сохранение: Консолидированные данные сохраняются в индексе.

Какие данные и как использует

Данные на входе

Система полагается в первую очередь на метаданные, извлеченные из документов.

Контентные/Структурные факторы (Метаданные):
- Имена авторов (Authors).
- Заголовок (Title).
- Издатель (Publisher).
- Дата публикации (Date of publication).
- Название публикации (журнал, конференция).
- Информация о цитировании (Citation information - том, номер, страницы).
- Ключевые слова (Keywords).
Идентификаторы (Identifiers):
- Digital Object Identifier (DOI).
- PubMed Identifier.
- ISBN.
Технические факторы:
- Сетевое расположение (URL).
- Язык документа (Language) – используется для выбора language specific rules.
Внешние данные/Сигналы:
- Citation Count (Количество цитирований документа другими документами).

Какие метрики используются и как они считаются

Similarity Measure (Мера схожести): Вычисляется между парами нормализованных Candidate Identifiers. Патент перечисляет несколько возможных метрик:
- Edit Distance (Редакционное расстояние, Levenshtein Distance).
- Hamming Distance.
- Jaccard Coefficient.
- Dice's Coefficient.
Пороговые значения: Для определения схожести используются пороги. Например, если Edit Distance меньше определенного значения (в описании патента упоминается пример порога 4), идентификаторы считаются похожими.
Total Citation Count (Общее количество цитирований): Вычисляется путем суммирования индивидуальных Citation Count всех документов, сгруппированных в один кластер.
Методы анализа текста (Нормализация): Применяются language specific rules для стандартизации данных перед сравнением.

Дедупликация на основе метаданных: Google активно использует метаданные (а не только контент или ссылки) для идентификации и кластеризации различных версий документа. Это особенно актуально для структурированного контента и научных работ (Google Scholar).
Устойчивость к вариациям и ошибкам: Система разработана с учетом того, что метаданные могут отличаться или содержать ошибки. Использование нескольких candidate identifiers, агрессивная нормализация (удаление стоп-слов, пунктуации) и применение метрик схожести (Edit Distance) вместо точного совпадения обеспечивают высокую точность дедупликации.
Консолидация сигналов — ключевая цель: Одной из главных целей является консолидация сигналов авторитетности. Патент явно описывает суммирование Citation Count. Логично предположить, что аналогичный подход применяется и к другим сигналам, таким как PageRank.
Критичность чистых и последовательных данных: Для SEO-специалистов это подчеркивает важность предоставления точных, полных и согласованных метаданных. Несоответствия могут привести к тому, что Google не сможет правильно идентифицировать контент и консолидировать его сигналы.
Инфраструктурный процесс индексирования: Идентификация версий происходит на этапе INDEXING, организуя данные и обеспечивая чистоту индекса до того, как произойдет ранжирование.

Best practices (это мы делаем)

Обеспечение согласованности метаданных: Критически важно поддерживать максимальную согласованность метаданных (заголовки, имена авторов, даты публикации) для одного и того же контента, публикуемого на разных платформах (например, сайт компании, репозиторий, синдикация). Это помогает системе корректно генерировать и сопоставлять candidate identifiers.
Использование стандартных идентификаторов: Активно используйте стандартные идентификаторы (DOI для статей, ISBN для книг, GTIN для товаров). Они служат надежными точками данных для генерации candidate identifiers и значительно упрощают дедупликацию.
Точная разметка структурированных данных: Используйте схему (например, ScholarlyArticle, Product, Book) для четкой передачи метаданных поисковой системе. Убедитесь, что поля author, name, datePublished, identifier заполнены корректно и стандартизированы.
Стандартизация имен и названий: Применяйте внутренние стандарты для форматирования имен авторов и названий организаций. Это минимизирует вариации, которые системе пришлось бы нормализовывать с помощью language specific rules.

Worst practices (это делать не надо)

Публикация с противоречивыми метаданными: Размещение одного и того же контента с существенно различающимися заголовками или неточными датами. Это увеличивает риск того, что система не сможет кластеризовать версии, что приведет к распылению сигналов ранжирования.
Игнорирование стандартов и идентификаторов: Неиспользование DOI, ISBN или других стандартных идентификаторов, когда они применимы, лишает систему надежных метаданных для дедупликации. Использование нестандартных форматов дат или аббревиатур может затруднить процесс нормализации.
Отсутствие стратегии каноникализации: Полагаться только на автоматические механизмы Google для объединения дубликатов рискованно. Необходимо активно управлять каноникализацией (rel=canonical), чтобы гарантировать консолидацию сигналов на нужной версии.

Стратегическое значение

Патент подтверждает фундаментальную важность процессов дедупликации и каноникализации в Google. Он демонстрирует, что Google стремится идентифицировать уникальный "документ" (сущность/работу) за разными его представлениями (URL/форматами) для консолидации авторитетности. Для долгосрочной SEO-стратегии критически важно управлять тем, как контент синдицируется и как структурируются его метаданные, чтобы обеспечить максимальную консолидацию сигналов ранжирования.

Практические примеры

Сценарий: Консолидация авторитетности научной статьи (Google Scholar)

Ситуация: Исследователь публикует статью. Она появляется в трех местах: (А) официальный сайт журнала с DOI, (Б) репозиторий университета (PDF-препринт), (В) личный сайт исследователя.
Действия SEO/Автора:
- Убедиться, что во всех трех версиях заголовок, список авторов и дата публикации максимально идентичны.
- В метаданных версий Б и В указать DOI версии А.
Работа системы (по патенту):
- Система генерирует candidate identifiers для А, Б и В. Благодаря согласованности данных, идентификаторы очень похожи.
- Система нормализует их (например, удаляет артикли из заголовка).
- Сравнение показывает высокую схожесть (низкий Edit Distance).
- Система кластеризует А, Б и В как один документ.
Результат: Все цитаты и ссылки, которые получают версии Б и В, консолидируются с цитатами версии А. Общий Citation Count увеличивается, повышая авторитетность статьи в Google Scholar.

Какова основная цель этого патента с точки зрения SEO?

Основная цель — обеспечить консолидацию сигналов ранжирования. Патент описывает, как Google идентифицирует разные версии одного документа, чтобы объединить их авторитетность (например, Citation Count или PageRank). Это предотвращает распыление сигналов между дубликатами и позволяет наиболее авторитетному контенту ранжироваться выше.

Означает ли этот патент, что Google использует только метаданные для поиска дубликатов?

Нет. Этот патент фокусируется конкретно на методе использования метаданных, который особенно эффективен для научной литературы и структурированного контента. Google использует множество других методов для дедупликации, включая сравнение содержимого (например, с помощью хэширования или векторного анализа) и сигналы каноникализации (rel=canonical). Этот метод дополняет другие.

Как система справляется с ошибками или различиями в метаданных?

Система обладает высокой устойчивостью к ошибкам благодаря трем механизмам. Во-первых, она генерирует несколько candidate identifiers из разных комбинаций метаданных. Во-вторых, она агрессивно нормализует данные (language specific rules), удаляя стоп-слова, пунктуацию и стандартизируя форматы. В-третьих, она использует метрики схожести (Similarity Measure), такие как Edit Distance, а не требует точного совпадения.

Насколько важна согласованность метаданных для моего сайта?

Она критически важна, особенно если вы публикуете контент в нескольких местах или форматах (например, HTML и PDF). Необходимо обеспечить максимальную идентичность заголовков, авторов и дат. Несогласованность может привести к тому, что Google будет рассматривать версии как отдельные документы, что снизит их потенциал ранжирования.

Как этот патент связан с Google Scholar?

Этот механизм является фундаментальным для Google Scholar. Изобретатели патента (Verstak и Acharya) являются ключевыми фигурами в его развитии. Патент явно фокусируется на научной литературе и описывает, как консолидируется Citation Count — основная метрика авторитетности в академическом поиске.

Применим ли этот механизм к E-commerce?

Да, концепция применима. Товары также имеют структурированные метаданные (название, бренд, GTIN, MPN). Система может использовать аналогичный подход для идентификации одного и того же товара у разных продавцов или на разных страницах одного сайта, генерируя candidate identifiers из этих данных для кластеризации и консолидации сигналов (например, отзывов или ссылок).

Что такое "Language Specific Rules" и почему они важны?

Это правила нормализации, адаптированные под конкретный язык (например, удаление артиклей в английском). Они важны, потому что позволяют системе игнорировать синтаксические различия (пунктуация, стоп-слова, регистр) и фокусироваться на семантическом значении метаданных, что повышает точность сопоставления идентификаторов.

Как использование структурированных данных (Schema.org) взаимодействует с этим механизмом?

Структурированные данные значительно помогают этому механизму, предоставляя метаданные в чистом и стандартизированном формате. Разметка ScholarlyArticle, Book или Product напрямую предоставляет системе данные для генерации candidate identifiers, снижая вероятность ошибок при извлечении информации.

Что произойдет, если система ошибочно объединит два разных документа?

Это может привести к неправильной каноникализации и некорректной консолидации сигналов. Один документ может быть исключен из выдачи в пользу другого, или их метрики авторитетности будут объединены неверно. Использование точных метаданных и уникальных идентификаторов (DOI, ISBN, GTIN) минимизирует этот риск.

Заменяет ли этот механизм необходимость использования тега rel=canonical?

Нет, не заменяет. Тег rel=canonical является явным указанием владельца сайта на предпочтительную версию. Описанный механизм — это алгоритмическая попытка Google самостоятельно разобраться в дубликатах, особенно когда явные сигналы отсутствуют или противоречивы. Лучшая практика — использовать rel=canonical и поддерживать чистоту метаданных.

Как Google автоматически распознает и связывает отсканированные книги с их библиографическими данными (ISBN, автор, название)

Патент описывает инфраструктурный процесс Google для оцифровки печатных изданий (например, Google Books). Система сканирует документ, ищет идентификаторы (ISBN, ISSN) на странице авторских прав или в штрихкоде, сверяет их с базами данных метаданных и автоматически связывает текст документа с его библиографическим описанием для последующего поиска.

US8495061B1
2013-07-23

Индексация

Как Google оценивает качество новостных источников, кластеризует статьи и ранжирует новости на основе свежести, оригинальности и авторитетности

Детальный разбор основополагающего патента Google News. Система оценивает источники по скорости реакции на события, оригинальности контента и авторитетности (ссылки, просмотры). Новостные сюжеты (кластеры) ранжируются по свежести и качеству источников. Статьи внутри сюжета сортируются с использованием «Модифицированной оценки свежести», которая дает значительное преимущество авторитетным изданиям.

US7568148B1
2009-07-28

Свежесть контента
EEAT и качество

Как Google использует взвешенную оценку метаданных для выявления дубликатов контента без анализа самих файлов

Патент Google описывает метод идентификации субстантивных дубликатов (например, товаров, видео или сущностей в разных форматах) исключительно путем сравнения их метаданных. Система нормализует данные, вычисляет взвешенную оценку сходства с учетом важности разных атрибутов и помечает контент как дублирующийся, если оценка превышает порог. Этот механизм критичен для согласования сущностей (Entity Reconciliation) в системах Google.

US8266115B1
2012-09-11

Индексация

Как Google использует семантические сигнатуры на основе фраз для выявления и удаления дубликатов контента

Google использует механизм для обнаружения дубликатов и почти дубликатов контента. Система анализирует, какие семантически связанные фразы (related phrases) содержатся в документе. Затем она выбирает несколько ключевых предложений с наибольшей концентрацией этих фраз для создания уникальной сигнатуры документа. Если сигнатуры двух документов совпадают, они считаются дубликатами и удаляются из индекса или поисковой выдачи.

US7711679B2
2010-05-04

Семантика и интент
Индексация
SERP

Как Google использует редиректы, анализ URL и оценку качества для объединения дубликатов и выбора канонической версии

Google использует итеративный процесс для борьбы с дубликатами при индексировании. Система кластеризует похожие документы, выбирает лучшего представителя из каждого кластера на основе качества и определяет конечную цель его редиректов. Если цели редиректов из разных кластеров оказываются дубликатами (например, на основе анализа паттернов URL), исходные кластеры объединяются. Это позволяет консолидировать сигналы и выбрать единую каноническую версию для индекса.

US8661069B1
2014-02-25

Индексация
Техническое SEO
Структура сайта

Как Google использует поведение пользователей в веб-поиске для динамической категоризации локальных бизнесов

Google динамически формирует категории для бизнесов, основываясь на том, как пользователи ищут их (используемые ключевые слова и клики) в веб-поиске и голосовом поиске. Эти данные формируют иерархическое понимание типов бизнеса. Эта структура затем используется для повышения точности распознавания названий компаний в голосовых запросах.

US8041568B2
2011-10-18

Local SEO
Поведенческие сигналы
Семантика и интент

Как Google автоматически определяет важность различных частей веб-страницы (DOM-узлов) для ранжирования

Google анализирует коллекции похожих структурированных документов (например, товарных карточек) и создает общую модель (DOM). Затем система изучает логи запросов и кликов, чтобы понять, какие части структуры (заголовки, основной контент, реклама) чаще всего содержат ключевые слова из успешных запросов. Этим частям присваивается больший вес при расчете релевантности.

US8538989B1
2013-09-17

Семантика и интент
Индексация
Структура сайта

Как Google использует данные сессий и разнообразие результатов для генерации блока "Связанные запросы"

Google анализирует поисковые сессии пользователей, чтобы найти запросы, которые часто следуют за одним и тем же предшествующим запросом (родственные запросы). Затем система фильтрует эти потенциальные "Связанные запросы", чтобы убедиться, что они предлагают разнообразные результаты по сравнению с исходным запросом и другими предложениями, помогая пользователям исследовать смежные, но отличные темы.

US8244749B1
2012-08-14

Семантика и интент
Персонализация
Поведенческие сигналы

Как Google автоматически обнаруживает и индексирует контент внутри мобильных приложений для показа в поиске (App Indexing)

Google использует систему для индексации контента нативных мобильных приложений. Для приложений, связанных с веб-сайтами, система проверяет аффилиацию и использует существующие веб-URL для доступа к контенту приложения. Для приложений с кастомными URI система эмулирует работу приложения и итеративно обнаруживает внутренние ссылки. Это позволяет контенту из приложений появляться в результатах поиска в виде глубоких ссылок.

US10073911B2
2018-09-11

Индексация
Краулинг
Ссылки

Как Google извлекает сущности из активности пользователя для запуска проактивных (имплицитных) поисковых запросов

Анализ патента Google, описывающего метод идентификации «именованных сущностей» (людей, тем, фраз) путем мониторинга действий пользователя, таких как электронная почта, просмотр веб-страниц и набор текста. Система использует эти сущности для проактивного запуска фоновых поисковых запросов (имплицитных запросов), релевантных текущему контексту пользователя, часто с использованием персонализированных данных.

US9009153B2
2015-04-14

Персонализация
Семантика и интент
Поведенческие сигналы

Как Google анализирует сессии пользователей и кластеризует концепции для генерации блока "Связанные запросы" (Related Searches)

Google анализирует последовательности запросов пользователей в рамках одной сессии для выявления шаблонов уточнений. Система кластеризует эти уточнения по смыслу, анализируя контент ранжирующихся по ним документов или другие запросы, ведущие на эти документы. Это позволяет предлагать пользователям концептуально различные варианты для сужения или изменения темы поиска.

US8065316B1
2011-11-22

Семантика и интент
SERP
Поведенческие сигналы

Как Google извлекает готовые ответы из авторитетных источников для формирования Featured Snippets

Google использует систему для предоставления прямых ответов на естественном языке (в виде абзацев или списков) на запросы с четким намерением. Система заранее анализирует авторитетные источники, извлекает пары «заголовок-текст», соответствующие популярным шаблонам вопросов, и сохраняет их в специальной базе данных. При получении соответствующего запроса система извлекает готовый ответ из этой базы и отображает его в выдаче.

US9448992B2
2016-09-20

Семантика и интент
EEAT и качество
Индексация

Как Google использует машинное обучение и данные о длительности сессий для выявления битых Deep Links в мобильных приложениях

Google использует систему машинного обучения для анализа того, как долго пользователи взаимодействуют с контентом в приложении после перехода по Deep Link (Presentation Duration). Анализируя распределение этих временных интервалов, система классифицирует ссылку как рабочую или битую без необходимости прямого сканирования контента. Это позволяет Google удалять неработающие ссылки из индекса.

US10628511B2
2020-04-21

Ссылки
Индексация
Поведенческие сигналы

Как Google использует длительность кликов, Pogo-Sticking и уточнение запросов для оценки качества поиска (Click Profiles)

Google анализирует поведение пользователей после клика для оценки удовлетворенности. Система создает «Профили взаимодействия» (Click Profiles), учитывая длительность клика (Dwell Time), возврат к выдаче (Pogo-Sticking) и последующее уточнение запроса. Эти данные используются для сравнения эффективности алгоритмов ранжирования и выявления спама или кликбейта.

US9223868B2
2015-12-29

Поведенческие сигналы
SERP
Антиспам

Как Google связывает документы на основе поведения пользователей, времени взаимодействия и контентной близости для персонализации поиска

Google использует систему для определения "меры ассоциации" между различными документами (статьями, веб-страницами, письмами). Ассоциация рассчитывается на основе того, насколько близко по времени пользователь взаимодействовал с этими документами, насколько похож их контент и совпадают ли метаданные (например, автор). Эти связи используются для понимания пути пользователя и персонализации последующих результатов поиска.

US8131754B1
2012-03-06

Поведенческие сигналы
Персонализация
Семантика и интент