Как Google использует взвешенную оценку метаданных для выявления дубликатов контента без анализа самих файлов

IDENTIFYING DUPLICATE ELECTRONIC CONTENT BASED ON METADATA (Идентификация дублирующегося электронного контента на основе метаданных)

US8266115B1
Google LLC
2011-01-14
2012-09-11

Индексация

Патент Google описывает метод идентификации субстантивных дубликатов (например, товаров, видео или сущностей в разных форматах) исключительно путем сравнения их метаданных. Система нормализует данные, вычисляет взвешенную оценку сходства с учетом важности разных атрибутов и помечает контент как дублирующийся, если оценка превышает порог. Этот механизм критичен для согласования сущностей (Entity Reconciliation) в системах Google.

Какую проблему решает

Патент решает проблему идентификации дублирующегося электронного контента, когда файлы не идентичны на побитовом уровне. Традиционные методы, основанные на хешировании содержимого, неэффективны, если один и тот же контент (например, товар, видео, аудио) закодирован в разных форматах, с разным качеством или имеет незначительные технические различия. Изобретение позволяет идентифицировать такие «субстантивные дубликаты» без необходимости анализа самого контента.

Что запатентовано

Запатентована система для дедупликации контента, основанная исключительно на сравнении метаданных (Metadata). Система сравнивает атрибуты двух элементов (например, Название, Автор, Идентификаторы), генерирует взвешенную оценку (Score) их сходства и определяет элементы как потенциальные дубликаты, если оценка превышает установленный порог (Threshold Value). Ключевая особенность — использование весовых коэффициентов (Weight) для разных полей и оптимизация через хеширование метаданных.

Как это работает

Система работает следующим образом:

Нормализация: Метаданные стандартизируются: удаляются артикли, игнорируется регистр, убираются пометки вроде "(remix)" или "feat.".
(Опционально) Хеширование метаданных: Для оптимизации генерируются и сравниваются хеши ключевых метаданных. Если хеши не совпадают, элементы считаются разными.
Взвешенное сравнение: Система сравнивает соответствующие поля.
Генерация оценки (Scoring): Вычисляется Score. Совпадение в более уникальных полях (например, Title, GTIN) увеличивает оценку сильнее, чем в менее уникальных (например, Genre). Несовпадения могут уменьшать оценку.
Решение: Если Score превышает Threshold Value, элементы помечаются как дубликаты, и система выполняет каноникализацию или отображает только одну версию.

Актуальность для SEO

Высокая. Хотя патент в примерах фокусируется на медиафайлах, описанные техники критически важны для управления огромными индексами Google (Images, Videos, Shopping, Knowledge Graph). Дедупликация и каноникализация на основе метаданных и структурированных данных являются фундаментальными процессами в современном поиске для идентификации и согласования сущностей (Entity Reconciliation).

Важность для SEO

Патент имеет высокое значение для SEO (75/100), особенно в области структурированных данных, E-commerce и мультимедийного контента. Он демонстрирует, как Google может агрегировать информацию и принимать решения о каноникализации, полагаясь на метаданные (включая Schema.org и фиды). Неточности в метаданных могут привести к фрагментации индексации, в то время как точные и полные данные обеспечивают корректное распознавание контента и сущностей.

Термины и определения

Electronic Content (Электронный контент): Любой тип цифрового файла или элемента данных: аудио, видео, электронная книга, товар, изображение.
Metadata (Метаданные): Информация, описывающая контент. Примеры: Title, Author, Publisher, GTIN, ISBN, Release Date.
Normalization (Нормализация): Процесс предобработки метаданных перед сравнением. Включает приведение к одному регистру, удаление артиклей ("a", "the"), удаление дополнительной информации (например, "(remix)", "feat.").
Score (Оценка схожести): Числовое значение, генерируемое путем сравнения метаданных. Отражает степень уверенности в том, что элементы являются дубликатами.
Weight (Весовой коэффициент): Значение, присваиваемое полю метаданных, определяющее его влияние на общую Score. Более уникальные идентификаторы имеют больший вес.
Hash Value (Хеш-значение метаданных): Значение, сгенерированное на основе подмножества метаданных элемента. Используется для быстрой предварительной фильтрации.
Threshold Value (Пороговое значение): Минимальная Score, необходимая для того, чтобы два элемента были признаны потенциальными дубликатами.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый, Система) и Claim 5 (Независимый, Метод): Описывают основной механизм идентификации дубликатов.

Система получает метаданные для первого и второго элементов контента (включая как минимум поле Title и еще одно поле).
Генерируются и сравниваются первый и второй хеши (Hash Value) на основе соответствующих метаданных.
В ответ на сравнение генерируется оценка (Score). Ключевое условие: оценка генерируется на основе корреляции между метаданными и без анализа самого контента (without analyzing the content).
Генерация оценки включает сложную логику взвешивания:
- Определение веса (Weight) для поля метаданных.
- Увеличение оценки на этот вес, если значения поля совпадают.
- ИЛИ уменьшение оценки на другой вес (different weight), если значения поля не совпадают (Асимметричное взвешивание).
Устанавливается, что элементы являются потенциальными дубликатами, если Score превышает Threshold Value.
Система предоставляет для отображения информацию, идентифицирующую только один из двух элементов.

Claim 4, 7, 10 (Зависимые): Детализируют использование хешей как оптимизацию (Двухэтапное сравнение).

Детальное сравнение полных метаданных (для генерации Score) происходит только после того, как установлено, что хеши метаданных совпадают. Это позволяет быстро отсеивать явно несовпадающие элементы, экономя ресурсы.

Где и как применяется

Хотя примеры в патенте относятся к управлению медиа-коллекциями, описанная технология имеет прямое отношение к архитектуре поисковой системы, особенно на этапе индексирования и обработки структурированных данных.

INDEXING – Индексирование и извлечение признаков
Это основной этап применения патента.

Извлечение и нормализация метаданных: Система извлекает метаданные (например, из Schema.org, фидов, мета-тегов) и нормализует их для последующего сравнения.
Дедупликация и Согласование Сущностей (Entity Reconciliation): Система использует описанный механизм для идентификации субстантивных дубликатов. Это критически важно для:
- Продуктов (Shopping): Идентификация одного и того же товара у разных продавцов путем сравнения структурированных данных (GTIN, MPN, Brand, Title).
- Медиа-контента (Images/Video): Идентификация одного и того же изображения или видео на разных URL или в разных форматах путем сравнения метаданных.
- Сущностей (Knowledge Graph): Объединение информации об одной и той же сущности из разных источников.
Каноникализация (Canonicalization): После идентификации дубликатов система выбирает каноническую версию для включения в основной индекс.

Входные данные:

Метаданные (структурированные атрибуты), связанные с каждым элементом контента или сущностью.

Выходные данные:

Оценка сходства (Score) для пар элементов.
Идентификация потенциальных дубликатов и выбор канонической версии.

На что влияет

Типы контента: Наибольшее влияние на контент, богатый метаданными: товары (E-commerce), медиафайлы (изображения, видео), книги, статьи, структурированные данные о сущностях (Local Business).
Конкретные ниши: Критическое влияние в E-commerce (идентификация товаров), на сайтах агрегаторов, медиа-порталах и в локальном поиске.

Когда применяется

Триггеры активации: Применяется в процессе индексирования при обработке нового или обновленного контента. Детальное сравнение активируется, если предварительное сравнение хешей ключевых метаданных показало совпадение (оптимизация).
Пороговые значения: Threshold Value используется для финального решения. В патенте указано, что порог должен быть достаточно высоким, чтобы минимизировать ложные срабатывания.

Пошаговый алгоритм

Процесс дедупликации двух элементов контента (Item 1 и Item 2):

Сбор метаданных: Получение метаданных для Item 1 и Item 2 (например, Title, Brand, GTIN).
Нормализация: Обработка значений метаданных. Например, удаление регистра, артиклей, специальных символов, приведение брендов к стандартному написанию.
Генерация и сравнение хешей (Предварительный фильтр):
- Генерация Hash 1 и Hash 2 на основе ключевых полей (например, Title + Brand + GTIN).
- Сравнение Hash 1 и Hash 2. Если они не совпадают, процесс останавливается (элементы не дубликаты).
Инициализация оценки: Установка начального значения Score.
Взвешенное сравнение полей: Итерация по всем полям метаданных. Для каждого поля (F):
- Сравнение нормализованных значений Value 1 и Value 2.
- Если значения совпадают: Увеличить Score на Вес(F). (Например, высокий вес за GTIN).
- Если значения не совпадают: Уменьшить Score на Другой_Вес(F) (Асимметричное взвешивание).
(Опционально) Динамическая корректировка весов: Веса могут изменяться в зависимости от других совпадений. Например, вес атрибута "Размер" может зависеть от совпадения атрибута "Модель".
Сравнение с порогом: Сравнение итогового Score с пороговым значением (Threshold).
Принятие решения и Действие: Если Score > Threshold, элементы помечаются как дубликаты. Система выбирает каноническую версию.

Какие данные и как использует

Данные на входе

Система использует исключительно метаданные, связанные с контентом. В патенте явно указано, что анализ самого контента не производится.

Контентные/Структурные факторы (Метаданные / Атрибуты):
- Идентификаторы: GTIN, ISBN, DOI, SKU, MPN.
- Основные атрибуты: Title (Название), Brand (Бренд), Author (Автор), Publisher (Издатель).
- Второстепенные атрибуты: Release Date (Дата выпуска), Genre (Жанр), Format (Формат), Размеры, Цвета.
- Медиа-атрибуты: Длительность, Разрешение, Alt-текст, Данные EXIF/IPTC.

В контексте SEO эти данные извлекаются из микроразметки (Schema.org), Open Graph, мета-тегов и фидов данных (например, Merchant Center).

Какие метрики используются и как они считаются

Оценка сходства (Score): Агрегированная метрика, рассчитываемая как сумма взвешенных совпадений и несовпадений метаданных.
Весовые коэффициенты (Weights): Предварительно определенные значения для каждого поля метаданных. Патент подчеркивает разницу в весах:
- Высокий вес: Поля, которые уникально идентифицируют контент (Идентификаторы, Название, Бренд).
- Низкий вес: Поля, которые слабо идентифицируют контент (Жанр, Год выпуска).
Штрафы (Mismatches / Асимметричное взвешивание): Несовпадающие поля уменьшают оценку. Штрафы также взвешены и могут отличаться от бонусов за совпадение для того же поля (Claims 1, 5).
Пороговое значение (Threshold): Фиксированное значение для определения дубликатов.
Нормализация: Используются техники NLP и эвристики для стандартизации текстовых значений перед сравнением.

Метаданные как основа для идентификации и согласования: Патент подтверждает, что Google располагает механизмами для идентификации дубликатов и согласования сущностей (Entity Reconciliation), основанными исключительно на метаданных (структурированных данных), без анализа основного контента.
Критическая важность нормализации данных: Система активно нормализует данные перед сравнением (обрабатывает синонимы, форматирование, дополнительные элементы типа "(remix)" или "feat."). Это означает, что мелкие различия в написании не гарантируют уникальности в глазах системы.
Взвешенная оценка сходства (Attribute Weighting): Не все атрибуты одинаково важны. Система придает значительно больший вес уникальным идентификаторам (GTIN, ISBN) и ключевым атрибутам (Название, Бренд) по сравнению с общими.
Сложная логика взвешивания: Используется асимметричное взвешивание (штрафы за несовпадения отличаются от бонусов за совпадения) и потенциально динамическое взвешивание (вес одного поля зависит от совпадения других).
Эффективность через двухэтапное сравнение: Использование хешей метаданных для предварительной фильтрации показывает, что Google применяет многоуровневые подходы для оптимизации процесса дедупликации в масштабах веба.

Best practices (это мы делаем)

Приоритет уникальных идентификаторов: Всегда указывайте стандартные идентификаторы (GTIN/MPN/SKU для товаров, ISBN для книг). Согласно логике патента, эти поля имеют наибольший вес (Weight) при идентификации и дедупликации контента.
Максимальная точность и полнота структурированных данных: Тщательно заполняйте Schema.org и фиды данных. Предоставление полных и точных метаданных позволяет системе корректно рассчитать Score сходства и правильно идентифицировать ваш контент и сущности.
Консистентность данных (Data Consistency): Убедитесь, что метаданные для одной и той же сущности идентичны на всех страницах вашего сайта, в Sitemaps и фидах. Нормализуйте данные на своей стороне (используйте единое написание бренда, стандартизированные названия).
Оптимизация метаданных для медиа: Для изображений и видео используйте консистентные метаданные (Alt-текст, Title, микроразметка VideoObject/ImageObject). Это предоставляет системе необходимые данные для корректной каноникализации медиафайлов разных форматов и размеров.

Worst practices (это делать не надо)

Несоответствия в метаданных: Различия в написании названий, брендов или идентификаторов для одного и того же товара на разных страницах или в фидах. Это приведет к снижению Score (из-за штрафов за несовпадение) и может вызвать фрагментацию индекса.
Игнорирование структурированных данных: Отсутствие микроразметки лишает Google возможности использовать описанные эффективные механизмы для точной идентификации вашего контента, заставляя полагаться на менее надежные сигналы.
Попытки манипуляции через мелкие изменения: Создание псевдо-уникальных названий путем добавления слов вроде "(Новинка)" или изменения регистра неэффективно, так как система нормализует эти данные перед сравнением.

Стратегическое значение

Этот патент подчеркивает фундаментальную роль метаданных и структурированных данных в процессах индексирования Google, особенно для дедупликации, каноникализации и согласования сущностей. В эпоху семантического поиска предоставление точной и консистентной информации является критически важным. Стратегия SEO должна включать управление качеством данных (Data Quality Management) как один из приоритетов, гарантируя, что поисковая система может эффективно идентифицировать и консолидировать сигналы, связанные с вашим контентом и сущностями.

Практические примеры

Сценарий 1: Дедупликация товаров в E-commerce (Google Shopping)

Ситуация: Два продавца загружают информацию об одном товаре.
- Продавец A: Title: "Смартфон Apple iPhone 15 Pro (Black)", Brand: "Apple", GTIN: 12345.
- Продавец B: Title: "iPhone 15 Pro - Черный цвет", Brand: "Эппл", GTIN: 12345.
Действие системы (по патенту): Система нормализует данные ("Эппл" -> "Apple"). Затем рассчитывает Score. Совпадение GTIN (очень высокий вес) и нормализованных брендов/названий (высокий вес) приводит к высокому итоговому Score.
Результат: Score превышает порог. Google идентифицирует оба предложения как один товар и объединяет их в единую карточку продукта в Google Shopping.

Сценарий 2: Каноникализация изображений

Ситуация: На сайте используется одно и то же изображение в разных размерах (thumbnail, large) и на разных страницах.
Действие SEO: Убедиться, что все версии изображения имеют консистентные метаданные: одинаковый Alt-текст и соответствующую микроразметку ImageObject.
Результат (по патенту): Google сравнивает метаданные разных версий. Несмотря на разницу в разрешении, совпадение по ключевым текстовым метаданным позволяет системе идентифицировать их как субстантивные дубликаты и выбрать наилучшую версию для ранжирования в Google Images.

Отличается ли этот метод от того, как Google определяет дубликаты веб-страниц?

Да, значительно. Для веб-страниц Google в основном использует алгоритмы анализа контента (текста, структуры HTML). Описанный в патенте метод основан исключительно на метаданных и не анализирует содержимое. Он предназначен для ситуаций, когда содержимое может технически отличаться (разные форматы, кодировки), но сущность контента та же (товары, медиафайлы, сущности).

Что важнее всего для этого алгоритма при определении дубликатов?

Ключевым является взвешенная оценка сходства метаданных. Наибольший вес (Weight) имеют поля, которые уникально идентифицируют контент. В контексте SEO это уникальные идентификаторы, такие как GTIN для товаров, ISBN для книг, а также точные названия, бренды и авторы.

Как система обрабатывает ошибки или опечатки в метаданных?

Патент описывает процесс нормализации (Normalization), который стандартизирует данные перед сравнением (игнорирует регистр, удаляет артикли, обрабатывает вариации типа "(remix)"). Также возможно использование алгоритмов нечеткого сравнения (similarity algorithms), которые могут учитывать опечатки и присваивать частичные баллы за сходство, а не только за точное совпадение.

Влияет ли несовпадение метаданных на оценку сходства?

Да, активно влияет. Патент описывает, что несовпадения уменьшают общую оценку (decrementing the score). Используется асимметричное взвешивание: штраф за несовпадение может иметь вес, отличный от бонуса за совпадение для того же поля. Например, несовпадение GTIN может сильно снизить оценку.

Как этот патент влияет на SEO для E-commerce?

Он критически важен. Он объясняет механизм, с помощью которого Google идентифицирует и объединяет одинаковые товары от разных продавцов (Entity Reconciliation). Для успешного продвижения необходимо предоставлять точные, полные и консистентные структурированные данные о товарах, особенно идентификаторы (GTIN) и ключевые атрибуты.

Что такое хеширование метаданных и зачем оно нужно?

Это техника оптимизации (предварительный фильтр). Система генерирует хеш-значение на основе ключевых метаданных (например, Title + Brand). Если хеши двух элементов не совпадают, система сразу понимает, что это разный контент, и не тратит ресурсы на детальное взвешенное сравнение всех полей. Это ускоряет процесс дедупликации.

Может ли этот механизм использоваться для идентификации сущностей в Knowledge Graph?

Да, логика патента напрямую применима к согласованию сущностей. Сравнивая структурированные данные (метаданные) из разных источников о конкретной сущности (человек, организация), Google может определить, что они описывают один и тот же объект реального мира, используя взвешенную оценку сходства атрибутов.

Что такое динамическое взвешивание?

В описании патента (хотя и не в Claims) упоминается, что вес одного поля может зависеть от совпадения других полей. Например, если совпадает Название Альбома, то совпадение Номера Трека становится более значимым (получает больший вес). Это позволяет системе учитывать контекст и взаимосвязь атрибутов при анализе схожести.

Как обеспечить уникальность товара, если метаданные очень похожи (например, разные размеры)?

Необходимо четко указывать атрибуты вариативности (Размер, Цвет) в структурированных данных. Если система корректно распознает эти атрибуты, их несовпадение снизит общий Score схожести (за счет штрафов), предотвращая ложное срабатывание дедупликации. Важно использовать стандартные поля для вариаций.

Если у меня есть видео на YouTube и то же видео на моем сайте, поможет ли этот механизм связать их?

Да. Если вы используете идентичные метаданные (Название, Описание) для видео на обеих платформах и внедрите микроразметку VideoObject на своем сайте, система сможет с высокой вероятностью определить, что это субстантивные дубликаты. Это поможет Google понять взаимосвязь контента и корректно отображать его в результатах поиска.

Как Google использует цифровые отпечатки контента для автоматического выявления и исправления орфографических ошибок в метаданных

Google использует технологию цифровых отпечатков (fingerprinting) для идентификации идентичного контента (например, видео, аудио, изображений), загруженного разными пользователями. Сравнивая метаданные (заголовки, теги) этих идентичных файлов, система автоматически выявляет распространенные опечатки и орфографические ошибки. Это позволяет улучшить полноту поисковой выдачи, связывая разные варианты написания.

US8458156B1
2013-06-04

Индексация
Мультимедиа

Как Google обнаруживает неавторизованное использование контента (текст, изображения, видео, аудио), сохраняя конфиденциальность

Система позволяет владельцам контента загружать образцы (текст, изображения, видео, аудио) и проверять, существуют ли совпадения в индексах Google, включая веб-индекс и пользовательские базы данных. Система сообщает о факте наличия совпадения, не раскрывая источник напрямую, и может предоставить зашифрованный идентификатор для дальнейшего расследования.

US20080288509A1
2008-11-20

Индексация
Мультимедиа

Как Google использует контекст внешних страниц для понимания и идентификации видео и аудио контента

Google анализирует внешние веб-страницы, которые ссылаются на медиафайлы или встраивают их (например, видео YouTube). Система извлекает метаданные из контекста этих страниц — заголовков, окружающего текста, URL. Надежность данных проверяется частотой их повторения на разных сайтах. Эта информация используется для улучшения понимания содержания медиафайла и повышения эффективности систем идентификации контента (Content ID).

US10318543B1
2019-06-11

Ссылки
Индексация
Мультимедиа

Как Google использует метаданные для поиска дубликатов, объединения версий документов и консолидации сигналов ранжирования

Патент описывает, как Google идентифицирует различные версии одного и того же документа (например, научных статей) путем генерации, нормализации и сравнения нескольких идентификаторов на основе метаданных (автор, название, дата). Это позволяет Google объединять дубликаты в кластеры и консолидировать сигналы ранжирования, такие как общее количество цитирований.

US8316292B1
2012-11-20

Индексация
Техническое SEO

Как Google определяет оригинальность контента для расчета Авторского Ранга (Author Rank) и влияния на ранжирование

Google использует систему для идентификации оригинального контента и повышения авторитета его создателей. Система разбивает документы на фрагменты (content pieces) и отслеживает их первое появление. Авторы (включая домены) ранжируются на основе количества созданного ими оригинального контента и частоты его копирования другими. Ранг автора затем используется для повышения в выдаче документов этого автора, особенно свежих публикаций.

US8983970B1
2015-03-17

EEAT и качество
Свежесть контента
SERP

Как Google использует исторические данные о документах, ссылках и поведении пользователей для определения свежести, качества и борьбы со спамом

Фундаментальный патент Google, описывающий использование временных рядов данных для ранжирования. Система анализирует историю документа (дату создания, частоту и объем обновлений), историю ссылок (скорость появления, возраст, изменения анкоров), тренды запросов и поведение пользователей. Эти данные используются для определения свежести контента, выявления неестественной активности (спама) и оценки легитимности домена.

US7346839B2
2008-03-18

Свежесть контента
Антиспам
Ссылки

Как Google использует данные из Local Search и Google Maps для распознавания географических названий в основном поиске

Google анализирует поведение пользователей в интерфейсах с отдельными полями ввода "Что?" и "Где?" (например, в Google Maps). На основе этой статистики система определяет, является ли термин однозначным названием местоположения ("Нью-Йорк") или нет ("Пицца"). Это позволяет поиску отличать локальные запросы от общих и формировать "черные списки" для терминов, которые похожи на города, но ими не являются (например, "Орландо Блум").

US8782030B1
2014-07-15

Local SEO
Семантика и интент
Поведенческие сигналы

Как Google использует машинное обучение и поведение пользователей для понимания скрытого намерения в коммерческих запросах

Google использует систему машинного обучения для анализа того, какие товары пользователи выбирают после ввода широких или неоднозначных запросов. Изучая скрытые атрибуты (метаданные) этих выбранных товаров, система определяет «скрытое намерение» запроса. Это позволяет автоматически переписывать будущие неоднозначные запросы в структурированный формат, ориентированный на атрибуты товара, а не только на ключевые слова.

US20180113919A1
2018-04-26

Семантика и интент
SERP
Поведенческие сигналы

Как Google использует историю поиска и браузинга пользователя для персонализации и изменения результатов выдачи

Google записывает историю поиска и просмотров пользователя для последующей персонализации выдачи. Система может повышать в ранжировании ранее посещенные сайты, добавлять в текущую выдачу релевантные результаты из прошлых похожих запросов, а также понижать сайты, которые пользователь ранее видел, но проигнорировал. Патент также описывает создание "предпочитаемых локаций" на основе частоты посещений и времени пребывания на сайте.

US9256685B2
2016-02-09

Персонализация
Поведенческие сигналы
SERP

Как Google персонализирует поисковую выдачу, анализируя историю кликов и поведение пользователя на сайте

Google использует механизм для персонализации поисковой выдачи на основе истории взаимодействия пользователя с результатами поиска. Система отслеживает, какие сайты пользователь выбирает, как долго он на них остается (Dwell Time), частоту и контекст выбора. Основываясь на этих данных, предпочитаемые пользователем ресурсы повышаются в ранжировании при его последующих запросах.

US9037581B1
2015-05-19

Персонализация
Поведенческие сигналы
SERP

Как Google комбинирует поведенческие сигналы из разных поисковых систем для улучшения ранжирования

Google использует механизм для улучшения ранжирования путем объединения данных о поведении пользователей (клики и время взаимодействия) из разных поисковых систем (например, Веб-поиск и Поиск по Видео). Если в основной системе данных недостаточно, система заимствует данные из другой, применяя весовой коэффициент и фактор сглаживания для контроля смещения и обеспечения релевантности.

US8832083B1
2014-09-09

Поведенческие сигналы
SERP

Как Google извлекает готовые ответы из авторитетных источников для формирования Featured Snippets

Google использует систему для предоставления прямых ответов на естественном языке (в виде абзацев или списков) на запросы с четким намерением. Система заранее анализирует авторитетные источники, извлекает пары «заголовок-текст», соответствующие популярным шаблонам вопросов, и сохраняет их в специальной базе данных. При получении соответствующего запроса система извлекает готовый ответ из этой базы и отображает его в выдаче.

US9448992B2
2016-09-20

Семантика и интент
EEAT и качество
Индексация

Как Google использует «Локальный авторитет» для переранжирования документов на основе их взаимосвязей внутри конкретной выдачи

Google может улучшить ранжирование, анализируя структуру ссылок внутри начального набора результатов поиска. Документы, на которые часто ссылаются другие высокорелевантные документы по этому же запросу («локальные эксперты»), получают повышение. Этот процесс включает строгие фильтры для обеспечения независимости этих ссылок-голосов.

US6526440B1
2003-02-25

Ссылки
Антиспам
SERP

Как Google использует машинное обучение для оптимизации обхода Knowledge Graph и поиска связанных концепций

Google оптимизирует обход Knowledge Graph для эффективного поиска семантически связанных фраз. Вместо анализа всех связей сущности система использует ML-модели для выбора только тех отношений (свойств), которые вероятнее всего приведут к ценным результатам. Этот выбор основан на истории поисковых запросов и контексте пользователя, что позволяет экономить вычислительные ресурсы и повышать релевантность предложений.

US10140286B2
2018-11-27

Knowledge Graph
Семантика и интент
Персонализация

Как Google использует визуальные цитаты и обратную связь для генерации и уточнения ответов в мультимодальном поиске

Google генерирует ответы на мультимодальные запросы (изображение + текст), находя визуально похожие изображения в интернете и используя текст с их исходных страниц как основу для LLM. Система показывает эти изображения как «визуальные цитаты» для подтверждения ответа и позволяет пользователям исключать нерелевантные источники, чтобы мгновенно уточнить сгенерированный результат.

US20240378236A1
2024-11-14

Мультимедиа
EEAT и качество
Ссылки