Как Google использует фингерпринтинг и распределенные вычисления для эффективного поиска дубликатов видео и аудио в огромных масштабах

LARGE-SCALE MATCHING OF AUDIO AND VIDEO (Масштабное сопоставление аудио и видео)

US8625033B1
Google LLC
2010-02-01
2014-01-07

Патент Google описывает инфраструктурный механизм для эффективного поиска дубликатов или похожих аудио- и видеофайлов в огромных базах данных. Система использует технику Locality Sensitive Hashing (LSH) и распределенную сортировку (например, MapReduce) для быстрого сопоставления «пробных» видео с «эталонными», что позволяет находить совпадения без медленного попарного сравнения всех файлов.

Какую проблему решает

Патент решает проблему неэффективности традиционных методов сопоставления аудио- и видеоконтента при работе с огромными коллекциями данных (например, на видеохостингах). Цель — создать масштабируемую и быструю систему для идентификации визуально или аудиально похожих файлов. Это необходимо для улучшения результатов поиска (удаление дубликатов), рекомендации похожего контента и идентификации дубликатов или почти дубликатов для правообладателей (управление авторскими правами).

Что запатентовано

Запатентована система и метод для высокоэффективного масштабного сопоставления медиафайлов. Изобретение использует технику разделения цифровых отпечатков (Fingerprints) на полосы LSH (Locality Sensitive Hashing). Ключевой особенностью является использование распределенных систем (таких как MapReduce) для сортировки этих полос и последующее линейное сканирование отсортированных списков для быстрого нахождения совпадений. Также запатентован процесс инкрементального обновления базы данных совпадений без повторной обработки старых данных.

Как это работает

Система работает следующим образом:

Генерация отпечатков: Для пробных (Probe videos) и эталонных (Reference videos) видео генерируются цифровые отпечатки, которые делятся на суб-отпечатки (Subfingerprints), а затем на полосы LSH.
Распределенная сортировка: Полосы LSH для пробных и эталонных видео сортируются отдельно по их значению с использованием распределенных вычислительных мощностей.
Линейное сканирование: Два отсортированных списка быстро сканируются линейно для выявления совпадающих полос LSH.
Анализ совпадений: Совпадающие полосы сортируются по идентификатору пробного видео. Затем система анализирует количество совпадений и их временное смещение (Time Offset), чтобы подтвердить, что видео действительно похожи (например, требуется превышение порога в 50 совпадений).

Актуальность для SEO

Высокая (для инфраструктуры). Описанные методы (LSH, распределенные вычисления типа MapReduce) являются стандартом для обработки больших данных. Системы идентификации контента (например, YouTube Content ID), основанные на подобных принципах, критически важны для функционирования современных медиаплатформ.

Важность для SEO

Минимальное/Инфраструктурное влияние (2/10). Патент описывает внутренние процессы Google для эффективного сопоставления контента, а не алгоритмы ранжирования веб-страниц. Он имеет огромное значение для управления контентом на видеоплатформах (обнаружение дубликатов, авторские права), но не дает прямых рекомендаций для SEO-оптимизации сайтов под Google Search.

Термины и определения

Batch Manager (Менеджер пакетов): Компонент системы, который управляет процессом сопоставления пакетов пробных видео с эталонными.
Fingerprint (Цифровой отпечаток): Компактное представление аудио- или визуального содержимого видеофайла, созданное, например, с помощью хеш-функции.
LSH Bands (Полосы LSH - Locality Sensitive Hashing): Небольшие части Subfingerprint, используемые для эффективного сопоставления. В одном из вариантов реализации каждая полоса содержит 4 байта данных из 100 байт Subfingerprint.
Probe Videos (Пробные видео): Набор видео, которые проверяются на совпадения (например, загруженный пользователем контент).
Reference Videos (Эталонные видео): Набор видео, с которыми сравниваются пробные видео (например, база данных защищенного авторским правом контента).
Sort Distributor / Sort Machine (Распределитель сортировки / Машина сортировки): Инфраструктура для выполнения распределенной сортировки больших наборов данных (например, MapReduce или Hadoop).
Subfingerprint (Суб-отпечаток): Сегмент полного цифрового отпечатка. В одном из вариантов реализации представляет собой около четверти секунды оригинального видео.
Time Offset (Временное смещение): Время, когда конкретная полоса LSH появляется в видео, измеренное от начала файла.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод масштабного сопоставления пробных и эталонных видео.

Получение доступа к полосам LSH пробных видео (каждая имеет значение и соответствует части суб-отпечатка).
Сортировка полос LSH пробных видео в первый список на основе их значений.
Получение доступа к полосам LSH эталонных видео.
Сортировка полос LSH эталонных видео во второй список на основе их значений.
Линейное сканирование первого и второго отсортированных списков для поиска совпадений.
Вывод совпадений для хранения.

Защищается конкретный рабочий процесс использования отсортированных списков LSH-полос и их линейного сканирования (вместо, например, медленных запросов к базе данных) для достижения эффективности при масштабном сопоставлении медиафайлов.

Claim 5 (Зависимый от 1): Уточняет, что сортировка полос LSH как для пробных, так и для эталонных видео выполняется с помощью распределенного сортировщика (distributed sorter).

Подчеркивается использование масштабируемых технологий, таких как MapReduce, для обработки огромного объема данных.

Claim 6 (Зависимый от 1): Описывает процесс инкрементального обновления.

Получение новых пробных и новых эталонных видео.
Сопоставление новых пробных видео с набором (старых) эталонных видео.
Сопоставление всех пробных видео (старых и новых) с новыми эталонными видео.

Защищается эффективный метод обновления базы данных совпадений, который позволяет избежать ненужного повторного сравнения старого контента со старым контентом.

Где и как применяется

Патент описывает инфраструктурные процессы, которые не связаны напрямую с ранжированием поисковой выдачи в реальном времени, но критичны для управления медиа-контентом.

CRAWLING – Сканирование и Сбор данных
Применимо в контексте сбора данных с медиаплатформ, где загрузка пользовательского контента (Probe videos) рассматривается как этап сбора данных.

INDEXING – Индексирование и извлечение признаков
Основной этап применения. Система генерирует Fingerprints, Subfingerprints и LSH Bands для всего аудио- и видеоконтента. Сам процесс масштабного сопоставления является специализированной формой индексирования или обслуживания базы данных, направленной на выявление связей (совпадений) между файлами.

Взаимодействие с компонентами: Система взаимодействует с хранилищем отпечатков и видео ID, менеджером пакетов (Batch Manager) и инфраструктурой распределенной сортировки (Sort Distributor, Sort Machine).

Входные данные:

Наборы пробных (Probe) и эталонных (Reference) видео.
Предварительно вычисленные LSH Bands и идентификаторы видео (Video IDs).

Выходные данные:

Список обнаруженных совпадений, включающий идентификаторы пробного и эталонного видео, а также временные диапазоны (Time Offset ranges), в которых обнаружено совпадение (аудио, видео или оба).

На что влияет

Конкретные типы контента: Исключительно аудио- и видеофайлы. Не влияет на текстовый или веб-контент.
Конкретные ниши или тематики: Наиболее актуально для видеохостингов, музыкальных стриминговых сервисов и систем управления авторскими правами.

Когда применяется

При каких условиях работает алгоритм: При необходимости сравнения больших наборов медиафайлов для поиска дубликатов или похожих фрагментов.
Триггеры активации: Может активироваться в момент загрузки нового контента (для проверки авторских прав) или запускаться периодически в пакетном режиме для очистки базы данных, обновления рекомендаций или инкрементального обновления индекса совпадений.

Пошаговый алгоритм

Процесс А: Масштабное сопоставление (Full Collection Matching)

Подготовка данных (Probe): Определение полос LSH для набора пробных видео.
Подготовка данных (Reference): Определение полос LSH для набора эталонных видео.
Распределенная сортировка (Probe): Сортировка всех полос LSH пробных видео по их значению для создания Списка 1. Выполняется с помощью Sort Distributor.
Распределенная сортировка (Reference): Сортировка всех полос LSH эталонных видео по их значению для создания Списка 2. Выполняется с помощью Sort Distributor.
Линейное сканирование: Быстрое сканирование Списка 1 и Списка 2 для выявления идентичных значений полос LSH.
Агрегация и пересортировка: Совпадающие полосы LSH сортируются по идентификатору пробного видео (Probe Video ID).
Анализ совпадений: Для каждого Probe Video ID определяются соответствующие эталонные видео. Проверяется, превышает ли количество совпадающих полос пороговое значение (например, 50) и сгруппированы ли они по временному смещению (offset).
Вывод результатов: Подтвержденные совпадения сохраняются в Match Storage.

Процесс Б: Инкрементальное сопоставление (Incremental Matching)

Получение новых данных: Прием новых пробных и/или новых эталонных видео.
Сопоставление (Пакет 1): Все новые пробные видео сопоставляются со всеми старыми эталонными видео (используя Процесс А).
Сопоставление (Пакет 2): Все пробные видео (новые и старые) сопоставляются со всеми новыми эталонными видео (используя Процесс А).
Объединение результатов: Совпадения из Пакета 1 и Пакета 2 добавляются к результатам предыдущего полного сопоставления (старые пробы против старых эталонов).
Обновление статуса: Все обработанные новые видео помечаются как «старые» для следующей итерации.

Какие данные и как использует

Данные на входе

Мультимедиа факторы: Основные используемые данные — это аудио- и визуальное содержимое видеофайлов. Эти данные не используются напрямую, а преобразуются в компактные представления — Fingerprints и LSH Bands.

Какие метрики используются и как они считаются

LSH Band Value (Значение полосы LSH): Числовое представление полосы LSH. Является ключом для сортировки и сопоставления.
Методы вычислений (Распределенная сортировка): Используются фреймворки типа MapReduce или Hadoop для эффективной сортировки миллиардов LSH Bands.
Методы вычислений (Линейное сканирование): Эффективный алгоритм сравнения двух предварительно отсортированных списков.
Match Threshold (Порог совпадения): Пороговое значение количества совпадающих LSH Bands, необходимое для подтверждения схожести между пробным и эталонным видео (в патенте упоминается примерный порог в 50 совпадений).
Offset Clumping (Группировка по смещению): Метрика качества совпадения. Совпадение считается более сильным, если совпадающие LSH Bands сгруппированы темпорально (имеют схожие временные смещения).

Инфраструктурный фокус: Патент полностью посвящен инфраструктурным решениям для повышения эффективности и масштабируемости сопоставления медиафайлов. Он не описывает, как генерируются отпечатки или как определяется схожесть контента на семантическом уровне, а фокусируется на логистике сравнения огромных наборов данных.
Оптимизация через сортировку: Ключевая идея патента — предварительная сортировка данных (LSH Bands) позволяет заменить медленные индивидуальные запросы к базе данных на быстрое линейное сканирование. Это критически важно при работе в масштабах Google/YouTube.
Использование распределенных вычислений: Патент подтверждает опору Google на распределенные вычисления (MapReduce) для решения задач обработки больших данных на этапе индексирования и анализа контента.
Основа для Content ID и рекомендаций: Описанная технология является техническим фундаментом для работы систем контроля авторских прав (таких как Content ID), удаления дубликатов из результатов поиска и генерации рекомендаций похожего медиаконтента.
Отсутствие связи с ранжированием в веб-поиске: Патент не предоставляет никакой информации об алгоритмах ранжирования веб-страниц или традиционных факторах SEO.

ВАЖНО: Патент является чисто инфраструктурным и описывает внутренние процессы Google для эффективного сопоставления медиафайлов. Он не дает прямых рекомендаций для SEO-оптимизации веб-сайтов. Приведенные ниже пункты актуальны в основном для создателей контента на платформах, использующих подобные технологии (например, YouTube).

Best practices (это мы делаем)

Понимание механизмов обнаружения дубликатов: SEO-специалисты и создатели контента должны понимать, что платформы обладают высокоэффективными инструментами для обнаружения дублирующегося или частично совпадающего аудио- и видеоконтента на основе цифровых отпечатков, независимо от метаданных.
Фокус на оригинальности контента: Приоритет следует отдавать созданию оригинального аудиовизуального контента. Использование чужих материалов должно быть юридически обосновано, так как автоматизированные системы (построенные на этой технологии) с высокой вероятностью обнаружат совпадения.
Управление правами: При управлении большими библиотеками контента следует использовать системы фингерпринтинга (если доступны, например, Content ID) для защиты своих материалов, загружая их как Reference videos.

Worst practices (это делать не надо)

Загрузка дубликатов: Попытки загрузить полные дубликаты или слегка модифицированные версии существующего контента («почти дубликаты») неэффективны. Технология LSH и фингерпринтинга разработана специально для обнаружения таких случаев в огромных масштабах.
Нарушение авторских прав: Использование защищенного авторским правом аудио или видео в своих роликах без разрешения приведет к автоматическому обнаружению совпадений с Reference videos правообладателей.

Стратегическое значение

Патент подтверждает, что Google обладает высокоразвитой инфраструктурой для анализа и сравнения мультимедийного контента на основе его содержимого, а не только метаданных. Для создателей видеоконтента это означает, что уникальность самого аудиовизуального потока имеет первостепенное значение для избежания проблем с дублированием и авторскими правами.

Практические примеры

Сценарий: Автоматическое применение Content ID на YouTube

Подготовка эталона: Музыкальный лейбл загружает свою музыкальную библиотеку в систему Content ID. Система обрабатывает эти файлы и сохраняет их LSH Bands как Reference videos.
Загрузка пользователем: Пользователь загружает видео, в котором используется трек этого лейбла. Система обрабатывает этот файл как Probe video.
Эффективное сопоставление: Вместо того чтобы сравнивать новый файл со всеми файлами в базе, система использует запатентованный метод: сортирует LSH Bands пробного видео и линейно сканирует их на совпадения с уже отсортированной базой эталонных LSH Bands.
Результат: Система быстро находит совпадение аудиодорожки, определяет временные метки и автоматически применяет политику правообладателя (монетизация, блокировка или отслеживание).

Поможет ли этот патент ранжировать мой сайт выше в Google Поиске?

Нет. Этот патент описывает инфраструктуру для сравнения аудио- и видеофайлов в больших масштабах (например, для Content ID или рекомендаций на YouTube). Он не имеет отношения к алгоритмам ранжирования стандартных веб-страниц в Google Search.

Связан ли этот патент с тем, как Google ранжирует видео в поиске YouTube?

Косвенно. Хотя патент не описывает алгоритмы ранжирования (релевантность, вовлеченность и т.д.), он описывает технологию, которая может использоваться для удаления дубликатов из результатов поиска, что улучшает общее качество выдачи. Также эта технология позволяет находить похожие видео для блока рекомендаций.

Что такое Locality Sensitive Hashing (LSH) в этом контексте?

Это техника для разделения цифрового отпечатка медиафайла на более мелкие части (LSH Bands). LSH спроектирован так, что похожие медиафайлы будут иметь много общих полос. Это позволяет быстро находить кандидатов на совпадение, не сравнивая полные отпечатки файлов друг с другом.

Анализирует ли эта система метаданные, теги или описания видео?

Нет, согласно патенту, эта система фокусируется исключительно на анализе самого аудиовизуального содержимого файла через цифровые отпечатки (Fingerprints). Она предназначена для поиска совпадений контента, даже если все метаданные отличаются.

Что означает «распределенная сортировка» и зачем она нужна?

При работе с миллиардами видео генерируется огромное количество LSH Bands. Сортировка такого объема данных на одном компьютере заняла бы слишком много времени. Распределенная сортировка (например, с использованием MapReduce) разделяет задачу на множество мелких подзадач, которые выполняются параллельно на кластере компьютеров, что значительно ускоряет процесс.

Зачем сортировать LSH Bands перед сравнением?

Это ключевая оптимизация патента. Сравнение двух отсортированных списков (линейное сканирование) происходит на порядки быстрее, чем поиск каждого значения из одного списка в неотсортированном другом списке (индивидуальные запросы к базе данных). Эта эффективность критична для работы в масштабах Google.

Что такое инкрементальное сопоставление?

Это процесс обновления базы данных совпадений при добавлении нового контента. Вместо того чтобы заново сравнивать всю коллекцию, система сравнивает только новые загрузки со старой базой и всю базу с новыми эталонами. Это позволяет избежать повторного выполнения уже сделанной работы (сравнения старого контента со старым).

Насколько точна эта система в определении дубликатов?

Патент описывает использование порога (например, 50 совпадающих LSH Bands) и анализ группировки совпадений по времени (Offset Clumping) для подтверждения совпадения. Это указывает на то, что система ищет значительные совпадения, а не случайные пересечения, что обеспечивает высокую точность обнаружения дубликатов и почти дубликатов.

Может ли эта система обнаружить ускоренное или замедленное видео?

Патент не описывает конкретные методы генерации отпечатков, устойчивых к изменению скорости воспроизведения. Однако он фокусируется на логистике сравнения отпечатков. Если используемый алгоритм фингерпринтинга (например, Waveprint, упомянутый в патенте как референс) устойчив к таким изменениям, то описанная система сможет эффективно найти эти совпадения.

Какое практическое значение этот патент имеет для SEO-специалиста?

Для стандартного SEO значение минимально. Однако для специалистов, занимающихся продвижением на YouTube или управлением видеоконтентом, патент подчеркивает важность создания оригинального контента и бесполезность попыток обойти системы обнаружения дубликатов путем незначительных модификаций или изменения метаданных.

Как Google использует трехэтапную систему фингерпринтинга (Content ID) для обнаружения дубликатов видео и аудио

Google использует масштабируемую систему для обнаружения полных или частичных совпадений в видео и аудио контенте. Система генерирует компактные цифровые отпечатки (фингерпринты) и применяет трехэтапный процесс: быстрый поиск кандидатов с помощью Locality-Sensitive Hashing (LSH), точная классификация с использованием машинного обучения и объединение результатов. Это позволяет идентифицировать контент даже при изменении качества или скорости воспроизведения.

US8238669B2
2012-08-07

Мультимедиа
Индексация

Как Google использует структурные разрывы (смены сцен и тишину) для идентификации дубликатов видео и организации видео-поиска

Google использует систему фингерпринтинга видео, которая анализирует не пиксели, а временные метки структурных разрывов — смены сцен (shot boundaries) и моменты тишины (silent points). Это позволяет идентифицировать дубликаты или похожий контент даже при различиях в кодировании, разрешении или частоте кадров, что используется для удаления нарушений авторских прав и организации результатов видео-поиска.

US8611422B1
2013-12-17

Мультимедиа
Индексация

Как Google использует IDF-взвешивание для повышения точности распознавания контента в прямых трансляциях

Патент описывает технический метод повышения точности систем идентификации медиаконтента (например, Content ID) в прямых трансляциях. Google применяет классический метод IDF (Inverse Document Frequency) к цифровым отпечаткам видео. Это позволяет снизить вес часто встречающихся аудиовизуальных паттернов (шум, стандартные заставки) и повысить вес уникальных совпадений, улучшая качество распознавания.

US9208154B1
2015-12-08

Мультимедиа
Индексация

Как Google использует иерархическое хеширование для создания компактных отпечатков всего видео и выявления дубликатов

Google использует многоуровневый процесс для создания компактного цифрового отпечатка (fingerprint), представляющего всё содержимое видеофайла. Система анализирует видео по сегментам (subfingerprints), агрегирует частоту визуальных признаков в гистограммы и применяет взвешенное хеширование (Weighted Min-Hash). Это позволяет эффективно обнаруживать почти идентичные видео (near-duplicates) в огромных базах данных, независимо от различий в кодировании или длительности.

US8229219B1
2012-07-24

Мультимедиа

Как Google использует двухэтапное аудио-фингерпринтинг для эффективного поиска дубликатов аудио и видео контента в масштабе

Google использует масштабируемую систему для идентификации полных дубликатов аудиоконтента. Система создает двухчастный дайджест (фингерпринт): компактный «Index Hash» для быстрого поиска потенциальных совпадений и подробный «Verification Hash» для точного подтверждения. Это позволяет эффективно управлять миллиардами аудио- и видеофайлов, что критично для платформ типа YouTube и Google Podcasts.

US8953811B1
2015-02-10

Мультимедиа
Индексация

Как Google использует околоссылочный текст и заголовки (Web Quotes) для индексирования страниц и генерации сниппетов

Google анализирует текст на страницах, ссылающихся на целевой документ, извлекая «Web Quotes». Это не только текст абзаца, окружающего ссылку, но и текст из ближайших заголовков. Эти цитаты ранжируются по качеству ссылающегося источника (например, PageRank) и используются для индексирования целевой страницы (даже если этих слов на ней нет) и для формирования сниппета в результатах поиска.

US8495483B1
2013-07-23

Индексация
Ссылки
SERP

Как Google использует анкорный текст входящих ссылок для определения синонимов и псевдонимов сущностей в Knowledge Graph

Google автоматически определяет синонимы и псевдонимы для сущностей (например, людей, компаний) в своем хранилище фактов (Knowledge Graph). Система анализирует анкорный текст ссылок, ведущих на исходные документы, из которых были извлечены факты о сущности. Это позволяет системе понять, что, например, "Биг Блю" и "IBM" относятся к одной и той же компании.

US8738643B1
2014-05-27

Knowledge Graph
Семантика и интент
Ссылки

Как Google определяет ключевую тематику зданий и адресов, используя клики пользователей для показа релевантной рекламы

Google использует этот механизм для понимания основного назначения физического местоположения (адреса или здания). Система анализирует все бизнесы в этой локации и определяет, какие поисковые запросы чаще всего приводят к кликам по их листингам. Самый популярный запрос используется как доминирующее ключевое слово для выбора релевантной рекламы, когда пользователи ищут этот адрес или взаимодействуют с ним на Картах или в Street View.

US20120278171A1
2012-11-01

Local SEO
Семантика и интент
Поведенческие сигналы

Как Google использует социальные связи и анализ контекста рекомендаций (Endorsements) для персонализации поисковой выдачи

Google анализирует контент (например, посты в микроблогах и социальных сетях), созданный контактами пользователя. Система определяет, является ли ссылка в этом контенте "подтверждением" (Endorsement) на основе окружающих ключевых слов. Если да, то при поиске пользователя эти результаты могут быть аннотированы, указывая, кто из контактов и через какой сервис подтвердил результат, и потенциально повышены в ранжировании.

US9092529B1
2015-07-28

Поведенческие сигналы
Персонализация
EEAT и качество

Как Google ранжирует сущности (книги, фильмы, людей), анализируя тематичность и авторитетность их упоминаний в вебе

Google использует механизм для оценки значимости конкретных сущностей (например, изданий книг или фильмов). Система анализирует, как эти сущности упоминаются на релевантных веб-страницах, учитывая уверенность распознавания (Confidence) и то, насколько страница посвящена именно этой сущности (Topicality). Эти сигналы агрегируются с учетом авторитетности и релевантности страниц для расчета итоговой оценки сущности, которая затем корректирует ее ранжирование в поиске.

US20150161127A1
2015-06-11

Семантика и интент
EEAT и качество
SERP

Как Google рассчитывает тематическую репутацию для выявления и наделения полномочиями экспертов-кураторов

Google описывает систему для тематических сообществ, где пользователи зарабатывают репутацию (Topical Reputation Score) на основе качества контента, которым они делятся в рамках конкретных тем. Достигнув порогового значения, пользователь «разблокирует» тему, получая права куратора и возможность управлять контентом других. Система использует механизм «Impact Scores» для оценки влияния действий кураторов на репутацию участников.

US9436709B1
2016-09-06

EEAT и качество
Поведенческие сигналы

Как Google динамически регулирует влияние фактора близости в локальном поиске в зависимости от тематики запроса и региона

Google использует систему для определения того, насколько важна близость (расстояние) для конкретного поискового запроса и региона. Анализируя исторические данные о кликах и запросах маршрутов, система вычисляет «Фактор важности расстояния». Для запросов типа «Кофе» близость критична, и удаленные результаты пессимизируются. Для запросов типа «Аэропорт» близость менее важна, и качественные результаты могут ранжироваться высоко. Система также учитывает плотность региона (город или село), адаптируя ожидания пользователей по расстоянию.

US8463772B1
2013-06-11

Local SEO
Поведенческие сигналы

Как Google выявляет ссылочный спам (Link Farms и Web Rings), анализируя чувствительность PageRank к изменениям в структуре ссылок

Google использует математический метод для обнаружения искусственного завышения PageRank. Система анализирует, насколько резко меняется ранг страницы при изменении «коэффициента связи» (coupling factor/damping factor). Если ранг страницы слишком чувствителен к этим изменениям (имеет высокую производную), это сигнализирует о наличии манипулятивных структур, таких как ссылочные фермы или веб-кольца.

US7509344B1
2009-03-24

Антиспам
Ссылки
Техническое SEO

Как Google использует персонализированный PageRank ссылающихся страниц для переоценки значимости анкорного текста

Google может персонализировать поисковую выдачу, изменяя вес анкорного текста ссылок. Вес ссылки зависит не от глобального PageRank ссылающейся страницы, а от её "персонализированного PageRank", рассчитанного на основе предпочтений пользователя (например, любимых сайтов или тематик). Это позволяет повышать в выдаче документы, на которые ссылаются авторитетные для конкретного пользователя источники.

US7260573B1
2007-08-21

Персонализация
Ссылки

Как Google запоминает вопросы без авторитетного ответа и автономно сообщает его позже через Ассистента

Патент Google описывает механизм для обработки запросов, на которые в момент поиска нет качественного или авторитетного ответа. Система запоминает информационную потребность и продолжает мониторинг. Когда появляется информация, удовлетворяющая критериям качества (например, в Knowledge Graph), Google автономно доставляет ответ пользователю, часто встраивая его в следующий диалог с Google Assistant, даже если этот диалог не связан с исходным вопросом.

US11238116B2
2022-02-01

Knowledge Graph
Семантика и интент
EEAT и качество