SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google оптимизирует индексы медиа-контента для быстрого поиска и предотвращения перегрузки системы (Clumping)

SELECTION OF HASH LOOKUP KEYS FOR EFFICIENT RETRIEVAL (Выбор хэш-ключей поиска для эффективного извлечения)
  • US8184953B1
  • Google LLC
  • 2009-02-23
  • 2012-05-22
  • Индексация
  • Мультимедиа
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Патент Google, описывающий инфраструктурную оптимизацию баз данных для сопоставления медиа (видео/аудио). Система использует машинное обучение на тренировочных данных для выбора оптимальных ключей поиска. Цель — предотвратить "clumping" (когда один ключ связан со слишком многими файлами), обеспечивая быстрый и эффективный поиск по отпечаткам контента.

Описание

Какую проблему решает

Патент решает проблему неэффективности систем поиска медиа-контента (Information Retrieval), возникающую из-за "clumping" (скопления). Clumping происходит, когда определенный ключ поиска (lookup key) связан с очень большим количеством элементов в базе данных (например, ключ соответствует часто встречающейся характеристике, такой как черный кадр в видео). При поиске по такому ключу система извлекает огромный список результатов, что перегружает процессор, память и сеть, критически замедляя поиск.

Что запатентовано

Запатентована система и метод для выбора оптимального набора хэш-ключей (hash lookup keys) для индексирования медиа-контента. Система использует тренировочный набор данных (training set) и алгоритмы оптимизации, основанные на "reward function" (функции вознаграждения). Эта функция оценивает качество набора ключей, опираясь на степень clumping и метрики теории информации (энтропия, взаимная информация), чтобы обеспечить равномерное распределение данных в индексе. Также предусмотрен механизм "splitting" (разделения) ключей для динамического устранения clumping.

Как это работает

Система функционирует в несколько этапов:

  • Тренировка (Офлайн): Анализируется тренировочный набор отпечатков (fingerprints), репрезентативный для всей базы данных.
  • Оптимизация и Выбор: Используются алгоритмы (например, жадные алгоритмы) и reward function для оценки комбинаций ключей поиска. Оценка учитывает Entropy (информативность) и Mutual Information (избыточность) для минимизации clumping. Выбирается оптимальный набор.
  • Построение индекса: Генерируется эталонный индекс (Reference Index) на основе выбранного набора ключей. Система также прогнозирует ключи с риском clumping и готовит Split Keys.
  • Динамическая адаптация (Рантайм): Если в процессе индексирования размер списка, связанного с ключом, превышает порог, ключ динамически "разделяется" (splitting) путем его удлинения, уменьшая нагрузку.

Актуальность для SEO

Высокая (для инфраструктуры). Эффективное индексирование и поиск в массивных базах данных медиа-контента (таких как YouTube Content ID или Google Images) остается критически важной задачей. Описанные методы, включая оптимизацию выбора хэш-функций (например, для Locality Sensitive Hashing) и применение теории информации для равномерного распределения данных, являются стандартной практикой в крупномасштабных системах Information Retrieval.

Важность для SEO

Минимальное влияние (1/10, Инфраструктура). Это инфраструктурный патент. Он объясняет, как Google эффективно управляет и осуществляет поиск в огромных базах медиа-данных (Information Retrieval efficiency), но не дает понимания алгоритмов ранжирования (Ranking), оценки качества контента или традиционных SEO-стратегий. Патент не предлагает прямых рычагов для влияния на поисковую выдачу.

Детальный разбор

Термины и определения

Band (Полоса)
Сегмент отпечатка (fingerprint). Отпечаток делится на несколько полос, каждая из которых может служить ключом поиска.
Bin (Корзина)
Структура данных в индексе, связанная с определенным Lookup Key. Хранит список всех Reference Identifiers, которые содержат этот ключ.
Clumping (Скопление)
Ситуация, когда Lookup Key связан с чрезмерно большим количеством Reference Identifiers (размер Bin превышает порог). Приводит к неэффективности поиска.
Entropy (Энтропия)
Метрика теории информации, используемая для количественной оценки информативности набора ключей. Высокая энтропия желательна.
Fingerprint (Отпечаток)
Компактное представление сегмента медиа-контента (например, видео). Вектор данных, представляющий характеристики контента.
Locality Sensitive Hashing (LSH)
Метод хеширования, используемый для индексации отпечатков, при котором похожие элементы с высокой вероятностью попадают в одну и ту же Bin.
Lookup Key / LSH Key (Ключ поиска)
Набор значений элементов данных в пределах одной Band. Используется как ключ для доступа к индексу.
Mutual Information (MI) (Взаимная информация)
Метрика, количественно определяющая избыточность или взаимозависимость между ключами. Низкая взаимная информация желательна.
Reference Identifier (Эталонный идентификатор)
Идентификатор, указывающий на конкретный отпечаток и его местоположение в видео (например, Video@(Offset)).
Reward Function (Функция вознаграждения)
Функция, используемая алгоритмом оптимизации для оценки "качества" (goodness) подмножества ключей. Основана на минимизации clumping и максимизации информативности.
Split Lookup Key (Разделенный ключ поиска)
Новый, удлиненный ключ, создаваемый из существующего ключа путем добавления дополнительных элементов данных. Используется для устранения clumping.
Training Set/Index (Тренировочный набор/индекс)
Репрезентативный набор данных, используемый для анализа и выбора оптимального набора Lookup Keys до построения основного индекса.

Ключевые утверждения (Анализ Claims)

Патент носит чисто технический, инфраструктурный характер.

Claim 1 (Независимый пункт): Описывает основной метод оптимизации индекса.

  1. Система получает набор тренировочных отпечатков (training reference fingerprints).
  2. Идентифицируются потенциальные ключи (keys).
  3. Выбирается подмножество ключей с использованием алгоритма выбора (selection algorithm).
  4. Алгоритм оценивает различные подмножества на основе reward function, которая количественно определяет степень clumping, связанную с каждым подмножеством.
  5. На основе выбранного оптимального подмножества генерируется и сохраняется эталонный индекс (reference index).

Claim 2 (Зависимый от 1): Детализирует один из вариантов алгоритма выбора (итеративное добавление, например, жадный алгоритм).

  1. Выбирается один ключ.
  2. Генерируется набор значений вознаграждения (reward values) для существующих подмножеств (групп), представляющих ожидаемую выгоду от добавления ключа.
  3. Ключ добавляется к подмножеству, обеспечивающему максимальную выгоду (например, наименьшее увеличение clumping или избыточности).

Claim 4 (Зависимый от 1): Детализирует альтернативный вариант алгоритма выбора (перестановка).

  1. Итеративно генерируются различные подмножества ключей с помощью функции перестановки (permutation function).
  2. Для каждого подмножества оценивается степень clumping.
  3. Выбирается подмножество ключей, связанное с минимальным значением clumping.

Claim 5 (Зависимый от 1): Описывает механизм подготовки "разделения" (splitting).

  1. Идентифицируется ключ, связанный с большим значением clumping в выбранном наборе.
  2. Генерируются один или несколько разделенных ключей (split keys) путем удлинения исходного ключа дополнительными значениями отпечатка.
  3. Данные, указывающие на split keys, сохраняются.

Claim 7 (Зависимый от 5): Описывает применение split keys в рабочем индексе.

При индексации новых отпечатков система проверяет размер бина (bin size). Если количество связанных видео превышает пороговое значение (threshold value), индекс модифицируется для включения ранее сохраненных split keys.

Где и как применяется

Изобретение является частью инфраструктуры индексирования и поиска медиа-контента (например, Content ID).

INDEXING – Индексирование и извлечение признаков
Основное применение. Процесс оптимизации (тренировка) происходит офлайн для определения оптимальной структуры Reference Index. Результаты этой оптимизации (выбранные ключи и механизм splitting) затем применяются во время непрерывного индексирования нового контента.

RANKING – Ранжирование (L1 Retrieval / Отбор кандидатов)
Изобретение косвенно влияет на этот этап, делая процесс извлечения кандидатов (поиска совпадений по ключам) значительно быстрее и эффективнее за счет предотвращения необходимости обработки огромных списков результатов (clumping).

Входные данные:

  • Тренировочные эталонные отпечатки (Training reference fingerprints).
  • Новые отпечатки для индексации.
  • Параметры для Reward Function и пороговые значения для clumping.

Выходные данные:

  • Оптимизированная структура Reference Index.
  • Данные для потенциальных Split Keys.

На что влияет

  • Конкретные типы контента: Влияет исключительно на типы контента, для которых используется технология отпечатков и LSH для индексации и поиска совпадений (видео, аудио, изображения). Не влияет на индексацию текстового веб-контента.
  • Специфические запросы/Ниши/Языки: Влияет на все ниши и языки одинаково, так как механизм оперирует распределением технических характеристик (отпечатков), а не семантикой.

Когда применяется

  • Условия применения (Оптимизация): Применяется офлайн при первоначальном создании индекса или при его периодической ре-оптимизации.
  • Триггеры активации (Splitting): Механизм splitting активируется динамически во время текущего индексирования, когда количество записей в определенной Bin (степень clumping) превышает заранее определенное пороговое значение.

Пошаговый алгоритм

Фаза А: Оптимизация индекса (Тренировка, Офлайн)

  1. Сбор данных: Получение набора тренировочных отпечатков, репрезентативных для популяции.
  2. Идентификация ключей: Определение всех потенциальных Lookup Keys (Bands).
  3. Итеративная оптимизация: Запуск алгоритма выбора (жадного или на основе перестановок).
    1. Генерация/модификация подмножеств (групп) ключей.
    2. Расчет Reward Value для каждой группы (оценка clumping, Entropy, Mutual Information).
    3. Выбор группы с наилучшим значением (максимальная выгода или минимальный clumping).
  4. Анализ рисков Clumping: Идентификация ключей в выбранной группе, которые с высокой вероятностью могут вызвать clumping.
  5. Подготовка Split Keys: Предварительный расчет и сохранение Split Keys для рискованных ключей.
  6. Генерация индекса: Создание структуры Reference Index на основе выбранного набора ключей и выделение памяти (в том числе резервной для Split Keys).

Фаза Б: Текущее индексирование (Рантайм)

  1. Получение данных: Получение новых эталонных отпечатков для индексации.
  2. Идентификация ключей: Определение Lookup Keys в новых отпечатках.
  3. Проверка Clumping: Проверка размера Bin, связанного с ключом. Превышает ли он пороговое значение?
  4. Активация Splitting (Если порог превышен):
    1. Извлечение предварительно рассчитанных Split Keys.
    2. Обновление индекса для включения Split Keys вместо исходного ключа.
    3. Перераспределение существующих Reference Identifiers из большой Bin в новые, меньшие Bins.
  5. Сохранение (Если порог не превышен): Сохранение нового Reference Identifier в соответствующей Bin.

Какие данные и как использует

Данные на входе

Патент фокусируется исключительно на оптимизации структуры базы данных и не использует стандартные SEO-факторы.

  • Технические факторы (Отпечатки): Используются исключительно сырые данные отпечатков (fingerprints) — векторы элементов данных. Эти данные генерируются из медиа-контента и представляют его технические характеристики.

Патент НЕ использует контентные, ссылочные, поведенческие, временные, географические или пользовательские факторы.

Какие метрики используются и как они считаются

Система использует метрики, основанные на теории информации и статистическом распределении.

  • Occupancy Metric (Метрика заполненности): Количество уникальных видео, связанных с подмножеством ключей.
  • Probability Metric (Метрика вероятности): Occupancy Metric, деленная на общее количество видео (N).
  • Entropy (H) (Энтропия): Измеряет информационную ценность ключа. Рассчитывается на основе вероятности наблюдения значений элементов данных в ключах. Формула (упрощенно): H(h)=−∑(p(v)logp(v))H(h) = - \sum (p(v) log p(v))H(h)=−∑(p(v)logp(v)).
  • Mutual Information (MI) (Взаимная информация): Измеряет избыточность или взаимозависимость между двумя ключами (hxh_xhx​ и hyh_yhy​). Формула расчета: MI(hx,hy)=H(hx)+H(hy)−H(hx,hy)MI(h_x, h_y) = H(h_x) + H(h_y) - H(h_x, h_y)MI(hx​,hy​)=H(hx​)+H(hy​)−H(hx​,hy​). Цель — максимизировать H и минимизировать MI.
  • Reward Function (Функция вознаграждения): Агрегирует вышеуказанные метрики для оценки общего "качества".
  • Clumping Threshold (Порог скопления): Заранее определенное максимальное количество Reference Identifiers в одной Bin.

Выводы

Патент описывает внутренние процессы Google без прямых рекомендаций для SEO. Это чисто технический, инфраструктурный патент, который не дает практических выводов для специалистов по поисковой оптимизации.

  1. Фокус на эффективности, а не на релевантности: Изобретение направлено на оптимизацию скорости и ресурсов системы извлечения данных. Оно не касается оценки качества контента или его релевантности запросу пользователя.
  2. Борьба с Clumping как ключевая задача: Clumping (скопление данных вокруг популярных ключей) является серьезной проблемой масштабируемости. Неравномерное распределение данных в индексе критически замедляет поиск.
  3. Применение теории информации для оптимизации: Для выбора структуры индекса используются сложные математические концепции (Entropy, Mutual Information) и алгоритмы оптимизации (жадные алгоритмы, перестановочные алгоритмы) на основе тренировочных данных.
  4. Адаптивность системы (Splitting): Система спроектирована адаптивной. Предусмотрен механизм динамического разделения ключей (split keys) для устранения clumping, если оно возникает в процессе эксплуатации.

Практика

Патент инфраструктурный и не дает практических выводов для SEO.

Best practices (это мы делаем)

Не применимо к SEO. Патент не содержит информации, которая могла бы подтвердить или опровергнуть какие-либо SEO-практики.

Worst practices (это делать не надо)

Не применимо к SEO. Патент не направлен против каких-либо SEO-манипуляций.

Стратегическое значение

Патент не влияет на долгосрочную SEO-стратегию. Его значение заключается в понимании того, насколько сложные инженерные задачи решает Google для обеспечения масштабируемости и эффективности своих систем поиска и сопоставления медиаконтента. Это подтверждает высокий уровень инвестиций Google в инфраструктуру.

Практические примеры

Практических примеров для SEO нет. Пример из области применения (сопоставление видео):

Сценарий: Устранение Clumping при индексации видео (например, в Content ID)

  1. Индексация: Google индексирует миллионы видео. Для сегмента видео генерируется отпечаток, а из него извлекается Lookup Key, например, "A5 43 21 C2".
  2. Возникновение Clumping: Этот ключ соответствует очень распространенной характеристике (например, полностью черному кадру). В результате Bin для ключа "A5 43 21 C2" содержит 500,000 идентификаторов, что превышает порог (например, 10,000).
  3. Активация Splitting: Система активирует механизм разделения. Она анализирует следующий элемент данных в отпечатках этих 500,000 видео.
  4. Генерация Split Keys: Исходный ключ расширяется. Например, создаются новые ключи: "A5 43 21 C2 11" и "A5 43 21 C2 E1".
  5. Перераспределение: 500,000 идентификаторов перераспределяются. Bin для "A5 43 21 C2 11" теперь содержит 8,000 идентификаторов, а Bin для "A5 43 21 C2 E1" — 7,500 (и т.д.).
  6. Результат: Clumping устранен. Поиск по этим новым, более специфичным ключам будет происходить быстро.

Вопросы и ответы

Объясняет ли этот патент, как Google ранжирует видео в поиске или на YouTube?

Нет. Этот патент посвящен исключительно эффективности инфраструктуры базы данных (Information Retrieval efficiency). Он описывает, как Google оптимизирует хранение и ускоряет извлечение медиа-контента из индекса, предотвращая перегрузки системы (clumping). Он не содержит информации о факторах ранжирования, таких как качество контента или релевантность.

Что такое "Clumping" (скопление) и почему это проблема для Google?

Clumping — это ситуация, когда один ключ поиска (Lookup Key) в индексе связан с огромным количеством элементов (например, миллионами видеофайлов). Это происходит, когда ключ соответствует очень часто встречающейся характеристике. Проблема в том, что при поиске по такому ключу система должна извлечь весь этот огромный список, что требует больших вычислительных ресурсов и критически замедляет поиск.

Что такое Locality Sensitive Hashing (LSH) в контексте этого патента?

LSH — это метод хеширования, используемый для индексации медиа-контента. Он преобразует отпечатки (fingerprints) контента в ключи поиска таким образом, что похожие фрагменты контента с высокой вероятностью генерируют одинаковые или похожие ключи. Это позволяет быстро находить похожий или дублирующийся контент.

Как механизм "Splitting" (разделения) ключей повышает эффективность?

Если ключ вызывает clumping, система "разделяет" его, удлиняя его за счет добавления дополнительных данных из отпечатка. Это создает несколько новых, более длинных и специфичных ключей. Исходный большой список файлов распределяется между этими новыми ключами, в результате чего размер списка для каждого отдельного ключа уменьшается, устраняя clumping.

Что означают Энтропия (Entropy) и Взаимная информация (Mutual Information) в этом контексте?

Это концепции теории информации, используемые для выбора оптимальных ключей. Entropy измеряет информативность ключа; система стремится выбрать ключи с высокой энтропией. Mutual Information измеряет избыточность или зависимость между разными ключами; система стремится минимизировать взаимную информацию, чтобы каждый выбранный ключ предоставлял уникальную информацию.

Применяется ли этот механизм к обычному веб-поиску (текстовым документам)?

Описанная система специфична для индексации медиа-контента (видео, аудио, изображения) с использованием технологии отпечатков и LSH. Хотя общие принципы оптимизации баз данных применимы к любым большим индексам, конкретные методы, использующие Bands и Fingerprints, ориентированы на медиа-поиск.

Должен ли я изменить способ создания видеоконтента на основе этого патента?

Нет. Патент описывает внутреннюю обработку данных после того, как контент уже создан и загружен. Он не дает рекомендаций по созданию контента для улучшения его видимости или ранжирования. Продолжайте фокусироваться на создании высококачественного контента для вашей аудитории.

Что такое "Reward Function" (Функция вознаграждения)?

Это математическая функция, используемая алгоритмом оптимизации для оценки того, насколько "хорош" тот или иной набор ключей поиска. "Хороший" набор ключей — это тот, который минимизирует clumping, максимизирует Entropy и минимизирует Mutual Information. Алгоритм выбирает комбинацию с наивысшим значением этой функции.

В чем разница между отпечатком (Fingerprint) и ключом поиска (Lookup Key)?

Fingerprint — это полное компактное представление сегмента контента, обычно длинный вектор данных. Lookup Key — это лишь небольшая часть (сегмент или Band) этого отпечатка. Один отпечаток генерирует несколько ключей поиска, каждый из которых используется для индексации этого отпечатка в базе данных.

Зачем использовать тренировочный набор данных, а не оптимизировать индекс на лету?

Оптимизация выбора ключей — это вычислительно сложный процесс, включающий перебор множества комбинаций и расчет сложных метрик (Entropy, MI). Выполнение этого в реальном времени было бы слишком медленным. Использование тренировочного набора позволяет выполнить эту сложную оптимизацию заранее (офлайн) и создать структуру индекса, эффективную для всей популяции контента.

Похожие патенты

Как Google управляет инфраструктурой Content ID и приоритизирует сопоставление контента на основе недавних событий
Этот патент описывает инфраструктуру, которую Google использует для крупномасштабных систем сопоставления медиа (таких как Content ID). В нем подробно рассказывается, как Google распределяет масштабную задачу сравнения пользовательских видео с защищенными авторским правом эталонными файлами между различными центрами обработки данных. Ключевой особенностью является возможность приоритизации задач сопоставления на основе актуальности живых событий (например, спортивных матчей, концертов) для быстрого выявления несанкционированных загрузок ценного, чувствительного ко времени контента.
  • US9690629B1
  • 2017-06-27
  • Мультимедиа

  • Свежесть контента

Как Google использует трехэтапную систему фингерпринтинга (Content ID) для обнаружения дубликатов видео и аудио
Google использует масштабируемую систему для обнаружения полных или частичных совпадений в видео и аудио контенте. Система генерирует компактные цифровые отпечатки (фингерпринты) и применяет трехэтапный процесс: быстрый поиск кандидатов с помощью Locality-Sensitive Hashing (LSH), точная классификация с использованием машинного обучения и объединение результатов. Это позволяет идентифицировать контент даже при изменении качества или скорости воспроизведения.
  • US8238669B2
  • 2012-08-07
  • Мультимедиа

  • Индексация

Как Google агрегирует и фильтрует медиаконтент на основе подписок пользователя на платформах типа Google TV
Google использует систему для унифицированного поиска медиаконтента (фильмы, сериалы) из различных источников (стриминговые сервисы, ТВ, локальные хранилища). Система локально определяет, к каким сервисам у пользователя есть доступ (подписки), и фильтрует результаты, показывая только тот контент, который пользователь реально может посмотреть. Это механизм обеспечения видимости контента в агрегированных медиа-платформах.
  • US9317571B2
  • 2016-04-19
  • Персонализация

  • Мультимедиа

Как Google использует визуальное сходство для связывания изображений и видео, кластеризации выдачи и обогащения метаданных
Google анализирует визуальное содержимое изображений и ключевых кадров видео для выявления сходств. Это позволяет связывать разнотипный контент, даже если у него мало текстовых данных. Система использует эти связи для переноса метаданных (например, ключевых слов или геопозиции) от одного ресурса к другому, а также для кластеризации и смешивания изображений и видео в результатах поиска.
  • US9652462B2
  • 2017-05-16
  • Мультимедиа

  • SERP

  • Семантика и интент

Как Google использует фингерпринтинг и распределенные вычисления для эффективного поиска дубликатов видео и аудио в огромных масштабах
Патент Google описывает инфраструктурный механизм для эффективного поиска дубликатов или похожих аудио- и видеофайлов в огромных базах данных. Система использует технику Locality Sensitive Hashing (LSH) и распределенную сортировку (например, MapReduce) для быстрого сопоставления «пробных» видео с «эталонными», что позволяет находить совпадения без медленного попарного сравнения всех файлов.
  • US8625033B1
  • 2014-01-07
  • Мультимедиа

  • Индексация

Популярные патенты

Как Google определяет свежесть документа, анализируя возраст ссылающихся страниц и динамику появления ссылок (Link Velocity)
Google использует методы для оценки свежести документа, когда дата его обновления неизвестна или ненадежна. Система анализирует даты обновления страниц, которые ссылаются на документ, а также историю появления и удаления этих ссылок (Link Velocity). Если на документ ссылаются недавно обновленные страницы или количество ссылок растет, он считается свежим.
  • US7797316B2
  • 2010-09-14
  • Свежесть контента

  • Ссылки

  • Техническое SEO

Как Google использует консенсус анкорных текстов для определения авторитетных источников и проверки фактов в Knowledge Graph
Google определяет, является ли веб-страница авторитетным источником о конкретной сущности (Entity), анализируя все анкорные тексты входящих ссылок. Система находит консенсусное описание (Center of Mass). Если оно совпадает с именем сущности и это имя присутствует в заголовке страницы, документ используется как эталон для проверки (Corroboration) фактов в базе знаний Google (Fact Repository).
  • US9208229B2
  • 2015-12-08
  • Knowledge Graph

  • Ссылки

  • EEAT и качество

Как Google использует историю поиска и браузинга пользователя для персонализации и изменения результатов выдачи
Google записывает историю поиска и просмотров пользователя для последующей персонализации выдачи. Система может повышать в ранжировании ранее посещенные сайты, добавлять в текущую выдачу релевантные результаты из прошлых похожих запросов, а также понижать сайты, которые пользователь ранее видел, но проигнорировал. Патент также описывает создание "предпочитаемых локаций" на основе частоты посещений и времени пребывания на сайте.
  • US9256685B2
  • 2016-02-09
  • Персонализация

  • Поведенческие сигналы

  • SERP

Как Google использует анкорный текст входящих ссылок для определения синонимов и псевдонимов сущностей в Knowledge Graph
Google автоматически определяет синонимы и псевдонимы для сущностей (например, людей, компаний) в своем хранилище фактов (Knowledge Graph). Система анализирует анкорный текст ссылок, ведущих на исходные документы, из которых были извлечены факты о сущности. Это позволяет системе понять, что, например, "Биг Блю" и "IBM" относятся к одной и той же компании.
  • US8738643B1
  • 2014-05-27
  • Knowledge Graph

  • Семантика и интент

  • Ссылки

Как Google использует машинное обучение (Learning to Rank) для имитации оценок асессоров и улучшения ранжирования
Google использует технологию Learning to Rank для обучения статистических моделей, которые имитируют оценки человеческих асессоров. Модели анализируют объективные сигналы (статические и поведенческие) для пары запрос/документ и предсказывают, насколько релевантным этот документ сочтет человек. Эти прогнозы затем используются для ранжирования результатов поиска.
  • US8195654B1
  • 2012-06-05
  • Поведенческие сигналы

  • SERP

Как Google использует машинное обучение и поведенческие данные для прогнозирования полезности документов и решает, что включать в поисковый индекс
Google использует модель машинного обучения для определения, какие документы включать в поисковый индекс. Модель обучается на исторических данных о кликах и показах, чтобы предсказать будущую «оценку полезности» (Utility Score) документа. Документы ранжируются по этой оценке, а также с учетом других факторов (например, PageRank, стоимость индексации, свежесть, квоты), и лучшие из них попадают в индекс.
  • US8255386B1
  • 2012-08-28
  • Индексация

  • Поведенческие сигналы

Как Google комбинирует поведенческие сигналы из разных поисковых систем для улучшения ранжирования
Google использует механизм для улучшения ранжирования путем объединения данных о поведении пользователей (клики и время взаимодействия) из разных поисковых систем (например, Веб-поиск и Поиск по Видео). Если в основной системе данных недостаточно, система заимствует данные из другой, применяя весовой коэффициент и фактор сглаживания для контроля смещения и обеспечения релевантности.
  • US8832083B1
  • 2014-09-09
  • Поведенческие сигналы

  • SERP

Как Google использует личные данные пользователя (User Model) для понимания его намерений и персонализации выдачи
Google создает персональную модель пользователя (User Model) на основе его личного контента (письма, контакты, документы). Эта модель используется для определения неявного намерения пользователя (личный поиск или общий) и для аннотирования запроса контекстом из личных данных, чтобы предоставить точные персонализированные результаты.
  • US20150012558A1
  • 2015-01-08
  • Персонализация

  • Семантика и интент

  • Поведенческие сигналы

Как Google использует анализ параллельных анкорных текстов и кликов пользователей для перевода запросов и кросс-язычного поиска
Google использует механизм для автоматического перевода запросов с одного языка или набора символов на другой. Система создает вероятностный словарь, анализируя, как анкорные тексты на разных языках ссылаются на одни и те же страницы (параллельные анкоры). Вероятности перевода затем уточняются на основе того, на какие результаты кликают пользователи. Это позволяет осуществлять кросс-язычный поиск (CLIR).
  • US8706747B2
  • 2014-04-22
  • Мультиязычность

  • Семантика и интент

  • Ссылки

Как Google использует клики пользователей для определения составных фраз (N-грамм) в запросах
Google анализирует, какие результаты поиска выбирают пользователи, чтобы понять, являются ли последовательные слова в запросе единой фразой (например, "Нью Йорк") или отдельными терминами. Если пользователи преимущественно кликают на результаты, содержащие эту последовательность как неразрывную фразу, система определяет ее как составную (Compound) и использует это знание для улучшения ранжирования и понимания запроса.
  • US8086599B1
  • 2011-12-27
  • Семантика и интент

  • Поведенческие сигналы

  • SERP

seohardcore