SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google оптимизирует поиск по картинкам, обучаясь, какие визуальные атрибуты наиболее важны для конкретного изображения

LOW-OVERHEAD IMAGE SEARCH RESULT GENERATION (Генерация результатов поиска изображений с низкими издержками)
  • US8949253B1
  • Google LLC
  • 2012-05-24
  • 2015-02-03
  • Мультимедиа
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Google использует механизм для повышения эффективности и релевантности поиска похожих изображений. Система анализирует изображение-запрос и создает эталонный набор высококачественных результатов (используя ресурсоемкую кластеризацию). Затем она тестирует различные визуальные атрибуты (измерения), чтобы определить, какой из них лучше всего воспроизводит этот эталонный набор. Найденный ключевой атрибут сохраняется и используется для быстрого ранжирования в будущем, минуя дорогие вычисления.

Описание

Какую проблему решает

Патент решает проблему баланса между качеством и скоростью в системах поиска похожих изображений (Search by Image). Методы, обеспечивающие высокое качество ранжирования, такие как кластеризация (clustering) результатов, являются вычислительно дорогими и слишком медленными для применения в реальном времени. Цель изобретения — достичь качества, сравнимого с кластеризацией, но со значительно меньшими вычислительными издержками (low-overhead).

Что запатентовано

Запатентована система оптимизации ранжирования изображений. Система обучается определять, какой специфический визуальный атрибут (называемый dimension или attribute) является ключевым для конкретного изображения-запроса (query image). Этот ключевой атрибут идентифицируется путем сравнения различных взвешенных ранжирований с эталонным набором (reference set of rankings), полученным через кластеризацию. В дальнейшем этот атрибут используется для быстрого ранжирования похожих запросов с помощью функции взвешенного расстояния (weighted distance function).

Как это работает

Система функционирует в двух режимах: обучение (офлайн или периодически) и применение (онлайн).

Режим обучения:

  1. Генерация эталона: Для изображения-запроса создается высококачественный Reference Ranking Set с помощью ресурсоемкой кластеризации похожих результатов.
  2. Тестирование атрибутов: Система генерирует множество альтернативных ранжирований. Каждое из них использует Weighted Distance Function, которая сильно усиливает вес одного конкретного визуального атрибута (dimension).
  3. Выбор лучшего атрибута: Альтернативные ранжирования сравниваются с эталонным набором (используя метрику Kendall's Tau Distance). Выбирается атрибут, наиболее близкий к эталону.
  4. Сохранение: Связь между изображением и лучшим атрибутом сохраняется в репозитории (Image-dimension repository).

Режим применения (Low-Overhead):

  • Когда поступает новый запрос с тем же или похожим изображением, система извлекает сохраненный атрибут и быстро ранжирует результаты, используя соответствующую Weighted Distance Function, минуя этап кластеризации.

Актуальность для SEO

Средняя-Высокая. Принцип оптимизации вычислений путем переноса сложных задач в офлайн и обучения более простых моделей для онлайн-применения остается фундаментальным для поисковых систем. Однако конкретная реализация, описанная в патенте (подан в 2012 г.) и основанная на фиксированных dimensions (например, связанных с форматами сжатия), вероятно, уступила место более сложным методам, использующим векторные представления (embeddings), сгенерированные глубокими нейронными сетями.

Важность для SEO

Влияние на SEO оценивается как среднее (5/10) и ограничено сферой Image SEO и Visual Search (Google Lens). Патент описывает внутренний механизм оптимизации ранжирования на основе визуального сходства. Он не вводит традиционных SEO-факторов (текст, ссылки). Однако он подчеркивает, что Google динамически определяет, какие именно визуальные характеристики (цвет, форма, текстура) являются ключевыми для конкретного изображения, что влияет на стратегию создания визуального контента.

Детальный разбор

Термины и определения

Attribute / Dimension (Атрибут / Измерение)
Числовое значение, представляющее определенную визуальную характеристику изображения. Изображение представляется как набор таких измерений (вектор признаков). В патенте упоминается, что они могут быть связаны с техниками сжатия (JPEG, WebP и т.д.).
Clustering (Кластеризация)
Процесс группировки результатов поиска изображений на основе их визуального сходства друг с другом (например, с помощью pair-wise similarity comparison). Используется для создания высококачественного ранжирования.
Image-dimension repository (Репозиторий измерений изображений)
Хранилище, которое сохраняет связь между конкретным изображением и тем dimension, который был определен как оптимальный для его ранжирования.
Kendall's Tau Distance (Расстояние тау Кендалла)
Статистическая метрика для измерения степени сходства (корреляции порядка) между двумя ранжированными списками. Используется для оценки того, насколько хорошо взвешенное ранжирование имитирует эталонное.
Query Image (Изображение-запрос)
Исходное изображение, предоставленное пользователем для поиска похожих картинок.
Reference Ranking Set (Эталонный набор ранжирования)
Высококачественное ("идеальное") ранжирование похожих изображений. Генерируется с помощью ресурсоемких методов (например, кластеризации) и служит стандартом качества для обучения системы.
Weighted Distance Function (Функция взвешенного расстояния)
Функция для расчета визуального несходства между двумя изображениями, в которой одному или нескольким dimensions придается больший вес.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод оптимизации ранжирования.

  1. Идентификация первого набора изображений, похожих на изображение-запрос.
  2. Генерация первого ранжирования на основе множества атрибутов.
  3. Генерация второго ранжирования на основе группировки изображений в кластеры.
  4. Сравнение первого и второго ранжирований с эталонным набором ранжирования (reference set of rankings).
  5. Выбор конкретного набора ранжирования на основе сравнения.
  6. Ранжирование второго набора изображений (связанного с другим, будущим запросом) на основе атрибута, ассоциированного с выбранным набором ранжирования.
  7. Предоставление этого ранжированного второго набора.

Ядром изобретения является процесс обучения для оптимизации будущих запросов. Система тестирует различные подходы к ранжированию и сравнивает их с эталоном. Цель — идентифицировать ключевой атрибут (dimension), который позволяет достичь высокого качества ранжирования. Затем этот атрибут используется для быстрого ранжирования похожих запросов в будущем, что позволяет избежать повторения дорогостоящих вычислений (таких как кластеризация, упомянутая в зависимых пунктах).

Claim 3 (Зависимый от 1): Уточняет генерацию эталонного набора.

Эталонный набор генерируется путем ранжирования изображений по сходству с запросом, их последующей группировки (кластеризации) и переранжирования на основе этой группировки.

Claim 5 (Зависимый от 1): Уточняет механизм ранжирования на основе кластеров.

Для каждого кластера определяется оценка сходства (similarity score) (например, на основе сходства хотя бы одного изображения в кластере с запросом). Ранжирование генерируется на основе этих оценок схожести кластеров.

Где и как применяется

Изобретение применяется в системах визуального поиска (Google Images, Google Lens) и затрагивает этапы индексирования и ранжирования.

INDEXING – Индексирование и извлечение признаков
На этом этапе из изображений извлекаются визуальные признаки (dimensions) и сохраняются в индексе.

Офлайн-обработка и анализ данных (Model Training)
Основной механизм обучения выполняется вне процесса обработки запроса в реальном времени:

  • Выполнение кластеризации для генерации Reference Ranking Set.
  • Тестирование различных dimensions с помощью Dimension selection engine.
  • Сохранение результатов в Image-dimension repository.

RANKING – Ранжирование / RERANKING – Переранжирование
На этапе выполнения запроса (онлайн) система использует результаты обучения для ускорения:

  • Система (Similar image identification engine) проверяет Image-dimension repository.
  • Если для изображения-запроса (или похожего на него) известен оптимальный атрибут, система использует Weighted Distance Function, сфокусированную на этом атрибуте, для быстрого ранжирования кандидатов (Low-Overhead Ranking). Это заменяет необходимость кластеризации в реальном времени.

Входные данные:

  • Изображение-запрос (Query Image).
  • Набор похожих изображений-кандидатов из индекса.
  • Визуальные атрибуты (dimensions) для всех изображений.
  • Данные из Image-dimension repository.

Выходные данные:

  • Отсортированный список похожих изображений.

На что влияет

  • Типы контента и форматы: Влияет на все типы изображений, которые могут быть обработаны системой и представлены в виде dimensions. Упоминаются форматы JPEG, GIF, PNG, TIFF, WebP.
  • Специфические запросы: Влияет исключительно на запросы типа "Поиск по изображению" (Search by Image) или функции "Похожие изображения" (Similar Images). Не влияет на поиск по ключевым словам.

Когда применяется

  • Условия применения (Обучение): Применяется периодически для анализа новых или популярных изображений, чтобы заполнить Image-dimension repository, или когда для запроса еще не определен оптимальный атрибут.
  • Условия применения (Онлайн / Low-Overhead): Применяется, когда пользователь отправляет запрос, и система предварительно вычислила и сохранила оптимальный dimension для этого или визуально похожего изображения.

Пошаговый алгоритм

Процесс А: Обучение и выбор оптимального атрибута (Выполняется офлайн или периодически)

  1. Получение данных: Выбор изображения-запроса и идентификация набора похожих изображений.
  2. Генерация эталона (Reference Ranking Set):
    • Кластеризация результатов на основе их визуального сходства друг с другом.
    • Переранжирование результатов на основе кластеров (например, приоритет у больших или более релевантных кластеров). Результат сохраняется как эталон.
  3. Генерация альтернативных ранжирований: Для каждого доступного атрибута (Dimension T):
    • Расчет расстояний с использованием Weighted Distance Function, которая придает большой вес атрибуту T.
    • Создание альтернативного ранжирования на основе этих взвешенных расстояний.
  4. Сравнение и оценка:
    • Сравнение каждого альтернативного ранжирования с эталонным набором.
    • Расчет оценки сходства порядков с использованием Kendall's Tau Distance.
  5. Выбор и сохранение:
    • Идентификация атрибута, чье ранжирование получило наивысшую оценку (наиболее близко к эталону).
    • Сохранение связи между изображением и этим оптимальным атрибутом в Image-dimension repository.

Процесс Б: Быстрое ранжирование (Выполняется онлайн)

  1. Получение запроса: Получение нового изображения-запроса от пользователя.
  2. Идентификация кандидатов: Поиск похожих изображений в индексе.
  3. Проверка репозитория: Запрос к Image-dimension repository для поиска сохраненного оптимального атрибута для этого или похожего изображения.
  4. Применение взвешенного ранжирования: Если атрибут найден, ранжирование кандидатов с использованием Weighted Distance Function, сфокусированной на этом атрибуте. (Этап кластеризации пропускается).
  5. Вывод результатов: Предоставление отранжированного списка пользователю.

Какие данные и как использует

Данные на входе

Патент фокусируется исключительно на визуальных данных.

  • Мультимедиа факторы: Основные используемые данные — это визуальные признаки, извлеченные из изображений. Они представлены как набор числовых значений — Dimensions (вектор признаков). Патент упоминает пример, где изображение может быть представлено набором из 59 измерений.

Какие метрики используются и как они считаются

Система использует несколько ключевых методов вычислений:

1. Функции расстояния (Distance Functions) и Алгоритмы кластеризации: Используются для измерения базового визуального несходства и для группировки результатов (упоминаются спектральная и иерархическая кластеризация).

2. Взвешенные функции расстояния (Weighted Distance Functions): Используются для расчета расстояния с акцентом на конкретный атрибут (t). Патент приводит несколько примеров формул. Например (Equation 1):

Dt(xq,xi)=d(xq,xi)+c∗(xq,t−xi,t)2D_{t}(x_{q}, x_{i}) = d(x_{q}, x_{i}) + c * (x_{q,t} - x_{i,t})^2

Где DtD_{t} — расстояние с весом на атрибуте t, d(xq,xi)d(x_{q}, x_{i}) — базовое расстояние, c — константа, а (xq,t−xi,t)(x_{q,t} - x_{i,t}) — разница значений атрибута t между запросом и результатом.

3. Расстояние тау Кендалла (Kendall's Tau Distance): Используется для сравнения двух ранжирований (Equation 4):

τ=(P−Q)

Выводы

Патент описывает внутренние инфраструктурные процессы Google по оптимизации поиска изображений. Он имеет ограниченное прямое значение для стандартного SEO, но дает важное понимание для Image SEO.

  1. Определение сходства зависит от контекста: Google не использует универсальную формулу визуального сходства. Система динамически определяет, какие визуальные атрибуты (dimensions) наиболее важны для конкретного изображения (например, цвет для одного, форма для другого).
  2. Баланс скорости и качества: Основная цель — эффективность (low-overhead). Сложные методы (кластеризация) используются офлайн для создания эталона качества, а затем система обучается имитировать этот эталон быстрыми методами (взвешивание атрибутов).
  3. Кластеризация как индикатор качества: Группировка визуально однородных результатов (кластеризация) рассматривается как важный элемент качественной выдачи в поиске похожих изображений.
  4. Зависимость от предварительных вычислений: Скорость и качество работы системы в онлайне зависят от предварительного анализа изображений и заполнения Image-dimension repository.

Практика

Патент носит инфраструктурный характер и не дает прямых рекомендаций по оптимизации контента или технических аспектов сайта для улучшения ранжирования. Однако он дает понимание того, как работает визуальный поиск.

Best practices (это мы делаем)

  • Обеспечение визуальной чистоты и качества: Поскольку система анализирует визуальные атрибуты (dimensions), использование высококачественных, четких изображений с хорошо различимыми признаками (цвет, форма, текстура) критически важно. Это помогает алгоритмам корректно извлекать признаки и точно оценивать визуальное сходство.
  • Использование современных форматов: Использование оптимального сжатия и современных форматов (например, WebP, который упоминается в патенте) гарантирует, что визуальные атрибуты не будут искажены артефактами сжатия.
  • Мониторинг выдачи по визуальному сходству: Анализируйте, что Google считает похожим на ваши изображения. Если выдача нерелевантна, возможно, ваше изображение визуально неоднозначно, и система фокусируется на неверных атрибутах.

Worst practices (это делать не надо)

  • Использование изображений низкого качества: Артефакты сжатия, низкое разрешение или визуальный шум могут привести к некорректному извлечению dimensions и, как следствие, к плохому ранжированию в поиске похожих изображений.
  • Игнорирование Image SEO: Полагаться только на текстовую оптимизацию (alt-теги) неэффективно для визуального поиска. Визуальный анализ, описанный в патенте, играет ключевую роль в определении сходства.

Стратегическое значение

Патент подтверждает, что Google глубоко анализирует пиксели и использует машинное обучение для интерпретации визуального сходства на индивидуальном уровне для каждого изображения. Для SEO это напоминание о том, что визуальная составляющая контента анализируется на сложном техническом уровне, и качество исходного материала имеет первостепенное значение для видимости в Visual Search (Google Lens, Similar Images).

Практические примеры

Практических примеров применения для SEO нет, так как патент описывает внутренний механизм ранжирования. Однако можно проиллюстрировать работу алгоритма.

Сценарий: Поиск похожих товаров (E-commerce)

  1. Исходное изображение: Фотография кроссовка Nike Air Max определенной модели и расцветки.
  2. Офлайн-обучение Google: Система анализирует это изображение. Путем кластеризации она видит, что в эталонном ранжировании выше находятся кроссовки той же модели, даже если цвет немного отличается.
  3. Тестирование атрибутов: Система определяет, что атрибуты, отвечающие за форму подошвы и логотип, лучше воспроизводят эталонное ранжирование, чем атрибуты, отвечающие за точный оттенок цвета.
  4. Сохранение: Система сохраняет связь: Изображение Кроссовка -> Атрибуты "Форма/Логотип".
  5. Онлайн-применение: Когда пользователь ищет похожие изображения (например, через Google Lens), система быстро ранжирует результаты, отдавая приоритет схожести формы и логотипа. Пользователь получает релевантные результаты (ту же модель), а не просто кроссовки похожего цвета.

Вопросы и ответы

Что такое "Dimension" (Измерение) или "Attribute" (Атрибут) в этом патенте?

Это конкретная визуальная характеристика изображения, представленная числовым значением во внутреннем формате системы. Это не метаданные, а признаки, извлеченные из пикселей (например, связанные с цветом, формой, текстурой). Если изображение представлено вектором из 59 значений, каждое из этих значений является dimension.

Как система определяет "идеальное" или эталонное ранжирование (Reference Ranking Set)?

Эталонное ранжирование генерируется офлайн с использованием вычислительно дорогих, но качественных методов. Основной метод, описанный в патенте, — это кластеризация (Clustering). Система группирует похожие результаты между собой и переранжирует их на основе этих групп. Это считается "идеальным", так как хорошо группирует визуально схожие объекты.

Зачем Google оптимизирует этот процесс, если кластеризация дает лучшие результаты?

Кластеризация требует сравнения каждого результата с каждым другим, что является вычислительно очень дорогой и медленной операцией. Ее невозможно выполнять в реальном времени для миллионов запросов. Описанный метод позволяет добиться схожего качества ранжирования значительно быстрее, используя предварительно вычисленные веса атрибутов.

Что такое Kendall's Tau Distance и зачем это нужно?

Это метрика, которая измеряет, насколько похожи порядки двух списков ранжирования. Она подсчитывает количество пар элементов, упорядоченных одинаково в обоих списках. Google использует её, чтобы определить, какой из взвешенных по атрибутам методов ранжирования лучше всего имитирует эталонное (кластеризованное) ранжирование.

Влияет ли этот патент на обычный поиск изображений по ключевым словам?

Нет. Патент специфически описывает методы ранжирования для сценариев, где запросом является само изображение (Search by Image или Similar Images). Он не затрагивает ранжирование изображений по текстовым запросам, где используются другие сигналы (текст на странице, alt-текст и т.д.).

Могу ли я как SEO-специалист повлиять на то, какой атрибут Google выберет как ключевой для моего изображения?

Напрямую повлиять на этот выбор нельзя, это результат внутреннего машинного обучения. Однако можно косвенно помочь системе, предоставляя высококачественные, четкие и визуально однозначные изображения. Это облегчает корректный анализ их визуальных характеристик и повышает точность сопоставления.

Применяется ли этот механизм каждый раз, когда я ищу по картинке?

Механизм быстрого ранжирования (low-overhead) применяется только в том случае, если система уже провела офлайн-анализ для этого конкретного изображения (или очень похожего на него) и сохранила оптимальный атрибут. Если анализ не проводился, система использует другие, возможно более медленные, методы ранжирования.

Актуален ли этот патент, учитывая развитие нейронных сетей и векторного поиска (embeddings)?

Конкретная реализация (например, фиксированные dimensions, связанные со сжатием) может быть устаревшей. Современные системы используют сложные векторы (embeddings). Однако сама идея — использовать офлайн-обучение для нахождения более эффективных и быстрых функций ранжирования в онлайне — остается фундаментальным принципом построения поисковых систем.

Может ли система выбрать несколько оптимальных атрибутов для одного изображения?

Да, патент предусматривает такую возможность. В описании и формулах (например, Equations 5-7) показано, как функция взвешенного расстояния может учитывать несколько атрибутов одновременно, если система определит, что это необходимо для достижения оптимального ранжирования.

Как система определяет, что новый запрос похож на тот, для которого уже вычислен оптимальный атрибут?

В патенте упоминается компонент Similar image identification engine. Он сравнивает входящее изображение с изображениями, для которых уже есть данные в Image-dimension repository. Если мера визуального сходства превышает определенный порог (similarity threshold), система использует сохраненный атрибут для нового запроса.

Похожие патенты

Как Google кластеризует результаты поиска по картинкам и выбирает репрезентативное (каноническое) изображение для показа
Google организует результаты поиска изображений в иерархические кластеры на основе визуального сходства. Для каждого кластера выбирается «каноническое изображение» — часто это изображение с самым высоким исходным рейтингом или наиболее визуально авторитетное (с использованием метрик типа VisualRank). Эта структура определяет, как изображения группируются и какое изображение получает максимальную видимость в интерфейсе Google Images.
  • US8352465B1
  • 2013-01-08
  • Мультимедиа

  • SERP

Как Google комбинирует визуальное сходство и семантические метки для улучшения поиска по картинке (Visual Search)
Google использует систему поиска по изображению, которая сочетает анализ визуальных характеристик и семантических меток. Система генерирует высокоточные метки (High Confidence Labels) для изображения, анализируя текст, связанный с визуально похожими картинками в интернете. Затем она ранжирует кандидатов, используя модель визуального сходства, обученную на основе человеческих оценок, и применяет правила фильтрации для обеспечения однородности результатов.
  • US8429173B1
  • 2013-04-23
  • Семантика и интент

  • Мультимедиа

  • SERP

Как Google организует результаты поиска по картинкам в масштабируемый интерфейс с помощью кластеризации по сходству
Google использует систему для визуализации результатов поиска по картинкам. Изображения группируются на основе визуального и семантического сходства и размещаются в двумерной сетке. При уменьшении масштаба система показывает меньше изображений, выбирая одно репрезентативное для каждого кластера. При увеличении масштаба отображается больше детализированных результатов внутри кластера. Это позволяет пользователям эффективно просматривать большие наборы изображений.
  • US20150170333A1
  • 2015-06-18
  • Мультимедиа

  • SERP

  • Семантика и интент

Как Google определяет текстовое описание изображения для визуального поиска, анализируя похожие картинки и связанные с ними запросы
Google использует систему визуального поиска, которая позволяет пользователям отправлять изображение в качестве запроса. Для этого система создает индекс визуальных признаков и анализирует метаданные (запросы, по которым кликали на картинку, и текст на ссылающихся страницах). При получении изображения система находит визуально похожие картинки в индексе, анализирует связанные с ними текстовые фразы (n-граммы) и выбирает наилучшее описание. Затем выполняется стандартный поиск по этому текстовому описанию.
  • US8761512B1
  • 2014-06-24
  • Индексация

  • Мультимедиа

  • Семантика и интент

Как Google использует query-specific модели для переранжирования изображений на основе их визуальных характеристик в реальном времени
Google использует систему для корректировки ранжирования изображений непосредственно в момент запроса (онлайн). Для популярных запросов система заранее обучает индивидуальные модели релевантности на основе исторических данных о кликах. При получении нового запроса система активирует наиболее подходящую модель и использует визуальные характеристики (цвет, текстура) для переоценки и переранжирования результатов, обеспечивая точное соответствие визуального контента интенту пользователя.
  • US10311096B2
  • 2019-06-04
  • Мультимедиа

  • SERP

  • Поведенческие сигналы

Популярные патенты

Как Google использует клики пользователей в Поиске по Картинкам для определения реального содержания изображений
Google использует данные о поведении пользователей для автоматической идентификации содержания изображений. Если пользователи вводят определенный запрос (Идею) и массово кликают на конкретное изображение в результатах поиска, система ассоциирует это изображение с Концептом, производным от запроса. Это позволяет Google понимать, что изображено на картинке, не полагаясь исключительно на метаданные или сложный визуальный анализ, и улучшает релевантность ранжирования в Image Search.
  • US8065611B1
  • 2011-11-22
  • Поведенческие сигналы

  • Семантика и интент

  • Мультимедиа

Как Google использует распределение кликов в выдаче для определения брендовых (навигационных) и общих (тематических) запросов
Google анализирует поведение пользователей в поисковой выдаче для классификации интента запроса. Если клики сконцентрированы на одном результате (низкое разнообразие, высокая частота), запрос классифицируется как навигационный или брендовый (Data-Creator Targeting). Если клики распределены по разным сайтам, запрос считается общим (Content Targeting). Эта классификация используется для адаптации поисковой выдачи.
  • US20170068720A1
  • 2017-03-09
  • Семантика и интент

  • Поведенческие сигналы

  • SERP

Как Google использует вероятностные модели и анализ пользовательского выбора (кликов) для обучения систем ранжирования
Патент Google описывает метод эффективного ранжирования контента (видео или результатов поиска) с использованием парных сравнений. Система моделирует качество как вероятностное распределение и оптимизирует сбор данных. Этот механизм может применяться для интерпретации кликов в поисковой выдаче как сигналов предпочтения, учитывая позицию результата и доверие к пользователю.
  • US8688716B1
  • 2014-04-01
  • SERP

  • Поведенческие сигналы

Как Google использует анализ параллельных анкорных текстов и кликов пользователей для перевода запросов и кросс-язычного поиска
Google использует механизм для автоматического перевода запросов с одного языка или набора символов на другой. Система создает вероятностный словарь, анализируя, как анкорные тексты на разных языках ссылаются на одни и те же страницы (параллельные анкоры). Вероятности перевода затем уточняются на основе того, на какие результаты кликают пользователи. Это позволяет осуществлять кросс-язычный поиск (CLIR).
  • US8706747B2
  • 2014-04-22
  • Мультиязычность

  • Семантика и интент

  • Ссылки

Как Google использует крупномасштабное машинное обучение и данные о поведении пользователей для предсказания кликов и ранжирования результатов
Google использует систему машинного обучения для создания модели ранжирования, которая предсказывает вероятность клика пользователя по документу. Модель обучается на огромных массивах данных о прошлых поисках (запросы, документы, клики). Система учитывает базовую вероятность клика (Prior Probability), основанную на позиции и предыдущей оценке документа, а затем корректирует её с помощью правил, выявляющих, какие признаки (Features) документа и запроса влияют на выбор пользователя.
  • US7231399B1
  • 2007-06-12
  • Поведенческие сигналы

Как Google корректирует позиционную предвзятость (Position Bias) при обучении моделей ранжирования на кликах пользователей
Google использует механизм для устранения позиционной предвзятости (Position Bias) при обучении моделей ранжирования (Learning to Rank). Система анализирует, на какой позиции находился кликнутый результат, и присваивает этому клику вес важности. Клики по нижним позициям получают больший вес, чем клики по ТОП-1. Это позволяет модели учиться определять истинную релевантность, а не просто копировать существующий порядок выдачи.
  • US20210125108A1
  • 2021-04-29
  • Поведенческие сигналы

  • SERP

Как Google использует данные о кликах разных групп пользователей (популяций) для локализации и персонализации ранжирования
Google адаптирует результаты поиска, анализируя, как разные группы пользователей (популяции), определяемые по местоположению, языку или демографии, взаимодействуют с выдачей. Система рассчитывает «Сигнал Популяции» (Population Signal) на основе исторических кликов группы и корректирует ранжирование. Также используется механизм сглаживания для компенсации нехватки данных по конкретным группам.
  • US7454417B2
  • 2008-11-18
  • Персонализация

  • Поведенческие сигналы

  • SERP

Как Google ранжирует комментарии и UGC, используя объективное качество и субъективную персонализацию
Google использует двухфакторную модель для ранжирования пользовательского контента (комментариев, отзывов). Система вычисляет объективную оценку качества (репутация автора, грамотность, длина, рейтинги) и субъективную оценку персонализации (является ли автор другом или предпочтительным автором, соответствует ли контент интересам и истории поиска пользователя). Итоговый рейтинг объединяет обе оценки для показа наиболее релевантного и качественного UGC.
  • US8321463B2
  • 2012-11-27
  • Персонализация

  • EEAT и качество

  • Поведенческие сигналы

Как Google выбирает каноническую (основную) версию документа, основываясь на авторитетности источника и полноте контента
Google использует систему для выбора канонической (основной) версии документа среди его дубликатов. Система присваивает «приоритет авторитетности» каждой версии, основываясь на источнике (например, официальный издатель) и праве публикации. Основной версией выбирается та, которая имеет высокий авторитет и является полной. При отсутствии идеального варианта выбирается версия с наибольшим объемом информации (например, самая длинная или с наибольшим PageRank).
  • US8095876B1
  • 2012-01-10
  • EEAT и качество

  • Техническое SEO

  • Ссылки

Как Google персонализирует подсказки Autocomplete, анализируя запросы похожих пользователей и обновляя локальный кэш устройства
Google персонализирует подсказки Autocomplete (Search Suggest), анализируя поведение пользователей со схожими профилями (местоположение, интересы, история поиска). Система генерирует кастомизированное обновление для локального кэша устройства на основе запросов, введенных этими похожими пользователями. Это означает, что разные пользователи видят разные подсказки для одного и того же ввода.
  • US8868592B1
  • 2014-10-21
  • Персонализация

  • Поведенческие сигналы

  • Local SEO

seohardcore