Как Google комбинирует текстовый запрос и изображение-образец для уточнения поиска по картинкам

VISUAL CONTENT RETRIEVAL (Поиск визуального контента)

US9043316B1
Google LLC
2012-03-28
2015-05-26

Google использует механизм для обработки гибридных запросов (текст + изображение). Система находит изображения, которые одновременно релевантны тексту и визуально похожи на образец. Для этого создаются компактные визуальные дескрипторы и используются "визуальные ключи" для быстрого поиска. Финальная выдача ранжируется по степени визуального сходства с образцом.

Какую проблему решает

Патент решает проблему неоднозначности текстовых запросов при поиске изображений. Например, по запросу "ягуар" пользователь может искать животное или автомобиль. Традиционный текстовый поиск не всегда может точно определить интент. Изобретение позволяет пользователю уточнить свой текстовый запрос с помощью изображения-образца (Query Image), чтобы система вернула результаты, соответствующие и тексту, и визуальному контексту. Также решается задача эффективности масштабируемого визуального поиска.

Что запатентовано

Запатентована система поиска визуального контента, которая обрабатывает гибридные запросы (текст + изображение). Суть изобретения заключается в методе объединения двух наборов результатов: релевантных тексту и визуально похожих на образец. Система пересекает эти наборы, фильтрует по порогу текстовой релевантности и выполняет финальное ранжирование строго по степени визуального сходства с изображением-образцом. Также патентуются эффективные методы для расчета этого сходства с использованием Content Descriptors и Visual Keys.

Как это работает

Система работает в несколько этапов:

Параллельный поиск: Выполняется поиск по текстовому запросу (результаты имеют Text Score) и поиск по изображению-образцу (результаты имеют Similarity Score).
Генерация дескрипторов (Офлайн): Для поиска по образцу используются компактные Content Descriptors, созданные путем извлечения признаков, снижения размерности (Kernel PCA) и сжатия (Delta Encoding).
Визуальные ключи (Офлайн): Для ускорения поиска используются Visual Keys, сгенерированные с помощью структуры данных Spill Tree, которые быстро идентифицируют потенциально похожие изображения.
Пересечение и фильтрация: Отбираются только те изображения, которые присутствуют в обоих наборах результатов и чей Text Score превышает заданный порог.
Объединение оценок: Text Scores и Similarity Scores комбинируются, при этом возможны корректировки (повышение/понижение).
Финальное ранжирование: Итоговый набор ранжируется на основе визуальной дистанции между Content Descriptor образца и дескрипторами результатов.

Актуальность для SEO

Высокая. Технологии визуального поиска и гибридных запросов активно развиваются (например, Google Lens, Circle to Search). Описанные в патенте методы создания компактных визуальных сигнатур и эффективного поиска сходства лежат в основе масштабируемых систем распознавания изображений и критически актуальны для современного поиска.

Важность для SEO

Патент имеет высокое значение (8/10) для SEO в области E-commerce и оптимизации под Image Search. Он демонстрирует, что Google способен понимать содержание изображения на уровне пикселей, а не только по метаданным. Для гибридных запросов визуальное сходство является определяющим фактором финального ранжирования, что подчеркивает стратегическую важность качества, уникальности и четкости изображений на сайте.

Термины и определения

Content Descriptor (Дескриптор контента): Компактное представление визуальных признаков изображения. Создается путем сжатия Feature Vector с помощью Kernel PCA и Delta Encoding. Используется для вычисления визуального сходства между изображениями.
Delta Encoding (Дельта-кодирование): Метод сжатия вектора, используемый для создания Content Descriptor. Включает кодирование значений элементов вектора относительно локальных (блочных) и глобальных максимумов.
Feature Vector (Вектор признаков): Вектор большой размерности, содержащий числовые значения признаков, извлеченных из изображения (цвета, текстуры, формы и т.д.). Является исходными данными для генерации Content Descriptor и Visual Keys.
Intersection Kernel (Ядро пересечения): Функция для измерения сходства между двумя векторами признаков. Патент описывает метод эффективной аппроксимации этой функции с использованием хеширования.
Kernel PCA (Ядерный метод главных компонент): Техника снижения размерности Feature Vector. Используется для преобразования вектора большой размерности в более компактное представление перед сжатием в Content Descriptor.
Query Image (Изображение-образец): Изображение, предоставленное пользователем как часть гибридного запроса для поиска визуально похожих результатов.
Spill Tree ("Проливающееся" дерево): Структура данных, используемая для генерации Visual Keys. Позволяет изображению принадлежать нескольким узлам (ветвям), если его признаки находятся близко к границе принятия решения между ветвями.
Spill (Разлив, перетек): Метрика, накапливаемая при обходе Spill Tree. Отражает степень неопределенности при выборе ветви. Используется для ранжирования Visual Keys (меньше spill – выше ранг).
Text Score (Текстовая оценка): Оценка релевантности изображения текстовой части гибридного запроса.
Visual Keys (Визуальные ключи): Идентификаторы, присваиваемые изображениям, чьи векторы признаков попадают в один и тот же листовой узел Spill Tree. Используются для быстрого поиска потенциально похожих изображений.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод обработки гибридного запроса.

Получение первых результатов поиска, отвечающих текстовому запросу (text query), с соответствующими первыми оценками (first scores / Text Score).
Получение вторых результатов поиска, отвечающих изображению-образцу (query image), с соответствующими вторыми оценками (second scores / Similarity Score). Эта оценка основана на дистанции между Content Descriptor образца и результата.
Отбор результатов, которые присутствуют как в первом, так и во втором наборе, И чьи первые оценки (Text Score) удовлетворяют первому порогу.
Выбор финального набора результатов, включая комбинирование первых и вторых оценок отобранных результатов.
Упорядочивание финальных результатов по оценке, производной от дистанции между Content Descriptor образца и Content Descriptor каждого результата (т.е. по визуальному сходству).

Claim 2, 3, 4, 5 (Зависимые): Детализируют процесс создания Content Descriptor (Claim 2). Он включает хеширование Feature Vector (Claim 3), использование Principal Component Analysis (PCA) для снижения размерности (Claim 4) и сжатие с помощью Delta Encoding (Claim 5).

Claim 6 и 9 (Зависимые): Описывают корректировку оценок. Text Score может быть увеличен для топовых текстовых результатов (Claim 6) или уменьшен, если он ниже динамического порога (Claim 9).

Claim 8 (Зависимый): Описывает возможность переупорядочивания финальных результатов не только по дистанции до образца, но и по дистанции до уже отобранного топового результата в финальном наборе.

Где и как применяется

Изобретение затрагивает несколько этапов поиска, с фокусом на индексирование визуального контента и ранжирование гибридных запросов.

INDEXING – Индексирование и извлечение признаков
Ключевой этап для этого патента. Здесь происходят основные офлайн-вычисления:

Извлечение Feature Vectors из изображений.
Генерация компактных Content Descriptors (включая Kernel PCA и Delta Encoding).
Генерация Visual Keys с использованием Spill Tree.
Индексирование изображений по тексту, Content Descriptors и Visual Keys.

RANKING – Ранжирование
При получении гибридного запроса система выполняет два параллельных процесса ранжирования:

Ранжирование по текстовому запросу (генерация Text Scores).
Ранжирование по изображению-образцу. Это может включать быстрый отбор кандидатов (L1 Retrieval) по Visual Keys и последующее вычисление точного сходства по Content Descriptors (генерация Similarity Scores).

RERANKING – Переранжирование / METASEARCH – Смешивание
Основной этап применения логики патента (Claim 1):

Пересечение двух наборов результатов.
Фильтрация по порогу Text Score.
Комбинирование и корректировка оценок (Boosting/Demotion).
Финальное переранжирование объединенного набора строго по визуальному сходству с образцом.
Удаление визуальных дубликатов (используя Visual Keys и Content Descriptors).

Входные данные:

Текстовый запрос (Query Text).
Изображение-образец (Query Image).
Индекс изображений, содержащий текст, Content Descriptors и Visual Keys.

Выходные данные:

Отсортированный список изображений, релевантных тексту и визуально похожих на образец.

На что влияет

Конкретные типы контента: В первую очередь влияет на изображения (фотографии, иллюстрации, товары).
Специфические запросы: Наибольшее влияние на неоднозначные информационные или коммерческие запросы, где визуальный контекст критичен для уточнения интента (например, поиск определенной модели одежды, детали механизма, вида животного).
Конкретные ниши или тематики: E-commerce (поиск товаров), стоки фотографий, каталоги (недвижимость, авто), где пользователи часто ищут что-то "похожее на это".

Когда применяется

Триггеры активации: Алгоритм активируется, когда пользователь предоставляет гибридный запрос, состоящий как из текста, так и из изображения-образца (например, в Google Lens).
Условия применения: Применяется для генерации финальной выдачи путем пересечения результатов текстового и визуального поиска. Обязательным условием для попадания в финал является наличие у изображения как ненулевого Similarity Score, так и Text Score, превышающего установленный порог.

Пошаговый алгоритм

Процесс А: Генерация Content Descriptor (Индексирование)

Извлечение признаков: Из изображения извлекаются признаки и формируется Feature Vector большой размерности.
Генерация хешей: К Feature Vector применяются множественные хеш-функции (например, weighted minhash) для создания вектора хешей.
Kernel PCA: Выполняется снижение размерности. Для этого аппроксимируется Intersection Kernel между вектором изображения и тренировочными примерами, используя вектор хешей и формулу: $IntK(u,v) = \frac{A \times (|u|_1 + |v|_1)}{1+A}$ (где A – вероятность коллизии хешей). Результат умножается на матрицу проекции.
Нормализация: Результат PCA может быть умножен на матрицу вращения для нормализации дисперсии элементов.
Сжатие (Delta Encoding): Вектор сжимается. Определяется максимум вектора, вектор делится на блоки, определяются максимумы блоков. Значения кодируются относительно этих максимумов.
Вывод: Сохраняется компактный Content Descriptor.

Процесс Б: Генерация Visual Keys (Индексирование)

Получение признаков: Используется Feature Vector или Content Descriptor изображения.
Обход Spill Tree: Представление изображения используется для обхода заранее натренированного Spill Tree.
Накопление Spill: На каждом узле вычисляется дистанция до центров ветвей. Если дистанция до нескольких ветвей близка (разница в пределах порога), обход продолжается по всем этим ветвям, а разница в дистанции добавляется к Spill.
Идентификация ключей: Листовые узлы, достигнутые при обходе, определяют Visual Keys изображения.
Ранжирование ключей: Ключи ранжируются по накопленному Spill (наименьший spill – наивысший ранг).

Процесс В: Обработка гибридного запроса (Ранжирование)

Получение запроса: Система получает Query Text и Query Image.
Поиск по тексту: Генерируется первый набор результатов с Text Scores.
Поиск по изображению: Генерируется второй набор результатов с Similarity Scores (используя Visual Keys и/или Content Descriptors образца).
Пересечение и фильтрация: Отбираются результаты, присутствующие в обоих наборах и имеющие Text Score выше порога.
Корректировка оценок: Оценки могут быть скорректированы (например, повышение топовых текстовых результатов; понижение результатов с низким Text Score, если только визуальное сходство не очень велико – closeness factor).
Финальное ранжирование: Отобранные результаты упорядочиваются по дистанции между их Content Descriptors и дескриптором образца.
Пост-обработка: Удаление визуальных дубликатов.

Какие данные и как использует

Данные на входе

Контентные факторы (Визуальные): Основные данные – это пиксели изображения. Из них извлекаются признаки (гистограммы цветов, градиенты, текстуры, ключевые точки), которые формируют Feature Vector.
Контентные факторы (Текстовые): Текст, ассоциированный с изображением (окружающий текст, alt-атрибуты, распознанный текст на изображении, метки классификаторов), используется для расчета Text Score.
Пользовательские данные: Текстовый запрос и изображение-образец, предоставленные пользователем.

Какие метрики используются и как они считаются

Text Score: Стандартная метрика релевантности текстовому запросу (в патенте не детализируется, упоминается как IR score).
Similarity Score / Distance: Метрика визуального сходства. Вычисляется как дистанция (например, L1 или L2) между Content Descriptors двух изображений.
Probability of Hash Collision (A): Аппроксимация вероятности того, что две разные картинки дадут одинаковый хеш. Используется для быстрого расчета Intersection Kernel. Считается как количество совпавших хешей в векторах хешей, деленное на общую длину вектора.
Intersection Kernel (IntK): Метрика сходства векторов признаков. Аппроксимируется по формуле: $IntK(u,v) = \frac{A \times (|u|_1 + |v|_1)}{1+A}$ .
Spill: Накопленная разница в дистанциях при принятии решений в узлах Spill Tree. Используется для ранжирования Visual Keys.
Пороги: Порог для Text Score при фильтрации пересечения результатов. Порог дистанции для определения визуальных дубликатов.

Гибридный поиск – это строгое пересечение с приоритетом визуала: Система требует, чтобы результат был одновременно релевантен тексту (выше порога) и похож на изображение. Однако финальное ранжирование отобранных результатов происходит строго по визуальному сходству с образцом.
Google глубоко анализирует пиксели: Патент детально описывает сложный процесс преобразования пикселей в компактные математические представления (Content Descriptors), которые фиксируют суть визуального контента. SEO-оптимизация изображений не ограничивается метаданными.
Эффективность и масштабируемость: Используются передовые техники (Kernel PCA, аппроксимация Intersection Kernel через хеширование, Delta Encoding) для сжатия данных и ускорения вычислений, что позволяет применять визуальный анализ ко всему индексу.
Visual Keys для быстрого поиска сходства: Использование Spill Tree для генерации Visual Keys позволяет мгновенно находить кандидатов на сходство, минуя попарное сравнение дескрипторов. Это также используется для быстрой фильтрации не-дубликатов.
Корректировка оценок: Система может применять бустинг или демоушен на основе Text Score, но патент также предусматривает, что очень высокое визуальное сходство (closeness factor) может компенсировать понижение за низкий Text Score.

Best practices (это мы делаем)

Оптимизация изображений для визуальной четкости: Поскольку финальное ранжирование основано на визуальном сходстве, изображения должны быть качественными, четкими и хорошо представлять объект. Это критично для товаров в e-commerce, чтобы они соответствовали потенциальным изображениям-образцам пользователей (например, при поиске через Google Lens).
Использование релевантного текстового окружения: Изображение должно иметь достаточный Text Score, чтобы пройти пороговый фильтр. Необходимо следить за тем, чтобы alt-тексты, заголовки и окружающий контент точно описывали изображение и соответствовали целевым текстовым запросам.
Создание уникального визуального контента: Поскольку система использует Content Descriptors и Visual Keys для идентификации и удаления дубликатов, использование уникальных изображений (например, собственные фото товаров вместо стоковых) повышает шансы на ранжирование и снижает риск фильтрации.
Разнообразие ракурсов для товаров: Предоставление нескольких изображений товара с разных сторон увеличивает вероятность того, что один из Feature Vectors сайта совпадет с Feature Vector изображения-образца, загруженного пользователем.

Worst practices (это делать не надо)

Использование низкокачественных или вводящих в заблуждение изображений: Изображения, которые плохо отражают суть контента или товара, не будут хорошо ранжироваться, так как система не найдет значимого визуального сходства с релевантными образцами.
Манипуляции с текстом (Keyword Stuffing) вокруг изображений: Переоптимизация текста может помочь изображению ранжироваться по текстовому запросу, но если оно визуально не соответствует интенту, оно не будет эффективным в гибридном поиске, где требуется и визуальное сходство.
Массовое использование стоковых изображений: Если множество сайтов используют одно и то же изображение, система может отфильтровать его как дубликат или выбрать только один канонический источник при обработке результатов (дедупликация).

Стратегическое значение

Этот патент подтверждает стратегический приоритет Google в развитии визуального поиска и его интеграции с традиционным поиском. Для SEO-специалистов это означает необходимость рассматривать изображения как полноценный контент, требующий оптимизации не только на уровне атрибутов, но и на уровне визуального содержания. Понимание того, как Google интерпретирует визуальные данные через Content Descriptors и Visual Keys, критично для адаптации к таким технологиям, как Google Lens и поиск по картинкам, особенно в e-commerce.

Практические примеры

Сценарий: Оптимизация карточки товара в магазине одежды

Пользователь ищет "синее вечернее платье" (Query Text) и загружает фотографию платья определенного фасона с Pinterest (Query Image).

Действие SEO-специалиста: Разместить на сайте высококачественные фотографии синего платья этого фасона с разных ракурсов. Убедиться, что в тексте карточки, alt-атрибутах и заголовках присутствуют фразы "синее вечернее платье".
Работа системы: Google индексирует фото, генерирует Content Descriptors и Visual Keys. Текстовое окружение дает высокий Text Score по запросу "синее вечернее платье".
Обработка запроса: Сайт попадает в первый набор (по тексту). Система сравнивает Content Descriptor фото с Pinterest с дескрипторами сайта и находит высокое сходство (сайт попадает во второй набор).
Результат: Сайт проходит фильтрацию (пересечение). Поскольку визуальное сходство высокое, изображение товара занимает лидирующие позиции в финальной выдаче гибридного поиска.

Что такое Content Descriptor и почему он важен для SEO?

Content Descriptor – это компактная математическая "подпись" изображения, полученная путем сложного анализа его визуальных признаков (Feature Vector) и сжатия с помощью Kernel PCA и Delta Encoding. Для SEO это критически важно, так как именно сравнение этих дескрипторов определяет степень визуального сходства в поиске по картинкам и используется для дедупликации контента. Это означает, что Google оценивает сами пиксели, а не только метаданные.

Что важнее в гибридном поиске: релевантность тексту или сходство с картинкой?

Оба фактора необходимы, но приоритеты расставлены четко. Чтобы попасть в выдачу, изображение должно присутствовать в результатах и по тексту (и пройти порог Text Score), и по картинке. Однако финальное ранжирование отобранных результатов (согласно Claim 1) производится строго по степени визуального сходства с образцом. Визуальное сходство определяет позицию в ТОПе.

Как используются Visual Keys и Spill Tree?

Spill Tree – это структура, которая классифицирует изображения по их признакам. Visual Key — это идентификатор группы визуально похожих изображений (листовой узел в этом дереве). Система использует их для повышения эффективности. Вместо того чтобы сравнивать Content Descriptor запроса с миллиардами других, Google сначала определяет Visual Keys запроса и ищет совпадения только среди изображений с такими же ключами. Это значительно ускоряет поиск кандидатов.

Влияет ли этот патент на ранжирование обычных веб-страниц (не Image Search)?

Патент напрямую описывает ранжирование в поиске изображений при гибридном запросе. Прямого влияния на ранжирование "синих ссылок" в патенте нет. Однако, понимание визуального контента может использоваться в основном поиске для оценки качества страницы, определения релевантности контента или формирования смешанной выдачи (Universal Search), где блок с картинками может быть сформирован с использованием этих технологий.

Как патент помогает бороться с дубликатами изображений?

Патент описывает два механизма. Во-первых, быстрое сравнение Visual Keys: если у двух изображений нет общих топовых Visual Keys, они точно не дубликаты, и дорогостоящее сравнение дескрипторов не требуется. Во-вторых, если ключи совпадают, система вычисляет точную дистанцию между Content Descriptors. Если дистанция ниже порога, изображения считаются дубликатами и могут быть исключены из выдачи.

Что такое Kernel PCA и аппроксимация Intersection Kernel?

Это сложные математические методы для эффективной обработки огромных векторов признаков. Kernel PCA используется для снижения размерности данных с сохранением важной информации. Intersection Kernel измеряет сходство, но его расчет дорог. Патент предлагает аппроксимировать его с помощью хеширования (формула с вероятностью коллизии A), что значительно ускоряет процесс и позволяет применять анализ в масштабах веба.

Как SEO-специалисту повлиять на Feature Vector или Content Descriptor своего изображения?

Напрямую повлиять на математические значения нельзя, но можно повлиять на исходные данные – само изображение. Использование качественных, четких, высококонтрастных изображений с хорошо различимыми объектами позволит системе извлечь более сильные и релевантные признаки. Разнообразие ракурсов также помогает создать более полное визуальное представление объекта.

Может ли высокое визуальное сходство компенсировать низкую текстовую релевантность?

В определенной степени. Изображение обязано пройти минимальный порог Text Score, чтобы вообще рассматриваться. Однако патент упоминает механизм корректировки оценок, где фактор понижения за низкий Text Score может быть ослаблен, если изображение имеет очень высокую степень визуального сходства (closeness factor) с образцом.

Актуален ли этот патент для оптимизации под Google Lens?

Да, очень актуален. Google Lens часто используется для поиска информации по изображению, иногда с текстовым уточнением. Механизмы, описанные в патенте (генерация Content Descriptors, быстрый поиск сходства через Visual Keys и обработка гибридных запросов), лежат в основе функциональности, подобной Google Lens, особенно при поиске товаров или определении объектов.

Стоит ли использовать стоковые фотографии в контексте этого патента?

Использование стоковых фотографий несет риски. Поскольку система эффективно идентифицирует визуальные дубликаты с помощью Content Descriptors и Visual Keys, неуникальные изображения могут быть отфильтрованы из выдачи в пользу канонического источника или просто понижены. Для достижения максимальной видимости в Image Search рекомендуется использовать уникальный визуальный контент.

Как Google комбинирует визуальное сходство и семантические метки для улучшения поиска по картинке (Visual Search)

Google использует систему поиска по изображению, которая сочетает анализ визуальных характеристик и семантических меток. Система генерирует высокоточные метки (High Confidence Labels) для изображения, анализируя текст, связанный с визуально похожими картинками в интернете. Затем она ранжирует кандидатов, используя модель визуального сходства, обученную на основе человеческих оценок, и применяет правила фильтрации для обеспечения однородности результатов.

US8429173B1
2013-04-23

Семантика и интент
Мультимедиа
SERP

Как Google связывает изображения с семантическими сущностями для устранения неоднозначности в поиске по картинкам

Google использует систему для понимания того, что именно изображено на картинке, связывая её с конкретной семантической сущностью (например, статьей в Wikipedia или Freebase). Это позволяет устранить неоднозначность (понимать разницу между «Ягуаром» машиной и животным) и предоставлять более точные результаты при поиске по изображению (например, в Google Lens).

US9171018B2
2015-10-27

Семантика и интент
Knowledge Graph
Мультимедиа

Как Google использует визуальное сходство для связывания изображений и видео, кластеризации выдачи и обогащения метаданных

Google анализирует визуальное содержимое изображений и ключевых кадров видео для выявления сходств. Это позволяет связывать разнотипный контент, даже если у него мало текстовых данных. Система использует эти связи для переноса метаданных (например, ключевых слов или геопозиции) от одного ресурса к другому, а также для кластеризации и смешивания изображений и видео в результатах поиска.

US9652462B2
2017-05-16

Мультимедиа
SERP
Семантика и интент

Как Google использует визуальные цитаты и обратную связь для генерации и уточнения ответов в мультимодальном поиске

Google генерирует ответы на мультимодальные запросы (изображение + текст), находя визуально похожие изображения в интернете и используя текст с их исходных страниц как основу для LLM. Система показывает эти изображения как «визуальные цитаты» для подтверждения ответа и позволяет пользователям исключать нерелевантные источники, чтобы мгновенно уточнить сгенерированный результат.

US20240378236A1
2024-11-14

Мультимедиа
EEAT и качество
Ссылки

Как Google определяет текстовое описание изображения для визуального поиска, анализируя похожие картинки и связанные с ними запросы

Google использует систему визуального поиска, которая позволяет пользователям отправлять изображение в качестве запроса. Для этого система создает индекс визуальных признаков и анализирует метаданные (запросы, по которым кликали на картинку, и текст на ссылающихся страницах). При получении изображения система находит визуально похожие картинки в индексе, анализирует связанные с ними текстовые фразы (n-граммы) и выбирает наилучшее описание. Затем выполняется стандартный поиск по этому текстовому описанию.

US8761512B1
2014-06-24

Индексация
Мультимедиа
Семантика и интент

Как Google определяет географическую зону релевантности бизнеса на основе реального поведения пользователей (Catchment Areas)

Google определяет уникальную "зону охвата" (Catchment Area) для локального бизнеса, анализируя, из каких географических точек пользователи кликали на его результаты в поиске. Эта динамическая зона заменяет фиксированный радиус и используется для фильтрации кандидатов при локальном поиске, учитывая известность бренда, категорию бизнеса и физические препятствия.

US8775434B1
2014-07-08

Local SEO
Поведенческие сигналы

Как Google улучшает результаты поиска, подбирая похожие "идеальные" запросы из логов и структурированных данных

Google идентифицирует запросы, которые стабильно показывают высокое вовлечение пользователей (CTR, долгие клики), и генерирует синтетические запросы из структурированных данных (например, частотного анкорного текста). Когда пользователь вводит похожий, но потенциально плохо сформулированный запрос, Google использует эти "аугментирующие запросы" для предоставления более качественных и релевантных результатов.

US9128945B1
2015-09-08

SERP
Поведенческие сигналы
EEAT и качество

Как Google снижает ценность ссылок между аффилированными сайтами для борьбы с линк-схемами

Google использует модификацию алгоритмов расчета качества (типа PageRank), которая учитывает аффилированность между ссылающимися документами. Если система определяет, что сайты связаны (например, принадлежат одному владельцу, находятся в одной сети или имеют схожие паттерны трафика), ценность ссылок между ними агрессивно снижается. Вместо суммирования веса всех ссылок система учитывает только максимальный вклад от аффилированной группы, нейтрализуя эффект линк-ферм и PBN.

US7783639B1
2010-08-24

Ссылки
Антиспам
EEAT и качество

Как Google связывает документы на основе поведения пользователей, времени взаимодействия и контентной близости для персонализации поиска

Google использует систему для определения "меры ассоциации" между различными документами (статьями, веб-страницами, письмами). Ассоциация рассчитывается на основе того, насколько близко по времени пользователь взаимодействовал с этими документами, насколько похож их контент и совпадают ли метаданные (например, автор). Эти связи используются для понимания пути пользователя и персонализации последующих результатов поиска.

US8131754B1
2012-03-06

Поведенческие сигналы
Персонализация
Семантика и интент

Как Google использует язык интерфейса пользователя и поведенческие сигналы для определения языковой релевантности документа

Google определяет, для носителей каких языков релевантен документ, анализируя агрегированные данные о кликах. Система изучает, какой языковой интерфейс поиска (например, google.fr или google.de) использовали пользователи, кликнувшие на результат. Учитывая поведенческие факторы, такие как время пребывания на странице (Dwell Time) и позиция клика, Google рассчитывает Оценку Языковой Релевантности. Это позволяет определить целевую аудиторию страницы независимо от языка ее контента.

US9208231B1
2015-12-08

Мультиязычность
Поведенческие сигналы
SERP

Как Google использует внешние данные для оценки репутации сущностей и их взаимной привлекательности в вертикальном поиске

Google использует систему для улучшения вертикального поиска (например, вакансий, недвижимости) путем оценки взаимной привлекательности двух разных типов сущностей (например, соискателя и вакансии). Система агрегирует данные из внешних источников для выявления скрытых атрибутов и расчета «Репутационной значимости» каждой сущности. На основе этих данных определяется метрика «Двухстороннего соответствия», которая используется для ранжирования.

US10853432B2
2020-12-01

Семантика и интент
SERP
Поведенческие сигналы

Как Google использует контекст пользователя в реальном времени и машинное обучение для переранжирования результатов поиска

Google использует систему для прогнозирования истинного намерения пользователя на основе его текущего контекста (местоположение, время, среда, недавние действия) и исторических данных о поведении других пользователей в аналогичных ситуациях. Система переранжирует стандартные результаты поиска, чтобы выделить информацию (особенно "Search Features"), которая наиболее соответствует прогнозируемому намерению.

US10909124B2
2021-02-02

Семантика и интент
Персонализация
SERP

Как Google использует анализ многословных фраз для улучшения подбора синонимов с учетом грамматического согласования

Google анализирует, как пользователи одновременно меняют несколько слов в запросе (например, при изменении числа или рода). Подтверждая, что каждое измененное слово является лексическим или семантическим вариантом оригинала, Google идентифицирует «синонимы с N-граммным согласованием». Это позволяет системе улучшить понимание синонимов отдельных слов, даже если эти слова редко меняются поодиночке в определенных контекстах.

US7925498B1
2011-04-12

Семантика и интент
Поведенческие сигналы

Как Google использует данные о посещаемости, уникальных пользователях и длине URL для ранжирования документов

Фундаментальный патент Google, описывающий использование поведенческих факторов в ранжировании. Система рассчитывает Usage Score на основе частоты посещений и количества уникальных пользователей, фильтруя ботов и взвешивая данные по географии. Этот балл комбинируется с текстовой релевантностью (IR Score) и длиной URL (Path Length Score) для определения итоговой позиции документа.

US8001118B2
2011-08-16

Поведенческие сигналы
SERP

Как Google использует социальные связи для обнаружения ссылочного спама и накрутки кликов

Google может анализировать связи между владельцами сайтов в социальных сетях, чтобы оценить независимость ссылок между их ресурсами. Если владельцы тесно связаны (например, друзья), ссылки между их сайтами могут получить меньший вес в ранжировании, а клики по рекламе могут быть классифицированы как спам (накрутка).

US8060405B1
2011-11-15

Антиспам
Ссылки
SERP