SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google использует мультимодальный поиск (изображение + голос) для более точного понимания запросов и ранжирования результатов

SEARCH WITH JOINT IMAGE-AUDIO QUERIES (Поиск с использованием совместных Изображение-Аудио запросов)
  • US8788434B2
  • Google LLC
  • 2010-10-28
  • 2014-07-22
  • Мультимедиа
  • Семантика и интент
  • SERP
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Google использует механизм мультимодального поиска, обрабатывая запросы, которые одновременно содержат изображение (например, фото) и аудио (например, голосовое описание или уточнение). Система анализирует визуальные признаки и конвертирует речь в текст, используя совместную модель релевантности для поиска ресурсов (таких как товары или веб-страницы), которые соответствуют обоим типам входных данных.

Описание

Какую проблему решает

Патент решает проблему неоднозначности и субъективности при поиске только по изображению. Визуально похожие результаты могут не соответствовать истинному намерению пользователя. Например, поиск по фото автомобиля определенной марки может вернуть визуально похожие автомобили других брендов. Изобретение улучшает точность поиска, позволяя пользователю дополнить изображение голосовым вводом, чтобы уточнить объект интереса или задать параметры поиска.

Что запатентовано

Запатентована система обработки мультимодальных запросов, состоящих из изображения и аудиоданных (Joint Image-Audio Query). Система извлекает признаки из обеих модальностей (визуальные признаки и текст из речи) и использует обученную Joint Image-Audio Relevance Model. Эта модель оценивает релевантность ресурсов (например, веб-страниц или карточек товаров, содержащих как изображения, так и текст) на основе комбинированного входа.

Как это работает

Система работает следующим образом:

  • Получение запроса: Пользователь создает запрос на устройстве (например, смартфоне), объединяя фотографию и голосовую запись.
  • Извлечение признаков: Система обрабатывает изображение для извлечения визуальных признаков (Image Feature Data) и аудио для конвертации речи в текст (Audio Feature Data).
  • Совместная оценка релевантности: Извлеченные признаки передаются в Joint Image-Audio Relevance Model.
  • Ранжирование: Модель сравнивает признаки запроса с признаками ресурсов в базе данных и вычисляет Relevance Score для каждого ресурса, учитывая обе модальности. Ресурсы ранжируются по этим оценкам.

Актуальность для SEO

Критически высокая. Мультимодальный поиск является стратегическим направлением развития Google (например, Google Lens, интеграция с голосовым поиском, модели MUM и Gemini). Этот патент описывает фундаментальные принципы объединения визуальных и аудиальных/текстовых сигналов в единой модели ранжирования, что особенно актуально для мобильного поиска и e-commerce.

Важность для SEO

Патент имеет высокое значение для SEO (8/10), особенно в сферах e-commerce и локального поиска. Он подчеркивает необходимость тесной семантической связи между визуальными активами (изображениями) и их текстовым контекстом на странице. Для успешного ранжирования по мультимодальным запросам необходимо, чтобы и изображение, и текст на странице были оптимизированы и согласованы друг с другом.

Детальный разбор

Термины и определения

Annotation Pair (Аннотационная пара)
Набор данных для обучения модели, состоящий из изображения и связанного с ним текста или аудио. Используется для обучения модели распознаванию связей между модальностями.
Audio Feature Data (Признаки аудиоданных)
Данные, извлеченные из аудиокомпонента запроса. Чаще всего это текст, полученный в результате распознавания речи, и его NLP-интерпретация.
Embedding Space (Пространство представлений)
В контексте патента — многомерное векторное пространство, в котором расстояние между элементами (изображениями, текстом, ресурсами) обозначает их семантическую близость. Используется в некоторых вариантах модели релевантности.
Image Feature Data (Признаки изображения)
Числовые значения, представляющие визуальные характеристики изображения или его части (цвет, текстура, края, SIFT и т.д.).
Joint Image-Audio Query (Совместный Изображение-Аудио запрос)
Мультимодальный поисковый запрос, состоящий из двух компонентов: данных изображения и аудиоданных (обычно речи).
Joint Image-Audio Relevance Model (Совместная модель релевантности Изображение-Аудио)
Обученная модель, которая принимает на вход признаки изображения и аудио и вычисляет оценку релевантности для ресурсов.
Relevance Score (REL) (Оценка релевантности)
Числовая оценка, генерируемая моделью, показывающая степень соответствия ресурса совместному Изображение-Аудио запросу.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод обработки мультимодального запроса.

  1. Система получает от клиентского устройства Joint Image-Audio Query, который включает файл изображения и файл аудиозаписи речи. Важно: объединение (pairing) происходит на клиентском устройстве перед отправкой.
  2. Система определяет признаки изображения (query image feature data).
  3. Система определяет признаки аудио (query audio feature data), включая текст, полученный из аудиозаписи речи.
  4. Эти признаки передаются в Joint Image-Audio Relevance Model.
  5. Модель обучена генерировать Relevance Scores для ресурсов на основе комбинированной релевантности: (Признаки изображения запроса к Признакам изображения ресурса) И (Текст запроса к Тексту ресурса).
  6. Система идентифицирует релевантные ресурсы, упорядочивает их по полученным оценкам и предоставляет результаты поиска клиенту.

Ядром изобретения является использование единой обученной модели для оценки релевантности на основе комбинации двух разных модальностей входного запроса (изображение и аудио/текст) по отношению к двум модальностям ресурса (изображение и текст).

Claim 2, 3 (Зависимые): Уточняют роль аудио. Аудио может описывать объект интереса (query object) на изображении, в том числе указывать его позицию (например, "объект справа").

Claim 4 (Зависимый): Уточняет, что аудио может содержать ограничения (restrictions) на результаты поиска (например, "только синий цвет", "дешевле 10 долларов").

Где и как применяется

Изобретение применяется на нескольких этапах поисковой архитектуры для обеспечения мультимодального поиска.

INDEXING – Индексирование и извлечение признаков
На этом этапе система анализирует ресурсы (например, карточки товаров, веб-страницы) и извлекает из них как визуальные признаки (resource image feature data), так и текстовые данные (resource text data). Эти данные сохраняются для последующего сравнения.

QUNDERSTANDING – Понимание Запросов
Основной этап применения. Когда поступает Joint Image-Audio Query, система должна интерпретировать обе его части. Это включает распознавание речи (Speech-to-Text), применение NLP для понимания намерений, ограничений и пространственной информации в аудио, а также анализ визуальных признаков изображения.

RANKING – Ранжирование
На этом этапе активируется Joint Image-Audio Relevance Model. Она использует интерпретированные данные запроса для вычисления Relevance Scores ресурсов из индекса. Патент предлагает несколько математических моделей для этого вычисления.

Входные данные:

  • Joint Image-Audio Query (файл изображения, аудиофайл).
  • База данных ресурсов (с предварительно извлеченными визуальными и текстовыми признаками).

Выходные данные:

  • Список ранжированных результатов поиска с соответствующими Relevance Scores.

На что влияет

  • Конкретные типы контента и ниши: Наибольшее влияние оказывается на E-commerce и поиск товаров, где комбинация визуального образца и голосового уточнения критична. Также влияет на локальный поиск (фотография места + голосовой вопрос).
  • Специфические запросы: Влияет на запросы, где пользователю проще показать и сказать, чем сформулировать текстом (например, поиск запчастей, идентификация объектов).

Когда применяется

  • Условия применения: Алгоритм применяется, когда пользователь явно отправляет мультимодальный запрос, состоящий из изображения и аудио. Это характерно для поиска через мобильные приложения, поддерживающие ввод с камеры и микрофона (например, функциональность, аналогичная Google Lens с голосовым вводом).

Пошаговый алгоритм

Процесс А: Обработка запроса в реальном времени

  1. Получение запроса: Система получает Joint Image-Audio Query от пользовательского устройства.
  2. Извлечение визуальных признаков: Изображение обрабатывается для генерации Image Feature Data (цвет, текстуры, формы и т.д.).
  3. Извлечение аудио признаков: Аудио обрабатывается с помощью Speech-to-Text. Полученный текст анализируется с помощью NLP для извлечения ключевых слов, намерений, ограничений (например, цена, цвет) и пространственной информации (например, "слева").
  4. Передача в модель релевантности: Оба набора признаков передаются в Joint Image-Audio Relevance Model.
  5. Вычисление релевантности: Модель сравнивает признаки запроса с признаками ресурсов в базе данных, используя одну из заложенных функций релевантности (например, линейную комбинацию или модель пространства представлений).
  6. Генерация оценок: Для каждого ресурса вычисляется Relevance Score (REL).
  7. Ранжирование и выдача: Ресурсы упорядочиваются по оценкам REL, формируется страница результатов поиска (SERP).

Процесс Б: Обучение модели (Офлайн)

  1. Сбор данных: Система получает доступ к Annotation Pairs (изображения + связанный текст/аудио) и ресурсам с известной степенью релевантности к этим парам.
  2. Извлечение признаков из обучающих данных: Из Annotation Pairs и ресурсов извлекаются признаки.
  3. Обучение модели: Веса модели корректируются итеративно, чтобы минимизировать разницу между вычисленными оценками релевантности и известными (целевыми) значениями релевантности.
  4. Валидация: Модель проверяется на тестовом наборе данных.

Какие данные и как использует

Данные на входе

  • Мультимедиа факторы (Изображение): Визуальные характеристики. Патент упоминает цветовые гистограммы, обнаружение текстур, SIFT (scale-invariant feature transform), обнаружение краев, углов и геометрическое размытие.
  • Контентные факторы (Аудио): Текст, полученный из речи. Применяется NLP для парсинга контента, определения пространственных областей интереса на изображении и выявления ограничений или предпочтений (sentiments).
  • Поведенческие факторы (Для обучения): Патент предлагает использовать данные о выборе пользователей (selection data) из поиска по картинкам, поиска товаров и общего веб-поиска для генерации Annotation Pairs. Например, текст запроса пользователя и изображение, на которое он кликнул, формируют пару для обучения.

Какие метрики используются и как они считаются

Ключевая метрика — Relevance Score (REL), рассчитываемая функцией f(S,I,R)f(S, I, R), где S — аудио/текст запроса, I — изображение запроса, R — ресурс. Патент предлагает несколько вариантов реализации этой функции:

1. Линейная комбинация (Linear Combination):

f(S,I,R)=c∗fs(S,R)+(1−c)∗fI(I,R)f(S, I, R) = c*f_s(S,R) + (1-c)*f_I(I,R)
Комбинация оценок текстовой релевантности и визуальной релевантности с настраиваемым весом c.

2. Фильтрация (Restricted Set):

f(S,I,R)=fI(I,R)∗f(S,R)f(S, I, R) = f_I(I,R) * f(S,R)
Где f(S,R)=1f(S,R)=1, если текст S присутствует в ресурсе R, и 0 в противном случае. Аудио используется для фильтрации набора ресурсов, а ранжирование внутри набора происходит по визуальной схожести.

3. Обучение весов признаков для каждого S:

f(S,I,R)=WS⋅Φ(I,R)f(S, I, R) = W_S \cdot \Phi(I,R)
Для каждого варианта аудиоввода (S) изучается отдельная матрица весов (W_S).

4. Модели пространства представлений (Embedding Space Models):

Например, f(S,I,R)=(WSI⋅ΦSI(S,I))⋅(WR⋅ΦR(R))f(S, I, R) = (W_{SI} \cdot \Phi_{SI}(S,I)) \cdot (W_R \cdot \Phi_R(R))
Запрос (S+I) и ресурс (R) проецируются в общее низкоразмерное пространство представлений, где оценивается их близость.

Выводы

  1. Мультимодальность устраняет неоднозначность: Ключевая идея патента — использование второй модальности (аудио/голос) для уточнения интента первой модальности (изображение). Это позволяет системе понять, какой именно объект на фото интересует пользователя и какие у него требования.
  2. Интеграция сигналов в единую модель: В отличие от систем, которые могут обрабатывать модальности раздельно, патент фокусируется на Joint Relevance Model, которая оценивает релевантность на основе комбинации всех входных данных одновременно.
  3. Гибкость в комбинировании модальностей: Патент предлагает различные математические подходы к комбинированию сигналов. Аудио может выступать как жесткий фильтр (модель Restricted Set), как взвешенный фактор (Linear Combination) или быть глубоко интегрированным через векторные представления (Embedding Space). Это дает системе гибкость в обработке разных типов запросов.
  4. Зависимость обучения от реальных данных: Эффективность модели зависит от качества Annotation Pairs. Использование логов поиска и кликов для генерации этих пар подчеркивает, что Google учится понимать связь между изображениями и словами на основе того, как их описывают пользователи и вебмастера.
  5. Фокус на E-commerce и мобильный поиск: Описанные сценарии (поиск товаров, уточнение цвета, цены) явно указывают на применение технологии в мобильном контексте и электронной коммерции.

Практика

Best practices (это мы делаем)

  • Обеспечение максимального соответствия изображения и текста: Критически важно, чтобы визуальные активы (особенно изображения товаров) и их текстовый контекст (заголовки, описания, alt-текст, подписи) были семантически тесно связаны. Модель оценивает релевантность обеих частей.
  • Оптимизация визуальной ясности (Visual Clarity): Изображения должны быть высокого качества, с четко выделенным основным объектом. Это облегчает извлечение признаков (Image Feature Extraction) и повышает вероятность того, что система правильно сопоставит ваше изображение с мультимодальным запросом.
  • Использование описательного и вариативного языка: Описывайте продукт так, как пользователи могут его искать голосом. Включайте в текст характеристики, которые могут быть использованы как ограничения (restrictions) в голосовом запросе: цвет, размер, цена, бренд, сценарии использования.
  • Оптимизация под "Describability": Убедитесь, что контент страницы соответствует тому, как пользователь может вербально описать свою визуальную потребность. Анализируйте данные голосового поиска для понимания формулировок.

Worst practices (это делать не надо)

  • Семантическое расхождение (Mismatching): Использование изображений, которые слабо связаны с текстом страницы (например, общие стоковые фото в статьях или несоответствующие изображения товаров). Это снижает комбинированную релевантность.
  • Использование зашумленных или некачественных изображений: Размещение ключевых товаров на cluttered (зашумленном) фоне или в низком разрешении затрудняет извлечение признаков и может привести к неверной интерпретации визуального контента.
  • Игнорирование текстового контекста изображений: Фокус только на визуальной привлекательности изображений без проработки окружающего текста (включая alt-text). Система не сможет эффективно использовать текстовую часть мультимодального запроса для оценки ресурса.

Стратегическое значение

Патент подтверждает стратегический курс Google на мультимодальное понимание контента и запросов. Для SEO это означает необходимость выхода за рамки традиционной текстовой оптимизации. Необходимо учитывать, как визуальные и текстовые элементы взаимодействуют для передачи смысла. Эта технология является основой для современных интерфейсов поиска (таких как Google Lens) и критически важна для долгосрочной стратегии в e-commerce и мобильном SEO.

Практические примеры

Сценарий: Оптимизация карточки товара (E-commerce)

Задача: Продажа красной спортивной куртки Nike.

  1. Визуальная оптимизация: Разместить качественные фотографии куртки на нейтральном фоне, а также в контексте использования. Убедиться, что цвет и логотип четко видны.
  2. Текстовая оптимизация: В описании товара использовать фразы: "Красная спортивная куртка Nike", "Ветровка для бега", "Доступна в красном, синем и черном цветах", указать цену.
  3. Ожидаемый результат: Пользователь фотографирует похожую куртку на улице и говорит: "Найти эту куртку Nike дешевле 150 долларов".
    • Система извлекает визуальные признаки (форма куртки, цвет, логотип).
    • Система извлекает текст: "Nike", "дешевле 150 долларов".
    • Joint Relevance Model ищет ресурсы, которые соответствуют и визуальным признакам, и текстовым ограничениям. Оптимизированная карточка товара получит высокий Relevance Score, так как соответствует всем условиям.

Вопросы и ответы

Как этот патент влияет на традиционную оптимизацию изображений (alt-text, filenames)?

Традиционная оптимизация остается важной, но её роль меняется. Alt-text и окружающий текст теперь служат не только для описания изображения для текстового поиска, но и как данные для сопоставления с аудио/текстовой частью мультимодального запроса. Кроме того, эти текстовые данные, вероятно, используются Google для генерации Annotation Pairs при обучении моделей, что подчеркивает необходимость точности и релевантности описаний.

Какова роль аудио в этом патенте? Это просто фильтр?

Не всегда. Патент описывает несколько моделей. В одной из них (Restricted Set) аудио действительно действует как жесткий фильтр (система ищет только среди страниц, содержащих слова из аудио). Однако в других моделях (Linear Combination, Embedding Space) аудио является равноправным сигналом ранжирования, вес которого может динамически настраиваться или изучаться моделью для более глубокой интеграции с визуальными сигналами.

Как система определяет, какие ресурсы использовать для обучения (Annotation Pairs)?

Патент предлагает несколько источников. Во-первых, это существующие базы данных (например, продуктовые каталоги, где изображение товара связано с его описанием). Во-вторых, это логи поиска: система анализирует текстовые запросы пользователей и изображения или товары, на которые они кликают в результатах. Эти пары (запрос + кликнутое изображение) становятся обучающими данными.

Что такое "Embedding Space" и почему это важно для мультимодального поиска?

Embedding Space (Пространство представлений) — это метод, позволяющий представить разнородные данные (текст, изображения) в виде числовых векторов в общем пространстве. Важно то, что в этом пространстве расстояние между векторами отражает семантическую близость. Это позволяет системе напрямую сравнивать релевантность между мультимодальным запросом и ресурсом, даже если они описаны разными способами.

Влияет ли качество изображения на ранжирование в этой системе?

Да, косвенно. Хотя патент не фокусируется на оценке качества изображения как такового, он описывает процесс извлечения признаков (Image Feature Extraction). Чем выше качество и четкость изображения, тем точнее будут извлеченные признаки (цвета, текстуры, формы). Это, в свою очередь, повышает точность работы Joint Relevance Model при сравнении изображения запроса с изображением ресурса.

Как система обрабатывает ситуации, когда аудио противоречит изображению (например, фото красной бутылки и голос говорит "хочу синюю")?

Патент учитывает такие сценарии. С помощью NLP система может распознавать ограничения (restrictions) и предпочтения (sentiments) в аудиоданных. В данном примере система поймет, что пользователь ищет объект, визуально похожий на фото (бутылка определенной формы), но с измененной характеристикой (синий цвет вместо красного). Ресурсы, соответствующие форме, но имеющие синий цвет, получат приоритет.

Как SEO-специалисту оптимизировать сайт под этот алгоритм?

Ключевая стратегия — обеспечить максимальную консистентность между визуальным и текстовым контентом. Для e-commerce это означает наличие качественных, четких изображений товаров и подробных, релевантных описаний, которые включают характеристики, часто используемые в голосовых запросах (цвет, размер, бренд). Структурированные данные также помогают связать текст с соответствующими изображениями.

Применяется ли этот патент только к поиску товаров?

Хотя большинство примеров в патенте связаны с товарами (Product Database), описанная технология применима к любым ресурсам, содержащим изображение и текст. Это могут быть новостные статьи, локальные бизнесы (фотография ресторана и голосовой запрос о часах работы), рецепты и информационные страницы.

Что происходит, если на изображении несколько объектов?

Патент предусматривает, что пользователь может использовать аудио для уточнения объекта интереса. Например, сказав "бутылка справа", пользователь помогает системе сфокусировать анализ визуальных признаков на правой части изображения, игнорируя другие объекты. Это повышает точность поиска.

Является ли этот патент основой для Google Lens?

Да, этот патент описывает фундаментальные механизмы, которые лежат в основе технологий типа Google Lens, особенно когда визуальный поиск комбинируется с голосовыми или текстовыми уточнениями. Он заложил основу для обработки совместных запросов из разных модальностей, что является ключевой функцией современных мультимодальных систем Google.

Похожие патенты

Как Google использует мультимодальный поиск (текст + изображение) для уточнения запросов и фильтрации видеоконтента
Google использует механизм мультимодального поиска, позволяющий пользователям дополнять текстовые запросы визуальным вводом (например, фотографией). Система анализирует изображение с помощью моделей машинного обучения для распознавания объектов и генерации семантической информации. Эта информация используется либо для создания уточненного составного запроса (composite query), либо для фильтрации исходных результатов поиска путем сопоставления метаданных изображения с метаданными проиндексированного видеоконтента.
  • US20210064652A1
  • 2021-03-04
  • Мультимедиа

  • Индексация

  • Семантика и интент

Как Google объединяет изображение с камеры и одновременный аудиовход (речь и звуки) для выполнения сложных мультимодальных поисковых запросов
Система мультимодального поиска Google, которая одновременно обрабатывает визуальные данные с камеры и аудиоданные с микрофона. Система извлекает визуальные признаки, транскрибирует речь и анализирует звуковые сигнатуры. Это позволяет пользователям задавать контекстные вопросы об объектах в кадре (например, «[Фото платья] + Найди такое же синее») или диагностировать проблемы по звуку и изображению (например, шум неисправного прибора), получая релевантные результаты из веб-поиска, поиска по картинкам или от генеративных моделей.
  • US12346386B2
  • 2025-07-01
  • Мультимедиа

  • Семантика и интент

Как Google объединяет изображение и текст для создания мультимодальных запросов (Google Multisearch)
Google патентует интерфейс для уточнения визуального поиска. Пользователь загружает изображение, видит результаты и специальное поле для ввода текстового уточнения. Система объединяет изображение и текст в единый мультимодальный запрос (Multimodal Search Query), чтобы точнее понять намерение пользователя и предоставить релевантные результаты разных форматов, включая товары, видео и статьи.
  • US20240028638A1
  • 2024-01-25
  • Мультимедиа

  • Семантика и интент

  • SERP

Как Google преобразует изображения в текст для понимания мультимодальных запросов с помощью LLM
Google использует систему для обработки мультимодальных запросов (текст + изображение), позволяя LLM отвечать на вопросы об изображениях. Система анализирует изображение с помощью вспомогательных моделей (распознавание объектов, VQA) и выполняет обратный поиск по картинкам для извлечения текста с найденных веб-ресурсов. Вся эта информация объединяется в структурированный текстовый промт, который позволяет LLM понять визуальный контекст и сгенерировать релевантный ответ.
  • US20250061146A1
  • 2025-02-20
  • Мультимедиа

  • Семантика и интент

Как Google использует одновременный ввод видео и аудио (Multimodal Search) для понимания сложных запросов
Google разрабатывает систему мультимодального поиска, позволяющую пользователям записывать видео и одновременно задавать вопрос голосом или записывать звук. Система использует продвинутые ML-модели для генерации видео-эмбеддингов, анализа временной информации и аудиосигнатур. Это позволяет поиску понимать сложные запросы, требующие визуального и аудиального контекста (например, диагностика поломок, обучение действиям), и находить релевантные ответы в виде видео, веб-страниц или AR.
  • US20240403362A1
  • 2024-12-05
  • Мультимедиа

  • Семантика и интент

  • Индексация

Популярные патенты

Как Google использует машинное обучение и поведение пользователей для понимания скрытого намерения в коммерческих запросах
Google использует систему машинного обучения для анализа того, какие товары пользователи выбирают после ввода широких или неоднозначных запросов. Изучая скрытые атрибуты (метаданные) этих выбранных товаров, система определяет «скрытое намерение» запроса. Это позволяет автоматически переписывать будущие неоднозначные запросы в структурированный формат, ориентированный на атрибуты товара, а не только на ключевые слова.
  • US20180113919A1
  • 2018-04-26
  • Семантика и интент

  • SERP

  • Поведенческие сигналы

Как Google автоматически выбирает категории и контент для страниц сущностей, комбинируя данные о поведении пользователей и Knowledge Graph
Google использует механизм для автоматического создания страниц о сущностях (например, о фильмах или персонажах). Система определяет, какие категории (свойства) сущности наиболее интересны пользователям, сравнивая данные из Knowledge Graph с данными о том, что пользователи ищут или смотрят вместе с этой сущностью. Затем она наполняет эти категории популярным контентом.
  • US11036743B2
  • 2021-06-15
  • Knowledge Graph

  • Семантика и интент

  • Поведенческие сигналы

Как Google использует исторические данные о кликах (CTR) по категориям для определения доминирующего интента неоднозначных запросов
Google анализирует, на какие категории результатов пользователи кликали чаще всего в прошлом (CTR) по неоднозначному запросу (например, "Pool"). Система определяет доминирующие интенты, выявляя резкие перепады в CTR между категориями или используя иерархию категорий, и повышает в ранжировании результаты, соответствующие наиболее популярным интерпретациям.
  • US8738612B1
  • 2014-05-27
  • Семантика и интент

  • Поведенческие сигналы

  • SERP

Как Google использует анализ сопутствующих ссылок (co-citation) и нормализацию веса для определения связанных сайтов и конкурентов
Google анализирует структуру ссылок для поиска сайтов, связанных с выбранным документом и находящихся на том же уровне обобщения (например, конкурентов). Система определяет, на какие еще сайты ссылаются источники, цитирующие исходный документ (co-citation). Для повышения точности вес ссылок нормализуется: снижается влияние множественных ссылок с одного хоста и ссылок со страниц-каталогов (хабов).
  • US6754873B1
  • 2004-06-22
  • Ссылки

  • SERP

  • Техническое SEO

Как Google решает, показывать ли прямой ответ, анализируя частоту использования естественного языка в исторических запросах о факте
Google анализирует исторические данные о том, как пользователи ищут конкретный факт. Если они часто используют естественный язык (например, «какая высота у Эйфелевой башни»), система считает, что пользователи действительно ищут этот факт. На основе этого рассчитывается «Оценка поиска фактов» (Fact-Seeking Score). Эта оценка используется как сигнал ранжирования, чтобы решить, нужно ли показывать прямой ответ (Factual Answer) и насколько высоко его разместить в результатах поиска.
  • US9396235B1
  • 2016-07-19
  • Семантика и интент

  • SERP

  • Поведенческие сигналы

Как Google использует погоду, время и местоположение для понимания истинного намерения пользователя и адаптации поисковой выдачи
Google анализирует, как физическое окружение (погода, время, местоположение) влияет на то, что ищут пользователи. Система выявляет корреляции между средой и поведением пользователей в прошлом (включая длительность кликов), чтобы лучше понять текущий интент многозначных запросов. Затем она переранжирует выдачу или переписывает запрос для предоставления наиболее релевантных результатов и рекламы.
  • US8898148B1
  • 2014-11-25
  • Семантика и интент

  • Поведенческие сигналы

  • Персонализация

Как Google использует историю поиска и браузинга для персонализации выдачи и определения предпочтений пользователя
Google записывает и анализирует историю действий пользователя: запросы, клики по результатам и рекламе, посещенные страницы. Система группирует связанные действия в сессии, определяет "Предпочитаемые локации" на основе частоты и времени визитов (stay-time), и использует эту историю для изменения порядка ранжирования, повышая позиции ранее посещенных сайтов в персональной выдаче.
  • US20060224583A1
  • 2006-10-05
  • Персонализация

  • Поведенческие сигналы

Как Google использует анализ параллельных анкорных текстов и кликов пользователей для перевода запросов и кросс-язычного поиска
Google использует механизм для автоматического перевода запросов с одного языка или набора символов на другой. Система создает вероятностный словарь, анализируя, как анкорные тексты на разных языках ссылаются на одни и те же страницы (параллельные анкоры). Вероятности перевода затем уточняются на основе того, на какие результаты кликают пользователи. Это позволяет осуществлять кросс-язычный поиск (CLIR).
  • US8706747B2
  • 2014-04-22
  • Мультиязычность

  • Семантика и интент

  • Ссылки

Как Google определяет, действительно ли новость посвящена сущности, и строит хронологию событий
Google использует систему для определения релевантности новостей конкретным объектам (сущностям, событиям, темам). Система анализирует кластеры новостных статей (коллекции), оценивая общий интерес к объекту (поисковые запросы, социальные сети) и значимость объекта внутри коллекции (упоминания в заголовках, центральность в тексте). Ключевой механизм — оценка уместности событий: система проверяет, соответствует ли событие типу объекта (например, «новый метод лечения» для болезни), чтобы отфильтровать мимолетные упоминания и создать точную хронологию новостей.
  • US9881077B1
  • 2018-01-30
  • Семантика и интент

  • Поведенческие сигналы

Как Google использует цитирования на веб-страницах для ранжирования книг в основной выдаче
Google использует механизм для определения релевантных книг по общим информационным запросам, даже если пользователь не искал книгу специально. Система анализирует, какие книги цитируются на топовых веб-страницах в выдаче. Книги получают оценку, основанную на авторитетности цитирующих страниц и контексте цитирования, и затем подмешиваются в результаты поиска.
  • US8392429B1
  • 2013-03-05
  • Ссылки

  • SERP

  • EEAT и качество

seohardcore