SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google использует последовательность кликов пользователей (Co-selection) для классификации изображений и фильтрации контента (SafeSearch)

CO-SELECTED IMAGE CLASSIFICATION (Классификация совместно выбранных изображений)
  • US8856124B2
  • Google LLC
  • 2009-06-03
  • 2014-10-07
  • Безопасный поиск
  • Поведенческие сигналы
  • Семантика и интент
  • Мультимедиа
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Google анализирует, какие изображения пользователи выбирают последовательно в рамках одной сессии (co-selection). Если Изображение Б часто выбирается сразу после Изображения А (с известной темой), система присваивает Изображению Б ту же тему. Этот механизм использует графовый анализ поведения для уточнения тематики изображений, что критично для повышения релевантности и работы фильтров, таких как SafeSearch.

Описание

Какую проблему решает

Патент решает проблему неточной классификации изображений, возникающую, когда традиционные сигналы (окружающий текст, визуальные характеристики) неоднозначны или отсутствуют. Это особенно критично для фильтрации нежелательного контента (например, порнографии) при нейтральных запросах. Традиционные методы могут ошибаться, если текст вводит в заблуждение (пример в патенте: запрос "Babe Movie" может вернуть откровенный контент). Изобретение направлено на повышение точности классификации для улучшения качества и безопасности поиска по картинкам.

Что запатентовано

Запатентована система классификации изображений, основанная на анализе поведенческих данных о совместном выборе (co-selection data). Если пользователи часто выбирают Изображение Б сразу после Изображения А (эталонного изображения с известной темой) в рамках одной сессии, система делает вывод, что Изображение Б относится к той же теме. Для масштабирования этого процесса используется взвешенный граф кликов и итеративный алгоритм распространения меток (Label Propagation).

Как это работает

Система функционирует следующим образом:

  • Определение эталонов: Идентифицируются эталонные изображения (Reference Images) с достоверно известными темами (Reference Labels).
  • Анализ сессий: Анализируются логи пользовательских сессий (Historical Data) для выявления последовательных кликов по изображениям.
  • Идентификация Co-selection: Определяются изображения (Co-selected Images), выбранные пользователем вскоре после эталонного изображения в той же сессии.
  • Построение графа: Строится взвешенный граф (Weighted Graph), где узлы — это изображения, а вес ребер отражает частоту и близость (proximity) совместного выбора.
  • Расчет Topic Scores: Используется итеративный процесс для распространения тематических оценок (Topic Scores) от эталонных изображений по графу к связанным с ними изображениям.
  • Классификация и Применение: Изображениям, чьи оценки превысили порог, присваивается метка. Эти метки используются для фильтрации (например, SafeSearch) или изменения порядка выдачи.

Актуальность для SEO

Высокая. Анализ поведения пользователей и графовые методы (включая распространение меток) являются фундаментальными подходами в современных поисковых системах. Точная классификация визуального контента, особенно для целей фильтрации NSFW-контента и разрешения неоднозначности запросов, остается критически важной задачей для Google Images в 2025 году.

Важность для SEO

Патент имеет значительное влияние (8/10) на Image SEO. Он демонстрирует, что классификация изображения зависит не только от его содержания или окружающего текста, но и от контекста его потребления пользователями. Если изображение часто кликают в рамках сессий, посвященных определенной теме (особенно чувствительной, как NSFW), оно будет ассоциировано с этой темой по поведенческому принципу, что может привести к его фильтрации или изменению ранжирования.

Детальный разбор

Термины и определения

Co-selected Image (Совместно выбранное изображение)
Изображение, выбранное пользователем в рамках той же сессии, что и эталонное изображение, и после него.
Co-selection Data (Данные о совместном выборе)
Данные, определяющие частоту или скорость последовательного выбора пар изображений. Могут быть представлены в виде Co-selection Matrix.
Label Feedback (Обратная связь по меткам)
Данные от пользователей или асессоров, подтверждающие точность метки для изображения. Используется для валидации эталонных изображений и определения их веса (reference weight).
Reference Image (Эталонное изображение)
Изображение, которое предварительно классифицировано и имеет известную тему (reference topic). Служит отправной точкой для классификации.
Reference Label (Эталонная метка)
Метка (текст или флаг), определяющая тему эталонного изображения (например, "explicit content").
Stop Condition (Условие остановки)
Критерий для завершения итеративного процесса расчета Topic Scores. Например, когда изменения оценок минимальны (сходимость) или достигнуто максимальное число итераций.
Topic Score (Оценка темы)
Показатель, представляющий вероятность принадлежности изображения к определенной теме. Рассчитывается на основе частоты и близости (proximity) совместного выбора с эталонными изображениями.
User Session (Пользовательская сессия)
Период времени или последовательность действий, в течение которых выборы изображений ассоциируются с общим идентификатором сессии.
Weighted Graph (Взвешенный граф)
Структура данных, где узлы (nodes) представляют изображения, а ребра (edges) — последовательные выборы. Вес ребра (edge weight) отражает частоту таких выборов.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод классификации на основе совместного выбора.

  1. Система получает эталонную текстовую метку (reference text label) для эталонного изображения (reference image), определяющую Первую тему.
  2. Идентифицируется совместно выбранное изображение (co-selected image). Условие: оно было показано и выбрано пользователем в той же сессии, что и эталонное изображение.
  3. Генерируется оценка темы (topic score) для совместно выбранного изображения. Оценка основана на количестве сессий, в которых пользователь взаимодействовал с обоими изображениями.
  4. Совместно выбранному изображению присваивается метка Первой темы, если его topic score соответствует порогу.

Claim 2 (Зависимый): Вводит ограничение по времени (близость выбора).

В качестве co-selected images учитываются только те изображения, которые были выбраны в пределах порогового периода времени (threshold time period) после выбора эталонного изображения. Это обеспечивает учет только близких по контексту взаимодействий.

Claim 3 (Зависимый): Описывает использование взвешенного графа.

Изображения представляются как узлы во взвешенном графе. Ребра представляют последовательные выборы (sequential selections). Topic score генерируется на основе весов этих ребер.

Claim 11 и 12 (Зависимые): Определяют применение в поиске.

Сгенерированные метки используются для фильтрации (Claim 11) или изменения порядка (Claim 12) результатов поиска по запросу, относящемуся к другой теме (например, для работы SafeSearch).

Claim 13 (Зависимый): Детализирует итеративный процесс генерации Topic Score (распространение меток).

  1. Получение начальных topic scores.
  2. Получение co-selection data.
  3. Итеративное вычисление обновленных topic scores на основе текущих оценок и co-selection data.
  4. Процесс повторяется до выполнения условия остановки (stop condition).
  5. Финальная классификация на основе итоговых оценок.

Где и как применяется

Изобретение затрагивает несколько этапов поиска, преимущественно в контексте обработки данных и улучшения качества индекса изображений.

CRAWLING & DATA ACQUISITION – Сбор данных
На этом этапе система собирает логи пользовательских сессий (Historical Data), включая идентификаторы сессий, выбранные изображения (клики) и временные метки.

INDEXING – Индексирование и извлечение признаков (Офлайн-обработка)
Основная работа алгоритма (Image Classification Subsystem) происходит здесь:

  1. Инициализация: Определение начальных Reference Images и их меток (используя визуальный анализ, текст или ручную разметку).
  2. Обработка данных: Анализ логов для идентификации Co-selected Images.
  3. Построение модели: Генерация Weighted Graph или Co-selection Matrix.
  4. Вычисление оценок: Итеративный расчет Topic Scores (распространение меток).
  5. Сохранение: Запись финальных меток в индекс изображений (Indexed Cache).

RANKING / RERANKING – Ранжирование и Переранжирование
На этапе формирования выдачи Search System использует предварительно рассчитанные метки для:

  • Фильтрации: Удаление изображений с определенными метками (например, работа SafeSearch).
  • Изменения порядка (Reordering): Корректировка позиций изображений на основе их тематической релевантности запросу.

Входные данные:

  • Логи пользовательских сессий (клики, таймстампы, session ID).
  • Набор Reference Images и их Reference Labels.

Выходные данные:

  • Тематические метки (Labels) или Topic Scores, ассоциированные с изображениями в индексе.

На что влияет

  • Типы контента: Влияет исключительно на поиск по изображениям (Image Search).
  • Специфические запросы: Наибольшее влияние на неоднозначные (ambiguous) запросы, где ключевое слово может относиться к разным темам (например, "Babe", "Apple").
  • Конкретные ниши или тематики: Критически важно для разделения контента для взрослых (Pornographic/Explicit content прямо упоминаются в патенте) и безопасного контента (SFW).

Когда применяется

  • Триггеры активации (Офлайн): Процесс классификации запускается периодически в офлайн-режиме для обработки накопленных данных о сессиях и обновления Topic Scores.
  • Триггеры активации (Ранжирование): Сгенерированные метки используются в реальном времени при обработке запросов к поиску изображений для фильтрации и ранжирования.
  • Условия: Для учета совместного выбора клики должны произойти в рамках одной сессии и, как правило, в пределах короткого временного окна (threshold time period).

Пошаговый алгоритм

Патент описывает процесс построения модели взаимодействий и итеративный расчет оценок.

Процесс А: Построение взвешенного графа (Обработка сессий)

  1. Инициализация: Определение эталонных изображений и представление их как узлов в графе.
  2. Анализ сессий: Обработка исторических данных для идентификации сессий, в которых выбирались изображения.
  3. Идентификация последовательностей: В рамках сессии определяются последовательности (клик на Изображение А, затем на Изображение Б).
  4. Определение Co-selection: Изображение Б считается совместно выбранным с А, если оно выбрано после А и в пределах порогового времени.
  5. Построение/Обновление графа: Создание узлов и ребер между А и Б.
  6. Взвешивание ребер: Вес ребра (edge weight) увеличивается при каждом наблюдении А->Б. Вес может корректироваться на основе близости выбора. Патент приводит пример веса 1/(номер выбора)1/(номер\ выбора)1/(номер выбора), где первый выбор после эталона имеет вес 1, второй 1/2 и т.д. Также вес может корректироваться уверенностью в теме источника (reference weight).

Процесс Б: Итеративная классификация (Распространение меток)

  1. Получение начальных оценок: Определяются начальные Topic Scores. Например, эталонные изображения темы получают 1.0, изображения заведомо другой темы — 0.0, остальные — 0.5 или оценку на основе анализа контента.
  2. Получение Co-selection Data: Загружаются данные о совместном выборе, обычно в виде Co-selection Matrix, основанной на весах ребер графа.
  3. Итеративное обновление оценок: Вычисляются обновленные Topic Scores как функция текущих оценок и данных о совместном выборе (например, путем умножения вектора оценок на матрицу).
  4. Проверка сходимости: Определяется, выполнено ли условие остановки (Stop Condition) — например, изменения оценок минимальны.
    • Если НЕТ: Повторить шаг 3.
    • Если ДА: Перейти к шагу 5.
  5. Классификация и маркировка: Изображениям, чья финальная оценка превысила порог, присваивается метка соответствующей темы.

Какие данные и как использует

Данные на входе

Система в первую очередь полагается на поведенческие данные и данные, полученные в результате предварительного анализа.

  • Поведенческие факторы (Historical Data):
    • Выборы (Selections/Clicks): Основной сигнал взаимодействия пользователя с изображением.
    • Последовательность выборов (Sequence of selections): Порядок кликов в рамках сессии.
    • Идентификаторы сессий (Session IDs): Для группировки действий одного пользователя.
    • Временные метки (Timestamps): Для определения последовательности и близости (proximity) выборов.
    • Dwell Time: Упоминается как возможный фактор для оценки релевантности (более долгий просмотр = выше релевантность).
  • Контентные и Мультимедиа факторы (для инициализации):
    • Визуальные характеристики: Анализ цвета и текстуры для идентификации эталонных изображений (например, подсчет "skin pixels" для определения контента для взрослых).
    • Текст: Текст рядом с изображением, имя файла, анкорный текст. Используются для генерации начальных меток или Initial Topic Scores.
  • Пользовательские факторы (для валидации):
    • Label Feedback: Данные от асессоров или пользователей для подтверждения точности меток и определения reference weight.

Какие метрики используются и как они считаются

  • Frequency of Co-selection (Частота совместного выбора): Количество раз, когда Изображение Б было выбрано после Изображения А.
  • Edge Weight (Вес ребра): Числовое значение в графе, представляющее силу связи между двумя изображениями. Основано на частоте совместного выбора и может корректироваться факторами близости.
  • Proximity of Selection (Близость выбора): Измеряется временем или количеством кликов между выборами. Используется для взвешивания (близкий выбор имеет больший вес).
  • Reference Weight (Вес эталона): Метрика уверенности в том, что эталонное изображение принадлежит к своей теме. Может использоваться для корректировки веса исходящих ребер.
  • Topic Score (Оценка темы): Вероятность принадлежности к теме. Рассчитывается итеративно через распространение меток по графу (например, умножение вектора оценок на матрицу совместного выбора).

Выводы

  1. Поведенческие сигналы как основа классификации: Патент демонстрирует механизм, где последовательность действий пользователя (клики) используется для определения тематики контента. Это позволяет системе преодолевать ограничения текстового и визуального анализа, особенно при неоднозначности.
  2. Контекст сессии определяет тематику ("Поведенческое соседство"): Система предполагает, что изображения, просмотренные пользователем подряд в рамках короткой сессии, с высокой вероятностью относятся к одной теме. Тематика изображения определяется тем, какой контент пользователи просматривают вместе с ним.
  3. Важность близости выбора (Proximity): Чем быстрее изображение выбрано после эталонного (меньше времени или промежуточных кликов), тем сильнее связь между ними и тем выше вес этого взаимодействия в алгоритме.
  4. Итеративное распространение релевантности (Label Propagation): Используется графовый механизм, где тематическая оценка распространяется от известных изображений к неизвестным. Сила распространения зависит от веса ребер (частоты совместных кликов).
  5. Ключевой механизм для SafeSearch и качества: Основная цель — улучшение качества выдачи путем фильтрации нерелевантного или чувствительного контента (в патенте явно упоминается порнография), что критично для работы систем фильтрации.

Практика

Best practices (это мы делаем)

  • Обеспечение тематической целостности галерей и блоков рекомендаций: Убедитесь, что изображения, которые пользователь видит рядом и может выбрать последовательно (галереи, слайдеры, похожие товары), строго относятся к одной теме. Это способствует правильной ассоциации ваших изображений с релевантными эталонами в графе Google через co-selection.
  • Оптимизация пути пользователя (User Flow) для Image Search: Структурируйте контент так, чтобы поощрять пользователей к последовательному просмотру тематически связанного визуального контента. Если пользователь перешел из Google Images, предоставьте ему возможность легко перейти к аналогичным изображениям/товарам.
  • Четкое разделение SFW и NSFW контента: Если сайт содержит контент разных типов чувствительности, необходимо их строгое разделение. Не допускайте ситуаций, когда безопасный (SFW) контент может быть совместно выбран с контентом для взрослых (NSFW), так как это может привести к "утечке" классификации (принцип "вины по ассоциации") и фильтрации безопасного контента из выдачи.
  • Повышение авторитетности изображений (Image Authority): Работайте над тем, чтобы ваши изображения становились эталонными (Reference Images) в своей нише. Это достигается за счет качества, уникальности и сильных текстовых/визуальных сигналов, позволяющих Google уверенно классифицировать их изначально.

Worst practices (это делать не надо)

  • Кликбейт и вводящие в заблуждение миниатюры: Использование привлекательных превью, которые ведут к нерелевантному контенту. Это создает шумные данные о совместном выборе и может привести к неправильной классификации исходного изображения, так как контекст сессии пользователя не будет соответствовать контенту.
  • Смешивание разнородного контента: Размещение на одной странице или в одном блоке изображений из кардинально разных тематик. Это увеличивает риск случайного совместного выбора и размывает тематический профиль изображений в поведенческом графе.
  • Игнорирование контекста использования: Размещение одного и того же изображения в разных тематических контекстах может привести к смешанным поведенческим сигналам и затруднить четкую классификацию.

Стратегическое значение

Патент подтверждает, что Google активно использует сложные поведенческие модели для понимания семантики контента, особенно там, где традиционные сигналы слабы (как в Image Search). Для SEO-стратегии это означает, что оптимизация должна учитывать не только сам контент, но и контекст его потребления. Взаимодействие пользователя с сайтом и в рамках поисковой выдачи напрямую влияет на то, как Google классифицирует его элементы.

Практические примеры

Сценарий 1: Разрешение неоднозначности ("Ягуар")

  1. Контекст: Пользователь ищет "Ягуар". Система имеет эталонные изображения для темы "Автомобили" и "Животные".
  2. Действие пользователя: Пользователь кликает на Фото 1 (автомобиль), а затем в той же сессии кликает на Фото 2 (другой автомобиль Jaguar) и Фото 3 (Mercedes).
  3. Результат: Система фиксирует co-selection. В графе Фото 1, 2 и 3 получают сильные связи с узлами автомобильной тематики. Их Topic Score для темы "Автомобили" растет, позволяя системе уверенно ранжировать их по запросам об автомобилях, а не о животных.

Сценарий 2: Негативное влияние на SafeSearch (Пляжная мода)

  1. Контекст: Сайт продает купальники (SFW контент). Система имеет эталонные изображения, помеченные как "Explicit" (NSFW).
  2. Действие пользователя: Некоторые пользователи в рамках одной сессии ищут NSFW контент, кликают на эталонные "Explicit" изображения, а затем переходят к просмотру фотографий купальников (возможно, из-за схожести или неоднозначных запросов).
  3. Результат: Система фиксирует частый совместный выбор купальников с "Explicit" контентом. Topic Score для темы "Explicit" у изображений купальников превышает порог. Изображения начинают фильтроваться SafeSearch, что приводит к потере трафика.

Вопросы и ответы

Что такое "Co-selected Image" в контексте этого патента?

Это изображение, которое пользователь выбрал (кликнул) в течение той же поисковой сессии, что и другое (эталонное) изображение, обычно сразу после него. Ключевым моментом является последовательность действий в рамках одной сессии, что указывает на тематическую связь между этими изображениями в восприятии пользователя.

Как Google определяет исходные "Reference Images" (эталонные изображения)?

Патент упоминает несколько методов. Это может быть ручная оценка (Label Feedback от асессоров), анализ визуальных характеристик (например, определение телесных тонов для выявления порнографии) или анализ связанных текстовых данных (имя файла, окружающий текст). Важно, чтобы эталонное изображение имело высокую вероятность точной классификации.

В чем суть итеративного процесса (Label Propagation), описанного в патенте?

Это процесс распространения меток по взвешенному графу взаимодействий. Начиная с известных эталонных изображений, система итеративно передает их тематические оценки (Topic Scores) связанным изображениям (тем, которые часто выбираются вместе). Это позволяет классифицировать изображения, которые напрямую не связаны с эталонами, но связаны с ними через цепочку других изображений. Процесс повторяется до стабилизации оценок.

Насколько важна близость кликов во времени (Proximity)?

Очень важна. Патент предусматривает использование временного порога (threshold time period) и взвешивание по близости. Изображение, выбранное сразу после эталонного, имеет больший вес и с большей вероятностью связано с ним тематически, чем изображение, выбранное значительно позже в той же сессии.

Как этот патент влияет на работу фильтра SafeSearch?

Он напрямую влияет на него. Патент явно указывает на использование этого механизма для идентификации порнографического контента. Если изображение часто выбирается в тех же сессиях, что и известные NSFW изображения, оно получит высокий Topic Score по этой теме и будет отфильтровано системой SafeSearch, даже если визуальные или текстовые сигналы не содержат явных признаков контента для взрослых.

Может ли этот механизм привести к неправильной классификации моих изображений?

Да, если поведение пользователей неоднозначно или подвержено влиянию плохого дизайна сайта. Например, если ваши SFW изображения часто просматриваются в одном ряду с NSFW контентом из-за вводящих в заблуждение рекомендаций, они могут унаследовать неверную классификацию. Это подчеркивает важность контроля за пользовательским опытом и тематической целостностью.

Как SEO-специалист может повлиять на данные о совместном выборе (co-selection data)?

Напрямую повлиять сложно, но можно создать условия для правильных ассоциаций. Убедитесь, что ваши изображения привлекательны и получают клики в релевантном контексте. На самом сайте обеспечьте логичную и тематически связанную навигацию или галереи, чтобы пользователи продолжали кликать на релевантные изображения, усиливая правильные поведенческие связи.

Влияет ли этот алгоритм на обычный веб-поиск (не по картинкам)?

Патент сфокусирован исключительно на классификации изображений и улучшении результатов поиска изображений (Image Search). Он не описывает прямого влияния на ранжирование веб-страниц в основном поиске, хотя точная классификация изображений на странице может косвенно влиять на общее восприятие качества и релевантности страницы.

Учитывает ли система dwell time (время просмотра) изображения?

Да, в описании патента упоминается, что dwell time может использоваться как индикатор релевантности. Изображение, которое просматривали дольше после выбора эталонного изображения, может считаться более релевантным его тематике по сравнению с изображением, которое быстро пропустили.

Что важнее для Image SEO согласно этому патенту: текст вокруг изображения или клики пользователей?

Оба важны, но этот патент подчеркивает критическую роль кликов пользователей (поведения). Текст часто используется для начальной классификации или создания эталонов, но данные о совместном выборе (co-selection data) используются для уточнения, подтверждения или даже опровержения текстовых сигналов в масштабе, особенно в неоднозначных случаях.

Похожие патенты

Как Google комбинирует визуальное сходство и поведение пользователей для переранжирования поиска по картинкам
Google использует механизм для перекрестной проверки релевантности изображений, объединяя поведенческие сигналы (клики) с визуальным анализом. Если изображение часто кликают и оно визуально похоже на другие релевантные изображения по запросу (совместная релевантность), его рейтинг агрессивно повышается. Если оно редко кликается и визуально отличается (совместная нерелевантность), его рейтинг понижается. Это защищает выдачу от кликбейта.
  • US8209330B1
  • 2012-06-26
  • Поведенческие сигналы

  • SERP

  • Мультимедиа

Как Google использует визуальное сходство и графовый анализ (VisualRank) для валидации и ранжирования меток изображений
Google валидирует текстовые метки изображений (например, Alt-текст или имена файлов) с помощью визуального анализа. Система строит граф, связывающий визуально похожие изображения. Симулируя навигацию пользователя по этому графу (алгоритм, подобный PageRank), Google определяет, какие метки наиболее релевантны фактическому содержанию изображения, отфильтровывая шум и повышая качество поиска по картинкам.
  • US7961986B1
  • 2011-06-14
  • Мультимедиа

  • SERP

Как Google использует клики пользователей в поиске по картинкам для понимания содержания изображений и улучшения таргетинга
Google анализирует поведение пользователей в поиске по картинкам для идентификации содержания изображений. Если пользователи ищут определенный запрос (идею) и массово кликают на конкретное изображение в результатах, система связывает это изображение с данным запросом (концепцией). Эти данные используются для улучшения ранжирования в поиске картинок и для предложения релевантных ключевых слов рекламодателям, загружающим схожие изображения.
  • US11409812B1
  • 2022-08-09
  • Поведенческие сигналы

  • Семантика и интент

  • SERP

Как Google использует визуальное сходство для определения и уточнения ключевых слов изображений (VisualRank)
Google анализирует визуальные характеристики изображений и строит граф сходства. Релевантные ключевые слова распространяются от размеченных изображений к похожим, но неразмеченным или плохо размеченным изображениям. Это позволяет поисковой системе понять реальное содержание картинки, основываясь на визуальных данных, и отфильтровать шум в метаданных или окружающем тексте.
  • US8356035B1
  • 2013-01-15
  • Индексация

  • Мультимедиа

  • Семантика и интент

Как Google использует клики пользователей для генерации альтернативных запросов и автоматической разметки изображений
Google анализирует исторические данные о том, какие запросы приводили к кликам по конкретному изображению. Эти запросы используются как автоматические метки (labels) для индексации и как предлагаемые альтернативные запросы при взаимодействии пользователя с этим изображением в выдаче. Система позволяет уточнять поиск на основе коллективного поведения и переносить метки между визуально похожими изображениями.
  • US20150161175A1
  • 2015-06-11
  • Индексация

  • Поведенческие сигналы

  • Семантика и интент

Популярные патенты

Как Google динамически повышает порог качества для результатов поиска по «рискованным» запросам
Google оценивает «риск» поискового запроса, анализируя общее качество топовых результатов. Если запрос часто привлекает спам, кликбейт или нежелательный контент (особенно видео), система динамически повышает минимальный порог качества. Контент, не соответствующий этому повышенному стандарту, понижается в выдаче, при этом учитываются такие сигналы, как показатель просмотров (Watch Rate).
  • US11609949B2
  • 2023-03-21
  • Антиспам

  • SERP

  • Поведенческие сигналы

Как Google извлекает готовые ответы из авторитетных источников для формирования Featured Snippets
Google использует систему для предоставления прямых ответов на естественном языке (в виде абзацев или списков) на запросы с четким намерением. Система заранее анализирует авторитетные источники, извлекает пары «заголовок-текст», соответствующие популярным шаблонам вопросов, и сохраняет их в специальной базе данных. При получении соответствующего запроса система извлекает готовый ответ из этой базы и отображает его в выдаче.
  • US9448992B2
  • 2016-09-20
  • Семантика и интент

  • EEAT и качество

  • Индексация

Как Google использует модель предвзятости представления (Presentation Bias), чтобы отделить клики по релевантности от кликов по позиции
Google использует механизм для интерпретации поведения пользователей (CTR), который учитывает, как именно представлены результаты поиска. Система рассчитывает ожидаемый CTR для конкретной позиции и визуального оформления (сниппет, выделение). Чтобы получить буст от поведенческих факторов, реальный CTR документа должен значительно превышать этот ожидаемый уровень. Это позволяет отфильтровать клики, обусловленные высокой позицией или привлекательным сниппетом, и выделить сигналы истинной релевантности.
  • US8938463B1
  • 2015-01-20
  • Поведенческие сигналы

  • SERP

Как Google использует данные о поведении пользователей для генерации и ранжирования Sitelinks (Дополнительных ссылок сайта)
Патент описывает механизм генерации Sitelinks (дополнительных ссылок под основным результатом поиска). Google анализирует логи доступа пользователей (частоту кликов, время на странице) и другие факторы качества, чтобы определить наиболее важные внутренние страницы сайта. Эти страницы затем отображаются в виде ранжированного списка для ускорения навигации пользователя.
  • US7996391B2
  • 2011-08-09
  • Ссылки

  • Поведенческие сигналы

  • SERP

Как Google обучает ИИ-модели для автоматической оценки качества сайтов на основе данных асессоров и предвзятой выборки
Патент Google, описывающий фундаментальную методологию создания систем оценки качества сайтов. Google использует машинное обучение (например, SVM), чтобы найти корреляции между оценками асессоров и измеримыми сигналами сайта (PageRank, клики). Для повышения точности применяется метод «предвзятой выборки» (Biased Sampling): система намеренно собирает больше оценок для сайтов среднего качества («сложных случаев»), чем для очевидно плохих или хороших.
  • US8442984B1
  • 2013-05-14
  • SERP

  • EEAT и качество

  • Поведенческие сигналы

Как Google алгоритмически вычисляет и ранжирует экспертов по темам на основе анализа их контента
Google использует систему для автоматического определения экспертности авторов (Identities) в конкретных темах (Topics). Система анализирует корпус документов, оценивая, насколько сильно автор связан с документом (Identity Score) и насколько документ релевантен теме (Topic Score). Эти оценки перемножаются и суммируются по всем документам, формируя итоговый рейтинг экспертности автора в данной области.
  • US8892549B1
  • 2014-11-18
  • EEAT и качество

  • Семантика и интент

Как Google анализирует сессии пользователей и кластеризует концепции для генерации блока "Связанные запросы" (Related Searches)
Google анализирует последовательности запросов пользователей в рамках одной сессии для выявления шаблонов уточнений. Система кластеризует эти уточнения по смыслу, анализируя контент ранжирующихся по ним документов или другие запросы, ведущие на эти документы. Это позволяет предлагать пользователям концептуально различные варианты для сужения или изменения темы поиска.
  • US8065316B1
  • 2011-11-22
  • Семантика и интент

  • SERP

  • Поведенческие сигналы

Как Google нормализует поведенческие сигналы (Dwell Time), калибруя показатели «короткого» и «длинного» клика для разных категорий сайтов
Google использует механизм для устранения предвзятости в поведенческих сигналах, таких как продолжительность клика (Dwell Time). Поскольку пользователи взаимодействуют с разными типами контента по-разному, система определяет, что считать «коротким кликом» и «длинным кликом» отдельно для каждой категории (например, Новости, Недвижимость, Словари). Это позволяет более точно оценивать качество ресурса, сравнивая его показатели с нормами его конкретной ниши.
  • US8868565B1
  • 2014-10-21
  • Поведенческие сигналы

  • SERP

Как Google использует визуальные цитаты и обратную связь для генерации и уточнения ответов в мультимодальном поиске
Google генерирует ответы на мультимодальные запросы (изображение + текст), находя визуально похожие изображения в интернете и используя текст с их исходных страниц как основу для LLM. Система показывает эти изображения как «визуальные цитаты» для подтверждения ответа и позволяет пользователям исключать нерелевантные источники, чтобы мгновенно уточнить сгенерированный результат.
  • US20240378236A1
  • 2024-11-14
  • Мультимедиа

  • EEAT и качество

  • Ссылки

Как Google использует машинное обучение для оптимизации обхода Knowledge Graph и поиска связанных концепций
Google оптимизирует обход Knowledge Graph для эффективного поиска семантически связанных фраз. Вместо анализа всех связей сущности система использует ML-модели для выбора только тех отношений (свойств), которые вероятнее всего приведут к ценным результатам. Этот выбор основан на истории поисковых запросов и контексте пользователя, что позволяет экономить вычислительные ресурсы и повышать релевантность предложений.
  • US10140286B2
  • 2018-11-27
  • Knowledge Graph

  • Семантика и интент

  • Персонализация

seohardcore