Как Google использует клики по изображениям для определения схожести запросов и картинок (Поведенческая схожесть)

SIMILAR SEARCH QUERIES AND IMAGES (Схожие поисковые запросы и изображения)

US8280881B1
Google LLC
2009-11-20
2012-10-02

Google анализирует поведение пользователей в поиске по картинкам, чтобы определить схожесть двух запросов (или двух изображений). Если пользователи часто кликают на одни и те же изображения в ответ на разные запросы, эти запросы считаются похожими. Этот механизм (Коллаборативная фильтрация) позволяет находить связи независимо от языка или типа запроса (текст/изображение) и используется для генерации рекомендаций.

Какую проблему решает

Патент решает проблему определения схожести между поисковыми запросами, когда анализ их семантического (текст) или визуального (изображение) содержания затруднен или неточен. Это особенно актуально при сравнении запросов на разных языках или разных типов (текст против изображения). Изобретение предлагает использовать поведение пользователей (клики по изображениям) как индикатор схожести интента. Кроме того, патент решает вычислительную проблему эффективной обработки огромных объемов данных (миллиарды запросов и изображений) в условиях разреженной матрицы (sparse matrix).

Что запатентовано

Запатентована система для определения меры схожести (similarity measure) между поисковыми запросами и изображениями на основе агрегированного поведения пользователей. Суть изобретения в генерации «вектора выбора» (selection vector) для каждого запроса, который отражает профиль кликов по изображениям. Схожесть определяется путем сравнения этих векторов. Ключевой частью изобретения является оптимизация этого процесса с использованием инвертированных списков (Inverted Image Lists) для эффективной обработки разреженных данных.

Как это работает

Система работает на основе исторических данных о запросах и кликах в поиске по изображениям:

Генерация Векторов Выбора: Для каждого запроса создается selection vector. Значение элемента пропорционально количеству кликов по соответствующему изображению для данного запроса.
Расчет Сходства: Схожесть двух запросов рассчитывается путем сравнения их векторов с использованием метрик, таких как косинусное сходство (Cosine Similarity) или Дивергенция Кульбака-Лейблера (KL Divergence).
Оптимизация: Поскольку матрица «запросы х изображения» огромна и разрежена, система использует inverted image lists для быстрого нахождения пересечений кликов, игнорируя нулевые значения.
Инверсия: Тот же процесс инвертируется для определения схожести между двумя изображениями на основе того, какие запросы привели к кликам по ним.

Актуальность для SEO

Высокая. Концепция использования поведенческих данных (кликов, совместной встречаемости) для определения схожести и понимания намерений пользователей (Коллаборативная фильтрация) остается фундаментальной для современных поисковых систем. Хотя конкретные математические методы могли эволюционировать (например, в сторону нейросетевых эмбеддингов), базовый принцип «поведенческой схожести» критически важен, особенно для мультимедийного и кросс-модального поиска.

Важность для SEO

Патент имеет значительное влияние на SEO (7.5/10), особенно в контексте Image Search. Он демонстрирует, что связь между запросом и изображением устанавливается и укрепляется через поведение пользователей (клики), а не только через ключевые слова или визуальные признаки. Это подчеркивает важность оптимизации изображений для достижения высокого CTR и обеспечения того, чтобы изображение удовлетворяло интенту пользователя, тем самым обучая Google ассоциировать изображение с релевантным кластером запросов.

Термины и определения

Selection Vector (Вектор выбора): Ключевая структура данных для запроса (или изображения). Для запроса: включает элементы, соответствующие уникальным изображениям. Значение элемента пропорционально количеству выборов (кликов) этого изображения в ответ на данный запрос.
Similarity Measure (Мера схожести): Метрика, определяющая степень схожести между двумя запросами (или двумя изображениями), вычисленная на основе их Selection Vectors.
Cosine Similarity (Косинусное сходство): Один из методов расчета Similarity Measure. Симметричная метрика, измеряющая косинус угла между двумя Selection Vectors. Высокое значение указывает на значительное пересечение кликов.
KL Divergence (Расхождение Кульбака-Лейблера): Альтернативный метод расчета схожести. Используется, если Selection Vector интерпретируется как распределение вероятностей кликов. Измеряет разницу между двумя такими распределениями.
Sparse Matrix (Разреженная матрица): Матрица, в которой большинство элементов равны нулю. Матрица всех запросов и всех изображений является разреженной.
Inverted Image List (Инвертированный список изображений): Структура данных для оптимизации вычислений. Для каждого изображения хранится список кортежей (tuples), идентифицирующих запросы, которые привели к клику на это изображение, и количество кликов (ненулевое значение вектора).
Inverted Query List (Инвертированный список запросов): Аналогичная структура для поиска схожих изображений. Для каждого запроса хранится список изображений, на которые кликнули.
Image Contribution Value (Значение вклада изображения): Промежуточное значение при расчете схожести запросов. Получается путем перемножения значений кликов для одного и того же изображения из векторов двух сравниваемых запросов.
Normalization Value (Значение нормализации): Значение, используемое для нормализации Selection Vector, например, Евклидова норма (Euclidean norm) вектора. Используется в расчете Cosine Similarity.
Historical Data (Исторические данные): Хранилище логов запросов и данных о действиях пользователей (кликах по изображениям).

Ключевые утверждения (Анализ Claims)

Патент фокусируется как на методе определения схожести через клики, так и на способе эффективного вычисления этой схожести для разреженных данных.

Claim 1 (Независимый пункт): Описывает метод определения схожести запросов с использованием оптимизации.

Генерация Selection Vector для каждого запроса (значение элемента пропорционально кликам на соответствующее изображение).
Выбор первого и второго запросов.
Генерация Inverted Image List для каждого изображения. Список содержит кортежи {Запрос, Ненулевое значение элемента}.
(Оптимизация Шаг 1): Выборка инвертированных списков, содержащих кортеж для первого запроса.
(Оптимизация Шаг 2): Из выбранных списков выборка кортежей, идентифицирующих второй запрос. (Шаги 4 и 5 эффективно находят пересечение кликов).
Определение Similarity Measure между первым и вторым запросами.

Система использует структуру Inverted Image List, чтобы избежать сравнения всех элементов в огромных векторах. Обрабатываются только те изображения, которые были кликнуты для обоих запросов.

Claim 2 и 3 (Зависимые от 1): Детализируют расчет Similarity Measure (фактически описывая расчет Cosine Similarity).

(Claim 2) Для каждого общего изображения перемножаются ненулевые значения элементов из кортежей первого и второго запросов. Это дает Image Contribution Value. Затем эти значения суммируются (это скалярное произведение векторов).
(Claim 3) Вводится нормализация. Сумма Image Contribution Values делится на произведение Normalization Values (например, Евклидовых норм) первого и второго запросов.

Claim 14 (Независимый пункт): Описывает инвертированный процесс для определения схожести изображений.

Генерация Selection Vector для каждого изображения (элементы соответствуют запросам, которые привели к кликам).
Использование Inverted Query Lists для оптимизации.
Определение Similarity Measure путем нахождения общих запросов и расчета схожести (аналогично Claims 1-3).

Где и как применяется

Изобретение применяется в компонентах, отвечающих за понимание запросов и улучшение результатов поиска, преимущественно в поиске по изображениям.

INDEXING – Индексирование и извлечение признаков (Обработка данных)
Основная часть вычислений происходит здесь в офлайн-режиме. Система (Query Similarity Subsystem) обрабатывает Historical Data (логи запросов и кликов) для:

Генерации Selection Vectors для всех запросов и изображений.
Создания структур оптимизации: Inverted Image Lists и Inverted Query Lists.
Расчета и сохранения Similarity Measures.

QUNDERSTANDING – Понимание Запросов
Система использует рассчитанные данные о схожести запросов для:

Query Suggestion Operations: Предложение пользователю похожих запросов (Related Searches/Подсказки).
Search Augmentation Operations: Автоматическое выполнение поиска по похожим запросам, если результаты по исходному запросу неудовлетворительны (например, мало результатов).

METASEARCH / RERANKING – Метапоиск и Переранжирование (Image Search)
Результаты анализа схожести изображений используются для:

Search Result Augmentation Operations: Добавление в выдачу похожих изображений (Related Images / «More like this») к выбранному результату, используя инвертированный процесс (Image Similarity).

Входные данные:

Логи запросов (текстовых и визуальных).
Логи кликов (выборов) на изображения в результатах поиска.

Выходные данные:

База данных Similarity Measures между парами запросов и парами изображений.

На что влияет

Типы контента: Влияет непосредственно на поиск изображений (Google Images).
Специфические запросы: Наибольшее влияние на неоднозначные запросы, где поведение пользователей помогает уточнить интент.
Языковые и Модальные ограничения: Механизм позволяет находить схожие запросы независимо от языка (Cross-Lingual) и модальности (Cross-Modal: текст vs изображение), так как он основан на кликах по одним и тем же изображениям, а не на анализе ввода пользователя.

Когда применяется

Временные рамки: Расчет Selection Vectors и Similarity Measures происходит в офлайн-режиме или периодически, обрабатывая исторические данные.
Применение результатов: Происходит в реальном времени при обработке запроса пользователя для генерации подсказок или формирования SERP.
Пороговые значения: Система использует Minimum Similarity Threshold. Запросы/изображения считаются похожими, только если их мера схожести превышает этот порог.
Оптимизация (Top M): Патент упоминает возможность ограничения расчетов только Топ-M самых кликабельных изображений для запроса (например, M=100-2000), чтобы сократить объем вычислений и повысить эффективность.

Пошаговый алгоритм

Процесс А: Подготовка данных (Офлайн)

Сбор данных: Агрегация Historical Data о запросах (Q) и кликах по изображениям (I).
Генерация Selection Vectors: Для каждого запроса формируется вектор, содержащий количество выборов для каждого изображения.
Нормализация: Расчет Normalization Value (например, Евклидовой нормы) для каждого вектора выбора.
Создание Inverted Image Lists: Для каждого уникального изображения создается список кортежей (tuples). Кортеж содержит: Идентификатор запроса, Количество выборов (ненулевой элемент вектора), и (опционально) Значение нормализации для этого запроса.

Процесс Б: Эффективное вычисление схожести между Запросом А и Запросом Б (Основан на FIG. 3)

Идентификация релевантных списков: Выбор всех Inverted Image Lists, которые содержат кортеж, идентифицирующий Запрос А.
Поиск совпадений (Пересечение): В каждом из выбранных списков выполняется поиск кортежа, идентифицирующего Запрос Б. Это находит все изображения, кликнутые по обоим запросам.
Расчет вклада изображения: Если Запрос Б найден в списке:
1. Перемножение значений выбора для Запроса А и Запроса Б для получения Image Contribution Value.
Агрегация (Скалярное произведение): Суммирование всех рассчитанных Image Contribution Values.
Финальная нормализация (для Cosine Similarity): Деление суммарного значения на произведение значений нормализации для Запроса А и Запроса Б (если не было сделано заранее).
Применение порога: Сравнение результата с minimum similarity threshold.

Процесс В: Расчет схожести изображений (Image Similarity)

Процесс аналогичен Процессам А и Б, но данные инвертируются:

Генерация векторов (Офлайн): Для каждого изображения создается Selection Vector, где элементы соответствуют запросам.
Генерация инвертированных списков (Офлайн): Создание Inverted Query Lists.
Расчет схожести: Сравнение двух изображений путем нахождения общих запросов и вычисления Similarity Measure.

Какие данные и как использует

Данные на входе

Патент фокусируется исключительно на использовании поведенческих данных для определения схожести.

Поведенческие факторы:
- Выборы (Selections/Clicks): Количество раз, когда изображение было выбрано (кликнуто), будучи представленным в качестве результата поиска для определенного запроса. Это основной сигнал.
- Запросы (Queries): Текст или изображения, используемые пользователями в качестве поисковых запросов.

Контентные, технические, ссылочные и другие факторы в данном патенте не используются.

Какие метрики используются и как они считаются

Элементы Selection Vector: Значения могут быть:
- Количеством кликов (сырые данные).
- Вероятностью клика (нормализованные данные).
Similarity Measure: Метрика схожести между двумя векторами. Упоминаются два основных метода расчета:
- Cosine Similarity: Рассчитывается как скалярное произведение двух векторов, деленное на произведение их Евклидовых норм (Euclidean norms). Формула: $sim(Q_i, Q_j) = \frac{Z_i \cdot Z_j}{||Z_i|| \cdot ||Z_j||}$ (где Z — это Selection Vector).
- KL Divergence: Измеряет расхождение между двумя распределениями вероятностей P и Q. Формула: $D(P||Q) = \sum_i P(i) \log \frac{P(i)}{Q(i)}$ . Поскольку метрика асимметрична, патент предлагает усреднять D(P||Q) и D(Q||P) для получения симметричной метрики.
Minimum Similarity Threshold: Пороговое значение, при превышении которого два запроса или изображения считаются похожими.

Поведение пользователя как источник истины об интенте: Ключевой вывод — схожесть между запросами определяется не их содержанием (текст, язык, формат), а действиями пользователей. Если пользователи кликают на одни и те же результаты для двух разных запросов, эти запросы считаются схожими по интенту (Принцип Коллаборативной фильтрации).
Кросс-языковое и кросс-модальное понимание: Этот механизм позволяет Google связывать запросы на разных языках (например, «собака» и «dog») или разных типов (текстовый запрос и запрос изображением), используя клики по изображениям как универсальный посредник.
Эффективность обработки разреженных данных (Sparse Matrix): Значительная часть патента посвящена оптимизации вычислений с помощью структур Inverted Lists. Это критически важно для масштабирования системы и эффективной обработки миллиардов запросов и изображений.
Принцип инверсии (Двойное применение): Описанный механизм инвертируем. Его можно использовать как для поиска похожих запросов (Query Similarity, Claim 1), так и для поиска похожих изображений (Image Similarity, Claim 14).
Важность CTR в Image SEO: Для SEO это означает, что изображения, которые привлекают клики, активно участвуют в формировании понимания поисковой системой семантики и взаимосвязей запросов.

Best practices (это мы делаем)

Оптимизация изображений для высокого CTR: Поскольку клики (Selections) являются основным сигналом для установления связей, необходимо оптимизировать привлекательность и релевантность изображений в выдаче. Используйте высококачественные, релевантные и визуально привлекательные миниатюры (thumbnails).
Фокус на соответствии интенту пользователя: Убедитесь, что изображение точно соответствует намерению целевых запросов. Релевантные клики укрепляют ассоциацию между вашим изображением и кластером похожих запросов в глазах Google.
Анализ связанных запросов в Image Search: Изучайте блоки «Похожие запросы» (Related Searches) и «Похожие изображения» (Related Images). Этот патент описывает механизм их генерации. Это дает представление о том, как Google группирует запросы и контент на основе поведенческих сигналов.
Создание изображений для кластера интентов: Создавайте высококачественные изображения, которые могут удовлетворить кластер схожих запросов. Если изображение получает клики по разным, но схожим запросам, это укрепляет его позиции в этом тематическом кластере и увеличивает его видимость в рекомендациях.

Worst practices (это делать не надо)

Манипуляция ключевыми словами (Keyword Stuffing): Попытки ранжировать изображение по запросам, которым оно не соответствует, путем манипуляции текстом или alt-атрибутами. Если пользователи не кликают на изображение, поведенческая связь, описанная в патенте, не установится.
Использование кликбейта: Использование вводящих в заблуждение миниатюр для генерации кликов. Хотя данный патент фокусируется на факте клика, современные системы Google учитывают и пост-клик поведение (удовлетворенность пользователя). Кликбейт вреден для долгосрочной стратегии.
Игнорирование качества и релевантности изображений: Размещение низкокачественных или нерелевантных изображений приведет к низкому CTR, и Google не сформирует сильную ассоциацию между этими изображениями и целевыми запросами.

Стратегическое значение

Патент подтверждает стратегическую важность поведенческих факторов в работе поисковых систем. Он демонстрирует, что Google активно использует данные о взаимодействии пользователей для организации информации и понимания связей между сущностями, выходя за рамки текстового или визуального анализа. Для SEO это означает, что фокус должен быть смещен с формальной оптимизации на фактическое удовлетворение интента пользователя, подтверждением которого служат клики.

Практические примеры

Сценарий 1: Кластеризация запросов на разных языках (Query Similarity)

Задача: Понять связь между запросами Q1="Eiffel Tower" и Q2="Tour Eiffel".
Механизм работы: Система анализирует Historical Data и видит, что пользователи, вводящие Q1 и Q2, часто кликают на один и тот же набор популярных фотографий Эйфелевой башни.
Результат: Selection Vectors для Q1 и Q2 очень похожи. Система рассчитывает высокую Cosine Similarity и классифицирует запросы как схожие, несмотря на разный язык. Q2 будет предложен как подсказка для Q1.
Действие SEO: Оптимизация качественного изображения для высокого CTR на одном языке может привести к его видимости по эквивалентным запросам на других языках.

Сценарий 2: Определение похожих изображений (Image Similarity)

Задача: Найти изображения, похожие на I1 (фото золотистого ретривера, играющего с мячом).
Механизм работы: Система анализирует Selection Vector для I1 и видит, что на него часто кликают по запросам "golden retriever puppy", "dog playing fetch". Затем она ищет другие изображения (например, I2), чей Selection Vector также содержит высокие значения для этих же запросов.
Результат: I1 и I2 признаются похожими, так как они удовлетворяют одним и тем же запросам. I2 будет показано в блоке «Похожие изображения» рядом с I1.
Действие SEO: Убедитесь, что ваши изображения получают клики по широкому спектру релевантных запросов, чтобы увеличить их видимость в рекомендательных блоках.

Применяется ли этот механизм только к поиску по изображениям?

Патент сфокусирован на поиске изображений (Image Search), где Selection Vector состоит из кликов по изображениям. Однако базовая концепция — определение схожести запросов на основе общих кликов по результатам (Коллаборативная фильтрация) — применима и к основному веб-поиску, хотя конкретная реализация там может отличаться.

Как система обрабатывает неоднозначные запросы (например, "Ягуар")?

Этот механизм идеально подходит для обработки неоднозначности. Если для запроса "Ягуар" пользователи в основном кликают на изображения автомобиля, то Selection Vector этого запроса будет похож на вектор запроса "Jaguar car". Если же клики идут на изображения животного, вектор будет похож на вектор запроса "большая кошка". Поведение пользователей определяет доминирующий интент.

Учитывает ли система только факт клика или также пост-клик поведение (например, время на сайте)?

Данный патент (US8280881B1) описывает использование только факта выбора (Selection), то есть клика. Значение векторного элемента пропорционально количеству кликов. Пост-клик поведение (удовлетворенность пользователя, pogo-sticking) в этом конкретном патенте не рассматривается, но оно учитывается другими системами Google.

Что такое Inverted Image List и зачем он нужен?

Это структура данных для оптимизации. В реальности матрица "запросы-изображения" огромна и очень разрежена (sparse matrix). Inverted Image List хранит для каждого изображения только те запросы, которые привели к клику. Это позволяет при сравнении двух запросов быстро найти только те изображения, которые у них общие, игнорируя миллионы не связанных данных, что радикально ускоряет вычисления.

В чем разница между Cosine Similarity и KL Divergence в контексте патента?

Cosine Similarity рассматривает векторы кликов как геометрические векторы и измеряет угол между ними; это хорошо работает с сырыми данными о количестве кликов. KL Divergence рассматривает векторы как распределения вероятностей (вероятность клика на изображение) и измеряет, насколько одно распределение отличается от другого. KL Divergence может быть более точным, но требует нормализации данных в вероятности.

Как этот патент помогает в SEO для изображений?

Он подчеркивает критическую важность CTR и удовлетворения интента. Чтобы изображение хорошо ранжировалось и ассоциировалось с нужными запросами, оно должно быть достаточно привлекательным и релевантным, чтобы пользователи на него кликали. Эти клики обучают Google и укрепляют связь изображения с запросом.

Может ли этот механизм связать текстовый запрос с визуальным (Image Query)?

Да. Патент явно указывает, что запросы могут быть разных типов. Если текстовый запрос "Эйфелева башня ночью" и загруженное пользователем фото ночного Парижа (визуальный запрос) приводят к кликам на одни и те же результаты в выдаче, система определит эти два разных типа запросов как похожие.

Работает ли этот механизм для определения схожести запросов на разных языках?

Да. Поскольку сравнение происходит не на основе текста запроса, а на основе профиля кликов, два запроса на разных языках будут считаться похожими, если пользователи в разных странах кликают на одни и те же изображения по этим запросам. Это позволяет преодолевать языковые барьеры в понимании интента.

Как используется инвертированный процесс (Image Similarity)?

Инвертированный процесс (Claim 14) используется для поиска похожих изображений. Два изображения считаются похожими, если они удовлетворяют одним и тем же запросам (т.е. пользователи ищут одно и то же и кликают на оба изображения). Это напрямую используется для функции "Похожие изображения" (Related Images) в поиске по картинкам.

Как часто обновляются данные о схожести?

Патент указывает, что процесс генерации Selection Vectors и вычисления схожести происходит офлайн путем обработки исторических данных (логов). Это подразумевает периодическое обновление базы данных по мере накопления новых данных о поведении пользователей, а не обновление в реальном времени.

Как Google комбинирует визуальное сходство и поведение пользователей для переранжирования поиска по картинкам

Google использует механизм для перекрестной проверки релевантности изображений, объединяя поведенческие сигналы (клики) с визуальным анализом. Если изображение часто кликают и оно визуально похоже на другие релевантные изображения по запросу (совместная релевантность), его рейтинг агрессивно повышается. Если оно редко кликается и визуально отличается (совместная нерелевантность), его рейтинг понижается. Это защищает выдачу от кликбейта.

US8209330B1
2012-06-26

Поведенческие сигналы
SERP
Мультимедиа

Как Google использует клики пользователей для генерации альтернативных запросов и автоматической разметки изображений

Google анализирует исторические данные о том, какие запросы приводили к кликам по конкретному изображению. Эти запросы используются как автоматические метки (labels) для индексации и как предлагаемые альтернативные запросы при взаимодействии пользователя с этим изображением в выдаче. Система позволяет уточнять поиск на основе коллективного поведения и переносить метки между визуально похожими изображениями.

US20150161175A1
2015-06-11

Индексация
Поведенческие сигналы
Семантика и интент

Как Google использует машинное зрение и исторические клики для определения визуального интента и ранжирования изображений

Google использует систему, которая определяет визуальное значение текстового запроса, анализируя объекты на картинках, которые пользователи выбирали ранее по этому или похожим запросам. Система создает набор «меток контента» (визуальный профиль) для запроса и сравнивает его с объектами, распознанными на изображениях-кандидатах с помощью нейросетей. Это позволяет ранжировать изображения на основе их визуального соответствия интенту пользователя.

US20200159765A1
2020-05-21

Семантика и интент
Мультимедиа
Персонализация

Как Google использует клики пользователей в поиске по картинкам для понимания содержания изображений и улучшения таргетинга

Google анализирует поведение пользователей в поиске по картинкам для идентификации содержания изображений. Если пользователи ищут определенный запрос (идею) и массово кликают на конкретное изображение в результатах, система связывает это изображение с данным запросом (концепцией). Эти данные используются для улучшения ранжирования в поиске картинок и для предложения релевантных ключевых слов рекламодателям, загружающим схожие изображения.

US11409812B1
2022-08-09

Поведенческие сигналы
Семантика и интент
SERP

Как Google персонализирует результаты поиска изображений на основе языка и местоположения пользователя

Google персонализирует Поиск Изображений, анализируя исторические данные о кликах. Система сравнивает, на что кликает общая популяция пользователей, с тем, что предпочитают пользователи с тем же языком и местоположением. Если предпочтения значительно различаются, Google переранжирует изображения в соответствии с локальным консенсусом, обеспечивая культурно и контекстуально релевантные результаты.

US8504547B1
2013-08-06

Персонализация
Мультимедиа
Поведенческие сигналы

Как Google идентифицирует, оценивает и ранжирует «Глубокие статьи» (In-Depth Articles) и «Вечнозеленый контент»

Google использует систему для идентификации и ранжирования высококачественного лонгрид-контента (In-Depth Articles). Система определяет авторитетные сайты на основе внешних наград и ссылочных паттернов. Контент оценивается по критериям «вечнозелености» (Evergreen Score), структуры (Article Score), отсутствия коммерческого интента и авторитетности автора (Author Score). Ранжирование основано на комбинации качества (IDA Score) и релевантности запросу (Topicality Score).

US9996624B2
2018-06-12

EEAT и качество
Индексация
Семантика и интент

Как Google находит фактические ответы, начиная с потенциальных ответов и связывая их с запросами пользователей (Reverse Question Answering)

Google использует метод «обратного ответа на вопрос» для эффективного поиска фактов. Вместо глубокого анализа запроса система начинает с идентификации потенциальных ответов (например, дат, измерений) в индексе. Затем она определяет, для каких запросов эти ответы релевантны, анализируя, какие документы высоко ранжируются и получают клики по этим запросам. Это позволяет точно сопоставлять факты с разнообразными формулировками вопросов.

US9116996B1
2015-08-25

Поведенческие сигналы
Семантика и интент

Как Google использует фразы и тематические кластеры из истории пользователя для персонализации результатов поиска

Google может строить модель интересов пользователя, анализируя семантически значимые фразы и тематические кластеры в контенте, который пользователь потребляет (просматривает, сохраняет, печатает). При последующих запросах система повышает в ранжировании те документы, которые содержат фразы, одновременно релевантные запросу и присутствующие в профиле интересов пользователя.

US7580929B2
2009-08-25

Персонализация
Семантика и интент
Поведенческие сигналы

Как Google использует историю кликов пользователей для определения интента, связанного с физическим адресом, и таргетинга рекламы

Google анализирует, какие поисковые запросы исторически приводят к наибольшему количеству кликов по бизнесам, расположенным по определенному адресу. Когда пользователь ищет этот адрес (или смотрит его на карте), Google использует этот «Самый популярный поисковый термин» (Most-Popular Search Term), чтобы определить намерение пользователя и показать релевантную информацию и рекламу.

US20150261858A1
2015-09-17

Local SEO
Семантика и интент
Поведенческие сигналы

Как Google использует данные о кликах пользователей (CTR и Click Ratio) для определения официального сайта по навигационным запросам

Google анализирует журналы запросов, чтобы определить, какой результат пользователи подавляюще предпочитают по конкретному запросу. Если результат демонстрирует исключительно высокий CTR и/или Click Ratio по популярному запросу, система помечает его как «авторитетную страницу». Затем этот результат может отображаться на выдаче с особым выделением, потенциально переопределяя стандартное ранжирование.

US8788477B1
2014-07-22

Поведенческие сигналы
EEAT и качество
SERP

Как Google идентифицирует, связывает и индексирует концепции (фразы) для понимания тем документов

Фундаментальный патент Google, описывающий переход от индексирования слов к индексированию концепций (фраз). Система определяет «хорошие фразы» на основе частотности и их способности прогнозировать появление других фраз (Information Gain). Документы индексируются не только по содержащимся в них фразам, но и по наличию связанных фраз, что позволяет системе определять основные и второстепенные темы документа, а также контекстуально оценивать анкорный текст ссылок.

US7536408B2
2009-05-19

Индексация
Семантика и интент
Ссылки

Как Google использует «Фразовую модель» (Phrase Model) для прогнозирования качества сайта на основе статистики использования N-грамм

Google прогнозирует оценку качества сайта, анализируя, какие фразы (N-граммы) используются и как часто они распределены по страницам сайта. Система создает «Фразовую модель», изучая известные высококачественные и низкокачественные сайты, а затем применяет эту модель для оценки новых сайтов по их лингвистическим паттернам.

US9767157B2
2017-09-19

Семантика и интент
Техническое SEO
EEAT и качество

Как Google использует механизм «Pull-Push» для валидации ссылок через трафик и время вовлечения (Dwell Time)

Google использует механизм «Pull-Push» для борьбы с искусственными ссылками, анализируя соотношение между количеством ссылок и реальными кликами по ним. Если ссылки не генерируют пропорциональный трафик (с учетом времени вовлечения), они обесцениваются. Сайты, которые систематически ставят такие ссылки, классифицируются как «неквалифицированные источники», и их исходящие ссылки дисконтируются при ранжировании.

US9558233B1
2017-01-31

Ссылки
Поведенческие сигналы
Антиспам

Как Google итеративно распознает сущности на страницах и рассчитывает их важность с помощью PageRank

Google использует итеративный процесс для распознавания и устранения неоднозначности сущностей (людей, мест, понятий) в документах. Система начинает с известных фактов, находит упоминающие сущность документы, анализирует сопутствующие термины для уточнения модели распознавания и автоматически обнаруживает новые признаки. Патент также описывает расчет важности сущности путем суммирования PageRank ссылающихся документов, взвешенного на вероятность ссылки.

US8122026B1
2012-02-21

Семантика и интент
Ссылки
Knowledge Graph

Как Google выбирает каноническую (основную) версию документа, основываясь на авторитетности источника и полноте контента

Google использует систему для выбора канонической (основной) версии документа среди его дубликатов. Система присваивает «приоритет авторитетности» каждой версии, основываясь на источнике (например, официальный издатель) и праве публикации. Основной версией выбирается та, которая имеет высокий авторитет и является полной. При отсутствии идеального варианта выбирается версия с наибольшим объемом информации (например, самая длинная или с наибольшим PageRank).

US8095876B1
2012-01-10

EEAT и качество
Техническое SEO
Ссылки