Как Google использует IDF и Энтропию для определения семантической схожести запросов при генерации поисковых подсказок

WEB SEARCH REFINEMENT (Уточнение веб-поиска)

US8019748B1
Google LLC
2007-11-14
2011-09-13

Семантика и интент

Google определяет схожесть поисковых запросов для генерации релевантных подсказок, используя модель взвешенных N-грамм. Каждой фразе (N-грамме) присваивается «семантический вес», основанный на её уникальности в документах (IDF) и в логах запросов пользователей (Entropy). Схожесть запросов вычисляется путем сравнения этих взвешенных векторов, гарантируя, что подсказки основаны на наиболее значимых терминах.

Какую проблему решает

Патент решает задачу повышения релевантности и охвата (coverage) предлагаемых уточнений запроса (query suggestions или related searches). Существовавшие методы, такие как кластеризация запросов, могли давать слишком общие подсказки, а методы, основанные на простом совпадении текста, часто страдали от низкой релевантности. Цель — предложить пользователю семантически близкие запросы путем более точной оценки их схожести.

Что запатентовано

Запатентован метод определения семантической схожести между двумя поисковыми запросами для генерации уточнений. Суть метода заключается в представлении каждого запроса в виде вектора N-грамм (фраз), где каждая N-грамма взвешена по её «семантической важности» (Semantic Weight). Этот вес рассчитывается на основе комбинации Inverse Document Frequency (IDF) и Entropy (Энтропии), что позволяет определить наиболее значимые и уникальные термины в контексте запроса.

Как это работает

Система работает в несколько этапов:

Извлечение N-грамм: Исходный (Q1) и кандидатный (Q2) запросы разбиваются на N-grams (слова и словосочетания).
Расчет семантического веса: Для каждой N-граммы вычисляется Semantic Weight. Он основывается на IDF (насколько редка фраза в корпусе документов) и Entropy (насколько уникальна или предсказуема фраза в логах поисковых запросов).
Векторизация: Каждый запрос представляется в виде вектора, состоящего из его N-грамм и их весов.
Расчет схожести: Схожесть между Q1 и Q2 вычисляется как взвешенная сумма схожестей между N-граммами одного вектора и другим вектором (двунаправленный расчет).
Генерация подсказок: Если показатель схожести превышает определенный порог, Q2 предлагается в качестве уточнения для Q1.

Актуальность для SEO

Высокая. Понимание запросов и генерация релевантных уточнений являются фундаментом современного поиска. Хотя сегодня Google использует продвинутые нейросетевые модели (BERT, MUM) для понимания семантики, базовые принципы, заложенные в этом патенте — взвешивание важности терминов на основе их уникальности (IDF) и контекстуальной значимости (Entropy из логов) — остаются актуальными концепциями в Information Retrieval.

Важность для SEO

Патент имеет значительное влияние на SEO (7.5/10). Он не описывает ранжирование документов, но дает критически важное понимание того, как Google измеряет семантическую близость между запросами. Это фундаментально для построения Topical Authority, исследования ключевых слов, кластеризации семантики и понимания того, как формируются блоки «Похожие запросы» (Related Searches). Понимание механизма Semantic Weight помогает определить, какие термины в нише являются определяющими для интента.

Термины и определения

Entropy (Энтропия): Метрика, определяющая уникальность или предсказуемость N-граммы в контексте последовательности слов. Рассчитывается на основе вероятности появления термина после предыдущего термина (например, Prob(wN|wN-1)), используя данные из логов поисковых запросов (training data). Позволяет оценить информативность фразы на основе реального поведения пользователей.
Inverse Document Frequency (IDF, Обратная частота документа): Стандартная метрика в информационном поиске, которая определяет, насколько хорошо N-грамма позволяет различать документы в корпусе. Чем реже встречается термин, тем выше его IDF и тем он уникальнее.
Katz backoff smoothing (Сглаживание по Кацу): Метод, используемый в NLP для оценки вероятности N-грамм, особенно когда данных в обучающей выборке (логах запросов) недостаточно. Используется при расчете Entropy.
N-gram (N-грамма): Подмножество из 'N' слов или комбинаций слов, извлеченных из запроса. Включает униграммы (1 слово), биграммы (2 слова), триграммы (3 слова) и т.д.
Query Vector / N-gram Vector (Вектор запроса): Математическое представление запроса в многомерном пространстве, где измерениями являются N-граммы запроса, а значениями — их Semantic Weights.
Semantic Importance Log (Лог семантической важности): База данных или кэш, хранящий предварительно рассчитанные Semantic Weights для N-грамм.
Semantic Weight (Семантический вес): Ключевая метрика патента. Числовое значение, присваиваемое N-грамме и представляющее её уникальность и значимость для определения интента запроса. Является функцией от IDF и Entropy.
Similarity Measurement (Измерение схожести): Метрика, определяющая степень семантической близости между двумя запросами на основе сравнения их Query Vectors.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод определения схожести запросов.

Генерация первого вектора для N-грамм первого запроса (Q1).
Расчет Semantic Weight для каждой N-граммы Q1. Ключевое условие: вес основан, по крайней мере частично, на Entropy N-граммы, которая оценивается из набора поисковых запросов (логов).
Генерация второго вектора для N-грамм второго запроса (Q2) и расчет их весов.
Расчет измерения схожести между Q1 и Q2. Ключевое условие: схожесть основана на (i) схожести взвешенных N-грамм Q1 со вторым вектором И (ii) схожести взвешенных N-грамм Q2 с первым вектором.

Ядром изобретения является использование Entropy, рассчитанной по логам запросов, для взвешивания N-грамм и специфический двусторонний метод расчета финальной схожести.

Claim 3 (Зависимый от 1): Уточняет расчет семантического веса.

Расчет Semantic Weight основан на комбинации Inverse Document Frequency (IDF) N-граммы и Entropy N-граммы.

Это определяет, что Semantic Weight является комплексной метрикой, учитывающей как редкость термина в документах (IDF), так и его уникальность/предсказуемость в потоке запросов (Entropy).

Claim 6 (Зависимый): Описывает применение результата.

Измерение схожести сравнивается с порогом (Threshold).
Если порог превышен (Claim 5), второй запрос предоставляется как поисковая подсказка (query suggestion) для первого запроса.

Где и как применяется

Изобретение применяется на этапе понимания запроса и использует данные, собранные на других этапах.

INDEXING – Индексирование и извлечение признаков
На этом этапе (или в ходе отдельного офлайн-процесса анализа корпуса документов) рассчитываются значения IDF для N-грамм, которые затем используются для расчета Semantic Weight.

QUNDERSTANDING – Понимание Запросов
Это основной этап применения патента. Система выполняет несколько задач:

Офлайн-анализ логов: Анализ исторических поисковых логов (собранных на этапе Data Acquisition) для расчета Entropy N-грамм (вероятности следования слов друг за другом).
Расчет Semantic Weight: Комбинирование IDF и Entropy для создания Semantic Importance Log.
Обработка запроса: Когда система получает запрос, она использует описанный механизм для сравнения этого запроса с другими запросами (кандидатами) для нахождения семантически похожих вариантов для подсказок (Related Searches, Autocomplete).

Входные данные:

Первый запрос (Q1) и Второй запрос (Q2).
Корпус документов (для расчета IDF офлайн).
Логи поисковых запросов (для расчета Entropy офлайн).
Semantic Importance Log (предварительно рассчитанные веса).

Выходные данные:

Показатель схожести (Similarity Measurement) между Q1 и Q2.
Список поисковых подсказок (если схожесть превысила порог).

На что влияет

Специфические запросы: Влияет на все типы запросов (информационные, коммерческие, навигационные), для которых система генерирует уточнения или похожие запросы.
Форматы выдачи: Напрямую влияет на формирование блока «Похожие запросы» (Related Searches) и механизмы автодополнения (Autocomplete).

Когда применяется

Условия применения: Алгоритм применяется, когда поисковой системе необходимо сгенерировать список семантически связанных запросов для помощи пользователю в уточнении поиска.
Частота применения: Расчет весов происходит офлайн. Расчет схожести может происходить в реальном времени при обработке запроса или также офлайн для популярных запросов.
Пороговые значения: Система использует порог для Similarity Measurement; только запросы, превышающие этот порог, предлагаются в качестве подсказок.

Пошаговый алгоритм

Алгоритм состоит из двух основных частей: офлайн-подготовка данных и расчет схожести.

Процесс А: Офлайн-расчет семантических весов (Semantic Weight)

Сбор данных: Сбор корпуса документов и большого объема логов поисковых запросов.
Расчет IDF: Анализ корпуса документов для определения IDF для различных N-грамм.
Расчет Entropy: Анализ логов запросов для оценки вероятностей следования слов (например, Prob(wN|wN-1)). Применение Katz backoff smoothing при недостатке данных. Расчет Энтропии для N-грамм.
Комбинирование и сохранение: Расчет финального Semantic Weight как функции от IDF и Entropy (например, взвешенная сумма, в патенте упоминается пример 60% IDF + 40% Entropy). Сохранение весов в Semantic Importance Log.

Процесс Б: Расчет схожести запросов (Онлайн или Офлайн)

Идентификация запросов: Получение первого запроса (Q1) и второго запроса (Q2).
Извлечение N-грамм: Извлечение всех N-грамм из Q1 и Q2 (N-Gram Extractor). (Опционально: исключение стоп-слов).
Получение весов: Запрос Semantic Importance Log для получения Semantic Weight для каждой N-граммы.
Построение векторов: Генерация вектора V_A для Q1 и вектора V_B для Q2 на основе N-грамм и их весов (Vector Generator).
Определение схожести N-грамм: Расчет промежуточных показателей схожести: схожесть каждой N-граммы из V_A с вектором V_B (D(v_a_i, V_B)), и схожесть каждой N-граммы из V_B с вектором V_A (D(v_b_j, V_A)).
Расчет финальной схожести: Вычисление итоговой схожести Sim(V_A, V_B) путем взвешенной суммы всех промежуточных показателей схожести (Similarity Determiner).
Генерация подсказок: Сравнение Sim(V_A, V_B) с пороговым значением. Если порог превышен, Q2 используется как подсказка для Q1.

Какие данные и как использует

Данные на входе

Патент фокусируется на использовании данных об использовании языка и структуре запросов.

Контентные факторы (Косвенно): Текст документов в общем корпусе индексируемых документов используется для расчета Inverse Document Frequency (IDF).
Поведенческие факторы (Прямо): Логи поисковых запросов критически важны. Они используются как обучающие данные (training data) для расчета Entropy. Система анализирует частоту и последовательность слов в реальных запросах.
Структурные факторы (Прямо): Порядок слов в запросах важен, так как система использует N-граммы (последовательности слов).

Какие метрики используются и как они считаются

Система вычисляет несколько ключевых метрик:

1. Entropy (Энтропия)

Рассчитывается на основе вероятностей последовательностей слов, полученных из логов запросов. Вероятность Prob(w1, ..., wN) оценивается через цепочку условных вероятностей:

$Prob(w1) * Prob(w2|w1) * ... * Prob(wN|w1, ... wN-1)$

Для сглаживания используется Katz backoff.

2. IDF (Inverse Document Frequency)

Стандартный расчет на основе частоты N-граммы в корпусе документов.

3. Semantic Weight (Семантический вес)

Функция от IDF и Entropy. Патент упоминает возможность взвешенной комбинации (например, 60% IDF + 40% Entropy).

4. Similarity Measurement (Sim(V_A, V_B))

Финальная метрика схожести между двумя векторами запросов V_A и V_B. Рассчитывается как взвешенная сумма схожестей N-грамм одного вектора к другому:

$Sim(V\_A, V\_B) = \Sigma_i weight(v\_a\_i) * D(v\_a\_i, V\_B) + \Sigma_j weight(v\_b\_j) * D(v\_b\_j, V\_A)$

Где D(x, Y) — это функция схожести между N-граммой x и вектором Y. (Примечание: В патенте может подразумеваться нормализация этой суммы).

Семантическая схожесть — это не просто совпадение ключевых слов: Патент подчеркивает, что для определения близости запросов Google анализирует значимость (важность) терминов, а не только их наличие. Схожесть определяется совпадением семантически важных фраз.
Важность термина определяется его уникальностью (Semantic Weight): Ключевым инсайтом является расчет Semantic Weight. Термины, которые являются редкими в целом (высокий IDF) и/или неожиданными/уникальными в контексте запросов пользователей (высокая Entropy), вносят больший вклад в смысл запроса.
IDF и Entropy дополняют друг друга: IDF измеряет уникальность в корпусе документов, а Entropy измеряет уникальность и предсказуемость в поведении пользователей. Это дает комплексную оценку значимости термина.
Логи запросов как источник знаний о языке: Патент демонстрирует, как Google использует огромные массивы данных о поведении пользователей для обучения языковых моделей и понимания взаимосвязей между терминами (расчет вероятностей для Entropy).
Комплексный расчет схожести: Используемая формула схожести является двунаправленной (A к B и B к A) и гарантирует, что все N-граммы вносят вклад в финальную оценку, пропорционально их семантическому весу.

Best practices (это мы делаем)

Идентификация «определяющих» терминов (High Semantic Weight): При анализе семантического ядра необходимо выявлять термины и фразы с высоким IDF (специфичные для ниши) и высокой Entropy. Это термины, которые наиболее точно определяют интент пользователя. Контент должен быть сфокусирован на этих терминах и сущностях.
Стратегическое использование «Похожих запросов» (Related Searches): Активно анализируйте блоки Related Searches в выдаче. Этот патент (или его эволюция) лежит в основе их формирования. Эти запросы гарантированно семантически связаны с исходным. Включение их анализа в контент-стратегию и создание контентных кластеров необходимо для достижения Topical Authority.
Кластеризация на основе семантической близости: Используйте понимание Semantic Weight при кластеризации запросов. Кластеры должны объединяться вокруг терминов с высоким весом (например, конкретные названия продуктов, услуг, сущностей), а не вокруг общих слов (имеющих низкий вес).
Анализ N-грамм, а не только отдельных слов: Сосредоточьтесь на оптимизации под фразы (биграммы, триграммы). Значимость часто заключена в комбинации слов, и патент это явно учитывает. Убедитесь, что в контенте и заголовках присутствуют ключевые словосочетания в естественном порядке.

Worst practices (это делать не надо)

Фокус только на высокочастотных общих запросах: Построение стратегии исключительно вокруг очень общих ключевых слов (которые часто имеют низкий IDF) неэффективно, так как их Semantic Weight может быть низким. Они несут меньше информации об интенте и не являются дискриминирующими.
Keyword Stuffing и игнорирование порядка слов: Перенасыщение текста ключевыми словами без учета их естественного порядка неэффективно. Система анализирует N-граммы и учитывает Entropy (основанную на реальных последовательностях в запросах), поэтому неестественные комбинации не будут иметь значимого веса.
Оценка схожести запросов «на глаз»: Не стоит полагаться на интуитивное восприятие схожести запросов. Система использует математическую модель, основанную на статистике всего интернета (IDF) и всех пользователей (Entropy).

Стратегическое значение

Патент подтверждает стратегический сдвиг от лексического анализа к семантическому пониманию. Он демонстрирует, что уже в 2007 году Google разрабатывал сложные механизмы для взвешивания важности терминов на основе глобальной статистики. Для SEO это означает, что построение контент-стратегии должно основываться на глубоком понимании того, какие термины и фразы являются наиболее информативными и определяющими в конкретной тематике. Построение Topical Authority через охват ключевых N-грамм и связанных запросов является основой долгосрочной стратегии.

Практические примеры

Сценарий: Анализ семантического веса для оптимизации страницы

Задача: Оптимизировать страницу под запрос «Guggenheim Museum New York».
Анализ (на основе примера из патента FIG. 5): Система рассчитывает веса:
- N-грамма "Guggenheim Museum" имеет Semantic Weight 0.79.
- N-грамма "Guggenheim Museum York" имеет вес 0.93 (предположим, что для "New York" вес аналогично высок).
- N-грамма "New York" (вне контекста музея) имела бы низкий вес.
Интерпретация: Фраза с уточнением города является более уникальной и информативной (выше Semantic Weight), чем общая фраза. Именно она определяет основной интент.
Действие SEO-специалиста: Убедиться, что в Title, H1 и основном тексте используется точная формулировка (высоковесная N-грамма) «Guggenheim Museum New York». Нельзя полагаться только на упоминание «Guggenheim Museum» и «New York» по отдельности. Необходимо создать контент, точно отвечающий на интент, связанный с этой специфичной сущностью.
Поиск похожих запросов: Система определит, что запрос "Билеты в музей Гуггенхайма Нью-Йорк" семантически близок, так как разделяет ключевые взвешенные N-граммы. Этот запрос нужно учесть в контент-плане.

Что такое «Семантический вес» (Semantic Weight) и как он рассчитывается?

Semantic Weight – это мера уникальности и важности N-граммы (фразы). Чем выше вес, тем более значима фраза для определения смысла запроса. Согласно патенту, он рассчитывается как комбинация двух метрик: IDF (Inverse Document Frequency), которая измеряет уникальность фразы в корпусе документов, и Entropy (Энтропия), которая измеряет уникальность или предсказуемость фразы в логах поисковых запросов пользователей.

Что такое Энтропия (Entropy) в контексте этого патента и чем она отличается от IDF?

Entropy измеряет уникальность и предсказуемость N-граммы на основе анализа логов поисковых запросов. Она рассчитывается через вероятность появления слов в определенной последовательности. В отличие от IDF, который смотрит на контент документов, Entropy смотрит на поведение пользователей. Это позволяет оценить информативность фразы, основываясь на том, как люди реально формулируют запросы.

Влияет ли этот патент напрямую на ранжирование моего сайта?

Нет, этот патент описывает механизм генерации поисковых подсказок (Web Search Refinement) путем сравнения запросов между собой, а не ранжирования документов. Однако он критически важен для понимания того, как Google интерпретирует семантическую близость запросов. Это знание напрямую влияет на стратегию построения семантического ядра и Topical Authority, что косвенно влияет на ранжирование.

Чем описанный метод отличается от стандартного TF-IDF для ранжирования документов?

Стандартный TF-IDF используется для оценки важности слова в документе относительно корпуса. Этот патент применяет векторную модель к самим запросам (а не документам) и вводит новый компонент для взвешивания — Entropy, основанную на логах запросов, чего нет в стандартном TF-IDF. Кроме того, формула расчета схожести здесь является двунаправленной и более сложной, чем часто используемая косинусная мера.

Актуален ли этот метод, учитывая появление BERT и MUM?

Концептуально он актуален. BERT и MUM также определяют важность слов в контексте, но делают это с помощью механизмов внимания в нейронной сети. Принципы, заложенные в этом патенте (IDF и Entropy), описывают статистические свойства языка, которые современные модели также должны учитывать, даже если они выучивают их имплицитно (скрыто) в процессе обучения.

Как SEO-специалисту определить, какие термины имеют высокий Semantic Weight?

Точные значения Semantic Weight недоступны, но можно использовать прокси-метрики. Термины с высоким весом обычно являются специфичными, низкочастотными (высокий IDF) и точно определяющими интент. Это часто названия конкретных сущностей, моделей или специфические информационные запросы. Анализ блоков "Related Searches" также помогает выявить высоковесные семантические связи, так как они генерируются подобными алгоритмами.

Как использовать концепцию Semantic Weight при кластеризации семантического ядра?

При кластеризации ядра следует группировать запросы, которые разделяют общие N-граммы с высоким предполагаемым Semantic Weight. Эти фразы являются "ядром" кластера. Запросы, которые содержат только общие слова с низким весом, не должны попадать в один кластер, даже если они лексически похожи. Это позволит создать более точную структуру сайта, соответствующую семантическому пониманию Google.

Что такое N-граммы и почему они используются вместо отдельных слов?

N-граммы — это последовательности из N слов (фразы). Они используются потому, что смысл часто заключен именно во фразах, а не в отдельных словах (например, "Нью Йорк" vs "Нью" и "Йорк"). Использование N-грамм позволяет системе точнее улавливать концепции, сущности и контекст в запросе. Это подчеркивает важность оптимизации контента под естественные словосочетания.

Что такое сглаживание по Кацу (Katz backoff smoothing) и зачем оно нужно?

Это статистический метод, используемый при расчете Entropy. Он необходим, потому что логи запросов могут не содержать достаточного количества примеров для всех возможных N-грамм (особенно редких). Сглаживание по Кацу позволяет оценить вероятность даже тех N-грамм, которые встречались редко, используя данные о более коротких N-граммах. Это делает языковую модель более устойчивой.

Что означает «двунаправленный» расчет схожести в формуле Sim(V_A, V_B)?

Это означает, что система не просто проверяет, насколько запрос A похож на запрос B. Формула рассчитывает схожесть N-грамм из A к B, а затем схожесть N-грамм из B к A, и агрегирует оба результата. Каждое сравнение взвешивается семантическим весом соответствующей N-граммы. Это обеспечивает более сбалансированную и точную оценку семантической близости.

Как Google в Autocomplete динамически выбирает между показом общих категорий и конкретных подсказок в зависимости от «завершенности запроса»

Google анализирует «меру завершенности запроса» (Measure of Query Completeness) по мере ввода текста пользователем. Если намерение неясно и существует много вариантов продолжения (низкая завершенность, высокая энтропия), система предлагает общие категории (например, «Регионы», «Бизнесы»). Если намерение становится ясным (высокая завершенность, низкая энтропия), система переключается на конкретные подсказки или сущности.

US9275147B2
2016-03-01

Семантика и интент
Поведенческие сигналы
Персонализация

Как Google сегментирует сложные запросы на смысловые компоненты для генерации поисковых подсказок и связанных запросов

Google использует механизм для генерации уточнений запроса (поисковых подсказок или связанных запросов) путем разделения исходного запроса на семантические компоненты (устойчивые фразы) с помощью вероятностного анализа. Система находит уточнения для каждого компонента по отдельности, а затем рекомбинирует их, сохраняя исходный порядок. Финальные кандидаты строго фильтруются на основе пользовательских данных (CTR) и синтаксической схожести.

US9703871B1
2017-07-11

Семантика и интент
SERP
Поведенческие сигналы

Как Google вычисляет схожесть документов, используя значимость слов, их описательность и распознавание фраз

Google использует алгоритм для определения схожести документов, который превосходит традиционный TF-IDF. Система вычисляет Оценку Значимости (Prominence Score) и Оценку Описательности (Descriptiveness Score) для отдельных слов и фраз. Учитывается, где именно на странице расположены термины и насколько информативными они являются в целом. Это позволяет точнее определять релевантность и тематическую близость контента.

US7958136B1
2011-06-07

Семантика и интент

Как Google автоматически выявляет новые термины и классифицирует их по темам для создания специализированных словарей

Google использует статистические методы для обновления языковых моделей. Система обнаруживает новые слова и фразы, анализируя снижение энтропии (неопределенности) в текстах. Затем она определяет тематику этих слов, сравнивая частоту их употребления в конкретной теме с частотой в общем корпусе (анализ дивергенции). Это позволяет автоматически создавать специализированные "доменные словари" для лучшего понимания контента.

US7983902B2
2011-07-19

Семантика и интент
Мультиязычность

Как Google идентифицирует, связывает и индексирует концепции (фразы) для понимания тем документов

Фундаментальный патент Google, описывающий переход от индексирования слов к индексированию концепций (фраз). Система определяет «хорошие фразы» на основе частотности и их способности прогнозировать появление других фраз (Information Gain). Документы индексируются не только по содержащимся в них фразам, но и по наличию связанных фраз, что позволяет системе определять основные и второстепенные темы документа, а также контекстуально оценивать анкорный текст ссылок.

US7536408B2
2009-05-19

Индексация
Семантика и интент
Ссылки

Как Google создает и наполняет Панели Знаний (Knowledge Panels), используя шаблоны сущностей и популярность фактов

Google использует систему для отображения Панелей Знаний (Knowledge Panels) рядом с результатами поиска. Когда запрос относится к конкретной сущности (человеку, месту, компании), система выбирает соответствующий шаблон и наполняет его контентом из разных источников. Выбор фактов для отображения основан на том, как часто пользователи искали эту информацию в прошлом.

US9268820B2
2016-02-23

Knowledge Graph
SERP
Семантика и интент

Как Google использует историю браузера, закладки и поведение пользователей для персонализации результатов поиска в e-commerce

Система отслеживает поведение пользователей (клики, время на сайте, покупки) и их сохраненные закладки (content pointers) в сетевой среде. На основе этих данных создается персональная модель релевантности и иерархия предпочтений. Эта модель используется для дополнения запросов, переранжирования результатов поиска и предоставления рекомендаций, обеспечивая персонализированный опыт в e-commerce.

US7089237B2
2006-08-08

Поведенческие сигналы
Персонализация
SERP

Как Google использует машинное зрение и исторические клики для определения визуального интента и ранжирования изображений

Google использует систему, которая определяет визуальное значение текстового запроса, анализируя объекты на картинках, которые пользователи выбирали ранее по этому или похожим запросам. Система создает набор «меток контента» (визуальный профиль) для запроса и сравнивает его с объектами, распознанными на изображениях-кандидатах с помощью нейросетей. Это позволяет ранжировать изображения на основе их визуального соответствия интенту пользователя.

US20200159765A1
2020-05-21

Семантика и интент
Мультимедиа
Персонализация

Как Google использует данные о поведении пользователей внутри документов (время чтения разделов, закладки) для улучшения ранжирования

Google может собирать и анализировать данные о том, как пользователи взаимодействуют с электронными документами (например, PDF, DOC, HTML). Система отслеживает, какие разделы или страницы просматриваются дольше всего или добавляются в закладки. Эта агрегированная информация используется для повышения в ранжировании документов, чьи ключевые слова находятся в наиболее используемых (и, следовательно, ценных) разделах.

US8005811B2
2011-08-23

Поведенческие сигналы
SERP

Как Google комбинирует визуальное сходство и поведение пользователей для переранжирования поиска по картинкам

Google использует механизм для перекрестной проверки релевантности изображений, объединяя поведенческие сигналы (клики) с визуальным анализом. Если изображение часто кликают и оно визуально похоже на другие релевантные изображения по запросу (совместная релевантность), его рейтинг агрессивно повышается. Если оно редко кликается и визуально отличается (совместная нерелевантность), его рейтинг понижается. Это защищает выдачу от кликбейта.

US8209330B1
2012-06-26

Поведенческие сигналы
SERP
Мультимедиа

Как Google кластеризует похожие страницы, анализируя, куда пользователи переходят дальше (Co-visitation)

Google анализирует навигационные пути пользователей для определения схожести документов. Если после просмотра Страницы А и Страницы Б пользователи часто переходят к одному и тому же набору последующих страниц, Google считает Страницу А и Страницу Б похожими и объединяет их в кластер. Этот механизм позволяет определять тематическую близость на основе поведения пользователей.

US8650196B1
2014-02-11

Поведенческие сигналы
SERP
Семантика и интент

Как Google интегрирует персональный и социальный контент (Email, посты друзей, календарь) в универсальную поисковую выдачу

Google использует этот механизм для глубокой персонализации поиска, интегрируя релевантный контент из личных источников пользователя (Gmail, Drive, Calendar) и от его социальных связей. Система индексирует этот контент с разрешения пользователя, ранжирует его с учетом социальных сигналов (Affinity) и адаптивно отображает в SERP, смешивая с публичными результатами.

US20150310100A1
2015-10-29

Персонализация
Индексация
Поведенческие сигналы

Как Google персонализирует подсказки Autocomplete, анализируя запросы похожих пользователей и обновляя локальный кэш устройства

Google персонализирует подсказки Autocomplete (Search Suggest), анализируя поведение пользователей со схожими профилями (местоположение, интересы, история поиска). Система генерирует кастомизированное обновление для локального кэша устройства на основе запросов, введенных этими похожими пользователями. Это означает, что разные пользователи видят разные подсказки для одного и того же ввода.

US8868592B1
2014-10-21

Персонализация
Поведенческие сигналы
Local SEO

Как Google определяет основной контент страницы, анализируя визуальную структуру и характеристики разделов

Google использует систему для идентификации основного контента веб-страницы путем её разделения на логические разделы на основе визуального макета. Система оценивает характеристики каждого раздела (соотношение ссылок к тексту, количество слов, изображения, расположение) относительно характеристик всей страницы, чтобы выделить наиболее значимый контент и отделить его от навигации и шаблонов.

US20140372873A1
2014-12-18

Структура сайта
Техническое SEO
Ссылки

Как Google создает мгновенные интерактивные результаты на SERP, предварительно загружая и персонализируя скрытый контент

Google использует механизм для создания интерактивных блоков ответов (Answer Boxes), таких как Погода или Панели Знаний. Система отправляет пользователю не только видимый результат, но и дополнительный скрытый контент («карточки»), выбранный на основе истории взаимодействий пользователя. При взаимодействии с блоком (свайп или клик) дополнительный контент отображается мгновенно, без отправки нового запроса на сервер.

US9274683B2
2016-03-01

SERP
Персонализация
Поведенческие сигналы