Как Google итеративно вычисляет «самодостаточность» фраз для определения главной темы запроса

SELECTING CONTENT USING QUERY-INDEPENDENT SCORES OF QUERY SEGMENTS (Выбор контента с использованием независимых от запроса оценок сегментов запроса)

US9690847B2
Google LLC
2014-08-07
2017-06-27

Семантика и интент

Google использует итеративный алгоритм для анализа исторических логов запросов, чтобы вычислить «независимую от запроса оценку» (Query-Independent Score) для каждого слова или фразы. Эта оценка показывает, насколько вероятно сегмент является самостоятельным запросом или главной темой. Это помогает системе отличить ключевые концепции от модификаторов, точнее понять интент пользователя и улучшить подбор релевантного контента.

Какую проблему решает

Патент решает задачу определения относительной важности различных частей (сегментов) поискового запроса. Цель — алгоритмически идентифицировать, какие сегменты представляют собой основную тему (main topic) запроса, а какие являются модификаторами или менее значимыми терминами. Это необходимо для более точного понимания интента пользователя и улучшения выбора релевантного контента (включая рекламу).

Что запатентовано

Запатентован метод итеративного вычисления Query-Independent Scores (независимых от запроса оценок) для слов и фраз на основе анализа исторических логов запросов. Суть изобретения заключается в самообучающемся цикле, где глобальная значимость сегмента уточняется через анализ его локальной важности в контексте реальных запросов. Эти оценки используются для интерпретации новых запросов и расчета «самодостаточности» (Self-Sufficiency) запроса и контента.

Как это работает

Ключевой механизм — это итеративный алгоритм, основанный на взаимной зависимости двух оценок:

Инициализация: Всем сегментам присваиваются начальные Query-Independent Scores (QIS) (например, 0.5).
Расчет Зависимых Оценок: Для каждого запроса в логе вычисляются Query-Dependent Scores (QDS) его сегментов на основе их текущих QIS. Оценки нормализуются в рамках запроса.
Обновление Независимых Оценок: QIS сегмента обновляется путем усреднения его QDS по всем запросам, где он встречается.
Итерация: Процесс повторяется (новые QIS ведут к новым QDS, и наоборот) до стабилизации оценок. В результате сегменты, часто являющиеся главной темой (например, сущности), получают высокие оценки, а модификаторы (например, "лучший", "купить") — низкие.

Актуальность для SEO

Высокая. Понимание структуры запроса (Query Understanding) и определение значимости его компонентов является фундаментальной задачей современных поисковых систем. Статистические методы анализа N-грамм на основе больших данных остаются крайне актуальными и дополняют нейросетевые подходы в NLP для интерпретации интента.

Важность для SEO

Патент имеет высокое значение для SEO (75/100). Он описывает конкретный механизм, как Google определяет ядро запроса и отделяет его от модификаторов. Понимание того, какие термины система идентифицирует как «самодостаточные» и тематически значимые, критически важно для создания и оптимизации контента, чтобы точно соответствовать основной теме, идентифицированной системой.

Термины и определения

Segment (Сегмент): Слово или фраза (N-грамма), являющаяся частью запроса. Например, в запросе "hotels new york" сегментами являются "hotels", "new", "york" и "new york".
Query-Dependent Score (QDS) (Зависимая от запроса оценка): Оценка $t(q,t)$ , показывающая относительную важность сегмента (t) в контексте конкретного запроса (q). Нормализуется в рамках запроса.
Query-Independent Score (QIS) (Независимая от запроса оценка): Глобальная оценка $s(t)$ , показывающая внутреннюю значимость сегмента (t) независимо от конкретного запроса. Вычисляется итеративно на основе анализа множества запросов в логах.
Stand-alone Score (Оценка самостоятельности): Оценка сегмента в новом запросе, основанная на Query-Independent Score. Указывает на вероятность того, что сегмент представляет собой самостоятельный запрос и/или является главной темой (main topic) запроса.
Self-Sufficiency Score (Оценка самодостаточности): Агрегированная метрика для всего запроса или для набора ключевых слов контента (например, рекламы). Вычисляется путем применения функции (например, суммы) к Stand-alone Scores составляющих сегментов.
Historical Log of Queries (Исторический лог запросов): База данных прошлых запросов пользователей, используемая как обучающая выборка для алгоритма.
First Function / Second Function (Первая / Вторая функция): Функции агрегации. First Function используется для обновления QIS путем агрегации QDS (например, среднее арифметическое). Second Function используется для расчета Self-Sufficiency Score путем агрегации Stand-alone Scores (например, сумма).

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной итеративный метод определения Stand-alone Score.

Система получает запрос и идентифицирует его сегменты.
Определяется Stand-alone Score для каждого сегмента. Это определение включает обработку исторического лога для вычисления Query-Independent Scores (QIS).
Итеративный процесс обработки лога:
1. Инициализация QIS.
2. Обработка запросов в логе: определение Query-Dependent Scores (QDS) для сегментов и их нормализация.
3. Корректировка QIS на основе агрегированных QDS с применением First Function.
4. Сохранение обновленных QIS.
5. Повторение (итерация) шагов b-d (обработка, корректировка, сохранение) с использованием обновленных QIS.
Использование финальных QIS для определения Stand-alone Score сегментов исходного запроса.

Ядром изобретения является итеративный цикл, где независимые оценки (QIS) влияют на расчет зависимых оценок (QDS) в рамках конкретных запросов, а агрегированные зависимые оценки, в свою очередь, обновляют независимые оценки.

Claim 3 (Зависимый): Уточняет, что First Function для обновления QIS может быть математическим средним (mathematical average).

Claim 4 и 5 (Зависимые): Детализируют расчет Self-Sufficiency Score.

Система применяет Second Function к Stand-alone Scores сегментов запроса, чтобы определить общий Self-Sufficiency Score запроса. Second Function может быть суммой (sum) (Claim 5).

Claim 6 (Зависимый): Описывает использование механизма для выбора контента (например, рекламы).

Система рассчитывает Self-Sufficiency Score для контента на основе QIS его ключевых слов и сравнивает его с Self-Sufficiency Score запроса для поиска соответствия и предоставления контента.

Claim 8 и 9 (Зависимые): Вводят пороговые значения (Thresholds) для применения механизма.

Claim 8: Контент может быть не допущен к аукциону, если его Self-Sufficiency Score (сумма оценок ключевых слов) ниже первого порога. Claim 9: Механизм сопоставления может не использоваться для выбора контента, если Self-Sufficiency Score запроса ниже второго порога.

Где и как применяется

Изобретение в основном применяется на этапе QUNDERSTANDING – Понимание Запросов и влияет на системы подбора контента (RANKING / METASEARCH).

QUNDERSTANDING – Понимание Запросов
Алгоритм работает в двух режимах:

Офлайн-вычисления (Подготовка данных): Итеративный алгоритм выполняется офлайн (периодически) для анализа Historical Log of Queries и вычисления Query-Independent Scores (QIS) для всех известных сегментов.
Онлайн-обработка (Интерпретация запроса): Когда поступает новый запрос, система сегментирует его и извлекает предварительно рассчитанные QIS (используя их как Stand-alone Scores). Это позволяет идентифицировать главную тему и рассчитать Self-Sufficiency Score запроса.

RANKING / METASEARCH (Выбор контента/Рекламы)
Система использует вычисленные оценки для подбора контента (например, в Content Management System для рекламы):

Вычисляется Self-Sufficiency Score для контента на основе QIS их ключевых слов.
Оценки запроса и контента сравниваются для определения релевантности и матчинга.
Используются пороги для фильтрации низкокачественных кандидатов или деактивации механизма матчинга.

Входные данные:

Офлайн: Historical Log of Queries.
Онлайн: Новый пользовательский запрос; База Query-Independent Scores; Инвентарь контента и его ключевые слова.

Выходные данные:

Query-Independent Scores (офлайн).
Stand-alone Scores и Self-Sufficiency Score запроса (онлайн).
Выбранный контент (например, реклама).

На что влияет

Специфические запросы: Наибольшее влияние на многословные (long-tail) запросы, где необходимо отделить ядро запроса (главную тему) от модификаторов и уточнений.
Подбор контента и Реклама: Напрямую влияет на системы подбора рекламы (например, Google Ads), предоставляя метрику Self-Sufficiency для оценки и сравнения запросов и ключевых слов объявлений.
Понимание фраз и сущностей: Помогает идентифицировать фразы (N-граммы), функционирующие как единое целое (например, "new york"), которые часто имеют более высокий QIS, чем составляющие их слова.

Когда применяется

Офлайн-вычисления: Периодически, для обновления базы Query-Independent Scores на основе свежих логов запросов.
Онлайн-обработка: В реальном времени при получении каждого нового запроса для его интерпретации и при выборе контента.
Пороговые значения: Активация механизма матчинга контента может зависеть от достижения пороговых значений Self-Sufficiency Score как для запроса, так и для контента (Claims 8 и 9).

Пошаговый алгоритм

Процесс А: Офлайн-вычисление Query-Independent Scores (Итеративный алгоритм)

Инициализация: Присвоить начальные Query-Independent Scores (QIS, $s(t)$ ) всем сегментам (t). Например, 0.5.
Начало итерации.
Вычисление Query-Dependent Scores (QDS): Для каждого запроса (q) в логе рассчитать QDS ( $t(q,t)$ ) для всех его сегментов. Расчет основан на текущих QIS (чем выше $s(t)$ , тем выше $t(q,t)$ ).
Нормализация: Нормализовать QDS внутри каждого запроса (q).
Обновление Query-Independent Scores: Пересчитать QIS ( $s(t)$ ) для каждого сегмента путем применения First Function (например, усреднения) ко всем QDS, которые этот сегмент получил в разных запросах.
Проверка сходимости и Итерация: Если оценки значительно изменились, вернуться к шагу 3. Если достигнута сходимость (оценки стабилизировались), завершить процесс.
Сохранение: Сохранить финальные QIS.

Процесс Б: Обработка нового запроса и выбор контента (Онлайн)

Получение и сегментация: Получить новый запрос и разбить его на сегменты.
Определение Stand-alone Scores: Извлечь сохраненные QIS (из Процесса А) для каждого сегмента.
Вычисление Self-Sufficiency Score запроса: Рассчитать общую оценку запроса, применив Second Function (например, сумму) к Stand-alone Scores сегментов.
Анализ кандидатов контента: Для кандидатов контента (например, рекламы) рассчитать их Self-Sufficiency Score на основе QIS их ключевых слов.
Фильтрация и Матчинг: Применить пороги (Claims 8 и 9) и сравнить Self-Sufficiency Score запроса с оценками кандидатов для выбора контента (может включать аукцион).

Какие данные и как использует

Данные на входе

Поведенческие факторы (Логи): Критически важные данные — Historical Log of Queries. Алгоритм полностью полагается на статистический анализ того, как сегменты взаимодействуют друг с другом в реальных пользовательских запросах.
Контентные факторы (Лексические): Сегменты (слова и фразы/N-граммы), извлеченные из текста запросов. Также используются ключевые слова, ассоциированные с контентом (рекламой).

Какие метрики используются и как они считаются

Query-Independent Score (QIS, $s(t)$ ): Вычисляется итеративно. Обновляется путем применения First Function (например, mathematical average, Claim 3) к Query-Dependent Scores сегмента по всем запросам в логе.
Query-Dependent Score (QDS, $t(q,t)$ ): Вычисляется для сегмента внутри запроса на основе текущих QIS всех сегментов этого запроса, с последующей нормализацией. Условие расчета: чем выше QIS, тем выше QDS.
Stand-alone Score: Определяется на основе финальных QIS.
Self-Sufficiency Score: Вычисляется путем применения Second Function (например, sum, Claim 5) к Stand-alone Scores сегментов запроса или QIS ключевых слов контента.
Пороговые значения: Используются для фильтрации контента (Claim 8) и определения условий активации механизма матчинга (Claim 9).

Статистическое понимание языка из логов: Google активно использует статистический анализ исторических логов для определения важности фраз (N-грамм). Важность не задается вручную, а вычисляется итеративно на основе реального использования.
Идентификация Ядра и Модификаторов: Механизм направлен на автоматическое определение ядра запроса (сегменты с высоким Stand-alone Score) и отделения его от модификаторов (сегменты с низким Stand-alone Score).
Концепция «Самодостаточности»: Self-Sufficiency Score позволяет оценить, насколько запрос является полным, специфичным и сфокусированным на конкретных темах.
Применение в подборе контента (Рекламы): Патент явно описывает использование этих метрик для оценки и сопоставления запросов и контента (рекламы). Система сравнивает профиль «самодостаточности» запроса с профилем ключевых слов контента и может использовать пороги для фильтрации.
Важность Фраз (N-грамм): Система оценивает значимость не только отдельных слов, но и целых фраз как единых сегментов, что критично для понимания сущностей и сложных концепций (например, "New York" как единое целое).

Best practices (это мы делаем)

Фокус на естественных и значимых фразах (N-граммах): Используйте в ключевых элементах (Title, H1, контент) фразы, которые являются самодостаточными и часто используются пользователями как самостоятельные запросы. Такие фразы будут иметь высокий Query-Independent Score (QIS).
Оптимизация под ядро запроса: При оптимизации под long-tail запросы убедитесь, что основная тема (ядро запроса, сегмент с высоким QIS) четко представлена и является фокусом страницы. Модификаторы важны для уточнения интента, но не должны затмевать ядро.
Анализ семантического ядра с учетом значимости: При сборе семантики отдавайте приоритет фразам, которые представляют собой законченные мысли, четкие интенты или конкретные сущности. Они, вероятно, имеют более высокий Stand-alone Score.
(Для PPC) Качество ключевых слов и Пороги: Учитывайте потенциальную «самодостаточность» ключевых слов в объявлениях. Использование слишком общих или незначимых ключевых слов может привести к тому, что объявление не пройдет порог Self-Sufficiency Score (Claim 8) и будет отфильтровано или получит низкий рейтинг в аукционе.

Worst practices (это делать не надо)

Игнорирование ядра запроса и фокус на модификаторах: Оптимизация страницы под второстепенные термины (например, "бесплатно", "лучший", "скидка") без акцента на основной продукт или услугу (основную тему с высоким QIS).
Использование неестественных конструкций и Keyword Stuffing: Сегменты, извлеченные из неестественного текста, вероятно, будут иметь низкие QIS, так как они редко встречаются в реальных логах запросов в таком виде.
Рассмотрение слов изолированно: Игнорирование важности фраз. Значимость фразы (например, "New York") может быть значительно выше, чем значимость отдельных слов ("New" и "York") по отдельности.

Стратегическое значение

Патент подтверждает фундаментальную важность этапа Query Understanding и переход от анализа отдельных ключевых слов к оценке статистической и семантической значимости фраз (сегментов). Для долгосрочной SEO-стратегии важно понимать, какие концепции Google считает статистически «важными» и «самодостаточными» в конкретной нише, и строить контент вокруг этих концепций (Topics & Entities).

Практические примеры

Сценарий: Определение ядра запроса для оптимизации контента

Анализируемый запрос: "лучшие треккинговые ботинки для летнего похода"
Гипотетический анализ системой (QIS/Stand-alone Scores):
- "треккинговые ботинки": Высокий (четкий объект, самодостаточный запрос).
- "летний поход": Средне-высокий (конкретное условие, значимый сегмент).
- "лучшие": Низкий (модификатор).
- "для": Очень низкий (предлог).
Вывод системы: Главная тема запроса — "треккинговые ботинки", ключевое уточнение — "летний поход". Self-Sufficiency Score запроса высокий.
SEO-действие: Страница должна быть сфокусирована на основной теме ("треккинговые ботинки") с явным учетом контекста ("летний поход"). Заголовок (Title/H1) и структура должны четко отражать эти высокозначимые сегменты. Не следует делать акцент на слове "лучшие" в ущерб основной теме.

В чем ключевое различие между Query-Dependent Score (QDS) и Query-Independent Score (QIS)?

Query-Dependent Score (QDS) — это локальная оценка важности фразы внутри одного конкретного запроса, в контексте других слов этого запроса. Query-Independent Score (QIS) — это глобальная оценка, отражающая общую важность и самодостаточность фразы на основе анализа всего массива исторических запросов. QIS используется для расчета QDS, а QDS затем используются для итеративного обновления QIS.

Как именно работает итеративный алгоритм?

Он работает по принципу взаимного уточнения. Сначала всем фразам присваивается одинаковая глобальная оценка (QIS). Затем система анализирует реальные запросы и перераспределяет важность (QDS) между фразами внутри каждого запроса на основе их текущих QIS. После этого она обновляет QIS каждой фразы, усредняя её QDS по всем запросам. Процесс повторяется до стабилизации: обновленные QIS ведут к более точным QDS, и наоборот.

Что означает "Самодостаточность" (Self-Sufficiency) фразы или запроса?

Для фразы (Stand-alone Score) это вероятность того, что она может быть использована как полноценный самостоятельный запрос или является главной темой. Для всего запроса (Self-Sufficiency Score) это агрегированная метрика (обычно сумма оценок сегментов), показывающая, насколько запрос является полным и специфичным. Чем выше оценка, тем более конкретный интент выражает запрос.

Как этот патент влияет на оптимизацию под long-tail запросы?

Он имеет прямое влияние. Для длинных запросов этот механизм помогает системе выделить ядро запроса (наиболее самодостаточный сегмент) и отделить его от модификаторов. SEO-специалистам необходимо убедиться, что их контент четко оптимизирован под это ядро, а не рассеивает фокус на второстепенные слова.

Патент упоминает использование этих оценок для выбора контента (Claim 6). Относится ли это только к рекламе?

В патенте это описывается в контексте Content Management System, что часто означает рекламу. Механизм сравнения Self-Sufficiency Score (Claim 6) и применение порогов (Claims 8 и 9) напрямую относятся к матчингу и фильтрации рекламы. Однако базовое вычисление Query-Independent Scores является частью общего Понимания Запросов (Query Understanding), что также влияет на органический поиск, улучшая интерпретацию интента.

Что означают пороги, упомянутые в Claims 8 и 9?

Claim 8 вводит порог качества для контента (рекламы): если Self-Sufficiency Score объявления слишком низкий (например, ключевые слова слишком общие), оно может быть не допущено к аукциону. Claim 9 вводит порог для запроса: если Self-Sufficiency Score запроса слишком низкий (например, запрос бессмысленный или слишком расплывчатый), описанный механизм матчинга может не применяться.

Как SEO-специалист может узнать Query-Independent Score для своих ключевых фраз?

Google не предоставляет эти оценки напрямую. Однако их можно аппроксимировать, анализируя частотность и то, насколько часто фраза используется самостоятельно. Чем чаще фраза используется как отдельный запрос и чем яснее она определяет тему или сущность, тем выше её вероятный QIS. Общие слова и модификаторы имеют низкие оценки.

Связан ли этот механизм с распознаванием сущностей (Entity Recognition)?

Это не замена, а дополнение. Распознавание сущностей идентифицирует именованные объекты. Описанный механизм оценивает статистическую важность любых фраз (N-грамм). Сущности часто имеют высокий QIS, так как они самодостаточны, но механизм шире и охватывает также интенты, действия и темы, которые могут не быть сущностями в Knowledge Graph.

Как система обрабатывает новые слова или тренды?

Новым сегментам присваивается начальная оценка (например, 0.5). По мере того как новый термин набирает популярность и появляется в логах запросов, итеративный алгоритм обрабатывает эти данные. Если термин часто используется как основная тема, его Query-Independent Score вырастет в ходе последующих циклов пересчета (офлайн-процесса).

Как этот алгоритм учитывает порядок слов?

Алгоритм учитывает порядок слов, так как он анализирует фразы (N-граммы) как отдельные сегменты. Фраза "белый дом" будет иметь свой собственный Query-Independent Score, отличный от оценок слов "белый" и "дом" по отдельности и отличный от фразы "дом белый".

Как Google предсказывает ваш следующий запрос на основе контента, который вы просматриваете, и истории поиска других пользователей

Google использует систему контекстной информации, которая анализирует контент на экране пользователя (например, статью или веб-страницу) и предсказывает, что пользователь захочет искать дальше. Система не просто ищет ключевые слова на странице, а использует исторические данные о последовательностях запросов (Query Logs). Она определяет, что другие пользователи искали после того, как вводили запросы, связанные с текущим контентом, и предлагает эти последующие запросы в качестве рекомендаций.

US20210232659A1
2021-07-29

Семантика и интент
Поведенческие сигналы
Персонализация

Как Google классифицирует веб-страницы и персонализирует выдачу, используя историю запросов и поведенческие данные

Google использует итеративный метод для тематической классификации веб-страниц, не анализируя их контент напрямую. Система анализирует исторические логи запросов и данные о кликах. Классификация известных страниц переносится на запросы, в результатах которых они появляются, а затем классификация этих запросов переносится на новые страницы. Эти данные используются для построения профилей пользователей и персонализации поисковой выдачи.

US8185544B2
2012-05-22

Персонализация
Поведенческие сигналы
SERP

Как Google итеративно переписывает и повторно отправляет запросы в кастомизированных поисковых системах (CSE/PSE) для соответствия спецификациям администратора

Патент описывает механизм для кастомизированных поисковых систем (например, Google Custom/Programmable Search Engine). Система автоматически оценивает, соответствуют ли результаты поиска спецификации, заданной администратором. Если нет (например, слишком мало результатов или не те сайты), система автоматически переписывает запрос (добавляя ключевые слова или операторы site:) и повторно отправляет его, повторяя цикл до достижения нужного качества выдачи.

US8655862B1
2014-02-18

SERP

Как Google итеративно распознает сущности на страницах и рассчитывает их важность с помощью PageRank

Google использует итеративный процесс для распознавания и устранения неоднозначности сущностей (людей, мест, понятий) в документах. Система начинает с известных фактов, находит упоминающие сущность документы, анализирует сопутствующие термины для уточнения модели распознавания и автоматически обнаруживает новые признаки. Патент также описывает расчет важности сущности путем суммирования PageRank ссылающихся документов, взвешенного на вероятность ссылки.

US8122026B1
2012-02-21

Семантика и интент
Ссылки
Knowledge Graph

Как Google использует данные о поведении пользователей и длительность кликов для улучшения и переписывания поисковых запросов

Google использует систему для автоматического переписывания запросов пользователей. Система анализирует миллионы прошлых поисковых сессий, чтобы определить, как пользователи уточняли свои запросы и насколько они были удовлетворены результатами (измеряя длительность кликов). На основе этого рассчитывается «Ожидаемая полезность» (Expected Utility) для предложенных вариантов запросов, что позволяет Google предлагать пользователю те формулировки, которые с наибольшей вероятностью приведут к качественному ответу.

US7617205B2
2009-11-10

Поведенческие сигналы
Семантика и интент
SERP

Как Google выявляет ссылочный спам (Link Farms и Web Rings), анализируя чувствительность PageRank к изменениям в структуре ссылок

Google использует математический метод для обнаружения искусственного завышения PageRank. Система анализирует, насколько резко меняется ранг страницы при изменении «коэффициента связи» (coupling factor/damping factor). Если ранг страницы слишком чувствителен к этим изменениям (имеет высокую производную), это сигнализирует о наличии манипулятивных структур, таких как ссылочные фермы или веб-кольца.

US7509344B1
2009-03-24

Антиспам
Ссылки
Техническое SEO

Как Google использует организационные структуры (папки, ярлыки) как ссылки для расчета PageRank и ранжирования документов

Google может анализировать, как документы организованы пользователями (например, в папках, через ярлыки или закладки), и использовать эти организационные структуры для расчета рейтинга документа. Документы, концептуально сгруппированные вместе, передают друг другу ранжирующий вес (аналогично PageRank), причем более тесные связи (например, в одной папке) передают больше веса, чем более слабые связи (например, в соседних папках).

US8090736B1
2012-01-03

Ссылки
SERP
Структура сайта

Как Google оценивает и выбирает контент для Featured Snippets (Блоков с ответами) на основе консенсуса выдачи

Google использует систему для выбора и оценки Featured Snippets. Система анализирует топовые результаты поиска, чтобы предсказать, какие термины должны быть в ответе (Answer Terms). Затем она оценивает отрывки текста, учитывая совпадение с запросом, наличие предсказанных терминов ответа (консенсус топа), качество исходного сайта, форматирование и языковую модель контента.

US9940367B1
2018-04-10

SERP
Семантика и интент
EEAT и качество

Как Google рассчитывает авторитетность страниц на основе их близости к доверенным сайтам-источникам (Seed Sites)

Google использует метод ранжирования страниц, основанный на измерении «расстояния» в ссылочном графе от набора доверенных исходных сайтов (Seed Sites) до целевой страницы. Чем короче путь от доверенных источников до страницы, тем выше ее рейтинг авторитетности. Длина ссылки увеличивается (а ее ценность падает), если исходная страница имеет большое количество исходящих ссылок. Этот механизм позволяет эффективно рассчитывать показатели доверия (Trust) в масштабах всего веба.

US9165040B1
2015-10-20

Ссылки
EEAT и качество
Антиспам

Как Google предсказывает следующий запрос пользователя на основе контента текущей страницы и исторических данных

Google использует машинное обучение для анализа логов поведения пользователей, чтобы понять, что они ищут после посещения определенного контента. Система создает совместное векторное пространство (joint embedding) для документов и запросов, где близость отражает семантическую связь и вероятность совместной встречаемости. Это позволяет предлагать релевантные последующие запросы (query suggestions) в реальном времени, даже если ключевые слова для этих запросов на странице отсутствуют.

US9594851B1
2017-03-14

Семантика и интент
Поведенческие сигналы
Персонализация

Как Google использует контекст текущей сессии и поведение похожих пользователей для персонализации и переранжирования выдачи

Google анализирует недавнюю активность пользователя (запросы и клики в рамках сессии), чтобы определить его краткосрочный интерес. Система сравнивает, как другие пользователи с таким же интересом взаимодействовали с результатами по текущему запросу, по сравнению с общим поведением. Если предпочтения статистически значимо различаются, Google переранжирует выдачу, повышая результаты, предпочитаемые «похожей» аудиторией, учитывая при этом время взаимодействия с контентом (Dwell Time).

US8972391B1
2015-03-03

Персонализация
Поведенческие сигналы
SERP

Как Google ранжирует контент на других языках, основываясь на поведении пользователей с одинаковыми языковыми настройками

Google использует статистику кликов (CTR), сегментированную по языковым предпочтениям пользователей, для корректировки ранжирования. Если пользователи, предпочитающие язык X, часто кликают на результат на языке Y, этот результат будет повышен в выдаче для других пользователей с предпочтением языка X. Это позволяет ранжировать контент, популярный у определенной языковой группы, независимо от языка самого контента.

US8375025B1
2013-02-12

Мультиязычность
Поведенческие сигналы
Персонализация

Как Google использует визуальные цитаты и обратную связь для генерации и уточнения ответов в мультимодальном поиске

Google генерирует ответы на мультимодальные запросы (изображение + текст), находя визуально похожие изображения в интернете и используя текст с их исходных страниц как основу для LLM. Система показывает эти изображения как «визуальные цитаты» для подтверждения ответа и позволяет пользователям исключать нерелевантные источники, чтобы мгновенно уточнить сгенерированный результат.

US20240378236A1
2024-11-14

Мультимедиа
EEAT и качество
Ссылки

Как Google использует историю чтения новостных сайтов для определения географических интересов пользователя и персонализации выдачи

Google может определять географические интересы пользователя, анализируя местоположение издателей новостных сайтов, которые он посещал. Эта информация (Geo Signal) используется для корректировки ранжирования будущих поисковых запросов, повышая результаты, релевантные этим интересам, даже если пользователь физически находится в другом месте.

US20130246381A1
2013-09-19

Персонализация
Поведенческие сигналы
SERP

Как Google использует контент веб-страниц для генерации, верификации и адаптации AI-ответов в поиске (SGE/AI Overviews)

Google использует Большие Языковые Модели (LLM) для создания генеративных сводок (AI Overviews/SGE). Для обеспечения точности система не полагается только на знания LLM, а обрабатывает контент из актуальных результатов поиска (SRDs). Патент описывает архитектуру этого процесса: как выбираются источники, как генерируется сводка на их основе (Grounding), как проверяется информация для добавления ссылок (Verification), и как ответ адаптируется под контекст и действия пользователя.

US20250005303A1
2025-01-02

SERP
EEAT и качество
Персонализация