Как Google сегментирует сложные запросы на смысловые компоненты для генерации поисковых подсказок и связанных запросов

GENERATING QUERY REFINEMENTS USING QUERY COMPONENTS (Генерирование уточнений запроса с использованием компонентов запроса)

US9703871B1
Google LLC
2010-07-30
2017-07-11

Google использует механизм для генерации уточнений запроса (поисковых подсказок или связанных запросов) путем разделения исходного запроса на семантические компоненты (устойчивые фразы) с помощью вероятностного анализа. Система находит уточнения для каждого компонента по отдельности, а затем рекомбинирует их, сохраняя исходный порядок. Финальные кандидаты строго фильтруются на основе пользовательских данных (CTR) и синтаксической схожести.

Какую проблему решает

Патент решает задачу генерации качественных и релевантных уточнений запроса (query refinements), таких как поисковые подсказки или блок «Связанные запросы» (Related Searches), особенно для сложных, многосоставных запросов. Традиционные методы могут рассматривать запрос как единое целое, что ограничивает точность предложений. Изобретение улучшает качество уточнений, обрабатывая каждую семантическую единицу запроса по отдельности.

Что запатентовано

Запатентована система компонентной генерации уточнений запроса (Component-Based Query Refinement Engine). Суть изобретения заключается в методе сегментации исходного запроса на значимые компоненты (query components или related phrases) с использованием вероятностной языковой модели. Система находит уточнения для каждого компонента независимо, а затем объединяет их, сохраняя исходный порядок, для формирования финальных кандидатов, которые затем строго фильтруются.

Как это работает

Система работает в несколько этапов:

Сегментация запроса: Запрос делится на возможные комбинации n-grams. Система выбирает ту комбинацию, которая имеет наибольшую суммарную вероятность того, что её части являются устойчивыми фразами (related phrases), основываясь на обучающих данных.
Генерация компонентных уточнений: Для каждого компонента система находит уточнения, используя стандартные методы (например, на основе User Preference Data).
Комбинирование: Уточнения компонентов объединяются для создания кандидатов, сохраняя исходный порядок.
Фильтрация и ранжирование: Кандидаты фильтруются и ранжируются на основе нескольких критериев: показателей вовлеченности (особенно CTR, как указано в Claim 1), общности с компонентами запроса, имеющими наивысший IDF (Inverse Document Frequency), и синтаксической схожести (Syntactic Similarity).

Актуальность для SEO

Высокая. Понимание структуры сложных запросов и предоставление релевантных подсказок остаются ключевыми задачами для улучшения пользовательского опыта в поиске. Сегментация запросов на семантические единицы (сущности, фразы) является фундаментальной частью современного Query Understanding и NLP, даже если конкретные вероятностные модели, описанные в патенте, могли эволюционировать с момента подачи заявки.

Важность для SEO

Патент имеет высокое значение для SEO (80/100). Он раскрывает механизм того, как Google может разбирать многословные запросы на составные части и генерировать связанные запросы. Это подчеркивает стратегическую важность оптимизации контента под семантически целостные фразы и сущности (компоненты), а не отдельные ключевые слова. Понимание этого механизма критически важно для исследования ключевых слов и прогнозирования связанных тем, которые Google считает релевантными.

Термины и определения

Component (Компонент запроса): Сегмент (n-грамма), на который делится исходный запрос. Представляет собой семантически значимую единицу, устойчивую фразу (related phrase) или некомпозиционное соединение (non-compositional compound).
Component Refinements (Компонентные уточнения): Уточнения (подсказки), сгенерированные для отдельного компонента запроса.
N-gram (N-грамма): Последовательность из N последовательных токенов (слов или символов) в тексте.
Related Phrase (Связанная фраза / Устойчивая фраза): N-грамма, термины которой встречаются вместе в тренировочных данных чаще, чем если бы они были независимы друг от друга.
User Preference Data (Данные о предпочтениях пользователей): Агрегированные данные о поведении: логи запросов, показы (impressions), клики (clicks), время пребывания на документе (dwell time).
Click-Through Rate (CTR): Метрика для оценки качества кандидата. Рассчитывается как общее количество кликов на документы, показанные в ответ на запрос-кандидат, деленное на общее количество показов этих документов. Ключевой фильтр в Claim 1.
Inverse Document Frequency (IDF, Обратная частота документа): Мера того, насколько редок или распространен компонент в корпусе документов. Используется для ранжирования кандидатов.
Syntactic Similarity (Синтаксическая схожесть): Мера схожести написания двух строк, часто измеряемая через редакционное расстояние (edit distance).
Training Data (Тренировочные данные): Набор данных (веб-страницы, логи запросов, электронные письма и т.д.), используемый для построения языковой модели и расчета вероятностей related phrases.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает полный метод генерации и фильтрации уточнений запроса на основе компонентов.

Система получает запрос (термины в определенном порядке).
Запрос делится на множество возможных комбинаций упорядоченных n-грамм.
Для каждой комбинации выполняется расчет: определяется вероятность того, что каждая n-грамма является related phrase (встречается вместе чаще, чем случайно). Эти вероятности суммируются.
Идентифицируется комбинация с наибольшей суммарной вероятностью.
N-граммы этой комбинации идентифицируются как компоненты запроса (например, первый и второй компонент), сохраняя порядок.
Для каждого компонента определяются соответствующие компонентные уточнения.
Компонентные уточнения объединяются для создания кандидатов. При этом сохраняется порядок: уточнение первого компонента предшествует уточнению второго.
Кандидаты фильтруются: для каждого рассчитывается оценка на основе его Click-Through Rate (CTR). Кандидаты с оценкой ниже порога удаляются.
Оставшийся набор уточнений предоставляется в ответ на запрос.

Claim 3 (Зависимый от 1): Уточняет расчет вероятности.

Вероятность того, что n-грамма является related phrase, основана на функции её относительной частоты в Training Data.

Claim 5 (Зависимый от 1): Описывает дополнительный механизм ранжирования.

Кандидаты ранжируются по степени общности (commonality) с компонентами исходного запроса, имеющими наивысший IDF.

Claim 6 (Зависимый от 1): Описывает дополнительный механизм фильтрации на основе схожести.

Кандидаты фильтруются на основе Syntactic Similarity с компонентами запроса. Оценка схожести рассчитывается на основе edit distance (редакционного расстояния) между кандидатом и запросом. Кандидаты, не достигающие порога, удаляются.

Где и как применяется

Изобретение применяется на нескольких этапах поисковой архитектуры, преимущественно в офлайн-обработке и на этапе понимания запросов.

INDEXING – Индексирование и извлечение признаков (Офлайн)
На этом этапе рассчитываются данные, необходимые для работы алгоритма: строятся языковые модели на основе Training Data для расчета вероятностей n-грамм; вычисляются значения IDF; агрегируются User Preference Data.

QUNDERSTANDING – Понимание Запросов
Основное применение патента. Component-Based Query Refinement Engine выполняет сегментацию запроса на компоненты, генерацию уточнений, их комбинирование и фильтрацию. Этот процесс может выполняться офлайн для популярных запросов и храниться в базе данных (Refinement Database), либо онлайн.

METASEARCH – Метапоиск и Смешивание
На финальном этапе система извлекает сгенерированные уточнения и формирует блоки поисковой выдачи, такие как «Связанные запросы» (Related Searches) или поисковые подсказки.

Входные данные:

Исходный запрос.
Языковая модель (вероятности n-grams на основе Training Data).
User Preference Data (CTR, клики, показы).
Значения IDF для компонентов.

Выходные данные:

Отфильтрованный и отранжированный список уточнений запроса (Query Refinements).

На что влияет

Специфические запросы: Наибольшее влияние оказывается на многосоставные запросы, содержащие несколько семантических единиц (например, названия продуктов и атрибуты, имена собственные, сложные понятия: “canon eos 5d mark iv battery life”).
Конкретные типы контента: Влияет универсально, так как механизм работает на уровне интерпретации запроса, независимо от типа искомого контента.

Когда применяется

Условия работы: Алгоритм применяется, когда необходимо сгенерировать набор связанных запросов или поисковых подсказок.
Триггеры активации: Активируется для запросов, которые могут быть разделены на несколько компонентов. Если система определяет, что запрос состоит только из одного компонента (например, если суммарная вероятность разделенной комбинации не превышает определенный порог), применяются стандартные методы генерации уточнений.

Пошаговый алгоритм

Процесс работы Component-Based Query Refinement Engine.

Процесс А: Идентификация компонентов (Сегментация)

Разделение на комбинации: Исходный запрос делится на все возможные упорядоченные комбинации n-грамм. (Например, [a b c] делится на {[a],[b],[c]}, {[a b],[c]}, {[a],[b c]}, {[a b c]}).
Расчет вероятностей фраз: Для каждой n-граммы определяется вероятность того, что она является related phrase, на основе частоты в Training Data.
Суммирование вероятностей: Для каждой комбинации рассчитывается сумма вероятностей её составляющих n-грамм.
Выбор лучшей комбинации: Выбирается комбинация с наибольшей суммой вероятностей.
Идентификация компонентов: N-граммы из лучшей комбинации идентифицируются как компоненты запроса.

Процесс Б: Генерация и Комбинирование

Генерация компонентных уточнений: Для каждого компонента система получает набор уточнений (Component Refinements), используя стандартные методы (например, на основе User Preference Data).
Комбинирование уточнений: Система создает кандидатов путем комбинирования уточнений разных компонентов. Комбинации создаются так, чтобы сохранить исходный порядок компонентов запроса.

Процесс В: Фильтрация и Ранжирование

Фильтрация по начальной оценке: Кандидаты фильтруются на основе начальных оценок (например, частота запроса, CTR). Кандидаты ниже порога удаляются.
Ранжирование по IDF: Компоненты исходного запроса ранжируются по IDF. Кандидаты переранжируются на основе их общности с компонентами, имеющими наивысший IDF.
Фильтрация по пользовательским данным: Дополнительная фильтрация на основе сложных метрик User Preference Data (например, взвешенное количество кликов, CTR топовых результатов для кандидата).
Фильтрация по синтаксической схожести: Рассчитывается Syntactic Similarity (например, edit distance) между кандидатом и исходным запросом. Кандидаты с низкой схожестью удаляются.
Вывод результата: Оставшиеся кандидаты формируют финальный набор Query Refinements.

Какие данные и как использует

Данные на входе

Контентные/Лингвистические данные (Training Data): Большой корпус текстов (веб-страницы, логи запросов, электронные письма, блоги и т.д.). Используются для построения языковой модели и определения частоты n-grams.
Поведенческие факторы (User Preference Data): Критически важны для генерации и фильтрации. Включают:
- Логи запросов (частота поиска кандидата).
- Click-Through Rate (CTR) кандидата.
- Взвешенные клики (weighted clicks), учитывающие время просмотра документа (dwell time).
- Клики (clicks) и показы (impressions).
Системные данные (Corpus Statistics): Данные о корпусе документов, используемые для расчета IDF компонентов.

Какие метрики используются и как они считаются

Вероятность Related Phrase: Рассчитывается на основе относительной частоты n-граммы в Training Data. Используется для сегментации.
Суммарная вероятность комбинации: Сумма вероятностей Related Phrase для всех n-грамм в комбинации. Используется для выбора лучшей сегментации.
Initial Score (Начальная оценка): Метрика для первичной фильтрации. Может быть основана на частоте запроса, CTR и т.д.
Inverse Document Frequency (IDF): Используется для определения важности (специфичности) компонентов исходного запроса.

Сегментация запроса — ключевой этап понимания: Google активно пытается разложить запрос на семантически значимые компоненты (Query Components). Это не простое деление на слова, а вероятностный процесс, направленный на выявление устойчивых фраз (related phrases) на основе языковых моделей.
Рекомбинация для генерации идей: Система генерирует уточнения путем независимой обработки компонентов и их последующей рекомбинации. Это позволяет находить связанные запросы, которые могут отличаться от исходного, но остаются в рамках заданной темы.
Порядок слов имеет значение: Порядок слов строго сохраняется как при идентификации компонентов, так и при комбинировании их уточнений (Claim 1), что критично для поддержания смысла запроса.
Валидация через поведение пользователей (CTR): User Preference Data (особенно CTR и взвешенные клики) играют решающую роль в фильтрации. Если пользователи не взаимодействуют с запросом-кандидатом, он будет отфильтрован.
Приоритет специфичных компонентов (IDF): При ранжировании уточнений система отдает предпочтение тем, которые сохраняют общность с наиболее редкими (имеющими высокий IDF) компонентами исходного запроса.
Баланс семантики и синтаксиса: Хотя генерация основана на семантических компонентах, финальная фильтрация использует синтаксическую схожесть (Syntactic Similarity) для удаления кандидатов, которые слишком сильно отличаются по написанию.

Best practices (это мы делаем)

Оптимизация под фразы и сущности (Компоненты): Сосредоточьтесь на оптимизации контента под семантически целостные фразы (related phrases), которые Google может идентифицировать как компоненты. Это повышает вероятность того, что ваш контент будет релевантен как исходному запросу, так и его сгенерированным уточнениям.
Исследование ключевых слов на основе компонентов: При анализе сложных запросов вручную сегментируйте их на потенциальные компоненты и исследуйте семантику для каждого компонента по отдельности. Анализируйте блок «Related Searches», чтобы понять, как Google сегментирует запросы в вашей нише и какие комбинации он предлагает.
Улучшение поведенческих метрик (CTR): Поскольку CTR и взвешенные клики используются для валидации уточнений, крайне важно работать над привлекательностью сниппетов и качеством контента. Высокая вовлеченность по определенным запросам увеличивает вероятность того, что эти запросы станут подсказками для связанных тем.
Фокус на специфичных терминах (High IDF): Уделяйте особое внимание терминам с высоким IDF в вашем запросе. Уточнения, связанные с этими специфичными терминами, получают приоритет при ранжировании связанных запросов.

Worst practices (это делать не надо)

Использование неестественных комбинаций и Keyword Stuffing: Игнорирование естественных словосочетаний и фокус на отдельных словах или неестественных конструкциях противоречит логике патента. Система ищет related phrases на основе вероятностного анализа.
Игнорирование порядка слов в ключевых фразах: Порядок слов важен для сегментации и генерации уточнений. Изменение порядка в устоявшихся фразах может привести к некорректной интерпретации компонентов.
Оптимизация только под общие термины (Low IDF): Фокусировка исключительно на общих терминах (низкий IDF) может привести к тому, что связанные запросы будут ранжироваться ниже, чем те, которые связаны с более специфичными компонентами запроса.

Стратегическое значение

Патент подтверждает переход Google от анализа отдельных ключевых слов к пониманию фраз, компонентов и структуры запроса. Стратегическое значение заключается в необходимости глубокого понимания того, как пользователи комбинируют термины (естественный язык) и как Google интерпретирует эти комбинации. SEO-стратегия должна учитывать не только основные запросы, но и то, как они могут быть сегментированы и расширены системой. Это также подчеркивает критическую важность данных о поведении пользователей (CTR) для валидации работы лингвистических алгоритмов.

Практические примеры

Сценарий: Анализ и оптимизация под сложный продуктовый запрос в E-commerce

Исходный запрос: “buy nike air max 270 red”
Сегментация (Предполагаемая): Система анализирует вероятности. Скорее всего, будут выделены компоненты: [buy] (Компонент 1), [nike air max 270] (Компонент 2), [red] (Компонент 3).
Анализ IDF: [nike air max 270] вероятно будет иметь наивысший IDF (наиболее специфичный компонент).
Генерация компонентных уточнений:
- Для [buy] -> “purchase”, “sale”
- Для [nike air max 270] -> “nike air max 270 review”, “nike air max 270 women”
- Для [red] -> “black”, “blue”
Комбинирование (Примеры):
- [buy] [nike air max 270 women] [red]
- [buy] [nike air max 270] [black]
- [sale] [nike air max 270] [red]
Ранжирование и Фильтрация: Уточнения, сохраняющие [nike air max 270] (высший IDF), будут ранжироваться выше. Уточнения с высоким CTR в логах (например, “buy nike air max 270 black”) пройдут фильтрацию.
SEO-действие: Убедиться, что страницы товаров оптимизированы под полные названия моделей ([nike air max 270]) и включают информацию о различных атрибутах (цвета, размеры) и связанных интентах (sale, women's), чтобы соответствовать потенциальным сгенерированным уточнениям и перехватывать трафик из блока «Related Searches».

Как система определяет, на какие компоненты разделить запрос?

Система использует вероятностный подход. Она делит запрос на все возможные комбинации последовательных n-грамм и для каждой n-граммы оценивает вероятность того, что она является устойчивой фразой (related phrase), основываясь на частоте её встречаемости в тренировочных данных (языковой модели). Выбирается та комбинация n-грамм, которая имеет максимальную суммарную вероятность.

Что такое “Related Phrase” (Связанная фраза) в контексте этого патента?

Related Phrase – это последовательность слов (n-грамма), чьи термины встречаются вместе значительно чаще, чем можно было бы ожидать при их независимом употреблении. Это указывает на семантическую связь (например, «New York»). Система стремится распознать такие фразы как единые компоненты при сегментации запроса.

Какие данные используются для фильтрации сгенерированных уточнений (подсказок)?

Фильтрация многоэтапная. Ключевыми являются User Preference Data: в частности, CTR кандидата (обязательный фильтр согласно Claim 1), частота запроса, взвешенное количество кликов. Также используются IDF компонентов исходного запроса для ранжирования и Syntactic Similarity (редакционное расстояние) для финальной очистки.

Какую роль играет IDF (Inverse Document Frequency) в этом процессе?

IDF используется для определения наиболее важных (редких и специфичных) компонентов исходного запроса. При ранжировании сгенерированных уточнений система отдает предпочтение тем кандидатам, которые сохраняют общность с компонентами, имеющими наивысший IDF. Это помогает гарантировать, что уточнения остаются сфокусированными на основной теме запроса.

Сохраняет ли система порядок компонентов при генерации уточнений?

Да, в основном варианте реализации (Claim 1) система комбинирует уточнения так, чтобы сохранить исходный порядок компонентов. Уточнение первого компонента всегда предшествует уточнению второго компонента. Это критично для сохранения логической структуры и смысла запроса.

Как этот патент влияет на стратегию исследования ключевых слов?

Он требует перехода от анализа отдельных слов к анализу фраз и семантических компонентов. SEO-специалистам следует идентифицировать ключевые related phrases в своей нише и исследовать семантику для каждого компонента по отдельности, чтобы понять весь спектр потенциальных уточнений, которые генерирует Google.

Если мой запрос состоит из одного слова, применим ли этот патент?

Если система определяет, что запрос состоит только из одного компонента (что верно для однословных запросов или неразделимых фраз), то механизм сегментации и рекомбинации не активируется. В этом случае система будет использовать стандартные методы генерации уточнений.

Что важнее для прохождения фильтрации: семантическая близость или CTR?

Оба фактора важны, но CTR является обязательным условием для прохождения фильтрации (Claim 1). Даже семантически близкое уточнение будет отброшено, если данные показывают низкий интерес пользователей к нему. Это подчеркивает важность пользовательского опыта и вовлеченности для всех аспектов поиска.

Что такое синтаксическая схожесть (Syntactic Similarity) и зачем она используется?

Синтаксическая схожесть измеряет, насколько похожи написания кандидата и исходного запроса (например, через edit distance). Она используется на финальном этапе фильтрации для удаления кандидатов, которые могут быть семантически связаны, но выглядят слишком иначе по написанию, что может смутить пользователя.

Где я могу увидеть работу этого алгоритма в поиске Google?

Результаты работы этого алгоритма можно наблюдать в блоке «Related Searches» (Связанные запросы) внизу страницы выдачи, а также потенциально в поисковых подсказках при вводе запроса (Auto-Complete), особенно когда вы вводите длинный и сложный запрос, состоящий из нескольких компонентов.

Как Google генерирует связанные запросы (Related Searches), используя сущности из топовых результатов и сохраняя структуру исходного запроса

Google использует систему для автоматической генерации уточнений запросов (например, «Связанные запросы»). Система анализирует топовые документы в выдаче и извлекает из них ключевые сущности. Затем эти сущности комбинируются с важными терминами исходного запроса, при этом строго сохраняется исходный порядок слов, чтобы создать релевантные и естественно звучащие предложения для дальнейшего поиска.

US8392443B1
2013-03-05

Семантика и интент
Поведенческие сигналы

Как Google создает новые поисковые подсказки (Autocomplete), комбинируя структуры и термины из прошлых запросов

Google расширяет покрытие поисковых подсказок (Autocomplete), создавая новые, ранее не использованные запросы. Система анализирует логи, находит запросы с похожей структурой (шаблоны), определяет семантически близкие термины (используя distributional similarity) и комбинирует их. Это позволяет предлагать пользователям релевантные подсказки, даже если такой запрос никогда ранее не вводился.

US8521739B1
2013-08-27

Семантика и интент

Как Google может генерировать альтернативные запросы из контента страниц и встраивать их в сниппеты

Google использует механизм для помощи пользователям в уточнении их поискового намерения. Система анализирует текст веб-страниц в результатах поиска и находит фразы, похожие на исходный запрос или характеризующие документ. Эти фразы затем встраиваются непосредственно в сниппеты как кликабельные предложения для нового поиска, облегчая навигацию и уточнение запроса.

US9183323B1
2015-11-10

Семантика и интент
SERP

Как Google находит и предлагает более эффективные формулировки запросов через каноникализацию и оценку полезности

Google использует механизм для улучшения поисковых подсказок (Autocomplete). Система определяет запросы, которые имеют идентичную каноническую форму (тот же базовый интент после нормализации), но структурно отличаются от вводимого текста. Среди этих альтернатив выбираются те, которые исторически приводили к более высокой удовлетворенности пользователей (Query Utility Score), и предлагаются для повышения качества поиска.

US8868591B1
2014-10-21

Семантика и интент

Как Google группирует похожие запросы и поисковые подсказки, определяя интент пользователя через анализ сессий и кликов

Google использует графовую модель (Марковскую цепь) для кластеризации поисковых подсказок и связанных запросов. Система анализирует, какие запросы пользователи вводят в одной сессии и на какие документы они кликают. Это позволяет сгруппировать запросы, ведущие к схожему контенту, и предложить пользователю разнообразный набор подсказок, отражающих разные интенты.

US8423538B1
2013-04-16

Семантика и интент
Поведенческие сигналы
SERP

Как Google использует персонализированный PageRank ссылающихся страниц для переоценки значимости анкорного текста

Google может персонализировать поисковую выдачу, изменяя вес анкорного текста ссылок. Вес ссылки зависит не от глобального PageRank ссылающейся страницы, а от её "персонализированного PageRank", рассчитанного на основе предпочтений пользователя (например, любимых сайтов или тематик). Это позволяет повышать в выдаче документы, на которые ссылаются авторитетные для конкретного пользователя источники.

US7260573B1
2007-08-21

Персонализация
Ссылки

Как Google позволяет вебмастерам управлять весом и интерпретацией исходящих ссылок через атрибуты тега (Основа nofollow)

Google запатентовал механизм, позволяющий вебмастерам добавлять в теги ссылок () специальные пары "параметр=значение" (например, rel=nofollow или linkweight=0.5). Эта информация используется краулером и поисковой системой для изменения способа обработки ссылки, например, для корректировки передаваемого веса (PageRank) или блокировки ее учета.

US7979417B1
2011-07-12

Ссылки
Краулинг
Техническое SEO

US8423538B1
2013-04-16

Семантика и интент
Поведенческие сигналы
SERP

Как Google рассчитывает «VisualRank» для изображений и медиафайлов, используя виртуальные ссылки на основе схожести и поведения пользователей

Google использует алгоритм (концептуально называемый VisualRank) для ранжирования изображений и других медиафайлов путем создания «виртуальных ссылок» между ними. Эти ссылки основаны на визуальной схожести контента, данных о кликах пользователей и контексте размещения (URL analysis). Это позволяет оценить качество и авторитетность медиафайлов даже без явных гиперссылок, при этом система активно избегает показа слишком похожих (дублирующихся) результатов.

US8732187B1
2014-05-20

Ссылки
Мультимедиа
Поведенческие сигналы

Как Google запоминает прошлые уточнения поиска пользователя и автоматически перенаправляет его к конечному результату

Google использует механизм персонализации, который отслеживает, как пользователи уточняют свои поисковые запросы. Если пользователь часто вводит общий запрос, а затем выполняет ряд действий (например, меняет запрос или взаимодействует с картой), чтобы добраться до конкретного результата, система запоминает эту последовательность. В будущем, при вводе того же общего запроса, Google может сразу показать конечный результат, минуя промежуточные шаги.

US9305102B2
2016-04-05

Персонализация
Поведенческие сигналы

Как Google использует машинное обучение и поведенческие данные для прогнозирования полезности документов и решает, что включать в поисковый индекс

Google использует модель машинного обучения для определения, какие документы включать в поисковый индекс. Модель обучается на исторических данных о кликах и показах, чтобы предсказать будущую «оценку полезности» (Utility Score) документа. Документы ранжируются по этой оценке, а также с учетом других факторов (например, PageRank, стоимость индексации, свежесть, квоты), и лучшие из них попадают в индекс.

US8255386B1
2012-08-28

Индексация
Поведенческие сигналы

Как Google использует гибридную классификацию и данные о кликах пользователей для точного определения тематики контента

Google использует многоэтапный процесс для классификации контента в детальные иерархические категории. Система комбинирует традиционные методы классификации с анализом поисковых запросов и кликов пользователей (подтвержденных результатов поиска). Это позволяет точно определить узкоспециализированную тематику документа, фильтруя нерелевантные категории и взвешивая релевантность на основе TF-IDF и глубины иерархии.

US8145636B1
2012-03-27

Семантика и интент
Поведенческие сигналы

Как Google использует машинное обучение для оптимизации обхода Knowledge Graph и поиска связанных концепций

Google оптимизирует обход Knowledge Graph для эффективного поиска семантически связанных фраз. Вместо анализа всех связей сущности система использует ML-модели для выбора только тех отношений (свойств), которые вероятнее всего приведут к ценным результатам. Этот выбор основан на истории поисковых запросов и контексте пользователя, что позволяет экономить вычислительные ресурсы и повышать релевантность предложений.

US10140286B2
2018-11-27

Knowledge Graph
Семантика и интент
Персонализация

Как Google использует машинное обучение (Learning to Rank) для имитации оценок асессоров и улучшения ранжирования

Google использует технологию Learning to Rank для обучения статистических моделей, которые имитируют оценки человеческих асессоров. Модели анализируют объективные сигналы (статические и поведенческие) для пары запрос/документ и предсказывают, насколько релевантным этот документ сочтет человек. Эти прогнозы затем используются для ранжирования результатов поиска.

US8195654B1
2012-06-05

Поведенческие сигналы
SERP

Как Google выбирает модель визуальной релевантности для сложных запросов в Поиске по картинкам

Google решает проблему ранжирования изображений для сложных или редких запросов, для которых нет специализированной модели релевантности. Система тестирует существующие модели, созданные для частей запроса (подзапросов), и выбирает ту, которая лучше всего соответствует поведению пользователей (кликам) по исходному запросу. Это позволяет улучшить визуальную релевантность в Image Search.

US9152652B2
2015-10-06

Поведенческие сигналы
Мультимедиа
Семантика и интент