SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google использует историю запросов в сессии для эффективного распознавания фраз (N-грамм) и понимания уточнений пользователя

CONTEXTUAL N-GRAM ANALYSIS (Контекстуальный анализ N-грамм)
  • US8359326B1
  • Google LLC
  • 2008-04-02
  • 2013-01-22
  • Семантика и интент
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Google оптимизирует процесс распознавания фраз (N-грамм) в запросе, анализируя предыдущий запрос пользователя в той же сессии. Если пользователь уточняет запрос, добавляя новые слова, система исключает эти новые слова из анализа N-грамм в сочетании со старыми терминами. Это повышает эффективность и позволяет точнее понять, какие слова являются единым понятием, а какие — дополнительными уточнениями.

Описание

Какую проблему решает

Патент решает две ключевые проблемы при обработке поисковых запросов. Во-первых, он снижает вычислительную сложность (computationally intensive) анализа N-грамм, так как проверка всех возможных комбинаций слов в запросе ресурсоемка. Во-вторых, он повышает точность интерпретации запросов, помогая отличить устойчивые фразы (например, "hot dog") от случайной последовательности ключевых слов, особенно когда пользователь уточняет свой поиск.

Что запатентовано

Запатентована система контекстуального анализа N-грамм (в частности, биграмм), которая использует историю запросов в рамках одной поисковой сессии (Search Session). Суть изобретения — в выборочном исключении определенных комбинаций слов из анализа N-грамм. Если пользователь уточняет запрос, добавляя или изменяя термины, система предполагает, что эти новые термины не образуют фразу с терминами, перенесенными из предыдущего запроса.

Как это работает

Механизм работает путем сравнения последовательных запросов в сессии:

  • Отслеживание сессии: Идентифицируется последовательность запросов (Q1, затем Q2) от одного пользователя.
  • Сравнение и классификация: Сравниваются термины и их порядковые позиции (ordinal position) в Q1 и Q2. Выделяются Common Terms (общие термины, сохранившие позицию) и Differing Search Terms (новые или перемещенные термины).
  • Контекстуальное исключение: Система исключает из анализа N-грамм пары, состоящие из Common Term и смежного с ним Differing Search Term.
  • Пример: Если Q1="A B", а Q2="A B C". "A B" анализируется. "B C" исключается из анализа, так как C — новый термин.

Актуальность для SEO

Высокая. Понимание контекста сессии и точная интерпретация эволюционирующего намерения пользователя являются фундаментальными задачами современных поисковых систем. Хотя методы распознавания фраз эволюционировали с появлением нейронных сетей (BERT/MUM), базовая логика использования истории сессии для эффективной и точной сегментации запроса остается крайне актуальной.

Важность для SEO

Патент имеет умеренное значение (6/10) для SEO. Он не описывает факторы ранжирования, но критически важен для понимания этапа Query Understanding. Он объясняет, как Google интерпретирует составные и уточненные запросы. Точное определение границ N-грамм и модификаторов напрямую влияет на расчет релевантности. Понимание этого механизма важно для разработки стратегий, ориентированных на всё поисковое путешествие пользователя (Search Journey).

Детальный разбор

Термины и определения

N-gram / Bigram (N-грамма / Биграмма)
Последовательность из N (или 2 для биграммы) слов, имеющих статистически значимую вероятность появляться вместе. Используется для идентификации устойчивых фраз.
Search Session (Поисковая сессия)
Последовательность запросов от одного пользователя в пределах определенной близости (predefined proximity), которая может определяться временем или семантической связью.
Ordinal Position (Порядковая позиция)
Местоположение (порядковый номер) термина в поисковом запросе. Критически важный параметр для данного патента.
Common Terms (Общие термины)
Термины, присутствующие как в предыдущем (Q1), так и в текущем (Q2) запросе. Согласно патенту (Claim 1), они обязаны занимать одну и ту же Ordinal Position в обоих запросах.
Differing Search Terms (Различающиеся термины)
Термины в Q2, которых не было в Q1, или термины, которые изменили свою Ordinal Position. Включают Additional и Substitute термины.
Additional Search Terms (Дополнительные термины)
Различающиеся термины, добавленные в конец запроса (их позиция в Q2 больше, чем длина Q1).
Substitute Search Terms (Замещающие термины)
Различающиеся термины, которые заменили термин на той же позиции в Q1.
Known Bigrams (Известные биграммы)
Хранилище предварительно идентифицированных фраз, созданное путем анализа больших корпусов документов (Document Corpora).

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод контекстуального анализа биграмм с учетом позиций.

  1. Система получает первый запрос (Q1) в сессии, фиксируя порядковые позиции терминов.
  2. Система получает последующий запрос (Q2) в той же сессии.
  3. Идентифицируются differing search terms в Q2 (термины, отсутствующие в Q1).
  4. Идентифицируются common terms. Критическое условие: термин должен быть в обоих запросах И иметь одинаковую порядковую позицию в Q1 и Q2.
  5. Идентифицируются adjacent common terms (общие термины, находящиеся рядом друг с другом в обоих запросах).
  6. Система отправляет adjacent common terms на анализ биграмм для Q2.
  7. Система исключает differing search terms из анализа биграмм для Q2 (в комбинации с общими терминами).

Ядро изобретения — использование контекста сессии и строгого требования к сохранению позиции для сокращения пространства анализа. Если слово добавлено или перемещено, оно исключается из анализа в комбинации со старыми терминами.

Claim 9 (Независимый пункт): Обобщает метод Claim 1 для N-грамм любой длины.

Логика идентична Claim 1, но применяется к n-gram analysis. Система исключает различающиеся термины из анализа N-грамм в текущем запросе, основываясь на сравнении с предыдущим запросом и порядковыми позициями.

Claims 3, 4, 10 (Зависимые пункты): Уточняют обработку различающихся терминов.

Хотя различающиеся термины исключаются из анализа в комбинации с общими терминами, они могут быть проанализированы между собой. Если несколько Additional или Substitute терминов идут подряд, они могут быть отправлены на анализ N-грамм отдельно.

Где и как применяется

Изобретение применяется на этапе интерпретации запроса для его предобработки.

QUNDERSTANDING – Понимание Запросов
Это основная фаза применения. Contextual Bigram Analysis System работает как модуль обработки запроса в реальном времени для определения его структуры.

  1. Идентификация сессии: Session Identification Component определяет, является ли запрос частью активной сессии, используя Session Log.
  2. Сравнение запросов: Query Comparison Component сравнивает текущий запрос с предыдущим.
  3. Исключение и разметка: Potential Bigram Identification Component применяет логику исключения.
  4. Интерпретация запроса: Запрос передается в Search Engine (на этап Ранжирования) либо с разметкой исключенных пар, либо уже реформулированный с идентифицированными N-граммами.

INDEXING – Индексирование и извлечение признаков
На этом этапе происходит необходимый офлайн-процесс: статистический анализ Document Corpora для генерации базы Known Bigrams.

Входные данные:

  • Текущий запрос (Q2).
  • Предыдущий запрос (Q1).
  • Данные сессии (ID пользователя, временные метки).
  • (Опционально) База данных Known Bigrams.

Выходные данные:

  • Аннотированный или реформулированный запрос Q2 с идентифицированными N-граммами и исключенными парами.

На что влияет

  • Специфические запросы: Наибольшее влияние на уточняющие запросы (query refinements) и длиннохвостые запросы (long-tail queries), где пользователи добавляют модификаторы (цена, цвет, место) к основному понятию.
  • Интерпретация интента: Помогает системе сегментировать запрос на основную сущность и дополнительные фильтры.

Когда применяется

  • Триггер активации: Пользователь отправляет новый запрос (Q2) в рамках активной поисковой сессии (наличие Q1).
  • Условие срабатывания: Q2 содержит хотя бы один общий термин (Common Term) с Q1 (с учетом позиции) И хотя бы один различающийся термин (Differing Search Term).
  • Исключения: Если Q2 не имеет общих терминов с Q1 или если порядок слов изменился (например, Q1="A B", Q2="B A"), что приводит к отсутствию Common Terms по строгому определению, механизм не активируется.

Пошаговый алгоритм

Процесс обработки запроса в реальном времени

  1. Получение запросов (Q1, Q2): Система получает последовательность запросов в рамках одной сессии.
  2. Сравнение запросов: Анализ терминов и их Ordinal Positions в Q1 и Q2.
  3. Проверка наличия совпадений терминов: Определяется, есть ли совпадения терминов (вне зависимости от позиции).
    • Если НЕТ: Отправить Q2 на стандартную обработку (Submit Second Query to Search Engine).
    • Если ДА: Перейти к шагу 4.
  4. Идентификация Common Terms: Идентифицируются термины, присутствующие в обоих запросах на одинаковых позициях.
  5. Идентификация Differing Terms: Идентифицируются новые, замененные или перемещенные термины в Q2 (Identify Differing Search Terms).
  6. Применение логики исключения (Exclusion): Система помечает пары, состоящие из Common Term и смежного Differing Term, как не подлежащие анализу N-грамм (Exclude Differing Search Terms from Bigram Analysis).
  7. Идентификация потенциальных N-грамм (Inclusion): Идентифицируются оставшиеся пары для анализа:
    • Пары смежных Common Terms.
    • (Опционально) Пары смежных Differing Terms.
  8. Анализ N-грамм: Оставшиеся потенциальные N-граммы сравниваются с базой Known N-grams.
  9. Передача запроса: Обработанный запрос Q2 передается в поисковую систему.

Какие данные и как использует

Данные на входе

  • Структурные факторы (запроса): Текст запроса и Ordinal Position (порядок слов) являются критически важными входными данными для сравнения Q1 и Q2.
  • Пользовательские и Поведенческие факторы (Session Data): История запросов в рамках сессии (Session Log). Идентификатор пользователя и временные метки используются для определения границ сессии.
  • Лингвистические данные (Системные): База данных Known Bigrams, предварительно рассчитанная офлайн на основе анализа Document Corpora.

Какие метрики используются и как они считаются

Система использует преимущественно логические операции сравнения и статистические данные:

  • Term Match (Совпадение термина): Булева проверка эквивалентности термина в Q1 и Q2.
  • Ordinal Position Match (Совпадение порядковой позиции): Булева проверка эквивалентности позиции термина.
  • Common Term Identification: TermMatch AND OrdinalPositionMatchTerm Match\ AND\ Ordinal Position MatchTermMatch AND OrdinalPositionMatch.
  • N-gram Probability (Вероятность N-граммы): Статистическая вероятность совместного появления слов (выше ожидаемой случайной вероятности), используемая для наполнения базы Known Bigrams.
  • Session Boundaries (Границы сессии): Определяются с помощью временных порогов (например, 5-10 минут) или метрик связанности запросов.

Выводы

  1. Контекст сессии активно формирует интерпретацию запроса: Google не рассматривает запросы изолированно. История сессии используется для определения того, как именно пользователь уточняет свой интент на этапе Query Understanding.
  2. Уточнения интерпретируются как отдельные сегменты (Негативное определение N-грамм): Система предполагает, что новые слова (Differing Terms), добавленные к запросу, являются модификаторами или новыми концепциями, а не частью фразы со старыми словами (Common Terms). Это позволяет исключить маловероятные комбинации из анализа.
  3. Критичность и ограниченность Ordinal Position: Механизм строго зависит от сохранения порядка слов. Если пользователь меняет порядок слов, контекст (в рамках этого механизма) теряется, так как термины перестают считаться "общими" из-за изменения позиции.
  4. Двойная цель: Эффективность и Точность: Патент направлен на снижение вычислительной нагрузки за счет сокращения анализа N-грамм и одновременно на повышение точности за счет избегания ложного распознавания фраз при обработке уточняющих запросов.

Практика

Best practices (это мы делаем)

  • Анализ поисковых сценариев (Search Journeys): Изучайте, как пользователи в вашей нише последовательно уточняют запросы. Понимание типичных путей (от общего к частному) поможет понять, какие термины Google склонен считать устойчивыми фразами (N-граммами), а какие — модификаторами.
  • Оптимизация под устоявшиеся N-граммы: Убедитесь, что ключевые понятия (названия продуктов, брендов, услуг) используются в контенте в естественном и последовательном виде. Это повышает вероятность их распознавания как Known Bigrams.
  • Структурирование контента под Long-Tail запросы: Создавайте контент, понимая, как Google сегментирует запрос. Патент подтверждает, что система обрабатывает основной объект поиска и добавленные модификаторы как отдельные понятия. Например, для "кроссовки Nike Air Max купить недорого", система выделит "Nike Air Max" (N-грамма) и отдельно учтет "купить" и "недорого" (модификаторы).
  • Соблюдение естественного порядка слов: Используйте естественный порядок слов в заголовках и тексте, так как ordinal position учитывается при распознавании фраз.

Worst practices (это делать не надо)

  • Игнорирование порядка слов в ключевых фразах: Строгое требование к Ordinal Position указывает на важность структуры фразы. Не стоит полагаться на то, что Google "поймет" намерение, если порядок слов в контенте неестественен.
  • Искусственное создание N-грамм: Попытки продвигать неестественные словосочетания неэффективны, так как система опирается на статистический анализ больших корпусов текста (Document Corpora) для идентификации Known Bigrams.
  • Оптимизация под случайные сочетания: Не пытайтесь оптимизировать под неестественные сочетания, возникающие при уточнении. Например, по запросу "Hotels New York Cheap", Google, вероятно, исключит "York Cheap" из анализа N-грамм, рассматривая "Cheap" как отдельный модификатор.

Стратегическое значение

Патент подтверждает стратегический переход от анализа изолированных запросов к анализу поведения пользователя в рамках сессии. Для SEO это означает, что стратегически важно понимать весь путь пользователя (Customer Journey Map) и то, как контент сайта соответствует различным этапам этого пути. Google интерпретирует намерение динамически, сегментируя уточненные запросы на основе предыдущих действий пользователя.

Практические примеры

Сценарий 1: Уточнение запроса в E-commerce

  1. Анализ поведения: Пользователь ищет Q1: "Холодильник Samsung RB37J". Затем уточняет Q2: "Холодильник Samsung RB37J отзывы".
  2. Интерпретация Google (согласно патенту):
    • Common Terms (сохранили позицию): "Холодильник", "Samsung", "RB37J". Они анализируются на N-граммы.
    • Differing Term: "отзывы".
    • Исключение: Пара ("RB37J", "отзывы") исключается из анализа N-грамм. Google понимает, что "отзывы" — это уточнение интента.
  3. Действия SEO-специалиста: Оптимизировать страницу продукта так, чтобы она была релевантна как основному продукту (N-грамме), так и интенту "отзывы" (модификатору).

Сценарий 2: Изменение порядка слов (Сброс контекста)

  1. Исходный запрос (Q1): "билеты москва париж"
  2. Уточненный запрос (Q2): "париж москва билеты"
  3. Применение патента: Все слова присутствуют в обоих запросах, но их Ordinal Position изменился. Согласно строгому определению Claim 1, нет Common Terms.
  4. Результат: Контекст сбрасывается. Q2 обрабатывается как новый запрос, и все пары ("париж москва", "москва билеты") анализируются стандартным образом.

Вопросы и ответы

Напрямую ли этот патент влияет на ранжирование?

Нет, напрямую не влияет. Патент описывает механизм на этапе понимания запроса (Query Understanding). Он помогает Google более точно и эффективно интерпретировать, что ищет пользователь, определяя, какие слова являются фразой, а какие — отдельными ключевыми словами. Точное понимание запроса затем позволяет системе ранжирования лучше подобрать релевантные документы.

Что такое "Ordinal Position" и почему это так важно в этом патенте?

Ordinal Position — это порядковый номер слова в запросе. Это критически важно, потому что патент требует, чтобы слова не просто присутствовали в обоих запросах, но и находились на одном и том же месте, чтобы считаться Common Terms. Если пользователь меняет порядок слов (например, с "A B" на "B A"), система считает, что контекст изменился, и не применяет логику контекстуального исключения.

Что патент определяет как "поисковую сессию"?

Патент предлагает несколько вариантов определения границ сессии (Session Boundary). Это может быть фиксированный период времени между запросами от одного пользователя (например, 5-10 минут бездействия завершают сессию). Также это может определяться входом/выходом пользователя из системы или анализом смысловой взаимосвязи между запросами (например, наличие общих терминов).

Означает ли этот патент, что Google игнорирует новые слова в уточненном запросе?

Абсолютно нет. Новые слова (Differing Search Terms) полностью учитываются при поиске. Патент лишь описывает, что эти новые слова исключаются из анализа N-грамм в комбинации со старыми словами (Common Terms). Это помогает избежать ошибочного предположения, что новое слово образует устойчивую фразу со словом, рядом с которым оно было добавлено.

Если я добавлю два новых слова подряд, будут ли они проанализированы как N-грамма?

Да. Патент уточняет (Claims 3, 4, 10), что хотя новые слова (Differing Terms) исключаются из анализа в паре со старыми словами (Common Terms), они могут быть проанализированы на предмет образования N-граммы между собой. Например, если Q1="A B", а Q2="A B C D", то "B C" исключается, но "C D" может быть проанализировано.

Как SEO-специалисту использовать эту информацию на практике?

Основное применение — это понимание того, как Google сегментирует сложные запросы. При создании контента важно фокусироваться на естественных N-граммах (основное понятие) и покрывать релевантные уточнения (модификаторы). Также важно изучать сценарии поиска пользователей (Search Journeys), чтобы понять, как эволюционируют запросы от общих к конкретным.

Является ли этот механизм устаревшим с появлением BERT и MUM?

Хотя современные модели (BERT, MUM) используют гораздо более сложные методы для понимания контекста, базовая идея использования контекста сессии для интерпретации запроса остается фундаментальной. Этот патент описывает конкретную эвристику для повышения эффективности и точности сегментации запроса, которая может использоваться наряду с нейросетевыми моделями.

Откуда Google берет список "Известных N-грамм" (Known N-grams)?

Список Known N-grams генерируется офлайн путем статистического анализа больших корпусов документов (Document Corpora), таких как веб-индекс. Система использует статистические методы для выявления пар или групп слов, которые появляются вместе значительно чаще, чем можно было бы ожидать случайно.

Какова основная польза этого патента для Google: экономия ресурсов или улучшение качества поиска?

Обе цели. Экономия ресурсов (повышение эффективности) достигается за счет сокращения количества пар слов, которые нужно анализировать. Улучшение качества поиска (повышение точности) достигается за счет более точной интерпретации намерений пользователя при уточнении запроса и предотвращения ошибочного распознавания случайных сочетаний слов как фраз.

Что происходит, если система ошибочно исключит реальную N-грамму из анализа?

Если система исключит пару слов из анализа N-грамм, эти слова будут обработаны как отдельные ключевые слова. Это может привести к немного менее точной интерпретации запроса. Однако эвристика патента основана на предположении, что при уточнении запроса новые слова чаще являются модификаторами, а не частью новой фразы со старыми словами.

Похожие патенты

Как Google интерпретирует последовательные запросы для автоматического уточнения поискового намерения пользователя
Google использует механизм для понимания контекста сессии, анализируя последовательные запросы (например, Q1: [рестораны в Москве], затем Q2: [итальянские]). Система автоматически объединяет их в уточненный запрос (Q3: [итальянские рестораны в Москве]), основываясь на исторических данных о том, как пользователи обычно уточняют запросы. Это позволяет системе лучше понимать намерение пользователя в диалоговом режиме.
  • US9116952B1
  • 2015-08-25
  • Семантика и интент

  • Поведенческие сигналы

Как Google использует историю запросов в текущей сессии для понимания контекста и переписывания неоднозначных запросов
Google анализирует предыдущие запросы пользователя в рамках текущей сессии, чтобы понять контекст нового запроса. Если новый запрос неоднозначен или содержит отсылки (например, местоимения типа «он», «это»), система пытается объединить его с сущностями из предыдущих запросов. Это позволяет переписать запрос более точно (например, заменить «он» на имя человека), чтобы предоставить результаты, соответствующие истинному намерению пользователя.
  • US9547690B2
  • 2017-01-17
  • Семантика и интент

Как Google понижает вес уточняющих слов при последовательных запросах в рамках одной сессии
Google анализирует историю запросов пользователя в рамках одной сессии. Если новый запрос является прямым расширением предыдущего (например, "погода Москва" -> "погода Москва завтра"), система снижает вес добавленных терминов ("завтра") или делает их опциональными. Это гарантирует, что результаты останутся сфокусированными на исходном намерении пользователя, а уточнения используются как фильтры.
  • US8645409B1
  • 2014-02-04
  • Семантика и интент

  • Персонализация

Как Google понимает контекст последовательных запросов и переписывает их для уточнения интента пользователя
Google использует систему для интерпретации серийных запросов, особенно в голосовом поиске. Если новый запрос является уточнением предыдущего (например, [погода завтра], затем [а во вторник]), система генерирует варианты, комбинируя старый и новый интенты. Затем она ранжирует эти варианты на основе популярности и семантической логики, чтобы выполнить наиболее вероятный итоговый запрос пользователя ([погода во вторник]).
  • US9165028B1
  • 2015-10-20
  • Семантика и интент

Как Google использует историю запросов в текущей сессии и статистические паттерны для переранжирования результатов
Google анализирует миллионы прошлых поисковых сессий, выявляя статистически значимые последовательности запросов («Пути Запросов»), которые заканчиваются кликом на определенный URL («Конечная Точка Контента»). Когда текущая сессия пользователя совпадает с историческим путем, Google переранжирует результаты, повышая те URL, которые исторически удовлетворяли пользователей в аналогичном контексте, пропорционально вероятности их выбора.
  • US7610282B1
  • 2009-10-27
  • Поведенческие сигналы

  • SERP

  • Семантика и интент

Популярные патенты

Как Google использует вовлеченность пользователей на связанных страницах (Reachability Score) для ранжирования основного документа
Google рассчитывает «Оценку Достижимости» (Reachability Score), анализируя, как пользователи взаимодействуют со страницами, на которые ссылается основной документ (внутренние и исходящие ссылки). Если пользователи активно переходят по этим ссылкам (высокий CTR) и проводят время на целевых страницах (высокое время доступа), основной документ получает повышение в ранжировании. Этот механизм измеряет потенциальную глубину и качество пользовательской сессии.
  • US8307005B1
  • 2012-11-06
  • Поведенческие сигналы

  • Ссылки

  • SERP

Как Google использует время пребывания на странице (Dwell Time) для оценки качества и корректировки ранжирования
Google анализирует продолжительность визитов пользователей на страницы из результатов поиска (Dwell Time). Система рассчитывает метрику, сравнивающую количество «длинных кликов» (длительных визитов) с общим количеством кликов для конкретного документа по конкретному запросу. Этот показатель используется как сигнал качества, независимый от позиции в выдаче, для повышения или понижения документа в ранжировании.
  • US8661029B1
  • 2014-02-25
  • Поведенческие сигналы

  • SERP

Как Google использует погоду, время и местоположение для понимания истинного намерения пользователя и адаптации поисковой выдачи
Google анализирует, как физическое окружение (погода, время, местоположение) влияет на то, что ищут пользователи. Система выявляет корреляции между средой и поведением пользователей в прошлом (включая длительность кликов), чтобы лучше понять текущий интент многозначных запросов. Затем она переранжирует выдачу или переписывает запрос для предоставления наиболее релевантных результатов и рекламы.
  • US8898148B1
  • 2014-11-25
  • Семантика и интент

  • Поведенческие сигналы

  • Персонализация

Как Google использует анализ сущностей в результатах поиска для подтверждения интента и продвижения авторитетного контента
Google анализирует сущности (Topics/Entities) и их типы, общие для топовых результатов поиска, чтобы определить истинный интент запроса. Если интент подтверждается этим тематическим консенсусом выдачи, система продвигает "авторитетные кандидаты" (например, полные фильмы). Если консенсуса нет, продвижение блокируется для предотвращения показа нерелевантных результатов.
  • US9213745B1
  • 2015-12-15
  • Семантика и интент

  • EEAT и качество

  • SERP

Как Google в Autocomplete динамически выбирает между показом общих категорий и конкретных подсказок в зависимости от «завершенности запроса»
Google анализирует «меру завершенности запроса» (Measure of Query Completeness) по мере ввода текста пользователем. Если намерение неясно и существует много вариантов продолжения (низкая завершенность, высокая энтропия), система предлагает общие категории (например, «Регионы», «Бизнесы»). Если намерение становится ясным (высокая завершенность, низкая энтропия), система переключается на конкретные подсказки или сущности.
  • US9275147B2
  • 2016-03-01
  • Семантика и интент

  • Поведенческие сигналы

  • Персонализация

Как Google использует контекст пользователя в реальном времени и машинное обучение для переранжирования результатов поиска
Google использует систему для прогнозирования истинного намерения пользователя на основе его текущего контекста (местоположение, время, среда, недавние действия) и исторических данных о поведении других пользователей в аналогичных ситуациях. Система переранжирует стандартные результаты поиска, чтобы выделить информацию (особенно "Search Features"), которая наиболее соответствует прогнозируемому намерению.
  • US10909124B2
  • 2021-02-02
  • Семантика и интент

  • Персонализация

  • SERP

Как Google использует анализ со-цитирования (Co-citation) для группировки результатов поиска по темам
Google использует механизм кластеризации для организации поисковой выдачи, особенно при неоднозначных запросах. Система анализирует, какие внешние страницы одновременно ссылаются на несколько результатов поиска (со-цитирование). На основе этого вычисляется показатель сходства, который учитывает и нормализует популярность страниц, чтобы точно сгруппировать результаты по конкретным темам (например, отделить «Saturn» как планету от «Saturn» как автомобиль).
  • US7213198B1
  • 2007-05-01
  • Ссылки

  • SERP

Как Google группирует похожие запросы и поисковые подсказки, определяя интент пользователя через анализ сессий и кликов
Google использует графовую модель (Марковскую цепь) для кластеризации поисковых подсказок и связанных запросов. Система анализирует, какие запросы пользователи вводят в одной сессии и на какие документы они кликают. Это позволяет сгруппировать запросы, ведущие к схожему контенту, и предложить пользователю разнообразный набор подсказок, отражающих разные интенты.
  • US8423538B1
  • 2013-04-16
  • Семантика и интент

  • Поведенческие сигналы

  • SERP

Как Google решает, показывать ли прямой ответ, анализируя частоту использования естественного языка в исторических запросах о факте
Google анализирует исторические данные о том, как пользователи ищут конкретный факт. Если они часто используют естественный язык (например, «какая высота у Эйфелевой башни»), система считает, что пользователи действительно ищут этот факт. На основе этого рассчитывается «Оценка поиска фактов» (Fact-Seeking Score). Эта оценка используется как сигнал ранжирования, чтобы решить, нужно ли показывать прямой ответ (Factual Answer) и насколько высоко его разместить в результатах поиска.
  • US9396235B1
  • 2016-07-19
  • Семантика и интент

  • SERP

  • Поведенческие сигналы

Как Google рассчитывает тематическую популярность (Topical Authority) документов на основе поведения пользователей
Google использует данные о посещаемости и навигации пользователей для расчета популярности документов. Система классифицирует документы и запросы по темам, а затем вычисляет популярность документа внутри каждой конкретной темы (Per-Topic Popularity). Эта метрика используется как сигнал ранжирования, когда тема запроса пользователя соответствует теме документа.
  • US8595225B1
  • 2013-11-26
  • Поведенческие сигналы

  • Семантика и интент

  • SERP

seohardcore