Как Google использует клики пользователей для определения составных фраз (N-грамм) в запросах

METHOD AND APPARATUS FOR AUTOMATICALLY IDENTIFYING COMPOUNDS (Метод и аппарат для автоматической идентификации составных фраз)

US8086599B1
Google LLC
2007-01-09
2011-12-27

Google анализирует, какие результаты поиска выбирают пользователи, чтобы понять, являются ли последовательные слова в запросе единой фразой (например, "Нью Йорк") или отдельными терминами. Если пользователи преимущественно кликают на результаты, содержащие эту последовательность как неразрывную фразу, система определяет ее как составную (Compound) и использует это знание для улучшения ранжирования и понимания запроса.

Какую проблему решает

Патент решает проблему точной и автоматической идентификации составных фраз (compounds, также называемых N-граммами или биграммами) в поисковых запросах. Традиционные методы (словари, энциклопедии) неполны и быстро устаревают. Системе необходимо отличать последовательности слов, которые образуют единое понятие (например, "San Francisco" или "Larry Page"), от случайных сочетаний (например, "London hotels"). Точная идентификация позволяет лучше понять интент пользователя и улучшить ранжирование, предпочитая документы, содержащие фразу целиком.

Что запатентовано

Запатентована система автоматической идентификации составных фраз на основе анализа поведения пользователей (user selections или кликов). Суть изобретения заключается в расчете вероятности (likelihood) того, что последовательность слов является составной фразой. Эта вероятность вычисляется на основе того, как часто пользователи выбирают результаты поиска, в сводке (summary) которых эта последовательность присутствует именно как неразрывная фраза.

Как это работает

Система работает путем анализа исторических данных о запросах и кликах:

Сбор данных: Собираются данные о том, какие результаты поиска были выбраны пользователями для конкретных запросов, опционально фильтруя клики по времени просмотра (Dwell Time).
Генерация кандидатов: Из запросов выделяются последовательности слов (candidate compounds).
Расчет вероятности (Ratio): Для кандидата (например, "Нью Йорк") система подсчитывает, какой процент кликов пришелся на результаты, содержащие "Нью Йорк" как точную фразу, по отношению к общему числу кликов по этому запросу.
Применение: Если Ratio высок (например, выше 90%), последовательность считается составной фразой (Strong Compound) и используется как сигнал для повышения в ранжировании страниц, содержащих ее в точном виде.

Актуальность для SEO

Высокая. Идентификация N-грамм и понимание структуры запроса являются фундаментальными задачами в Information Retrieval и Query Understanding. Хотя современные нейросетевые модели (например, BERT, MUM) используют сложные методы для выявления семантических связей, использование агрегированных поведенческих данных для валидации того, как реальные пользователи интерпретируют и используют фразы, остается актуальным и мощным сигналом.

Важность для SEO

Патент имеет высокое значение для SEO. Он описывает фундаментальный механизм понимания запросов, который напрямую влияет на оценку релевантности контента. Если фраза идентифицирована как compound, система будет активно предпочитать страницы с точным вхождением этой фразы, а не страницы, где слова встречаются раздельно. Это подчеркивает важность фразового соответствия и качества поведенческих сигналов (Dwell Time).

Термины и определения

Compound (Составная фраза): Последовательность из двух или более терминов, которые вместе имеют иное значение, чем по отдельности (например, "San Francisco"). В патенте используется как синоним N-gram или Bigram.
Candidate Compound (Кандидат в составную фразу): Любая последовательность из N последовательных терминов в запросе, которую система проверяет.
Selections (Выборы/Клики): Действия пользователя по выбору (клику) на результат поиска. Могут фильтроваться по времени просмотра (Dwell Time).
Summary (Сводка): Краткое представление результата поиска, которое видит пользователь. Включает заголовок документа (title) и/или один или несколько сниппетов (snippets).
Snippet (Сниппет): Фрагмент текста документа, содержащий один или несколько поисковых терминов и окружающий текст.
Ratio (Соотношение / Вероятность): Ключевая метрика для определения вероятности (likelihood) того, что кандидат является составной фразой. Рассчитывается путем деления числа кликов на результаты, содержащие фразу, на общее число кликов.
Context (Контекст): Термины, непосредственно окружающие кандидата в составную фразу в исходном запросе. Используется для расчета условной вероятности.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод идентификации составных фраз.

Генерация candidate compound из поискового запроса (два или более последовательных термина).
Определение общего количества раз, когда результаты, отвечающие на этот запрос, были выбраны пользователем (Total Selections).
Определение количества раз, когда результаты, отвечающие на этот запрос И содержащие candidate compound (как фразу), были выбраны пользователем (Selections with Compound).
Определение вероятности того, что кандидат является составной фразой, используя значение, полученное путем деления результата шага 3 на результат шага 2 (Ratio).

Claim 3 и 4 (Зависимые): Уточняют использование Ratio.

Система определяет, является ли кандидат составной фразой, сравнивая Ratio с пороговым значением. Сравнение с несколькими порогами позволяет классифицировать фразу как "сильную" (Strong Compound) или "слабую" (Weak Compound).

Claim 5 (Зависимый): Описывает обратный процесс (Splitting).

Система может определить вероятность того, что кандидат не является составной фразой, анализируя количество кликов на результаты, которые не содержат кандидата как единую фразу.

Claim 7 (Зависимый): Уточняет место анализа.

Подсчет выборов (шаг 3 в Claim 1) учитывает наличие candidate compound именно в сводке (summary) выбранного результата.

Claim 10 (Зависимый): Вводит понятие Dwell Time (Long Clicks).

Результат считается выбранным пользователем, только если пользователь просматривал его дольше, чем пороговый период времени. Это позволяет учитывать только качественные взаимодействия.

Claims 11-13 (Зависимые): Описывают использование контекста (context).

Вероятность может определяться с учетом окружающих терминов в запросе. Это включает определение условной вероятности (conditional probability) того, что кандидат является составной фразой при наличии данного контекста.

Claims 14-15 (Зависимые): Описывают агрегацию.

Система может рассчитывать отдельные вероятности для одного и того же кандидата в разных запросах, а затем определять общую вероятность путем усреднения весов (averaging weights).

Claims 16-17 (Зависимые): Описывают применение в ранжировании.

Система определяет оценку (score) для результатов поиска на основе того, содержат ли они candidate compound. Оценка увеличивается, если вероятность того, что кандидат является составной фразой, превышает порог.

Где и как применяется

Изобретение в основном применяется на этапе понимания запросов и влияет на ранжирование, используя офлайн-анализ поведения пользователей.

QUNDERSTANDING – Понимание Запросов (Офлайн)
Основное применение. Система выполняет офлайн-анализ логов запросов и поведения пользователей (selections). На основе этого анализа строится база данных составных фраз (compounds) и рассчитываются их вероятности (Ratio).

QUNDERSTANDING – Понимание Запросов (Онлайн)
При получении нового запроса система использует заранее рассчитанные данные для его интерпретации – определения, какие слова следует рассматривать вместе как Compounds.

RANKING – Ранжирование
Рассчитанные вероятности используются как сигнал ранжирования. Если система идентифицирует последовательность слов в запросе как strong compound, она повышает в ранжировании (scoring) документы, которые содержат эту фразу в точном виде.

Входные данные:

Логи поисковых запросов.
Данные о выборах пользователей (User Selections/Клики).
Сводки (Summaries: заголовки и сниппеты) выбранных результатов.
Данные о времени взаимодействия с документом (Dwell Time) (опционально).

Выходные данные:

База данных идентифицированных составных фраз (Compounds).
Рассчитанная вероятность (Likelihood/Ratio) или классификация (сильный/слабый) для каждой фразы.

На что влияет

Специфические запросы: Наибольшее влияние на запросы, содержащие многословные термины, именованные сущности (имена собственные, названия организаций, географические объекты), названия продуктов. Влияет на точность интерпретации запросов, где важен порядок слов.
Конкретные ниши или тематики: Влияет на динамичные ниши, где постоянно появляются новые термины и названия (технологии, развлечения, новости), которые еще не успели попасть в словари.

Когда применяется

Временные рамки: Процесс анализа логов и расчета вероятностей происходит офлайн, непрерывно или периодически. Применение рассчитанных данных происходит в реальном времени при обработке поисковых запросов.
Пороговые значения: Система использует пороги для классификации. В описании патента (не в Claims) приводятся примеры: если Ratio > 90%, кандидат маркируется как strong bigram; если < 75% — как weak bigram. Также используется порог времени просмотра (Dwell Time) для валидации клика (Claim 10).

Пошаговый алгоритм

Процесс А: Офлайн-идентификация составных фраз

Сбор данных: Получение исторических данных о запросах и соответствующих выборах пользователей (Selections).
Валидация выборов (Опционально): Фильтрация кликов по времени просмотра (Dwell Time). Учитываются только "длинные клики" (Claim 10).
Генерация кандидатов: Из полученных запросов формируется набор кандидатов в составные фразы (candidate compounds). Каждый кандидат — это N последовательных терминов из запроса.
Анализ выборов (для каждого кандидата):
1. Определение общего числа валидных Selections для запросов, содержащих кандидата (Total Selections).
2. Определение числа валидных Selections, где сводка (summary: сниппет или заголовок) выбранного результата содержала кандидата как точную фразу (Selections with Compound).
Расчет Ratio: Вычисление соотношения путем деления (b) на (a).
Классификация: Сравнение Ratio с предопределенными порогами для классификации (сильная/слабая фраза).
Учет контекста (Опционально): Расчет условной вероятности (conditional probability) на основе окружающих слов в запросе (Claims 11-13).
Агрегация (Опционально): Усреднение вероятностей для одного и того же кандидата, рассчитанных по разным запросам, для получения общей оценки (Claims 14-15).
Сохранение: Сохранение результатов в базу данных Compounds.

Процесс Б: Применение при обработке запроса (Онлайн)

Получение запроса: Система получает запрос от пользователя.
Разбор запроса: На этапе Query Understanding система идентифицирует в запросе известные Compounds, используя офлайн-базу.
Ранжирование: На этапе Ranking система корректирует оценки (Scores) документов. Документы, содержащие идентифицированные Compounds в целостном виде, получают повышение в ранжировании (Claim 17).

Какие данные и как использует

Данные на входе

Поведенческие факторы (Ключевые):
- Selections (Клики): Основной источник данных для анализа.
- Dwell Time (Время на сайте): Используется для валидации качества клика и фильтрации шума (коротких кликов).
Контентные факторы:
- Summary (Заголовки и Сниппеты): Текст в сводке выбранных результатов. Система анализирует этот текст на наличие точного вхождения фразы-кандидата.
Системные данные:
- Логи запросов (Queries): Используются для генерации кандидатов и определения контекста.

Какие метрики используются и как они считаются

Ratio (Соотношение / Вероятность): Основная метрика патента.
Формула расчета:

$Ratio = \frac{Число\ выборов\ результатов,\ содержащих\ точную\ фразу\ (Selections\ with\ Compound)}{Общее\ число\ выборов\ (Total\ Selections)}$
Thresholds (Пороги классификации): Предопределенные значения Ratio, используемые для классификации фраз (например, >90% = сильная; <75% = слабая).
Dwell Time Threshold (Порог времени пребывания): Минимальное время просмотра страницы для того, чтобы клик был засчитан как валидный выбор (selection).
Conditional Probability (Условная вероятность): Вероятность того, что фраза является составной при наличии специфического контекста (окружающих слов).

Поведенческие данные как основа понимания языка: Патент демонстрирует, как Google использует агрегированные данные о кликах для решения фундаментальной лингвистической задачи – определения границ фраз. Поведение пользователей напрямую формирует понимание языка поисковой системой.
Приоритет фразового соответствия (Exact Match): Если последовательность слов идентифицирована как strong compound, система будет активно предпочитать документы, содержащие эту последовательность как неразрывную фразу. Целостность фразы становится сильным сигналом релевантности.
Валидация поведенческих сигналов (Dwell Time): Система не просто учитывает клики, но и оценивает их качество. Упоминание Dwell Time (Long Clicks) как фильтра (Claim 10) подтверждает использование метрик удовлетворенности пользователей для обучения алгоритмов.
Контекстная зависимость интерпретации: Система учитывает контекст (окружающие слова), чтобы понять, когда одна и та же последовательность слов является фразой, а когда нет, используя conditional probability.
Автоматическое обнаружение новых фраз: Метод позволяет автоматически идентифицировать новые или редкие составные фразы без использования словарей, основываясь только на статистике запросов и кликов.

Best practices (это мы делаем)

Сохраняйте целостность ключевых фраз: Используйте устоявшиеся составные фразы, релевантные вашему контенту (названия продуктов, имена, технические термины), в тексте и заголовках (H1, Title) в неизменном виде. Не разрывайте их искусственно.
Оптимизируйте сниппеты под фразы: Поскольку система анализирует Summaries (Title и Snippet) кликнутых результатов, важно, чтобы ваши сниппеты четко отображали основные составные фразы в точном соответствии. Это повышает вероятность того, что ваши клики будут засчитаны в пользу идентификации этих фраз.
Оптимизируйте под удовлетворенность пользователя (Long Clicks): Поскольку система использует Dwell Time для фильтрации кликов (Claim 10), крайне важно создавать контент, который удерживает пользователя. Удовлетворенные пользователи генерируют качественные поведенческие сигналы, которые используются для обучения алгоритмов понимания языка.
Анализ SERP для понимания интерпретации запроса: Изучайте сниппеты конкурентов в ТОПе. Если в большинстве сниппетов слова из запроса стоят строго рядом, это сильный индикатор того, что Google интерпретирует его как compound.

Worst practices (это делать не надо)

Искусственное разрушение фраз: Попытки "разбавить" текст или вставить дополнительные слова внутрь устоявшихся фраз (например, вместо "Real Estate Agent" писать "Real high-quality Estate Agent"). Это может привести к тому, что система не распознает ключевой Compound.
Игнорирование порядка слов: Отношение к многословным запросам как к набору отдельных слов без учета их последовательности. Если Google считает фразу составной, порядок критичен.
Кликбейт и короткие клики: Использование заголовков, которые привлекают клик, но не соответствуют содержанию, приводит к коротким кликам (низкий Dwell Time). Согласно патенту, такие клики могут быть отфильтрованы и не будут участвовать в анализе.

Стратегическое значение

Этот патент подтверждает стратегическую важность поведенческих факторов не только для ранжирования, но и для базовых механизмов понимания запросов (Query Understanding). Он демонстрирует переход от оптимизации под отдельные слова к оптимизации под фразы и понятия. Для SEO это означает, что лингвистическая точность и фокус на удовлетворении интента пользователя (подтвержденном через Long Clicks) имеют высокий приоритет.

Практические примеры

Сценарий 1: Идентификация сильной составной фразы (Strong Compound)

Ситуация: Продвижение нового продукта, например, "Galaxy Z Fold".
Работа системы (Анализ): Пользователи вводят запрос "Galaxy Z Fold обзор". Google анализирует клики. 98% пользователей выбирают (и долго смотрят) результаты, где "Galaxy Z Fold" присутствует как точная фраза в заголовке или сниппете.
Работа системы (Вывод): Система рассчитывает Ratio 98% и определяет "Galaxy Z Fold" как strong compound.
Действия SEO: Убедиться, что на целевой странице фраза "Galaxy Z Fold" используется в H1, Title и основном тексте именно в таком порядке и без разрыва. Избегать конструкций вроде "Обзор Fold модели Galaxy Z".
Ожидаемый результат: Страница получает преимущество в ранжировании, так как система применяет повышенный скоринг за наличие идентифицированной составной фразы.

Сценарий 2: Разделение фразы (Weak/Split Compound)

Ситуация: Анализируется запрос [London hotels].
Работа системы (Анализ): Пользователи кликают на результаты с заголовками "Best Hotels in London", "Cheap London Hotels".
Работа системы (Вывод): Только 60% кликов приходится на результаты, где "London hotels" стоит строго рядом. В 40% случаев слова разделены или изменены. Ratio 60%.
Действия SEO: Система классифицирует "London hotels" как weak compound или не compound. Нет необходимости строго придерживаться фразы "London hotels". Важнее оптимизация под сущности "London" и "Hotels" и их синонимы в рамках одной страницы.

Что такое "составная фраза" (Compound/N-gram) в контексте этого патента?

Это последовательность из двух или более слов, которая вместе образует единое понятие и часто имеет иное значение, чем эти слова по отдельности. Примеры из патента включают "San Francisco" и "Larry Page". Система стремится отличать такие фразы от случайных сочетаний слов, например, "London hotels".

Как именно система определяет, является ли фраза составной?

Система использует статистику кликов пользователей. Она рассчитывает соотношение (Ratio): сколько раз пользователи кликнули на результаты, содержащие эту фразу целиком в сниппете или заголовке (Summary), по сравнению с общим числом кликов по запросу. Если этот показатель высок (например, выше 90%), фраза считается составной.

Какую роль в этом патенте играет Dwell Time (время на сайте)?

Патент явно упоминает (Claim 10), что система может учитывать только те клики (Selections), после которых пользователь просматривал документ дольше определенного порога времени. Это означает использование Dwell Time (Long Clicks) для фильтрации некачественных взаимодействий (коротких кликов) и повышения точности анализа, основываясь только на удовлетворенных пользователях.

Как это влияет на ранжирование?

Если система идентифицировала фразу как составную (особенно как Strong Compound), она будет повышать оценку (score) документов, которые содержат эту фразу в точном, неразрывном виде. Документы, где эти слова разделены или идут в другом порядке, будут считаться менее релевантными для данного понятия.

Что это значит для использования ключевых слов на странице?

Это подчеркивает критическую важность использования точного фразового соответствия для устоявшихся терминов и названий. Не следует искусственно разбивать ключевые фразы, которые представляют собой единое понятие. Они должны присутствовать в тексте, и особенно в Title и сниппетах, в своем естественном виде.

Может ли одна и та же фраза быть составной в одном запросе и не быть в другом?

Да. Патент описывает механизм учета контекста (Context) — окружающих слов в запросе (Claims 11-13). Система может рассчитывать условную вероятность (conditional probability), определяя значение фразы в зависимости от соседних терминов. Это позволяет гибко интерпретировать язык.

Как система обрабатывает новые или редкие фразы?

Поскольку механизм основан на анализе логов запросов и кликов, он способен автоматически идентифицировать новые составные фразы (например, названия новых продуктов), как только по ним накопится достаточно статистики. Это позволяет системе быстро адаптироваться к изменениям в языке.

Что такое "сильные" (Strong) и "слабые" (Weak) составные фразы?

Это классификация, основанная на рассчитанной вероятности (Ratio). Если подавляющее большинство пользователей кликает на результаты с цельной фразой (например, >90%), она классифицируется как сильная (Strong Compound). Если процент ниже (например, <75%), она может быть классифицирована как слабая (Weak Compound). Это влияет на вес сигнала при ранжировании.

Как этот патент соотносится с современными NLP моделями типа BERT?

Этот патент описывает статистический метод, основанный на поведении пользователей. Современные модели, такие как BERT, анализируют контекст на основе языковых паттернов. Эти подходы дополняют друг друга: NLP модели предлагают семантическую интерпретацию, а механизм из патента валидирует эту интерпретацию на основе реального поведения пользователей.

Учитывает ли система клики, где слова из фразы присутствуют, но не рядом?

Да, но они учитываются иначе. Они входят в знаменатель при расчете Ratio (общее число кликов). Если пользователи часто кликают на результаты, где слова разделены, Ratio будет низким, и система решит, что это не составная фраза (в патенте это называется "split a candidate bigram").

Как Google использует сущности (Concepts) для определения точного контекста и генерации синонимов запроса

Google идентифицирует многословные фразы (Concepts) в запросе и рассматривает их как единое целое. Это позволяет системе понять точный контекст остальных слов в запросе и сгенерировать высокоточные синонимы (замены) на основе анализа поведения пользователей в логах запросов, минуя вычислительные ограничения стандартного N-граммного анализа.

US9104750B1
2015-08-11

Семантика и интент

Как Google использует историю запросов в сессии для эффективного распознавания фраз (N-грамм) и понимания уточнений пользователя

Google оптимизирует процесс распознавания фраз (N-грамм) в запросе, анализируя предыдущий запрос пользователя в той же сессии. Если пользователь уточняет запрос, добавляя новые слова, система исключает эти новые слова из анализа N-грамм в сочетании со старыми терминами. Это повышает эффективность и позволяет точнее понять, какие слова являются единым понятием, а какие — дополнительными уточнениями.

US8359326B1
2013-01-22

Семантика и интент

Как Google сегментирует сложные запросы на смысловые компоненты для генерации поисковых подсказок и связанных запросов

Google использует механизм для генерации уточнений запроса (поисковых подсказок или связанных запросов) путем разделения исходного запроса на семантические компоненты (устойчивые фразы) с помощью вероятностного анализа. Система находит уточнения для каждого компонента по отдельности, а затем рекомбинирует их, сохраняя исходный порядок. Финальные кандидаты строго фильтруются на основе пользовательских данных (CTR) и синтаксической схожести.

US9703871B1
2017-07-11

Семантика и интент
SERP
Поведенческие сигналы

Как Google динамически определяет стоп-слова в локальных запросах, тестируя разные интерпретации запроса

Google использует механизм для точной интерпретации локальных запросов, содержащих неоднозначные слова. Вместо статического удаления стоп-слов система генерирует несколько вариантов разделения запроса на субъект и местоположение. Она тестирует варианты с удалением и сохранением потенциального стоп-слова, выполняет параллельные поиски и выбирает ту интерпретацию, которая дает наилучшие результаты.

US9009144B1
2015-04-14

Семантика и интент
Local SEO

Как Google определяет, какие последовательности слов являются значимыми фразами, используя структуру документа и оценку подфраз

Патент описывает алгоритм для автоматического извлечения миллионов значимых фраз (концепций) из корпуса документов. Система анализирует семантические границы в тексте (заголовки, пунктуацию, форматирование) и применяет механизм оценки подфраз (Devolution). Это позволяет отличить устоявшиеся словосочетания от случайных комбинаций слов и построить индекс на основе концепций, а не только отдельных терминов.

US8166045B1
2012-04-24

Индексация
Семантика и интент

Как Google использует данные сессий и разнообразие результатов для генерации блока "Связанные запросы"

Google анализирует поисковые сессии пользователей, чтобы найти запросы, которые часто следуют за одним и тем же предшествующим запросом (родственные запросы). Затем система фильтрует эти потенциальные "Связанные запросы", чтобы убедиться, что они предлагают разнообразные результаты по сравнению с исходным запросом и другими предложениями, помогая пользователям исследовать смежные, но отличные темы.

US8244749B1
2012-08-14

Семантика и интент
Персонализация
Поведенческие сигналы

Как Google находит, фильтрует и подмешивает посты из блогов, релевантные конкретным результатам поиска

Патент описывает систему Google для дополнения стандартных результатов веб-поиска ссылками на релевантные посты в блогах. Система использует многоступенчатую фильтрацию для отсеивания низкокачественных блогов и спама (splogs). Фильтры анализируют количество исходящих ссылок (out-degree), качество входящих ссылок (Link-based score), возраст поста, его длину и расположение ссылок, чтобы гарантировать качество подмешиваемого контента.

US8117195B1
2012-02-14

EEAT и качество
Антиспам
Ссылки

Как Google понижает в выдаче результаты, которые пользователь уже видел или проигнорировал в рамках одной поисковой сессии

Google использует механизм для улучшения пользовательского опыта во время длительных поисковых сессий. Если пользователь вводит несколько связанных запросов подряд, система идентифицирует результаты, которые уже появлялись в ответ на предыдущие запросы. Эти повторяющиеся результаты понижаются в ранжировании для текущего запроса, чтобы освободить место для новых, потенциально более полезных страниц. Понижение контролируется порогом релевантности, чтобы не скрывать важный контент.

US8051076B1
2011-11-01

SERP
Поведенческие сигналы

Как Google рассчитывает «VisualRank» для изображений и медиафайлов, используя виртуальные ссылки на основе схожести и поведения пользователей

Google использует алгоритм (концептуально называемый VisualRank) для ранжирования изображений и других медиафайлов путем создания «виртуальных ссылок» между ними. Эти ссылки основаны на визуальной схожести контента, данных о кликах пользователей и контексте размещения (URL analysis). Это позволяет оценить качество и авторитетность медиафайлов даже без явных гиперссылок, при этом система активно избегает показа слишком похожих (дублирующихся) результатов.

US8732187B1
2014-05-20

Ссылки
Мультимедиа
Поведенческие сигналы

Как Google использует блокировку сайтов пользователями для персонализации выдачи и как глобальный сигнал ранжирования (Remove List Score)

Google позволяет пользователям удалять нежелательные документы или целые сайты из своей поисковой выдачи. Система агрегирует эти данные о блокировках от множества пользователей и использует их как глобальный сигнал ранжирования — «Remove List Score» — для выявления низкокачественного контента и улучшения качества поиска для всех.

US8417697B2
2013-04-09

Персонализация
Поведенческие сигналы
Антиспам

Как Google использует генеративный ИИ для создания чата с конкретным сайтом прямо в поисковой выдаче и предоставления глубинных ссылок

Google патентует механизм, позволяющий пользователям взаимодействовать с конкретным результатом поиска через интерфейс чата (prompt input interface) прямо на странице выдачи. Искусственный интеллект анализирует запрос пользователя и его последующий промпт, определяет намерение (поиск информации, действие или навигация) и предоставляет глубинные ссылки (deep links) на конкретные внутренние страницы этого же домена в виде conversational response.

US12353458B2
2025-07-08

Ссылки
Семантика и интент
SERP

Как Google динамически формирует Панели Знаний, выбирая блоки информации на основе истории поисковых запросов пользователей

Google использует гибридный подход для создания структурированных страниц о сущностях (например, Панелей Знаний). Система анализирует исторические данные о том, что пользователи чаще всего ищут об этой сущности или её классе. На основе этого анализа динамически выбираются блоки информации (например, «Награды», «Саундтрек»), которые дополняют стандартный набор данных, позволяя автоматически адаптировать выдачу под актуальные интересы аудитории.

US10110701B2
2018-10-23

Knowledge Graph
Поведенческие сигналы
Персонализация

Как Google использует модель предвзятости представления (Presentation Bias), чтобы отделить клики по релевантности от кликов по позиции

Google использует механизм для интерпретации поведения пользователей (CTR), который учитывает, как именно представлены результаты поиска. Система рассчитывает ожидаемый CTR для конкретной позиции и визуального оформления (сниппет, выделение). Чтобы получить буст от поведенческих факторов, реальный CTR документа должен значительно превышать этот ожидаемый уровень. Это позволяет отфильтровать клики, обусловленные высокой позицией или привлекательным сниппетом, и выделить сигналы истинной релевантности.

US8938463B1
2015-01-20

Поведенческие сигналы
SERP

Как Google использует навигационные запросы, консенсус кликов и анкорных текстов для определения глобального качества сайта

Google анализирует потоки запросов, чтобы определить, когда пользователи ищут конкретный сайт (навигационный интент). Если запрос явно указывает на документ (через подавляющее большинство кликов пользователей или доминирование в анкор-текстах), этот документ получает «баллы качества». Эти баллы используются как глобальный сигнал качества, повышая ранжирование сайта по всем остальным запросам.

US7962462B1
2011-06-14

Поведенческие сигналы
Ссылки
SERP

Как Google использует исторические паттерны CTR для предсказания сезонных и циклических изменений интента пользователя

Google анализирует исторические данные о кликах (CTR) для выявления предсказуемых изменений в интересах пользователей по неоднозначным запросам. Если интент меняется в зависимости от сезона, дня недели или времени суток, система корректирует ранжирование, чтобы соответствовать доминирующему в данный момент интенту. Например, по запросу "turkey" в ноябре приоритет получат рецепты, а не информация о стране.

US8909655B1
2014-12-09

Семантика и интент
Поведенческие сигналы
SERP