Как Google генерирует поисковые подсказки, анализируя метаданные (Title и Description) авторитетных сайтов и проверяя их грамматику

PROCESSING OF DOCUMENT METADATA FOR USE AS QUERY SUGGESTIONS (Обработка метаданных документа для использования в качестве предлагаемых запросов)

US9195706B1
Google LLC
2013-03-01
2015-11-24

Google расширяет поисковые подсказки (Autocomplete) за пределы исторических логов, анализируя метаданные документов, такие как заголовки (Title). Система извлекает фразы, проверяет их грамматическую корректность с помощью NLP (POS-tagging) и добавляет в базу подсказок. Приоритет отдается фразам, полученным с авторитетных страниц (высокий Document Score), что позволяет предлагать качественные запросы, даже если их еще никто не искал.

Какую проблему решает

Патент решает проблему ограниченности традиционных систем поисковых подсказок, которые полагаются преимущественно на логи прошлых запросов пользователей (past user queries). Этот подход не обеспечивает достаточного покрытия для нового, нишевого (long-tail) или трендового контента, по которому еще не накоплена статистика. Изобретение позволяет проактивно генерировать осмысленные подсказки для информации, доступной в индексе, но находящейся за пределами исторических данных о запросах.

Что запатентовано

Запатентована система (Metadata Analysis Engine) для автоматической генерации новых поисковых подсказок (query suggestions) путем анализа метаданных документов (например, Title, Description). Ключевым механизмом является строгая валидация: извлеченные фразы проверяются на грамматическую корректность с использованием NLP, в частности тегирования частей речи (Part-of-Speech tagging). Только валидные фразы сохраняются, а их приоритет (Suggestion Score) напрямую зависит от авторитетности исходного документа (Document Score).

Как это работает

Система работает в несколько этапов:

Сбор и Сегментация: Извлекаются метаданные (например, Title) из документов и разбиваются на различные последовательности терминов (фразы-кандидаты).
Грамматический анализ (NLP): Каждому термину присваивается грамматический тег (например, POS tag – существительное, глагол и т.д.).
Валидация: Последовательность тегов анализируется для определения грамматической корректности фразы. Некорректные или неестественные фразы отбрасываются.
Оценка (Scoring): Для корректных фраз рассчитывается Suggestion Score. Эта оценка основана на Document Score (качестве/рейтинге) исходного документа.
Хранение и Выдача: Корректные фразы сохраняются в Suggestion Database и используются в реальном времени для Autocomplete.

Актуальность для SEO

Высокая. Способность генерировать релевантные и естественно сформулированные подсказки для свежего и long-tail контента критически важна. Описанные NLP-технологии (POS-тегирование, грамматический анализ) являются фундаментальными и активно используются. Связь веса подсказки с авторитетностью источника полностью соответствует современному фокусу Google на качестве и E-E-A-T.

Важность для SEO

Патент имеет высокое стратегическое значение (85/100). Он демонстрирует прямой механизм, посредством которого оптимизация метаданных (особенно Title) влияет не только на ранжирование, но и на видимость сайта в Autocomplete. Это критично для формирования спроса по новым или нишевым запросам. Патент явно связывает качество сайта (Document Score) с вероятностью показа производных от него подсказок (Suggestion Score), усиливая позиции авторитетных ресурсов.

Термины и определения

Document Score (Оценка документа): Метрика, основанная на относительном ранжировании документа среди множества других документов. Служит индикатором авторитетности/качества и используется для расчета Suggestion Score.
Grammar Checking Module (Модуль проверки грамматики): Компонент, анализирующий последовательность тегов для определения грамматической корректности фразы. Может быть реализован как классификатор (например, decision tree, support vector machine), обученный на прошлых запросах.
Metadata (Метаданные): Данные, описывающие характеристики документа. Источник для генерации подсказок. Включает заголовки (Titles), описания (Descriptions), метатеги, информацию о встроенном медиаконтенте (изображения, видео).
Metadata Analysis Engine (Механизм анализа метаданных): Основная система, отвечающая за извлечение, сегментацию, грамматическую проверку и оценку метаданных.
Part-of-Speech (POS) Tags (Теги частей речи): Грамматические метки (существительное, глагол, прилагательное и т.д.), присваиваемые терминам на основе их функции и контекста. Используются для анализа структуры фразы.
Sequence of Terms (Последовательность терминов): Фраза, извлеченная из метаданных, рассматриваемая как потенциальная поисковая подсказка.
Suggestion Database (База данных подсказок): Хранилище утвержденных подсказок. Содержит как подсказки из метаданных, так и из исторических логов запросов (past search queries).
Suggestion Score (Оценка подсказки): Метрика, указывающая на предполагаемую полезность или приоритет подсказки. Для подсказок из метаданных рассчитывается на основе Document Score; для подсказок из логов — на основе частоты использования.

Ключевые утверждения (Анализ Claims)

Claim 1, 8, 15 (Независимые пункты): Описывают основной процесс извлечения, валидации и использования подсказок из метаданных.

Система получает метаданные документа.
Метаданные сегментируются на множество последовательностей терминов.
Каждому термину в последовательности присваивается тег на основе грамматических отношений, формируя последовательность тегов.
Определяется, является ли последовательность терминов грамматически корректной на основе анализа тегов.
Если ДА:
- Последовательность сохраняется как query suggestion в базе данных.
- Рассчитывается Suggestion Score, который также сохраняется.
Система получает частичный запрос (partial search query), выбирает подсказки из базы данных на основе их Suggestion Scores и отправляет пользователю.

Claim 3 (Зависимый): Уточняет источник метаданных.

Получение метаданных включает получение заголовка (Title) документа. Это прямо указывает на тег Title как на приоритетный источник.

Claim 4, 11, 18 (Зависимые): Детализируют механизм оценки.

Система получает Document Score, основанный на относительном ранжировании документа. Suggestion Score рассчитывается на основе этого Document Score. Это устанавливает прямую связь между авторитетностью источника и весом подсказки.

Claim 5, 12, 19 (Зависимые): Уточняют технологию анализа.

Присваиваемые теги являются тегами частей речи (part-of-speech tags).

Claim 6, 13, 20 (Зависимые): Описывают вариативность грамматической проверки.

Определение грамматической корректности может основываться на количестве тегов, меньшем, чем общее количество терминов в последовательности. Это позволяет корректно обрабатывать длинные фразы, например, анализируя только их окончание, что повышает точность классификатора, обученного на коротких запросах.

Claim 7, 14, 21 (Зависимые): Уточняют механизм проверки грамматики.

Определение грамматической корректности основывается, по крайней мере частично, на порядке тегов в последовательности. Это подтверждает использование структурного анализа предложения.

Где и как применяется

Изобретение связывает процессы индексирования с генерацией и предоставлением поисковых подсказок.

INDEXING – Индексирование и извлечение признаков
На этом этапе происходят предварительные процессы: рассчитывается Document Score (авторитетность/ранг документа). Также извлекаются и сохраняются метаданные (Title, Description).

QUNDERSTANDING – Понимание Запросов (Офлайн-обработка)
Основная логика патента (работа Metadata Analysis Engine) выполняется здесь. Система выполняет сегментацию извлеченных метаданных, проводит NLP-анализ (POS-тегирование и проверку грамматики с помощью Grammar Checking Module) и рассчитывает Suggestion Score, используя Document Score из индекса. Результаты сохраняются в Suggestion Database.

QUNDERSTANDING – Понимание Запросов (Реальное время)
Когда пользователь вводит частичный запрос, Suggestion Engine в реальном времени обращается к Suggestion Database. Он выбирает и ранжирует подсказки, используя комбинацию текстового соответствия (Matching Score) и веса подсказки (Suggestion Score), и предоставляет их пользователю (Autocomplete).

Входные данные:

Метаданные документа (Title, Description, медиа-информация).
Document Score исходного документа.
Грамматические модели и правила (для NLP-анализа).

Выходные данные:

Валидированные Query Suggestions с рассчитанными Suggestion Scores, сохраненные в Suggestion Database.

На что влияет

Конкретные типы контента: Влияет на весь контент, имеющий описательные метаданные. Особенно сильно влияет на статьи, новости, обзоры, а также видео и изображения (упомянуты в патенте как источники метаданных).
Специфические запросы: Наибольшее влияние на информационные, "длиннохвостые" (long-tail) и новые (emerging topics) запросы, по которым еще не накоплена статистика в логах поиска.
Форматы метаданных: Напрямую влияет на то, как система оценивает теги Title (явно упомянуты) и мета-описания.

Когда применяется

Триггеры активации (Генерация): Процесс генерации активируется при индексировании или переобработке документов (офлайн). В патенте упоминается, что система может выбирать документы для анализа, если их Document Score превышает определенный порог, фокусируясь на авторитетных источниках.
Условие валидации: Для генерации подсказки необходимо, чтобы фраза, извлеченная из метаданных, прошла проверку грамматической корректности.
Триггеры активации (Выдача): Сгенерированные подсказки используются в реальном времени, когда пользователь вводит частичный запрос.

Пошаговый алгоритм

Процесс А: Генерация подсказок из метаданных (Офлайн/Индексирование)

Получение данных: Система получает метаданные (например, Title) и Document Score для документа.
Сегментация: Segmentation Module разбивает метаданные на одну или несколько последовательностей терминов (кандидатов). Сегментация может использовать парсер, обученный на прошлых запросах. Например, из "funny cat in the box - video" могут быть получены "funny cat in the box" и "funny cat in".
Выбор кандидата: Система выбирает одну последовательность для анализа.
Присвоение тегов (NLP): Grammar Checking Module присваивает каждому термину грамматический тег (POS tag). Например, для "funny cat in the box" получается {ADJ, NOUN, PREP, DET, NOUN}.
Проверка грамматики: Система определяет, является ли последовательность грамматически корректной на основе порядка и типа тегов (используя правила или обученный классификатор).
- Если НЕТ (например, "funny cat in" {ADJ, NOUN, PREP} заканчивается предлогом): Кандидат отклоняется. Переход к шагу 8.
- Если ДА: Переход к шагу 6.
Расчет оценки: Scoring Module рассчитывает Suggestion Score для валидного кандидата, основываясь на Document Score исходного документа.
Сохранение: Кандидат сохраняется как Query Suggestion в Suggestion Database вместе с его Suggestion Score.
Итерация: Система проверяет, есть ли еще не проанализированные кандидаты. Если ДА, возврат к шагу 3.

Процесс Б: Предоставление подсказок (Рантайм)

Получение запроса: Система получает частичный запрос пользователя.
Выбор и ранжирование: Suggestion Engine выбирает релевантные подсказки из Suggestion Database (как из метаданных, так и из логов запросов), учитывая текстовое соответствие (Matching Score) и Suggestion Score.
Отправка пользователю: Топ-N подсказок отправляются пользователю.

Какие данные и как использует

Данные на входе

Контентные/Структурные факторы (Метаданные): Основные данные – это текст из метаданных документа. Явно упомянуты:
- Заголовки (Title).
- Описания контента.
- Информация, связанная с медиаконтентом (изображения, видео).
Сигналы авторитетности: Document Score. Предварительно рассчитанная метрика, отражающая относительное ранжирование (авторитетность) документа. Критически важна для расчета итоговой оценки подсказки.
Поведенческие факторы (для обучения): Логи прошлых запросов пользователей используются для обучения моделей сегментации и грамматической проверки (классификаторов).

Какие метрики используются и как они считаются

Грамматическая корректность (Grammatical Correctness): Бинарная (Да/Нет) или вероятностная оценка. Определяется путем анализа последовательности Part-of-Speech (POS) Tags. Проверка может осуществляться с помощью правил или обученного классификатора (Classifier).
Document Score: Используется как входной сигнал. Не рассчитывается в рамках данного процесса.
Suggestion Score: Рассчитывается для грамматически корректных фраз. Является функцией от Document Score исходного документа (например, пропорциональна ему).
Методы анализа текста (NLP):
- POS tagging: Явно указан в Claims как основной метод грамматического анализа.
- Dependency parsing (Синтаксический анализ зависимостей): Упомянут в описании как альтернативный метод анализа грамматических отношений.

Метаданные как источник генерации спроса: Патент демонстрирует, что метаданные (особенно Title) используются не только для ранжирования, но и как прямой источник для генерации новых поисковых подсказок. Это позволяет авторитетным сайтам активно формировать поисковое поведение пользователей через Autocomplete.
Требование к естественности языка (NLP-фильтр): Система жестко фильтрует кандидатов по критерию грамматической корректности, используя POS-tagging. Неестественные, переоптимизированные (keyword stuffing) или грамматически неверные заголовки не станут поисковыми подсказками через этот механизм.
Амплификация авторитетности (Authority Amplification): Ключевой механизм — привязка Suggestion Score к Document Score. Подсказки, извлеченные из высокоавторитетных документов (E-E-A-T), получают больший вес и показываются чаще.
Ускорение покрытия Long-Tail и Fresh Content: Система позволяет Google генерировать подсказки для новых и нишевых тем проактивно, не дожидаясь накопления статистики в логах запросов, что ускоряет обнаружение свежего контента.
Важность структуры метаданных и сегментации: Система сегментирует метаданные для поиска валидных фраз. Структура заголовка и использование знаков препинания влияют на то, как именно он будет сегментирован и какие подсказки будут из него извлечены.

Best practices (это мы делаем)

Создание грамматически безупречных и естественных метаданных: Пишите Title и Description, используя естественный язык и полные, грамматически правильные фразы. Формулируйте их так, как пользователи могли бы искать информацию. Это максимизирует вероятность прохождения грамматической проверки.
Повышение авторитетности сайта (E-E-A-T и Document Score): Поскольку Suggestion Score напрямую зависит от Document Score, работа над повышением авторитетности сайта повышает вероятность того, что ваши метаданные станут видимыми поисковыми подсказками.
Структурирование длинных заголовков для сегментации: Формируйте заголовки так, чтобы их логические части представляли собой завершенные и корректные фразы. Использование разделителей (двоеточие, тире) может помочь системе корректно сегментировать Title, если обе части грамматически корректны.
Оптимизация под новые и трендовые темы: При создании контента на новые темы используйте четкие заголовки. Это позволит вашему контенту сформировать поисковые подсказки до того, как накопится статистика пользовательских запросов.
Оптимизация метаданных медиаконтента: Используйте описательные и грамматически корректные alt-тексты для изображений и заголовки/описания для видео, так как они также являются источником метаданных.

Worst practices (это делать не надо)

Keyword Stuffing в метаданных: Перечисление ключевых слов (например, "купить ноутбук москва недорого доставка"). Такие последовательности будут отфильтрованы Grammar Checking Module как грамматически некорректные.
Использование грамматически некорректных или неестественных фраз: Использование "SEO-формулировок", нарушающих правила языка, порядок слов или согласование. Система отфильтрует такие фразы на этапе NLP-анализа.
Игнорирование качества сайта: Создание идеальных метаданных на низкокачественном сайте (с низким Document Score) не приведет к высокой видимости подсказок, так как их Suggestion Score будет низким.

Стратегическое значение

Патент подтверждает стратегический приоритет Google на понимание естественного языка (NLU). Для SEO это означает, что качество текста в метаданных имеет многоуровневое значение: оно влияет на ранжирование, CTR и на формирование самого пространства запросов (Autocomplete). Долгосрочная стратегия должна фокусироваться на построении авторитетных ресурсов и использовании качественного копирайтинга для максимизации видимости не только в SERP, но и в системе подсказок.

Практические примеры

Сценарий 1: Анализ структуры Title (на основе примера из патента)

Исходный Title: "funny cat in the box - video".
Сегментация: Система извлекает фразы:
- Фраза 1: "funny cat in the box"
- Фраза 2: "funny cat in"
POS-Tagging и Проверка:
- Фраза 1: {ADJ, NOUN, PREP, DET, NOUN} – Грамматически корректно.
- Фраза 2: {ADJ, NOUN, PREP} – Грамматически некорректно (заканчивается на предлог).
Результат: Фраза 1 добавляется в базу подсказок (при достаточном Document Score).

Сценарий 2: Оптимизация для E-commerce

Плохой Title: "Купить Ноутбук Lenovo X1 Carbon Gen 12 Москва цена доставка" (Keyword Stuffing).
Результат: Вероятно, не пройдет грамматическую проверку после сегментации.
Хороший Title: "Lenovo X1 Carbon Gen 12: Обзор характеристик и актуальные цены в Москве" (Естественный язык).
Результат: Система извлекает грамматически корректные фразы: "Lenovo X1 Carbon Gen 12 обзор характеристик", "Lenovo X1 Carbon Gen 12 актуальные цены в Москве". Если сайт авторитетный, эти фразы получат высокий Suggestion Score и попадут в Autocomplete.

Означает ли этот патент, что Google использует текст заголовков (Title) для генерации поисковых подсказок?

Да, абсолютно. Патент прямо указывает (Claim 3), что заголовок документа (Title) является источником метаданных для генерации новых поисковых подсказок. Система анализирует этот текст, проверяет его грамматическую корректность и, если он проходит проверку, может добавить его в базу Autocomplete. Это подчеркивает важность качества и естественности языка в заголовках.

Как авторитетность моего сайта влияет на поисковые подсказки, сгенерированные из моих метаданных?

Влияние авторитетности критично. Патент описывает (Claim 4), что Suggestion Score (вес подсказки) рассчитывается на основе Document Score (авторитетности/ранга исходного документа). Подсказки, извлеченные из высокоавторитетных сайтов, получают более высокий вес и будут показываться пользователям чаще.

Какие типы метаданных анализирует система, помимо Title?

Патент упоминает общее или детальное описание контента (вероятно, Meta Description или видимый текст описания), а также информацию, связанную с встроенным медиаконтентом. Это может включать описания изображений (alt-тексты) или видео. Все эти элементы следует оптимизировать с учетом грамматической корректности.

Почему переоптимизированные (keyword-stuffed) заголовки неэффективны в контексте этого патента?

Такие заголовки неэффективны, потому что система использует обязательный фильтр – Grammar Checking Module. Этот модуль применяет NLP (Part-of-Speech tagging) для проверки грамматической структуры фразы. Неестественные конструкции или простое перечисление ключевых слов не пройдут эту проверку и будут отброшены.

Как система определяет, что фраза грамматически корректна?

Система присваивает каждому слову тег части речи (POS tag) – существительное, глагол и т.д. Затем она анализирует последовательность и порядок этих тегов. Если структура соответствует правилам грамматики языка (определяемым через правила или обученный классификатор), фраза считается корректной. Например, фраза, заканчивающаяся предлогом без существительного, может быть отклонена.

Заменяет ли этот метод традиционный способ генерации подсказок из логов запросов?

Нет, он дополняет его. Патент указывает (Claim 2), что Suggestion Database хранит подсказки из обоих источников. Цель этого метода — покрыть новые или редкие темы (long-tail), по которым еще нет достаточной истории запросов в логах.

Как этот механизм помогает при продвижении по новым трендам (Fresh Content)?

Он позволяет Google реагировать проактивно. Вместо ожидания накопления статистики в логах, система может немедленно сгенерировать подсказки из метаданных свежих проиндексированных документов. Если вы первым создали качественный контент по новой теме на авторитетном сайте, вы можете сформировать поисковые подсказки для этой ниши.

Может ли часть моего Title стать подсказкой, или используется только весь Title целиком?

Система использует Segmentation Module для разбиения метаданных на различные последовательности терминов. Это означает, что отдельные логически завершенные и грамматически корректные фразы внутри длинного Title могут быть извлечены и использованы как самостоятельные подсказки. Важно правильно структурировать заголовок.

Что такое Document Score в контексте этого патента?

Document Score определяется как оценка, основанная на относительном ранжировании документа среди множества документов. Хотя конкретные алгоритмы не указаны, это описание соответствует глобальным сигналам авторитетности и качества, используемым для ранжирования, таким как PageRank или его современные аналоги.

Какова главная стратегическая рекомендация для SEO, исходя из этого патента?

Главная рекомендация — сочетать работу над авторитетностью ресурса (E-E-A-T) с высоким качеством копирайтинга в метаданных. Комбинация высокого Document Score и грамматически корректных, естественных заголовков позволяет не только лучше ранжироваться, но и активно влиять на то, какие запросы будут предложены пользователям в Autocomplete, генерируя новый спрос.

Как Google использует логи запросов, чтобы выбирать лучшие переводы для межъязыковых подсказок в Autocomplete

Google разработал систему для улучшения качества межъязыковых поисковых подсказок (Autocomplete). Вместо буквального перевода система оценивает различные варианты перевода, отдавая предпочтение тем фразам, которые чаще всего используются носителями целевого языка в качестве реальных поисковых запросов. Это гарантирует, что предложенная подсказка является не только точным переводом, но и эффективным поисковым запросом.

US20120330990A1
2012-12-27

Мультиязычность
Семантика и интент
Поведенческие сигналы

Как Google позволяет вебмастерам создавать собственные поисковые подсказки (Autocomplete) для внутреннего поиска по сайту

Google предоставляет инфраструктуру, позволяющую владельцам сайтов определять собственные поисковые подсказки для функции поиска на их ресурсах. Вебмастера загружают данные, связывая вводимые пользователем термины (N-граммы) с желаемыми подсказками. Система индексирует эти данные и предоставляет инструмент (например, плагин или API), который в реальном времени отображает эти кастомные подсказки при вводе запроса пользователем на сайте.

US20120278308A1
2012-11-01

Индексация

Как Google динамически генерирует фильтры (теги) в выдаче на основе контента ранжируемых страниц

Google использует механизм для автоматического создания фильтров поисковой выдачи (например, в виде тегов или «пузырьков»). Система анализирует контент страниц, уже отобранных для показа по запросу, извлекает из них ключевые слова и проверяет их полезность, используя данные о поведении пользователей. Затем система отбирает наиболее релевантные и разнообразные фильтры, позволяя пользователю уточнить свой интент в один клик.

US10242112B2
2019-03-26

Семантика и интент
SERP
Поведенческие сигналы

Как Google проверяет и отбирает редкие (long-tail) запросы для поисковых подсказок (Autocomplete)

Google использует механизм для валидации редких поисковых запросов, чтобы определить, стоит ли добавлять их в поисковые подсказки (Autocomplete). Редкие запросы нормализуются (каноникализируются) и сравниваются с популярными запросами. Если редкий запрос семантически эквивалентен популярному, он признается качественным и допускается к показу в подсказках. Это позволяет Google предлагать разнообразные и полезные long-tail подсказки, отсеивая спам и бессмысленные запросы.

US20150120773A1
2015-04-30

Семантика и интент
Антиспам

Как Google переписывает частичные запросы для улучшения подсказок Autocomplete, если стандартных вариантов недостаточно

Патент описывает механизм работы Google Autocomplete для сложных или редких запросов. Если система не находит достаточно качественных или популярных подсказок для введенного текста, она переписывает частичный запрос. Это включает классификацию терминов на обязательные и опциональные, удаление менее важных слов или замену слов на синонимы. Это позволяет предложить пользователю релевантные и популярные полные запросы, даже если они не идеально соответствуют тому, что было введено изначально.

US9235654B1
2016-01-12

Семантика и интент

Как Google комбинирует поведенческие сигналы из разных поисковых систем для улучшения ранжирования

Google использует механизм для улучшения ранжирования путем объединения данных о поведении пользователей (клики и время взаимодействия) из разных поисковых систем (например, Веб-поиск и Поиск по Видео). Если в основной системе данных недостаточно, система заимствует данные из другой, применяя весовой коэффициент и фактор сглаживания для контроля смещения и обеспечения релевантности.

US8832083B1
2014-09-09

Поведенческие сигналы
SERP

Как Google рассчитывает тематическую репутацию для выявления и наделения полномочиями экспертов-кураторов

Google описывает систему для тематических сообществ, где пользователи зарабатывают репутацию (Topical Reputation Score) на основе качества контента, которым они делятся в рамках конкретных тем. Достигнув порогового значения, пользователь «разблокирует» тему, получая права куратора и возможность управлять контентом других. Система использует механизм «Impact Scores» для оценки влияния действий кураторов на репутацию участников.

US9436709B1
2016-09-06

EEAT и качество
Поведенческие сигналы

Как Google алгоритмически определяет и верифицирует языковые версии страниц, анализируя ссылки, контент и частоту обновлений

Google использует систему для автоматической идентификации связанных версий контента (например, переводов). Система анализирует ссылки между страницами и ищет «индикаторы связи» (названия языков в анкорах или флаги). Обнаруженная связь затем верифицируется с помощью машинного перевода и сравнения контента, а также анализа частоты обновлений. Это позволяет Google показывать пользователю наиболее подходящую языковую или региональную версию в поиске.

US8892596B1
2014-11-18

Мультиязычность
Ссылки
SERP

Как Google использует крупномасштабное машинное обучение и данные о поведении пользователей для предсказания кликов и ранжирования результатов

Google использует систему машинного обучения для создания модели ранжирования, которая предсказывает вероятность клика пользователя по документу. Модель обучается на огромных массивах данных о прошлых поисках (запросы, документы, клики). Система учитывает базовую вероятность клика (Prior Probability), основанную на позиции и предыдущей оценке документа, а затем корректирует её с помощью правил, выявляющих, какие признаки (Features) документа и запроса влияют на выбор пользователя.

US7231399B1
2007-06-12

Поведенческие сигналы

Как Google использует генеративный ИИ для создания чата с конкретным сайтом прямо в поисковой выдаче и предоставления глубинных ссылок

Google патентует механизм, позволяющий пользователям взаимодействовать с конкретным результатом поиска через интерфейс чата (prompt input interface) прямо на странице выдачи. Искусственный интеллект анализирует запрос пользователя и его последующий промпт, определяет намерение (поиск информации, действие или навигация) и предоставляет глубинные ссылки (deep links) на конкретные внутренние страницы этого же домена в виде conversational response.

US12353458B2
2025-07-08

Ссылки
Семантика и интент
SERP

Как Google использует персонализированный PageRank ссылающихся страниц для переоценки значимости анкорного текста

Google может персонализировать поисковую выдачу, изменяя вес анкорного текста ссылок. Вес ссылки зависит не от глобального PageRank ссылающейся страницы, а от её "персонализированного PageRank", рассчитанного на основе предпочтений пользователя (например, любимых сайтов или тематик). Это позволяет повышать в выдаче документы, на которые ссылаются авторитетные для конкретного пользователя источники.

US7260573B1
2007-08-21

Персонализация
Ссылки

Как Google использует контекст пользователя и интерактивное уточнение для обучения моделей поиска

Google может инициировать поиск пассивно, основываясь на контексте действий пользователя (например, чтении статьи или телефонном звонке). Система позволяет пользователю уточнить этот поиск, выбрав один из использованных критериев (например, тапнув на сущность в тексте), чтобы повысить его значимость. Реакция пользователя на уточненные результаты используется для машинного обучения и улучшения взвешивания критериев в будущих поисковых запросах.

US11568003B2
2023-01-31

Семантика и интент
Персонализация
Поведенческие сигналы

Как Google использует данные о поведении пользователей и длительность кликов для улучшения и переписывания поисковых запросов

Google использует систему для автоматического переписывания запросов пользователей. Система анализирует миллионы прошлых поисковых сессий, чтобы определить, как пользователи уточняли свои запросы и насколько они были удовлетворены результатами (измеряя длительность кликов). На основе этого рассчитывается «Ожидаемая полезность» (Expected Utility) для предложенных вариантов запросов, что позволяет Google предлагать пользователю те формулировки, которые с наибольшей вероятностью приведут к качественному ответу.

US7617205B2
2009-11-10

Поведенческие сигналы
Семантика и интент
SERP

Как Google автоматически превращает текст на странице в ссылки на результаты поиска для монетизации контента

Патент Google описывает технологию автоматического анализа контента веб-страницы для выявления ключевых тем и терминов. Система генерирует релевантные поисковые запросы и динамически встраивает гиперссылки в текст страницы. При клике пользователь перенаправляется на страницу результатов поиска (SERP). Ключевая особенность: система приоритизирует термины с высоким потенциалом дохода от рекламы.

US7788245B1
2010-08-31

Ссылки
SERP
Семантика и интент

Как Google использует CTR и E-E-A-T сигналы для определения контекста ссылок и оценки качества внешних упоминаний

Google использует двухэтапный механизм для анализа внешних комментариев (например, блог-постов). Сначала система определяет истинный объект обсуждения, если в комментарии несколько ссылок, анализируя CTR, длину URL и тематику. Затем она оценивает качество комментария, используя рейтинг автора, авторитетность источника, свежесть и обратную связь пользователей, чтобы отобрать наиболее релевантный контент.

US8656266B2
2014-02-18

Ссылки
EEAT и качество
Свежесть контента