Как Google находит и показывает наиболее релевантный фрагмент документа на мобильных устройствах

DISPLAY OF RELEVANT RESULTS (Отображение релевантных результатов)

US8370342B1
Google LLC
2005-09-27
2013-02-05

Семантика и интент

Google использует систему транскодирования для адаптации веб-страниц под мобильные устройства. Система анализирует документ, находит фрагмент, наиболее релевантный исходному поисковому запросу, и форматирует страницу так, чтобы этот фрагмент отображался вверху экрана. Это минимизирует необходимость прокрутки на маленьких дисплеях.

Какую проблему решает

Патент решает проблему неудобства просмотра стандартных веб-страниц на устройствах с маленькими экранами (например, мобильных телефонах или КПК). Когда контент слишком велик для дисплея, пользователю приходится выполнять многочисленные навигационные операции (прокрутку, переключение страниц), чтобы найти информацию, релевантную его исходному поисковому запросу. Это снижает эффективность поиска и вызывает неудобство.

Что запатентовано

Запатентована система для автоматического определения наиболее релевантного фрагмента внутри документа по отношению к поисковому запросу. Система форматирует (транскодирует) документ специально для мобильных устройств, разделяя его на подстраницы (sub-pages). Ключевая особенность — форматирование таким образом, чтобы отображение документа начиналось непосредственно с наиболее релевантного фрагмента, помещая его в верхнюю часть экрана.

Как это работает

Система работает как посредник:

Переписывание URL: Когда пользователь выполняет поиск с мобильного устройства, URL в результатах поиска переписываются (Transcoder URL Rewriter) так, чтобы указывать на Transcoder Server. В новый URL кодируются исходный адрес документа и поисковый запрос.
Перехват запроса: Когда пользователь кликает по результату, запрос направляется на Transcoder Server.
Анализ релевантности: Сервер загружает документ. Relevance Scoring Engine анализирует контент по блокам (nodes) и оценивает их релевантность запросу. При этом термины, присутствующие в заголовке или URL страницы (Navigational terms), могут игнорироваться или понижаться в весе.
Форматирование и доставка: Page Formatter делит документ на sub-pages и гарантирует, что первая отображаемая подстраница начнется с блока, получившего наивысшую оценку релевантности.

Актуальность для SEO

Низкая/Средняя. Специфическая технология, описанная в патенте (серверное транскодирование и разделение на sub-pages для мобильных устройств), в значительной степени устарела из-за повсеместного внедрения адаптивного дизайна и Mobile-First Indexing. Однако базовая концепция — идентификация и выделение наиболее релевантного фрагмента (passage) внутри документа — критически важна и получила развитие в современных технологиях, таких как Passage Ranking и Scroll-to-Text.

Важность для SEO

Влияние на SEO умеренное (4/10). Патент не описывает алгоритмы ранжирования в основной выдаче. Он фокусируется на обработке и представлении контента уже после клика пользователя, в контексте устаревшей мобильной инфраструктуры. Тем не менее, он подчеркивает стремление Google анализировать документы на гранулярном уровне. Понимание того, что система оценивает релевантность отдельных блоков (nodes) и может игнорировать "навигационные" термины при этой оценке, остается важным для создания структурированного контента.

Термины и определения

Transcoder Server (Сервер транскодирования): Сервер, который перехватывает запросы к веб-страницам, анализирует их контент и форматирует (транскодирует) его для оптимального отображения на устройствах с маленькими экранами.
Relevance Scoring Engine (Механизм оценки релевантности): Компонент, который оценивает релевантность различных частей (nodes или блоков информации) документа по отношению к исходному поисковому запросу.
Page Formatter (Форматировщик страниц): Компонент, который делит транскодированный документ на подстраницы (sub-pages) и определяет, какой фрагмент контента будет отображаться вверху первой подстраницы.
Transcoder URL Rewriter (Модуль переписывания URL для транскодера): Компонент поисковой системы, который изменяет URL в результатах поиска. Новый URL направляет пользователя на Transcoder Server и содержит закодированный исходный URL и поисковый запрос.
Nodes (Узлы): Структурные элементы документа (например, HTML-теги), используемые Document Node Analyzer для разделения контента на анализируемые блоки.
Sub-pages (Подстраницы): Части документа, созданные транскодером для постраничного отображения контента на мобильном устройстве.
Navigational Query Term (Навигационный термин запроса): Термин из поискового запроса, который обнаружен в предопределенных местах документа (например, в теге Title или в URL). В патенте предлагается снижать вес таких терминов при оценке релевантности внутренних фрагментов страницы.
Informational Query Term (Информационный термин запроса): Термин запроса, который не классифицирован как навигационный. Используется как основной для поиска релевантного контента внутри страницы.
Context Settings (Настройки контекста): Параметры, определяющие, как именно отображать релевантный фрагмент. Например, сколько строк показывать до него, подсветка терминов или создание навигации между несколькими релевантными фрагментами.
Matching Engine (Механизм сопоставления): Компонент, который идентифицирует совпадения между терминами запроса и контентом в узлах документа.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает метод, выполняемый на стороне сервера.

Получение поискового запроса и возврат списка результатов.
Получение индикации о выборе пользователем первого результата (ссылки на целый документ).
Разделение (Dividing) соответствующего документа на несколько sub-pages.
Определение оценки (Score) для каждой sub-page на основе терминов запроса.
Идентификация первой sub-page как наиболее релевантной.
Предоставление первой sub-page для отображения.
Предоставление кода, который отображает элемент управления (control) для перехода ко второй (следующей наиболее релевантной) sub-page.
При активации элемента управления, идентификация и предоставление второй sub-page вместо первой.

Ядром изобретения является процесс перехвата запроса к документу, его разделение на части, оценка релевантности этих частей на основе исходного запроса, отображение наиболее релевантной части первой и предоставление механизма для навигации к следующей наиболее релевантной части.

Claim 4 (Зависимый от 1): Детализирует процесс определения оценки (Score).

Определение того, что первый термин запроса находится в предопределенном месте (predetermined location) в документе.
В результате, присутствие этого термина в sub-pages оказывает менее значительное влияние (less-significantly influence) на оценки, чем присутствие других терминов запроса.

Это механизм для снижения веса "навигационных" терминов. Если термин запроса совпадает с названием сайта или заголовком страницы (Claims 5 и 6 уточняют, что predetermined location — это Title tag или URL), его вес при оценке релевантности контента внутри страницы снижается. Это позволяет сфокусироваться на "информационной" части запроса.

Claim 9 (Независимый пункт): Описывает процесс с точки зрения клиентского устройства (мобильного телефона).

Отправка запроса и получение списка результатов.
Выбор результата пользователем и отправка индикации на сервер (что запускает процесс разделения и оценки на сервере).
Представление первой (наиболее релевантной) sub-page пользователю.
Отображение элемента управления для перехода ко второй sub-page.
Активация элемента управления пользователем (запрос навигации).
Представление второй sub-page пользователю.

Этот пункт защищает пользовательский интерфейс, позволяющий легко переключаться между наиболее релевантными фрагментами документа.

Где и как применяется

Описанная система функционирует как промежуточный слой между стандартной поисковой системой и конечным пользователем, активируясь преимущественно при мобильном поиске (в контексте патента).

RANKING – Ранжирование
Стандартный Search Engine на Web Server выполняет поиск и генерирует первичный список релевантных документов.

METASEARCH / RERANKING (Обработка SERP)
На этом этапе, перед отправкой SERP пользователю, вмешивается Transcoder URL Rewriter. Он модифицирует ссылки в результатах поиска, направляя их на Transcoder Server и добавляя в них информацию об исходном URL и поисковом запросе.

Слой Доставки и Представления Контента (Post-Click)
Это основной этап работы изобретения, который активируется после клика пользователя по результату в SERP.

Перехват: Transcoder Server получает запрос от пользователя.
Анализ (On-the-fly): Relevance Scoring Engine выполняет гранулярный анализ загруженного документа в реальном времени, используя исходный поисковый запрос.
Форматирование: Page Formatter транскодирует контент и переформатирует его так, чтобы наиболее релевантный фрагмент оказался вверху.

Входные данные:

Переписанный URL, содержащий исходный URL документа и термины поискового запроса.
Контент исходного документа.
Context Settings (параметры отображения).

Выходные данные:

Транскодированный документ, разделенный на sub-pages.
Первая отображаемая sub-page начинается с наиболее релевантного фрагмента.
Элементы управления для навигации к следующему наиболее релевантному фрагменту.

На что влияет

Конкретные типы устройств: Система напрямую нацелена на улучшение пользовательского опыта на устройствах с маленькими экранами ("cell phone, PDA, or other similar device").
Типы контента: В первую очередь HTML документы, но упоминается возможность обработки других форматов (.doc, .txt, .pdf, XML, SGML).
Влияние на представление: Патент влияет не на ранжирование документа в SERP, а на то, какая часть документа будет показана пользователю первой после клика.

Когда применяется

Триггеры активации: Когда пользователь выполняет поиск и кликает на результат с устройства, которое идентифицировано как требующее транскодирования (например, из-за малого размера дисплея).
Условия применения: Когда Transcoder URL Rewriter активен и переписывает ссылки в SERP для данного типа устройств.
Динамическое применение: Патент упоминает, что решение о форматировании может приниматься динамически на основе выделенной области отображения. Если область отображения меньше порогового значения, система может активировать отображение наиболее релевантного фрагмента вверху.

Пошаговый алгоритм

Фаза 1: Подготовка SERP (Web Server)

Получение поискового запроса от мобильного устройства.
Выполнение поиска стандартным Search Engine.
Переписывание URL в результатах поиска с помощью Transcoder URL Rewriter. В URL кодируется адрес Transcoder Server, исходный URL документа и термины запроса.
Отправка модифицированного SERP на мобильное устройство.

Фаза 2: Получение и анализ документа (Transcoder Server)

Получение запроса от пользователя (клик по переписанному URL).
Извлечение исходного URL и терминов запроса. Загрузка контента.
Анализ структуры документа с помощью Document Node Analyzer для идентификации узлов (nodes), содержащих текст.
Сопоставление терминов запроса с текстом в каждом узле с помощью Matching Engine. Составление списка узлов с совпадениями.

Фаза 3: Оценка релевантности (Relevance Scoring Engine)

Классификация терминов запроса с помощью Location Analyzer. Термины, найденные в предопределенных местах (Title, URL), классифицируются как Navigational. Остальные — как Informational.
Статистический анализ совпадений (Statistical Analyzer): частота, расстояние, близость, распределение терминов.
Расчет оценок релевантности для узлов/блоков информации с помощью Scoring Engine. Применяются веса и правила (Scoring Rules). Вес Navigational терминов снижается или обнуляется.
Отсечение (Pruning) низкорелевантных узлов и ранжирование (Ranking) оставшихся.
Идентификация местоположения блока(ов) с наивысшей оценкой.

Фаза 4: Форматирование и доставка (Page Formatter)

Разделение документа на sub-pages, подходящие для маленького экрана.
Применение Decision Logic для форматирования первой отображаемой sub-page так, чтобы она начиналась в месте расположения наиболее релевантного блока, с учетом Context Settings.
Генерация элементов управления для навигации (например, переход к следующему наиболее релевантному фрагменту).
Отправка первой транскодированной sub-page на мобильное устройство.

Какие данные и как использует

Данные на входе

Контентные факторы: Текст, связанный с узлами (Nodes) документа. Система анализирует весь текстовый контент для поиска совпадений.
Структурные факторы: HTML-структура используется для разделения документа на узлы (Nodes). Тег Title является ключевым структурным фактором для идентификации Navigational Query Terms.
Технические факторы: URL документа используется как еще один фактор для идентификации Navigational Query Terms.
Пользовательские факторы: Исходный поисковый запрос является основой для оценки релевантности. Тип устройства и размер экрана (подразумеваются) определяют необходимость транскодирования и влияют на Context Settings.

Какие метрики используются и как они считаются

Классификация терминов запроса: Бинарная классификация на Navigational и Informational. Основана на присутствии термина в Title или URL документа.
Метрики статистического анализа: Упоминаются частота вхождений (frequency), расстояние между вхождениями (distance), близость терминов друг к другу (proximity) и распределение вхождений (distribution).
Relevance Score (Оценка релевантности): Числовая оценка для блока/узла. Рассчитывается на основе весов (weights) и правил (scoring rules).
Корректировка весов (Weight Adjustment): Веса для Navigational терминов снижаются ("assigned a lower scoring weight") или полностью игнорируются ("discounted entirely"). Веса Informational терминов имеют больший приоритет.
Система оценки: В патенте упоминается возможность использования системы на основе штрафов (penalty-based system). Узлы начинают с предопределенной оценки, которая снижается (штрафуется) в зависимости от соблюдения или несоблюдения правил. Например, узел может быть оштрафован, если термин встречается слишком часто.

Фокус на релевантности фрагмента (Passage Relevance): Патент демонстрирует ранние усилия Google по идентификации конкретного, наиболее релевантного фрагмента внутри документа, а не только оценке документа в целом. Цель — немедленно доставить пользователю ответ на его запрос.
Разделение навигационных и информационных интентов внутри запроса: Ключевым механизмом является классификация терминов запроса на Navigational и Informational. Система активно снижает вес терминов, совпадающих с Title/URL страницы, при оценке внутренних блоков контента. Это позволяет точнее определить релевантность содержания, игнорируя повторения заголовка.
Гранулярный анализ структуры документа: Система анализирует документ на уровне структурных узлов (Nodes), что подчеркивает важность четкой структуры HTML для машинного понимания контента.
Навигация между релевантными фрагментами: Изобретение включает механизм, позволяющий пользователю легко переходить от одного высокорелевантного фрагмента к другому (следующему по релевантности).
Устаревшая реализация, но актуальные концепции: Хотя техническая реализация через Transcoder Server и разделение на sub-pages устарела, концепции, заложенные в патенте, являются предшественниками современных технологий, таких как Passage Ranking (оценка фрагментов) и Scroll-to-Text (переход к фрагменту на странице).

Best practices (это мы делаем)

Обеспечение четкой семантической структуры контента: Используйте семантический HTML и логичную иерархию заголовков. Система анализирует страницу на основе nodes (блоков). Четкая структура помогает алгоритмам (как описанному Relevance Scoring Engine, так и современным системам Passage Ranking) идентифицировать и оценивать отдельные фрагменты контента.
Фокус на релевантности на уровне фрагмента (Passage Level): Создавайте контент, где отдельные абзацы или разделы являются самодостаточными и четко отвечают на конкретные вопросы. Поскольку цель Google — идентифицировать и показать наиболее релевантный блок, каждый раздел длинной статьи должен быть информационно насыщенным.
Концентрация на информационном содержании в теле документа: Сосредоточьтесь на предоставлении ценности в основном контенте. Патент показывает, что Google стремится отделить информационные термины от навигационных (совпадающих с Title/URL) и отдает приоритет первым при оценке содержания страницы.

Worst practices (это делать не надо)

Создание "стен текста": Монолитные блоки текста без четкой структуры (заголовков, списков, абзацев) затрудняют работу Document Node Analyzer по выделению и оценке отдельных информационных блоков.
Избыточное повторение ключевых слов (Keyword Stuffing): Патент явно упоминает Statistical Analyzer и систему на основе штрафов (penalty-based system), которые анализируют частоту терминов и могут штрафовать за их чрезмерное использование.
Ненужное повторение заголовка страницы в контенте: Если термины из заголовка (Title) повторяются в тексте без добавления ценности, они могут быть классифицированы как Navigational и их вес при оценке релевантности этого фрагмента будет снижен.

Стратегическое значение

Этот патент является важным ранним индикатором стратегического движения Google к пониманию контента на гранулярном уровне. Он подтверждает долгосрочную цель Google — не просто найти лучшую страницу, но и найти лучший ответ внутри этой страницы и немедленно направить туда пользователя. Хотя описанная технология транскодирования устарела, лежащая в ее основе логика анализа фрагментов (passages) и разделения интентов запроса получила прямое развитие в современных системах ранжирования (Passage Ranking) и функциях SERP (Featured Snippets, Scroll-to-Text).

Практические примеры

Сценарий: Оптимизация длинного руководства для выделения фрагментов (Применение логики патента к современным реалиям)

Хотя патент описывает устаревшую систему транскодирования, мы можем применить его логику к современным технологиям, таким как Passage Ranking и Scroll-to-Text.

Задача: SEO-специалист оптимизирует длинное руководство по теме "Уход за суккулентами".
Действие (Основанное на патенте): Вместо сплошного текста специалист структурирует контент с четкими заголовками H2/H3: "Частота полива", "Лучший состав почвы", "Решение проблемы желтых листьев". Это создает четкие блоки (nodes).
Механизм: Когда пользователь ищет "почему желтеют листья суккулентов", современный эквивалент Relevance Scoring Engine анализирует страницу. Термины "суккуленты" (вероятно, в Title) могут быть понижены как Navigational, а фокус сместится на "желтеют листья" (Informational). Блок "Решение проблемы желтых листьев" получает наивысшую оценку.
Результат: Google может ранжировать страницу на основе релевантности этого конкретного фрагмента и (используя технологию Scroll-to-Text — современный аналог цели Page Formatter) направить пользователя сразу к этому разделу после клика по результату в SERP.

Что такое "Навигационные" (Navigational) и "Информационные" (Informational) термины запроса в этом патенте?

Navigational Query Terms — это термины из запроса, которые система обнаруживает в предопределенных местах документа, а именно в теге Title или в URL. Informational Query Terms — это все остальные термины запроса. Система снижает вес навигационных терминов при оценке релевантности внутренних блоков контента, чтобы сфокусироваться на содержании, а не на повторении заголовка страницы.

Как система решает, какая часть страницы наиболее релевантна?

Система разделяет документ на структурные блоки (nodes). Затем она выполняет статистический анализ (частота, близость, распределение) вхождений терминов запроса в каждом блоке. Блоки оцениваются с помощью Scoring Engine, при этом вес информационных терминов выше, чем навигационных. Блок с наивысшей итоговой оценкой считается наиболее релевантным.

Используется ли описанный в патенте "Transcoder Server" сегодня?

В том виде, как описано в патенте (подача заявки 2005 год) — скорее всего, нет. Технология серверного транскодирования для адаптации сайтов под старые мобильные устройства была вытеснена адаптивным дизайном (Responsive Design) и современными мобильными браузерами. Сегодня Google индексирует мобильные версии сайтов напрямую (Mobile-First Indexing).

Как этот патент связан с Passage Ranking?

Патент является ранним предшественником Passage Ranking. Он описывает механизм (Relevance Scoring Engine) для анализа и оценки отдельных фрагментов (passages/nodes) документа независимо друг от друга, чтобы найти наиболее релевантный ответ на запрос. Современная система Passage Ranking использует гораздо более продвинутые NLP-модели для этой же цели, но базовая концепция идентична.

Влияет ли этот патент на ранжирование сайта в поиске?

Напрямую нет. Патент описывает систему, которая работает после того, как ранжирование завершено и пользователь кликнул на результат. Она предназначена для улучшения представления контента на мобильном устройстве. Однако концепции, лежащие в основе оценки релевантности фрагментов, безусловно, используются в современных алгоритмах ранжирования.

Как этот патент влияет на создание длинного контента (long-form content)?

Он подчеркивает необходимость четкой структуры и самодостаточности разделов в длинных статьях. Чтобы система могла эффективно идентифицировать и отображать наиболее релевантные фрагменты, контент должен быть логически разделен на блоки (nodes), каждый из которых сфокусирован на определенном под-вопросе.

Что такое "Context Settings" и как они влияют на отображение?

Context Settings — это параметры, которые управляют тем, как именно будет показан релевантный фрагмент. Они могут определять, сколько строк текста показать перед фрагментом для контекста, нужно ли начинать отображение с начала предложения, как подсвечивать термины запроса, а также как реализовать навигацию к следующим по релевантности фрагментам.

Что подразумевается под "системой на основе штрафов" (penalty-based system) для оценки контента?

Это подход к оценке, при котором блок контента изначально имеет высокую оценку, которая затем снижается (штрафуется) при обнаружении негативных сигналов. В патенте приводится пример штрафа за слишком частое повторение термина в узле. Это указывает на наличие механизмов борьбы с переоптимизацией (Keyword Stuffing) на уровне фрагментов.

Как следует структурировать HTML, исходя из этого патента?

Система использует Document Node Analyzer для разбора страницы на основе её структуры (nodes). Это подтверждает важность использования чистой, семантической верстки. Использование соответствующих HTML-тегов (div, p, ul/ol, h1-h6) помогает системе корректно разделить контент на логические блоки для последующей оценки релевантности.

Является ли этот патент описанием технологии Scroll-to-Text?

Он описывает предшествующую технологию с той же целью. Патент достигает цели немедленного показа релевантного контента путем переформатирования страницы на сервере (транскодирования) так, чтобы релевантный текст оказался в самом верху новой подстраницы. Scroll-to-Text достигает той же цели в современных браузерах, автоматически прокручивая страницу до нужного фрагмента после загрузки.

Как Google рассчитывает и использует оценки Mobile-Friendliness для ранжирования результатов и маркировки сайтов

Google рассчитывает Mobile-Friendliness Score, рендеря страницы как мобильное устройство и оценивая такие сигналы, как размер кликабельных элементов, читаемость текста, настройки области просмотра (viewport) и скорость загрузки. Эта оценка используется для повышения позиций удобных для мобильных страниц в мобильном поиске и для добавления метки «Mobile-Friendly» в поисковой выдаче.

US20160314215A1
2016-10-27

Техническое SEO
Индексация

Как Google определяет наиболее релевантную часть документа, игнорируя ключевые слова из Title и URL

Google использует механизм для определения самой важной части страницы по запросу пользователя. Система классифицирует слова запроса на «навигационные» (если они есть в Title или URL) и «информационные». При анализе контента внутри страницы вес «навигационных» слов снижается или обнуляется, позволяя точнее выделить конкретный фрагмент текста, содержащий ответ.

US8005825B1
2011-08-23

Семантика и интент

Как Google генерирует визуальные превью страниц в выдаче, используя "разрывы страницы" и масштабирование релевантного контента

Google использует систему для создания визуальных превью страниц (Page Previews) в результатах поиска. Система оценивает релевантность контента, учитывая близость ключевых слов и тип контента (например, пессимизируя сноски). Для показа наиболее важных, но разрозненных участков используются "разрывы страницы" (Page Tears). Ключевой контент также может отображаться в увеличенном масштабе для читаемости, помогая пользователю оценить формат страницы до клика.

US8954427B2
2015-02-10

SERP
Семантика и интент

Как Google выбирает между веб-сайтом (десктоп/мобайл) и нативным приложением для показа в результатах поиска

Google анализирует различные форматы доступа к контенту (например, десктопный сайт, мобильный сайт, нативное приложение). Система оценивает качество, скорость, стабильность и совместимость каждого варианта с устройством пользователя. В результатах поиска Google покажет ссылку на тот формат, который имеет наивысшую оценку качества для конкретного пользователя и устройства.

US9146972B2
2015-09-29

SERP
Поведенческие сигналы
Персонализация

Как Google использует контекст текущей страницы для понимания запроса и прямой навигации к результату (минуя SERP)

Google может анализировать контент страницы, которую просматривает пользователь, чтобы понять неоднозначные запросы (например, содержащие местоимения). Система переписывает запрос, добавляя контекст, ищет результаты и автоматически выбирает один лучший ответ. Затем пользователь направляется прямо на этот ресурс, минуя стандартную страницу результатов поиска (SERP).

US10503733B2
2019-12-10

SERP
Семантика и интент

Как Google использует повторные клики, прямой трафик и время на сайте для расчета оценки качества домена и корректировки ранжирования

Google анализирует поведение пользователей на уровне домена (группы ресурсов) для вычисления модификатора ранжирования. Ключевые метрики включают долю повторных кликов (Repeat Click Fraction), долю прямого трафика (Deliberate Visit Fraction) и среднюю продолжительность визита (Average Duration). Эти данные используются для корректировки исходных оценок страниц сайта, понижая ресурсы с низкими показателями пользовательской лояльности и вовлеченности.

US9684697B1
2017-06-20

Поведенческие сигналы
SERP

Как Google извлекает сущности из активности пользователя для запуска проактивных (имплицитных) поисковых запросов

Анализ патента Google, описывающего метод идентификации «именованных сущностей» (людей, тем, фраз) путем мониторинга действий пользователя, таких как электронная почта, просмотр веб-страниц и набор текста. Система использует эти сущности для проактивного запуска фоновых поисковых запросов (имплицитных запросов), релевантных текущему контексту пользователя, часто с использованием персонализированных данных.

US9009153B2
2015-04-14

Персонализация
Семантика и интент
Поведенческие сигналы

Как Google находит фактические ответы, начиная с потенциальных ответов и связывая их с запросами пользователей (Reverse Question Answering)

Google использует метод «обратного ответа на вопрос» для эффективного поиска фактов. Вместо глубокого анализа запроса система начинает с идентификации потенциальных ответов (например, дат, измерений) в индексе. Затем она определяет, для каких запросов эти ответы релевантны, анализируя, какие документы высоко ранжируются и получают клики по этим запросам. Это позволяет точно сопоставлять факты с разнообразными формулировками вопросов.

US9116996B1
2015-08-25

Поведенческие сигналы
Семантика и интент

Как Google снижает ценность кликов по результатам, полученным из слишком общих запросов

Google использует механизм для корректировки показателей популярности (например, кликов) документа. Если документ получил клик в ответ на очень общий (широкий) запрос, ценность этого клика снижается. Это предотвращает искусственное завышение популярности документов, которые часто показываются по высокочастотным общим запросам, и повышает значимость кликов, полученных по более специфическим запросам.

US7925657B1
2011-04-12

Поведенческие сигналы

Как Google использует всплески поискового интереса и анализ новостей для обновления Графа Знаний в реальном времени

Google отслеживает аномальный рост запросов о сущностях (людях, компаниях) как индикатор реального события. Система анализирует свежие документы, опубликованные в этот период, извлекая факты в формате Субъект-Глагол-Объект (SVO). Эти факты используются для оперативного обновления Графа Знаний или добавления блока «Недавно» в поисковую выдачу.

US9235653B2
2016-01-12

Knowledge Graph
Свежесть контента
Семантика и интент

Как Google использует историю поиска, поведение и многофакторные профили пользователей для персонализации поисковой выдачи

Google создает детальные профили пользователей на основе истории запросов, взаимодействия с результатами (клики, время просмотра) и анализа контента посещенных страниц. Эти профили (включающие интересы по терминам, категориям и ссылкам) используются для корректировки стандартных оценок ранжирования. Степень персонализации динамически регулируется уровнем уверенности системы в профиле (Confidence Score).

US9298777B2
2016-03-29

Персонализация
Поведенческие сигналы
SERP

Как Google использует контекст текущей сессии и поведение похожих пользователей для персонализации и переранжирования выдачи

Google анализирует недавнюю активность пользователя (запросы и клики в рамках сессии), чтобы определить его краткосрочный интерес. Система сравнивает, как другие пользователи с таким же интересом взаимодействовали с результатами по текущему запросу, по сравнению с общим поведением. Если предпочтения статистически значимо различаются, Google переранжирует выдачу, повышая результаты, предпочитаемые «похожей» аудиторией, учитывая при этом время взаимодействия с контентом (Dwell Time).

US8972391B1
2015-03-03

Персонализация
Поведенческие сигналы
SERP

Как Google использует исторические данные о кликах по Сущностям для ранжирования нового или редко посещаемого контента

Google решает проблему «холодного старта» для новых страниц, у которых нет собственных поведенческих данных. Система агрегирует историю кликов на уровне Сущностей (Entities). Если сущности, упомянутые на новой странице, исторически имеют высокий CTR по целевому запросу, страница получает бустинг в ранжировании, наследуя поведенческие сигналы через эти сущности.

US10303684B1
2019-05-28

Поведенческие сигналы
Семантика и интент
SERP

Как Google определяет связанность документов с использованием Co-citation, анализа текста вокруг ссылок и паттернов пользовательского доступа

Google использует методы для ограничения результатов поиска на основе заданного контекста (например, набора URL-адресов или категории). Патент детализирует, как система определяет «связанность» между документами, используя такие методы, как анализ совместного цитирования (co-citation), анализ текста, окружающего ссылки в цитирующих документах, и анализ корреляции паттернов доступа пользователей.

US7305380B1
2007-12-04

Ссылки
SERP
Поведенческие сигналы

Как Google динамически фильтрует выдачу, уточняя интент пользователя после клика по результату

Google использует механизм для обработки неоднозначных запросов. Если выдача содержит результаты, относящиеся к разным сущностям (например, «Ягуар» как животное и как автомобиль), клик пользователя по одному из результатов сигнализирует о его интересе к конкретной сущности. При возврате на страницу выдачи система модифицирует SERP, скрывая или понижая результаты, связанные с нерелевантными сущностями, и фокусируя выдачу на выбранном интенте.

US9355158B2
2016-05-31

Семантика и интент
SERP
Поведенческие сигналы