Как Google использует семантическую структуру HTML (списки и заголовки) для расчета расстояния между ключевыми словами

DOCUMENT RANKING BASED ON SEMANTIC DISTANCE BETWEEN TERMS IN A DOCUMENT (Ранжирование документов на основе семантического расстояния между терминами в документе)

US7716216B1
Google LLC
2004-03-31
2010-05-11

Google анализирует структуру веб-страницы, включая списки и заголовки, чтобы определить семантическое расстояние между ключевыми словами. Система выявляет семантические блоки, даже если они не размечены явными HTML-тегами, путем анализа повторяющихся паттернов форматирования. Расстояние между терминами рассчитывается на основе этой структуры: слова внутри одного элемента списка считаются близкими, а слова в разных элементах — далекими, независимо от физического расстояния.

Какую проблему решает

Патент решает проблему неточности стандартных методов измерения близости (distance) между терминами в сложно структурированных документах, таких как HTML-страницы. Традиционный подход (подсчет слов между терминами или оценка визуального расстояния) часто не коррелирует с семантической связью. Например, последнее слово одного пункта списка и первое слово следующего пункта физически близки, но семантически далеки. Изобретение улучшает оценку релевантности путем введения Semantic Distance (семантического расстояния).

Что запатентовано

Запатентован метод расчета расстояния между терминами на основе семантической структуры документа. Система идентифицирует семантические структуры (списки, заголовки), включая те, которые определены неявно (implicitly defined) с помощью повторяющихся паттернов форматирования, а не стандартных HTML-тегов. Расстояние между терминами корректируется в зависимости от того, находятся ли они в одном семантическом блоке или пересекают границы блоков.

Как это работает

Система работает в несколько этапов:

Анализ структуры: Документ (HTML) парсится в древовидную структуру (Tree Structure, например, DOM-дерево).
Обнаружение структур: Система идентифицирует явные структуры (например, <ul>) и неявные структуры (Implicit Lists). Неявные списки обнаруживаются путем поиска повторяющихся наборов команд форматирования (например, повторяющиеся <br>, <div> или <table> теги).
Аннотирование: Структура аннотируется для обозначения границ семантических элементов (элементы списка, заголовки).
Расчет дистанции: При ранжировании рассчитывается Semantic Distance. Применяются специальные правила: если термины находятся в одном семантическом элементе, они считаются близкими. Если они пересекают границу элемента (например, находятся в разных пунктах списка), расстояние увеличивается (штрафуется).

Актуальность для SEO

Высокая. Понимание структуры документа (DOM) и семантических связей между элементами контента является фундаментальной задачей для современных поисковых систем. Хотя методы анализа эволюционировали с момента подачи патента (например, с учетом визуального рендеринга), базовый принцип использования семантической организации контента для оценки близости терминов и релевантности остается критически важным.

Важность для SEO

Патент имеет высокое значение (8/10) для SEO. Он определяет, как Google интерпретирует близость ключевых слов (Keyword Proximity) — один из базовых сигналов релевантности. Это напрямую влияет на стратегии оптимизации контента, подчеркивая важность логической группировки связанных концепций внутри одних и тех же семантических блоков (абзацев, элементов списка) и использования чистой, семантически верной структуры документа.

Термины и определения

Semantic Distance (Семантическое расстояние): Мера близости между терминами, основанная на их расположении внутри семантических структур документа, а не только на физическом расстоянии (количестве слов или Word Count).
Implicitly Defined Semantic Structure (Неявно определенная семантическая структура) / Implicit List: Структура контента (например, список), которая создана без использования стандартных HTML-тегов (например, <ul>, <ol>). Создается с помощью других тегов (<div>, <br>, <p>, <table>) и обнаруживается путем анализа повторяющихся паттернов.
Tree Structure (Древовидная структура): Иерархическое представление структуры документа (например, DOM-дерево HTML-документа), используемое для анализа разметки.
Text Formatting Commands (Команды форматирования текста): HTML-теги, влияющие на отображение текста (например, <br>, <b>, <div>). Повторение этих команд используется для обнаружения неявных структур.
Page Analyzer Component (Компонент анализа страницы): Модуль, который анализирует Tree Structure для обнаружения семантически значимых структур (списки, заголовки, названия).
Distance Component (Компонент расчета расстояния): Модуль, который вычисляет показатели расстояния (Distance Metrics/Value) между парами терминов.
Relevance Component (Компонент релевантности): Модуль, использующий метрики расстояния для генерации Ranking Score.

Ключевые утверждения (Анализ Claims)

Ядром изобретения является метод расчета расстояния, который использует различные функции в зависимости от того, как термины расположены относительно границ семантических элементов, в частности списков.

Claim 1 (Независимый пункт): Описывает основной метод расчета Distance Value с учетом неявной семантической структуры.

Идентификация неявно определенной семантической структуры в документе. Конкретно: списка с заголовком (header) и элементами (items).
Определение местоположения первого и второго термина внутри этого списка.
Выбор одного правила из набора правил на основе соотношения местоположений терминов. Правила строго определены:
- Правило 1 (First rule): Термины находятся в разных элементах списка.
- Правило 2 (Second rule): Термины находятся в одном и том же элементе списка.
- Правило 3 (Third rule): Один термин в заголовке, другой в элементе списка.
Определение Distance Value с использованием функции, которая зависит от выбранного правила. Ключевое утверждение: функции для Правил 1, 2 и 3 различаются.
Вывод Distance Value для ранжирования документа по запросу.

Claim 6 (Зависимый от 1): Уточняет, как рассчитывается значение расстояния.

Функция рассчитывает Distance Value как количество слов (word count) между терминами, скорректированное (augmented) с помощью выбранного правила.

Claim 7 (Зависимый от 1): Уточняет метод идентификации неявной структуры.

Идентификация включает обнаружение повторяющихся вхождений (repeating occurrences) набора из двух или более команд форматирования текста (Text Formatting Commands).

Claim 9 (Независимый пункт): Описывает метод ранжирования документов на основе семантического расстояния (применимо к явным и неявным структурам).

Логика аналогична Claim 1: идентификация семантической структуры (списка), локализация терминов запроса, выбор правила (1, 2 или 3), расчет Distance Value с использованием функции, специфичной для правила, и ранжирование документов на основе этого значения.

Где и как применяется

Изобретение применяется на этапах индексирования и ранжирования для улучшения расчета релевантности.

INDEXING – Индексирование и извлечение признаков
На этом этапе Page Analyzer Component анализирует документ. Происходит парсинг HTML в Tree Structure. Система обнаруживает явные и неявные семантические структуры. Ключевой процесс — поиск неявных списков путем обнаружения повторяющихся паттернов форматирования. Документ или его представление в индексе аннотируется этой структурной информацией. Эта работа выполняется заранее (офлайн).

RANKING – Ранжирование
На этом этапе (вероятно, L2 или L3, где происходит детальная оценка релевантности) система использует аннотированную структуру. Distance Component определяет местоположение терминов запроса и применяет правила семантического расстояния для расчета Distance Metrics. Relevance Component использует эти метрики для вычисления итогового Ranking Score.

Входные данные:

(Индексирование) Исходный документ (HTML).
(Ранжирование) Термины поискового запроса и Аннотированная Tree Structure документа.

Выходные данные:

(Индексирование) Аннотированная структура документа.
(Ранжирование) Distance Metrics и Ranking Score документа.

На что влияет

Типы контента: Наибольшее влияние оказывается на контент, организованный в виде списков, перечислений, таблиц, рецептов, обзоров (Ecommerce), инструкций и статей с четкой структурой заголовков.
Специфические запросы: Влияет на запросы, состоящие из нескольких терминов, где важно не только наличие терминов, но и их взаимное расположение и контекстуальная связь (например, [объект] + [характеристика]).
Техническое качество HTML: Влияет на сайты с несемантической версткой, заставляя систему активировать механизм распознавания неявных структур.

Когда применяется

Условия применения: Алгоритм расчета Semantic Distance применяется, когда в документе найдено более одного термина из поискового запроса и система оценивает их близость для расчета релевантности.
Триггеры активации (для обнаружения неявных списков): Активируется, когда Page Analyzer Component обнаруживает повторяющиеся шаблоны команд форматирования в Tree Structure документа во время индексирования.

Пошаговый алгоритм

Этап 1: Анализ структуры документа (INDEXING - Офлайн)

Парсинг: Получение документа и его парсинг в Tree Structure (например, DOM-дерево).
Обнаружение явных структур: Идентификация явных списков (<ul>, <ol>) и заголовков/названий (Titles/Headings) на основе иерархии дерева.
Обнаружение неявных структур: Анализ Tree Structure на предмет повторяющихся наборов команд форматирования (например, последовательности <b>...<br> или повторяющиеся <div> с одинаковой структурой). Идентификация Implicit Lists на основе этих повторений.
Аннотирование: Разметка Tree Structure для обозначения границ семантических элементов (заголовок списка, элемент списка А, элемент списка Б и т.д.).

Этап 2: Расчет расстояния и ранжирование (RANKING - В реальном времени)

Получение данных: Получение поискового запроса и аннотированного документа.
Локализация терминов: Определение местоположения терминов запроса (Термин 1 и Термин 2) в аннотированной структуре.
Выбор правила и функции: Выбор функции расчета расстояния на основе местоположения терминов (согласно Claim 1):
- Правило 2 (Один элемент): Если Термин 1 и Термин 2 в одном элементе списка. Расстояние считается близким.
- Правило 3 (Заголовок-Элемент): Если Термин 1 в заголовке, а Термин 2 в элементе списка. Расстояние считается относительно близким (и равным для всех элементов относительно заголовка).
- Правило 1 (Разные элементы): Если Термин 1 в элементе А, а Термин 2 в элементе Б. Расстояние считается большим (штраф), даже если физически слова рядом.
Применение дополнительных правил: Термин в названии документа (Title) считается близким ко всем терминам. Термин в заголовке раздела (Heading) считается близким к терминам под ним в иерархии.
Вычисление метрик: Расчет Distance Metrics с использованием выбранной функции (Word Count, модифицированный правилом).
Расчет релевантности: Генерация Ranking Score. Документы, в которых термины семантически ближе, получают более высокий балл.

Какие данные и как использует

Данные на входе

Патент фокусируется на структурных и контентных факторах для определения близости.

Структурные факторы (HTML-теги): Критически важные данные. Анализируется иерархия и последовательность HTML-тегов в Tree Structure. Особое внимание уделяется тегам (Text Formatting Commands), используемым для создания списков:
- Явные: <ul>, <ol>.
- Неявные (повторяющиеся): <div>, <br> (line break), <p> (paragraph), <table>, <tr>, <b> (bold), <font>.
Контентные факторы: Текст документа и расположение поисковых терминов внутри этого текста, используемые для подсчета базового Word Count.

Какие метрики используются и как они считаются

Pattern Recognition (Распознавание шаблонов): Используется для обнаружения неявных списков путем поиска повторяющихся вхождений (repeating occurrences) наборов команд форматирования.
Word Count (Количество слов): Базовая метрика физического расстояния.
Semantic Distance (Семантическое расстояние): Основная вычисляемая метрика. Патент описывает ее как значение расстояния (Word Count), дополненное (augmented by) концепцией семантической близости, основанной на структуре документа (Claim 6).
Rule-Based Functions (Функции на основе правил): Расчет Semantic Distance зависит от того, где расположены термины (Правила 1, 2, 3). Для каждого сценария используется своя функция расчета расстояния, что означает применение разных весов или штрафов при пересечении семантических границ.

Приоритет семантической структуры над физической близостью: Google активно интерпретирует логическую организацию страницы (DOM-дерево) для оценки связи между терминами. Semantic Distance является более важным показателем, чем простое количество слов между терминами.
Штраф за пересечение семантических границ: Термины, расположенные в разных семантических блоках (например, в разных пунктах списка), считаются далекими друг от друга (Правило 1), даже если физически они находятся рядом. Это предотвращает случайное связывание несвязанных понятий.
Обнаружение неявных структур: Система не полагается только на корректную семантическую разметку. Она способна распознавать списки и разделы, созданные с помощью общих тегов (<div>, <br>), анализируя повторяющиеся паттерны форматирования.
Ключевая роль заголовков и названий: Заголовки (Headings) и названия (Titles) служат важными связующими элементами (Правило 3). Термины в заголовке считаются семантически близкими к контенту, который структурно им подчиняется.
Структура контента влияет на релевантность: То, как организована информация на странице (группировка связанных идей в одном блоке — Правило 2), напрямую влияет на расчет релевантности по многословным запросам.

Best practices (это мы делаем)

Используйте явную семантическую разметку: Всегда предпочитайте стандартные HTML-теги для списков (<ul>, <ol>, <dl>) и заголовков (H1-H6). Это гарантирует правильную интерпретацию структуры системой и устраняет зависимость от алгоритмов распознавания неявных структур.
Группируйте связанные концепции в одном блоке: Ключевые слова и фразы, которые должны рассматриваться вместе (например, название продукта и его ключевая характеристика), должны находиться в одном семантическом блоке (одном абзаце <p> или одном элементе списка <li>). Это обеспечивает минимальное расстояние (Правило 2).
Используйте релевантные и иерархичные заголовки: Размещайте важные ключевые слова в заголовках. Согласно патенту, термины в заголовке считаются семантически близкими к контенту, следующему за ним в иерархии (Правило 3).
Соблюдайте консистентность при кастомной верстке: Если по причинам дизайна необходимо использовать <div> для создания списков, убедитесь, что шаблон форматирования абсолютно одинаков и консистентен для всех элементов. Это поможет Google корректно распознать Implicit List через повторяющиеся паттерны.

Worst practices (это делать не надо)

Разделение связанных терминов между блоками: Размещение тесно связанных ключевых слов в разных семантических блоках. Например, если в списке характеристик название свойства находится в одном пункте <li>, а значение — в следующем <li>. Они будут считаться семантически далекими (Правило 1).
Использование форматирования вместо семантики: Создание списков с помощью <br> и <b>. Это менее надежно и может привести к ошибкам интерпретации структуры, если форматирование не идеально консистентно.
Непоследовательное форматирование: Использование разных HTML-структур для элементов одного и того же списка (например, часть элементов через <div>, часть через <p>). Это помешает системе идентифицировать структуру как единый список.
"DIV-soup" и запутанная структура DOM: Сложная, избыточно вложенная структура затрудняет анализ Tree Structure и может привести к неверному определению семантических границ.

Стратегическое значение

Патент подтверждает фундаментальную важность архитектуры контента и технического SEO. Он показывает, что Google стремится понять документ как структурированную информацию, анализируя DOM-дерево. Для SEO-специалистов это означает, что оптимизация — это не просто наличие ключевых слов, но и их расположение относительно друг друга в контексте семантической структуры документа.

Практические примеры

Сценарий: Оптимизация списка характеристик товара

Необходимо оптимизировать страницу под запрос "смартфон с камерой 108 Мп".

Плохая реализация (Большое семантическое расстояние):

<h2>Характеристики</h2>
<ul>
 <li>Наш лучший <b>смартфон</b></li>
 <li>Разрешение <b>камеры</b></li>
 <li>Целых <b>108 Мп</b></li>
</ul>

Анализ: Все ключевые термины ("смартфон", "камера", "108 Мп") находятся в разных элементах списка (<li>). Согласно Правилу 1, семантическое расстояние между ними будет считаться большим, что снизит релевантность по точному запросу.

Хорошая реализация (Малое семантическое расстояние):

<h2>Характеристики Смартфона</h2>
<ul>
 <li><b>Камера</b>: Сенсор на <b>108 Мп</b></li>
 <li>Батарея: 5000 мАч</li>
</ul>

Анализ: Термины "Камера" и "108 Мп" находятся в одном элементе списка (Правило 2) – расстояние минимально. Термин "Смартфон" находится в заголовке (H2), который связан со списком, и расстояние до элементов списка также считается малым (Правило 3). Это повысит релевантность страницы по данному запросу.

Что такое "Semantic Distance" и чем оно отличается от обычного подсчета слов между терминами (Proximity)?

Semantic Distance — это мера близости, учитывающая логическую структуру документа (DOM). В отличие от простого подсчета слов (физического расстояния), она накладывает штрафы (увеличивает расстояние), если термины находятся в разных семантических блоках (например, в разных пунктах списка), даже если физически они рядом. Это позволяет точнее оценить смысловую связь между словами.

Что такое "неявный список" (Implicit List) и как Google его находит?

Неявный список — это контент, который функционирует как список, но создан без использования стандартных тегов <ul> или <ol> (например, с помощью <div> или <br>). Google находит их, анализируя древовидную структуру документа и ища повторяющиеся наборы команд форматирования (Text Formatting Commands), например, повторяющиеся последовательности <b>...<br> или одинаковые <div>.

Означает ли это, что можно использовать <div> или <br> вместо <ul> для списков?

Хотя Google пытается распознавать такие структуры, это не рекомендуется. Использование явной семантической разметки (<ul>, <ol>) всегда надежнее, так как гарантирует правильную интерпретацию структуры. Использование <div> или <br> требует идеальной консистентности верстки и несет риск того, что список не будет распознан корректно.

Если два ключевых слова находятся рядом на экране, но в разных пунктах списка в коде, как Google оценит расстояние между ними?

Согласно патенту (Правило 1, Claim 1), расстояние между ними будет считаться большим. Система определяет, что термины находятся в разных семантических элементах, и применяет штраф к расстоянию, несмотря на визуальную или физическую близость. Это снижает предполагаемую релевантность этой пары терминов.

Какова роль заголовков (H1-H6) в контексте этого патента?

Заголовки играют важную роль в уменьшении семантического расстояния. Согласно патенту (включая логику Правила 3), термин, находящийся в заголовке, считается близким к терминам, которые находятся ниже него в древовидной структуре документа. Это подтверждает важность использования релевантных ключевых слов в заголовках для установления контекста раздела.

Как обеспечить максимальную семантическую близость между важными терминами?

Необходимо убедиться, что они находятся в одном и том же неделимом семантическом элементе — одном абзаце (<p>), одном элементе списка (<li>) или одной ячейке таблицы. Это соответствует Правилу 2 (Claim 1), которое обеспечивает наименьшее значение расстояния.

Как этот патент влияет на использование таблиц (<table>)?

Таблицы (<table>, <tr>) упоминаются как способ создания неявных структур. Логично предположить, что ячейки и строки таблицы создают семантические границы, аналогично элементам списка. Термины в одной ячейке будут считаться близкими, а термины в разных ячейках или строках — более далекими.

Влияет ли этот патент на Featured Snippets в виде списков?

Да, весьма вероятно. Для корректного извлечения сниппета в виде списка Google должен точно определить границы списка и его элементов. Механизмы, описанные в патенте для идентификации явных и неявных списков, напрямую способствуют этой задаче, позволяя системе понять структуру контента.

Актуален ли этот патент для страниц, генерируемых с помощью JavaScript (SPA)?

Да. Механизмы применяются к итоговому DOM-дереву (Tree Structure) после рендеринга страницы. Независимо от того, как была создана структура (на сервере или клиенте), Google будет анализировать финальную структуру на предмет повторяющихся шаблонов и семантических границ для расчета Semantic Distance.

Актуален ли этот патент 2004 года в эпоху нейронных сетей (например, BERT)?

Да, принципы остаются актуальными. Современные NLP-модели превосходно понимают контекст на уровне предложений и абзацев, но им по-прежнему нужна информация о структуре всего документа. Данные о семантических границах (DOM-структура), извлекаемые описанным механизмом, служат важными сигналами для нейронных сетей, помогая им понять взаимосвязи между различными блоками текста.

Как Google находит, извлекает и ранжирует определения из интернета для формирования словарных блоков в выдаче

Google использует систему для автоматического поиска веб-страниц, содержащих глоссарии или словари. Система идентифицирует эти страницы по ключевым словам в заголовке (например, «глоссарий»), анализирует их HTML-структуру (теги

,: ) для извлечения пар «термин-определение» и ранжирует результаты на основе авторитетности источника (PageRank).

US8255417B2
2012-08-28

SERP
EEAT и качество

Как Google сегментирует веб-страницы на семантические блоки (хедер, футер, контент) с помощью анализа геометрии рендеринга

Google использует механизм "псевдо-рендеринга" для анализа геометрической структуры веб-страницы и её разделения на семантически различные области (чанки), такие как основное содержимое, навигация, футер и реклама. Это позволяет системе определять важность контента и ссылок в зависимости от их расположения на странице.

US7913163B1
2011-03-22

Семантика и интент
Структура сайта
Техническое SEO

Как Google использует анализ визуального макета страницы для сегментации контента и понимания его иерархии

Google использует метод анализа визуального макета страницы (Visual Layout), чтобы понять её иерархическую структуру, даже если HTML-код (DOM) не отражает её точно. Система анализирует визуальные разрывы (белое пространство) между блоками контента, чтобы сегментировать страницу и точно связать описательный текст с конкретными объектами, например, отзывы с соответствующими локальными компаниями на странице со списком.

US7421651B2
2008-09-02

Индексация
Local SEO
Структура сайта

Как Google извлекает цены и изображения товаров с веб-страниц для Google Shopping

Этот патент описывает, как Google автоматически идентифицирует страницы электронной коммерции и извлекает структурированные данные о товарах (такие как цена и изображение) из неструктурированного HTML. Система использует анализ близости элементов, структуру HTML и сигналы форматирования для поиска правильных атрибутов, что формирует основу для поисковых систем по товарам, таких как Google Shopping.

US7836038B2
2010-11-16

Google Shopping
SERP
Индексация

Как Google извлекает структурированные данные путем анализа и запоминания шаблонов DOM-дерева сайта

Google использует гибридную систему для извлечения структурированных данных (например, списков эпизодов, треков альбома) с сайтов, даже если они не используют микроразметку. Система сначала применяет эвристики для поиска данных, проверяет их точность путем сравнения с другими источниками, а затем анализирует DOM-дерево сайта, чтобы запомнить шаблон расположения этих данных. Это позволяет Google эффективно извлекать информацию, понимая структуру HTML-шаблонов сайта.

US8954438B1
2015-02-10

Структура сайта
Индексация

Как Google использует всплески поискового интереса и анализ новостей для обновления Графа Знаний в реальном времени

Google отслеживает аномальный рост запросов о сущностях (людях, компаниях) как индикатор реального события. Система анализирует свежие документы, опубликованные в этот период, извлекая факты в формате Субъект-Глагол-Объект (SVO). Эти факты используются для оперативного обновления Графа Знаний или добавления блока «Недавно» в поисковую выдачу.

US9235653B2
2016-01-12

Knowledge Graph
Свежесть контента
Семантика и интент

Как Google определяет свежесть документа, анализируя возраст ссылающихся страниц и динамику появления ссылок (Link Velocity)

Google использует методы для оценки свежести документа, когда дата его обновления неизвестна или ненадежна. Система анализирует даты обновления страниц, которые ссылаются на документ, а также историю появления и удаления этих ссылок (Link Velocity). Если на документ ссылаются недавно обновленные страницы или количество ссылок растет, он считается свежим.

US7797316B2
2010-09-14

Свежесть контента
Ссылки
Техническое SEO

Как Google использует машинное обучение для оптимизации обхода Knowledge Graph и поиска связанных концепций

Google оптимизирует обход Knowledge Graph для эффективного поиска семантически связанных фраз. Вместо анализа всех связей сущности система использует ML-модели для выбора только тех отношений (свойств), которые вероятнее всего приведут к ценным результатам. Этот выбор основан на истории поисковых запросов и контексте пользователя, что позволяет экономить вычислительные ресурсы и повышать релевантность предложений.

US10140286B2
2018-11-27

Knowledge Graph
Семантика и интент
Персонализация

Как Google переносит вес поведенческих сигналов (кликов) между связанными запросами для улучшения ранжирования

Google улучшает ранжирование по редким или новым запросам, для которых недостаточно собственных данных, используя поведенческие сигналы (Clickthrough Data) из связанных запросов. Если пользователи часто вводят запросы последовательно, система идентифицирует связь и переносит данные о кликах с одного запроса на другой, позволяя документам с высоким engagement ранжироваться выше по всему кластеру.

US7505964B2
2009-03-17

Поведенческие сигналы
SERP

Как Google классифицирует запросы как навигационные или исследовательские, чтобы регулировать количество показываемых результатов

Google использует систему для динамического определения количества отображаемых результатов поиска. Система классифицирует запрос как навигационный (поиск конкретного места/ресурса) или исследовательский (поиск вариантов). Классификация основана на анализе компонентов оценки релевантности (совпадение по названию vs. категории) и энтропии исторических кликов. При навигационном интенте количество результатов сокращается.

US9015152B1
2015-04-21

Семантика и интент
Поведенческие сигналы
Local SEO

Как Google использует персональное дерево интересов пользователя для определения важности слов в запросе и его переписывания

Google использует иерархический профиль интересов пользователя (Profile Tree), построенный на основе истории поиска и поведения, чтобы определить, какие слова в запросе наиболее важны для конкретного человека. Специфичные интересы (глубокие узлы в дереве) получают больший вес. Это позволяет системе отфильтровать шум в длинных запросах и сгенерировать более точный альтернативный запрос.

US8326861B1
2012-12-04

Персонализация
Семантика и интент
Поведенческие сигналы

Как Google обучает ИИ-модели для автоматической оценки качества сайтов на основе данных асессоров и предвзятой выборки

Патент Google, описывающий фундаментальную методологию создания систем оценки качества сайтов. Google использует машинное обучение (например, SVM), чтобы найти корреляции между оценками асессоров и измеримыми сигналами сайта (PageRank, клики). Для повышения точности применяется метод «предвзятой выборки» (Biased Sampling): система намеренно собирает больше оценок для сайтов среднего качества («сложных случаев»), чем для очевидно плохих или хороших.

US8442984B1
2013-05-14

SERP
EEAT и качество
Поведенческие сигналы

Как Google использует поведение пользователей для определения синонимичности фраз в запросах, связанных с сущностями

Google анализирует поведение пользователей (клики по результатам поиска), чтобы определить, означают ли разные фразы одно и то же, когда они связаны с одним типом сущности (например, «достопримечательности в <Город>» против «места для посещения в <Город>»). Если пользователи кликают на одни и те же документы для разных фраз, система считает эти фразы эквивалентными, что помогает Google понимать синонимы и улучшать результаты поиска.

US10073882B1
2018-09-11

Семантика и интент
Поведенческие сигналы

Как Google вычисляет семантическую близость запросов, анализируя поведение пользователей при переформулировках

Google использует механизм для определения семантического расстояния между запросами (Generalized Edit Distance). Вместо подсчета изменений символов система анализирует исторические логи, чтобы понять, как пользователи переформулируют запросы. На основе этих данных вычисляется «стоимость» замены одного термина на другой с помощью Pointwise Mutual Information (PMI), что позволяет генерировать более релевантные подсказки и расширения запросов.

US8417692B2
2013-04-09

Семантика и интент
Поведенческие сигналы

Как Google интерпретирует последовательные запросы для автоматического уточнения поискового намерения пользователя

Google использует механизм для понимания контекста сессии, анализируя последовательные запросы (например, Q1: [рестораны в Москве], затем Q2: [итальянские]). Система автоматически объединяет их в уточненный запрос (Q3: [итальянские рестораны в Москве]), основываясь на исторических данных о том, как пользователи обычно уточняют запросы. Это позволяет системе лучше понимать намерение пользователя в диалоговом режиме.

US9116952B1
2015-08-25

Семантика и интент
Поведенческие сигналы