Как Google находит, извлекает и ранжирует определения из интернета для формирования словарных блоков в выдаче

SYSTEM AND METHOD FOR PROVIDING DEFINITIONS (Система и метод предоставления определений)

US8255417B2
Google LLC
2003-06-27
2012-08-28

Google использует систему для автоматического поиска веб-страниц, содержащих глоссарии или словари. Система идентифицирует эти страницы по ключевым словам в заголовке (например, «глоссарий»), анализирует их HTML-структуру (теги

,: ) для извлечения пар «термин-определение» и ранжирует результаты на основе авторитетности источника (PageRank).

Какую проблему решает

Патент решает задачу автоматизации процесса поиска и предоставления определений для фраз или терминов. Вместо ручного курирования собственного словаря система использует существующий контент в интернете (глоссарии, списки определений), автоматически извлекая из него необходимую информацию. Это позволяет быстро и эффективно предоставлять определения пользователям.

Что запатентовано

Запатентована система для автоматического извлечения и предоставления определений из распределенных источников (веб-страниц). Система идентифицирует документы, которые вероятно содержат определения (например, по наличию слов "glossary" или "dictionary" в заголовке). Затем она парсит HTML-структуру этих документов (используя теги типа <dt>, <dd>) для извлечения пар "термин-определение". Извлеченные определения ранжируются на основе авторитетности исходного документа.

Как это работает

Система работает в несколько этапов:

Идентификация источников: Система ищет документы, которые являются глоссариями или словарями, используя сигналы вроде predetermined terms (например, "glossary") в заголовке <title>.
Извлечение данных (Парсинг): Анализируется HTML-разметка идентифицированных страниц для определения термина (headword) и его определения. Система полагается на стандартные HTML-теги (например, списки определений <dl>) и форматирование (например, выделение термина тегом ).
Фильтрация: Применяются правила для повышения точности. Например, страницы с малым количеством определений (менее N) могут игнорироваться. Система предпочитает точность (Precision) полноте (Recall).
Обработка запроса: При получении запроса на определение термина система сопоставляет его с извлеченными данными.
Ранжирование и представление: Найденные определения ранжируются (в патенте явно упоминается использование PageRank источника) и очищаются перед показом пользователю. Также могут показываться связанные фразы (superstrings).

Актуальность для SEO

Высокая. Хотя патент подан в 2003 году, описанные в нем базовые принципы извлечения структурированных данных и определений остаются фундаментальными для работы поиска. Эти механизмы лежат в основе современных функций SERP, таких как блоки с определениями (Definition Blocks) и, в некоторой степени, готовые ответы (Featured Snippets). Понимание того, как Google интерпретирует HTML-структуру для извлечения контента, критически важно.

Важность для SEO

Влияние на SEO средне-высокое (7/10). Патент критически важен для понимания того, как Google автоматически идентифицирует и извлекает определения с веб-страниц. Он дает прямые и конкретные указания на то, как структурировать контент (особенно глоссарии, словари и FAQ), чтобы поисковая система могла его корректно интерпретировать, извлечь и использовать в поисковой выдаче. Следование этим рекомендациям повышает шансы на попадание в блоки с определениями.

Термины и определения

Definition List Tags (<dl>, <dt>, <dd>): HTML-теги, используемые для создания списков определений. <dl> определяет список, <dt> (definition term) определяет термин, а <dd> (definition description) определяет описание или определение термина. Система активно использует эти теги для парсинга.
Document (Документ): Источник информации, например, веб-страница, содержащая одно или несколько определений.
Headword (Заглавное слово/Термин): Слово или фраза, которая определяется в глоссарии или словаре. Система ищет их, анализируя HTML-структуру и форматирование.
PageRank: Метрика авторитетности документа (веб-страницы). В контексте патента используется для ранжирования определений, извлеченных из разных источников.
Phrase (Фраза): Запрос пользователя, для которого ищется определение. Может быть словом, фразой или любой другой семантической единицей.
Predetermined term (Предопределенный термин): Термин, указывающий на присутствие определений в документе. Примеры: "glossary", "definition", "dictionary". Используется для поиска источников определений.
Superstrings (Суперстроки): Строки, которые содержат исходную фразу. Например, для фразы "rdbms" суперстрокой может быть "Relational DBMS (RDBMS)". Используются для показа связанных фраз (Related phrases).

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт, Система) и Claim 19 (Независимый пункт, Метод): Описывают основной механизм предоставления определений.

Система получает фразу (phrase) для обработки.
Система выбирает несколько документов, содержащих определение для этой фразы.
Ключевой момент выбора: выполняется поиск на основе запроса, который включает predetermined term, указывающий на присутствие определений (например, поиск слова "glossary").
Система представляет одно или несколько определений для фразы.
Ключевой момент представления: порядок определяется на основе ранжирования (ranking) документов-источников.

Claim 4 и 22 (Зависимые): Уточняют, что predetermined term включает одно из слов: glossary, definition, или dictionary.

Claim 5 и 23 (Зависимые): Уточняют, что поиск predetermined term выполняется в поле заголовка (title field) документов.

Claim 12 (Зависимый): Указывает, что выбранные документы могут определяться в реальном времени (substantially in real-time) в ответ на получение фразы от пользователя, а не только в офлайн-режиме.

Claim 16 и 34 (Зависимые): Описывают дополнительную функцию: определение суперстрок (superstrings) исходной фразы, присутствующих в документах, и их представление пользователю как связанных фраз или предлагаемых запросов (Claims 17/18 и 35/36).

Где и как применяется

Изобретение охватывает несколько этапов поисковой архитектуры и направлено на создание специализированного индекса определений или функции поиска по определениям (например, Google Glossary).

CRAWLING – Сканирование и Сбор данных
На этом этапе система ищет документы, которые могут содержать определения. Это делается путем поиска predetermined terms (например, "glossary") в контенте или метаданных (явно указано поле <title>) страниц во время сканирования интернета.

INDEXING – Индексирование и извлечение признаков
Это ключевой этап для данного патента. Система выполняет несколько действий:

Парсинг и извлечение: Идентифицированные документы анализируются для извлечения пар "термин (headword) – определение". Система использует анализ HTML-структуры (теги <dl>, <dt>, <dd>, теги форматирования , , теги-разделители , <li>).
Фильтрация и очистка: Применяются эвристики для повышения качества данных (например, требование минимума определений на странице).
Расчет авторитетности: Используется метрика ранжирования документов-источников (упоминается PageRank).
Индексирование определений: Извлеченные и очищенные данные сохраняются в индексе.

RANKING – Ранжирование / METASEARCH – Метапоиск и Смешивание
Когда пользователь вводит запрос (phrase):

Сопоставление: Запрос сопоставляется с терминами (headwords). Может использоваться канонизация.
Ранжирование определений: Найденные определения ранжируются на основе ранга документа-источника (PageRank).
Формирование блока: Лучшие определения выбираются для показа, возможно, в специальном блоке SERP (Definition Block или Featured Snippet).
Связанные фразы: Система также определяет и показывает superstrings запроса.

Входные данные:

Индекс веб-документов с их HTML-структурой и заголовками.
Метрики ранжирования документов (PageRank).
Запрос пользователя (phrase).

Выходные данные:

Отсортированный список определений для запрошенной фразы.
Список связанных фраз (superstrings).

На что влияет

Специфические запросы: В первую очередь влияет на информационные запросы, где пользователь ищет определение термина (запросы типа "что такое X", "X определение").
Конкретные типы контента: Наибольшее влияние оказывается на страницы типа глоссариев, словарей, энциклопедических статей и FAQ, которые структурированы как списки определений.
Форматы контента: Влияет на контент, использующий семантическую HTML-разметку для структурирования определений.

Когда применяется

Триггеры активации: Алгоритм активируется, когда система интерпретирует интент пользователя как поиск определения.
Условия работы: Применяется при условии, что в индексе существуют документы, которые система смогла идентифицировать как глоссарии (по заголовку или структуре) и успешно извлечь из них определения для запрошенного термина.

Пошаговый алгоритм

Алгоритм можно разделить на два процесса: индексирование (может происходить офлайн или в реальном времени) и обработка запроса.

Процесс А: Идентификация и Индексирование Определений

Поиск документов-кандидатов: Система выполняет поиск документов, содержащих predetermined terms ("glossary", "definition", "dictionary"), в частности, в заголовке <title>.
Парсинг HTML-структуры: Анализ структуры документа для идентификации терминов (headwords) и их определений. Используются следующие эвристики:
- Использование тегов списка определений (<dl>, <dt>, <dd>).
- Использование тегов-разделителей (, <tr>, <li>,  ).
- Идентификация терминов по тегам форматирования (, , , <code>, ).
Фильтрация и повышение точности:
- Удаление строк, которые не начинаются с идентифицированного термина.
- Игнорирование всего документа, если найдено менее N (например, N=5) определений.
- Удаление лишних пробелов и знаков пунктуации.
Индексирование: Сохранение извлеченных пар "термин-определение" с привязкой к URL источника и его PageRank.

Процесс Б: Обработка Запроса и Предоставление Определений

Получение и нормализация фразы: Система получает запрос пользователя, может выполняться проверка орфографии и нормализация (канонизация).
Сопоставление: Поиск совпадений фразы с индексированными терминами (headwords).
Ранжирование: Найденные определения ранжируются на основе PageRank документов-источников.
Пост-обработка и очистка:
- Удаление HTML-разметки из определений.
- Удаление дубликатов.
- Удаление определений, начинающихся с "see:".
- Форматирование (например, определение наиболее распространенной капитализации термина).
Определение связанных фраз: Табуляция и выбор superstrings запроса, найденных в индексе.
Представление результатов: Отображение отсортированных определений и связанных фраз.

Какие данные и как использует

Данные на входе

Система активно использует структурные, контентные и ссылочные факторы.

Структурные факторы (HTML): Критически важны для парсинга. Используются:
- Теги списков определений: <dl>, <dt>, <dd>.
- Теги форматирования (для идентификации термина): , , , <code>, .
- Теги-разделители: , <tr>, <li>,  .
Контентные факторы:
- Заголовки: Наличие predetermined terms ("glossary", "dictionary") в <title> используется для идентификации источников.
- Текст: Сами термины (headwords) и текст определений.
Ссылочные факторы:
- PageRank: Используется для ранжирования определений, извлеченных из разных источников.

Какие метрики используются и как они считаются

PageRank: Основная метрика для ранжирования результатов. Определения с более авторитетных страниц ранжируются выше.
Порог N: Минимальное количество определений, которое должно быть найдено на странице, чтобы она учитывалась как источник (упоминается пример N=5). Это фильтр качества источника.
Точность (Precision) vs Полнота (Recall): Патент явно указывает, что парсер смещен в сторону точности. Лучше отбросить сомнительное определение, чем включить неверные данные, полагаясь на большое количество доступных источников в интернете.

Автоматизированное извлечение знаний: Патент описывает, как Google автоматизирует создание словаря путем извлечения определений непосредственно из веб-контента, не полагаясь на ручное курирование.
Критичность семантической HTML-разметки: Система в значительной степени полагается на корректное использование HTML-тегов (особенно <dl>, <dt>, <dd>) для идентификации и извлечения определений. Это подчеркивает важность семантической верстки для SEO.
Авторитетность источника определяет ранжирование: Ранжирование извлеченных определений напрямую зависит от авторитетности (в патенте указан PageRank) исходного документа. Определение с авторитетного сайта будет выше, чем определение с менее авторитетного сайта.
Фокус на точности данных (Precision): Система использует эвристики и фильтры (например, минимальное количество определений на странице N=5) для обеспечения высокого качества извлекаемых данных, предпочитая точность полноте охвата.
Идентификация источников по сигнатурам: Для поиска глоссариев используются простые, но эффективные сигналы, такие как наличие слов "glossary" или "dictionary" в заголовке <title>.
Понимание связанных концепций: Система анализирует superstrings (фразы, включающие запрос), чтобы предложить пользователю связанные термины и уточнения.

Best practices (это мы делаем)

Используйте списки определений (Definition Lists): При создании глоссариев, словарей или разделов FAQ используйте семантически корректную HTML-разметку: <dl> для контейнера, <dt> для термина и <dd> для определения. Это наиболее надежный способ, указанный в патенте.
Выделяйте термины (если <dl> не используется): Если использование <dl> невозможно, выделяйте термины с помощью тегов форматирования (, ) и используйте четкие разделители (, <li>,  ) между определениями.
Создавайте полные и качественные глоссарии: Патент указывает, что страницы с малым количеством определений (например, менее 5) могут быть проигнорированы. Создавайте проработанные тематические глоссарии.
Оптимизируйте заголовки для идентификации: Если страница является глоссарием, убедитесь, что в ее <title> присутствуют слова "Глоссарий", "Словарь терминов" или "Определения". Это помогает системе идентифицировать страницу как источник.
Повышайте общую авторитетность сайта (E-E-A-T/PageRank): Поскольку определения ранжируются на основе авторитетности источника (PageRank), работа над качеством сайта и его ссылочным профилем напрямую влияет на видимость ваших определений в поиске.

Worst practices (это делать не надо)

Использование неструктурированного текста: Публикация определений в виде сплошного текста без четкого выделения терминов и использования разделителей затрудняет парсинг.
Нестандартная или сложная верстка для глоссариев: Использование нестандартных HTML-структур (например, только <div> вместо <dl> или <ul>) для отображения определений может помешать системе корректно извлечь данные.
Создание коротких, "тонких" списков определений: Создание множества страниц с 1-2 определениями на каждой может привести к тому, что они будут проигнорированы системой согласно правилу минимального порога N.
Дублирование определений: Копирование определений из других источников без добавления ценности неэффективно, так как система устраняет дубликаты и предпочитает более авторитетный источник.

Стратегическое значение

Патент подтверждает стратегическую важность семантической верстки и структурирования контента. Он показывает, что Google стремится извлекать знания напрямую из контента, и предоставляет вебмастерам инструменты (HTML-теги) для облегчения этого процесса. Эти механизмы являются фундаментом для Featured Snippets. Для SEO-специалистов это означает, что техническая оптимизация структуры контента напрямую влияет на видимость в специализированных блоках выдачи. Создание правильно структурированных информационных хабов, таких как глоссарии, может стать важным источником трафика.

Практические примеры

Сценарий: Оптимизация глоссария по SEO-терминологии для улучшения видимости в блоках определений.

Анализ текущей реализации: Глоссарий реализован с использованием параграфов , где термин выделен жирным , а определение следует через тире. Title страницы: "SEO термины".
Задача: Улучшить структуру для лучшего распознавания системой Google согласно патенту.

Действия:

Изменить <title> на "Глоссарий SEO-терминов и определений" (использование predetermined term).
Переверстать контент, используя список определений <dl>.

Было (Не оптимально):

<p><b>PageRank</b> — Алгоритм Google для оценки важности страницы.</p>
<p><b>SERP</b> — Страница результатов поиска.</p>

Стало (Оптимально):

<dl>
  <dt>PageRank</dt>
  <dd>Алгоритм Google для оценки важности страницы.</dd>
  <dt>SERP</dt>
  <dd>Страница результатов поиска.</dd>
</dl>

Ожидаемый результат: Система Google с большей вероятностью идентифицирует страницу как глоссарий, корректно извлечет пары "термин-определение" и будет использовать их в блоках с определениями или Featured Snippets при соответствующих запросах.

Как Google определяет, какое определение показать, если их найдено много?

Патент явно указывает, что ранжирование определений основано на ранжировании документов-источников. В качестве механизма ранжирования упоминается PageRank. Это означает, что определение с более авторитетного и качественного сайта будет показано выше, чем определение с менее авторитетного ресурса.

Какие HTML-теги наиболее важны для разметки глоссария согласно патенту?

Наиболее важными являются теги списка определений: <dl> (сам список), <dt> (термин) и <dd> (определение). Патент указывает, что система напрямую полагается на эту разметку для идентификации и извлечения данных. Это самый надежный способ структурирования глоссария.

Что делать, если я не могу использовать теги <dl>, <dt>, <dd>?

Патент описывает альтернативные эвристики. Система может идентифицировать термины по тегам форматирования: , , , <code>, . Также она использует теги-разделители для отделения определений друг от друга: , <tr> (в таблицах), <li> (в списках) и  . Используйте эти элементы для четкого и последовательного структурирования.

Влияет ли количество определений на странице на ее обработку Google?

Да, влияет. В патенте указано, что если на странице найдено менее порогового числа N (приводится пример N=5) определений, то все определения на этой странице могут быть отброшены. Это сделано для повышения точности и отсеивания страниц, которые не являются полноценными глоссариями.

Как помочь Google понять, что моя страница является глоссарием?

Согласно патенту (Claims 4 и 5), система ищет источники путем поиска определенных слов в заголовке <title> документа. Эти слова включают "glossary", "definition" и "dictionary". Убедитесь, что <title> вашей страницы содержит эти (или аналогичные русскоязычные, например, "Глоссарий", "Словарь") термины.

Что такое "Superstrings" и как они используются?

Superstrings – это фразы, найденные в глоссариях, которые включают в себя исходный запрос пользователя. Например, если пользователь искал "pc", суперстрокой может быть "Pocket PC". Система собирает эти суперстроки и показывает их как "Связанные фразы" (Related phrases) для уточнения запроса или навигации по смежным терминам.

Связан ли этот патент с Featured Snippets (Готовыми ответами)?

Да, существует прямая концептуальная связь. Этот патент описывает систему извлечения конкретной информации (определений) из веб-страниц на основе анализа структуры и авторитетности источника. Хотя современные системы Featured Snippets используют более сложные NLP-модели, базовые принципы структурирования контента для облегчения извлечения ответов остаются актуальными.

Лучше создать одну большую страницу глоссария или много маленьких страниц для каждого термина?

Исходя из логики патента, предпочтительнее одна большая страница глоссария. Система ищет документы, содержащие списки определений, и может фильтровать страницы с малым их количеством (менее 5). Хорошо структурированный, авторитетный глоссарий имеет больше шансов быть использованным в качестве источника.

Работает ли система только в офлайн-режиме?

Нет. Патент описывает возможность работы как в пакетном режиме (предварительное сканирование и индексирование глоссариев офлайн), так и в реальном времени (поиск и парсинг источников в ответ на запрос пользователя). Вероятно, на практике используется комбинация этих подходов.

Насколько строго система относится к ошибкам парсинга?

Патент подчеркивает, что парсер смещен в сторону точности (Precision), а не полноты (Recall). Это означает, что система предпочтет проигнорировать сомнительное определение, чем показать пользователю некорректные данные. Поэтому важно использовать максимально чистую и стандартную разметку.

Как Google использует данные о кликах и пропусках для валидации и удаления неэффективных синонимов в поиске

Google постоянно тестирует правила подстановки (синонимы) для расширения запросов. Этот патент описывает механизм оценки эффективности этих правил с помощью анализа поведения пользователей (клики и пропуски результатов). Если пользователи часто пропускают результаты, содержащие подставленный термин, система автоматически удаляет это правило, очищая понимание запросов от нерелевантных синонимов.

US8965875B1
2015-02-24

Поведенческие сигналы
Семантика и интент
EEAT и качество

Как Google определяет тематику и интент запроса, анализируя контент уже ранжирующихся страниц в выдаче

Google использует метод классификации запросов, который анализирует не сам текст запроса, а контент (URL, заголовки, сниппеты) страниц, находящихся в топе выдачи по этому запросу. Сравнивая набор терминов из этих результатов с эталонными профилями разных тематик или типов контента (Новости, Видео, Картинки), система определяет интент пользователя и решает, какие вертикали поиска активировать.

US8756218B1
2014-06-17

Семантика и интент
SERP

Как Google автоматически оценивает и удаляет неэффективные синонимы и правила расширения запросов

Google использует механизм для оценки эффективности правил подстановки (синонимов). Если подставленный термин редко встречается в топовых результатах поиска или если пользователи не кликают на результаты, содержащие этот термин, система автоматически удаляет или понижает уверенность в этом правиле. Это позволяет поддерживать качество и точность понимания запросов.

US8600973B1
2013-12-03

Семантика и интент
Поведенческие сигналы
SERP

Как Google обучается распознавать синонимы, анализируя текст сниппетов в результатах поиска

Google использует текст сниппетов для улучшения систем понимания запросов. Анализируя, какие слова часто появляются в сниппетах релевантных или кликабельных результатов, система выявляет потенциальные синонимы для исходных ключевых слов. Это позволяет автоматически расширять будущие запросы, включая эти синонимы для повышения полноты выдачи.

US20140358904A1
2014-12-04

Семантика и интент
SERP

Как Google разбирает сложные слова в запросе на части и подбирает синонимы к каждой части

Google использует механизм онлайн-декомпозиции для разбора сложных или составных слов в запросе (например, "vlcmediaplayer") на отдельные компоненты ("vlc", "media", "player") прямо во время поиска. Система определяет наилучший вариант разбивки, основываясь на частотности слов в интернете. Затем она подбирает синонимы к каждому компоненту, включая синонимы синонимов (транзитивность), и использует их для расширения запроса.

US8392441B1
2013-03-05

Семантика и интент

Как Google определяет скрытый локальный интент в запросах для повышения релевантности местных результатов

Google использует механизм для определения того, подразумевает ли запрос (например, «ресторан») поиск локальной информации, даже если местоположение не указано. Система анализирует агрегированное поведение пользователей для расчета «степени неявной локальной релевантности» запроса. Если этот показатель высок, Google повышает в ранжировании результаты, соответствующие местоположению пользователя.

US8200694B1
2012-06-12

Local SEO
Поведенческие сигналы
Семантика и интент

Как Google использует историю кликов пользователей для определения интента, связанного с физическим адресом, и таргетинга рекламы

Google анализирует, какие поисковые запросы исторически приводят к наибольшему количеству кликов по бизнесам, расположенным по определенному адресу. Когда пользователь ищет этот адрес (или смотрит его на карте), Google использует этот «Самый популярный поисковый термин» (Most-Popular Search Term), чтобы определить намерение пользователя и показать релевантную информацию и рекламу.

US20150261858A1
2015-09-17

Local SEO
Семантика и интент
Поведенческие сигналы

Как Google использует структурированные данные для отображения прямых ссылок на песни в результатах поиска (Rich Snippets)

Google улучшает результаты поиска музыки, извлекая детали песен (названия, альбомы, продолжительность) из структурированной разметки (например, HTML5 microdata) на веб-страницах. Это позволяет Google отображать прямые ссылки на конкретные песни (вторичные ссылки) внутри основного блока результатов поиска, при условии соблюдения определенных порогов качества и популярности.

US9128993B2
2015-09-08

Ссылки
SERP
Индексация

Как Google A/B тестирует и оптимизирует сниппеты (заголовки, описания, изображения) для повышения CTR

Google использует механизм для оптимизации отображения контента (сниппетов). Система показывает разные варианты заголовков, описаний или изображений для одной и той же ссылки разным пользователям или на разных платформах. Затем она измеряет кликабельность (CTR) каждого варианта и выбирает наиболее эффективный для дальнейшего использования, учитывая также тип устройства пользователя.

US9569432B1
2017-02-14

SERP
Поведенческие сигналы
Персонализация

Как Google использует исторические данные о кликах (CTR) по категориям для определения доминирующего интента неоднозначных запросов

Google анализирует, на какие категории результатов пользователи кликали чаще всего в прошлом (CTR) по неоднозначному запросу (например, "Pool"). Система определяет доминирующие интенты, выявляя резкие перепады в CTR между категориями или используя иерархию категорий, и повышает в ранжировании результаты, соответствующие наиболее популярным интерпретациям.

US8738612B1
2014-05-27

Семантика и интент
Поведенческие сигналы
SERP

Как Google использует социальный граф и активность друзей для персонализации и переранжирования результатов поиска

Google использует данные из социального графа пользователя и активность его контактов (лайки, шеры, комментарии, плейлисты) для изменения ранжирования результатов поиска. Контент, одобренный социальным окружением, повышается в выдаче и сопровождается аннотациями, объясняющими причину повышения и указывающими на свежесть социального действия.

US8959083B1
2015-02-17

Персонализация
Поведенческие сигналы
SERP

Как Google использует историю поиска и браузинга для персонализации выдачи и определения предпочтений пользователя

Google записывает и анализирует историю действий пользователя: запросы, клики по результатам и рекламе, посещенные страницы. Система группирует связанные действия в сессии, определяет "Предпочитаемые локации" на основе частоты и времени визитов (stay-time), и использует эту историю для изменения порядка ранжирования, повышая позиции ранее посещенных сайтов в персональной выдаче.

US20060224583A1
2006-10-05

Персонализация
Поведенческие сигналы

Как Google определяет скрытый интент сессии, используя универсальные уточняющие слова, и переранжирует выдачу

Google идентифицирует универсальные слова-модификаторы (например, «фото», «отзывы», «pdf»), которые пользователи часто добавляют к разным запросам. Если такое слово появляется в сессии, система определяет скрытый интент пользователя. Затем Google переранжирует выдачу, основываясь на том, какие документы исторически предпочитали пользователи с таким же интентом, адаптируя результаты под контекст сессии.

US8868548B2
2014-10-21

Семантика и интент
Поведенческие сигналы
Персонализация

Как Google обрабатывает клики по ссылкам на мобильные приложения (App Deep Links) в результатах поиска

Google использует механизм клиентской обработки результатов поиска, ведущих в нативные приложения. Если у пользователя не установлено нужное приложение, система на устройстве автоматически подменяет ссылку приложения (App Deep Link) на эквивалентный веб-URL. Это гарантирует доступ к контенту через браузер и обеспечивает бесшовный пользовательский опыт.

US10210263B1
2019-02-19

Ссылки
SERP

Как Google использует ссылки, которыми делятся в почте, блогах и мессенджерах, как сигнал для корректировки ранжирования

Google запатентовал механизм (User Distributed Search), который учитывает, как пользователи делятся ссылками в коммуникациях (почта, блоги, мессенджеры). Если автор включает ссылку в сообщение, это дает ей первоначальную модификацию в ранжировании. Если получатели переходят по этой ссылке, её Ranking Score увеличивается ещё больше. Оба сигнала используются для влияния на позиции документа в будущей выдаче.

US8862572B2
2014-10-14

Поведенческие сигналы
Ссылки