Как Google определяет наиболее релевантную часть документа, игнорируя ключевые слова из Title и URL

IDENTIFYING RELEVANT PORTIONS OF A DOCUMENT (Идентификация релевантных частей документа)

US8005825B1
Google LLC
2005-09-27
2011-08-23

Семантика и интент

Google использует механизм для определения самой важной части страницы по запросу пользователя. Система классифицирует слова запроса на «навигационные» (если они есть в Title или URL) и «информационные». При анализе контента внутри страницы вес «навигационных» слов снижается или обнуляется, позволяя точнее выделить конкретный фрагмент текста, содержащий ответ.

Какую проблему решает

Патент решает проблему точности при определении наиболее релевантного фрагмента (блока) внутри документа. Термины, которые помогли найти сам документ (присутствующие в Title или URL), могут искажать оценку релевантности внутренних блоков, смещая фокус на общую тему вместо конкретной информации. Также патент решает проблему навигации на устройствах с маленькими экранами, стремясь автоматически показать пользователю наиболее релевантный контент.

Что запатентовано

Запатентована система (Relevance Scoring Engine) для оценки релевантности различных частей (узлов) документа. Ядром изобретения является механизм классификации терминов запроса на Navigational (Навигационные) и Informational (Информационные). Этот механизм позволяет снизить или обнулить вес Navigational терминов при расчете релевантности внутри документа, фокусируя систему на поиске конкретного ответа.

Как это работает

Система анализирует поисковый запрос и выбранный документ. Если термин из запроса присутствует в предопределенных местах (Predetermined Locations), таких как Title или URL, он классифицируется как Navigational. Остальные термины классифицируются как Informational.

При оценке релевантности различных блоков контента (Document Nodes) внутри страницы система присваивает Navigational терминам значительно меньший или нулевой вес. Это позволяет более точно определить блок, содержащий ответ на информационную часть запроса. Найденный фрагмент затем может быть использован для отображения (например, в сниппете или через функцию Scroll-to-Text).

Актуальность для SEO

Высокая. Хотя патент подан в 2005 году и описывает архитектуру для мобильного транскодирования, заложенные в нем принципы анализа внутристраничной релевантности и выделения ключевых фрагментов крайне актуальны. Эти механизмы являются фундаментальными для современных функций поиска, таких как выбор контента для Featured Snippets, системы Passage Ranking и реализации функции "Scroll-to-Text".

Важность для SEO

Патент имеет значительное влияние на SEO (8/10). Он не описывает ранжирование сайтов в SERP, но критически важен для понимания того, как Google анализирует структуру контента для извлечения ответов (Passage Identification). Это подчеркивает важность четкой логической структуры документа, семантической верстки и локализованной релевантности, когда конкретный блок текста точно отвечает на информационный интент запроса.

Термины и определения

Document Node (Узел документа): Структурный элемент документа (например, HTML-тег), связанный с блоком информации. Документ анализируется как иерархия узлов.
Informational Query Type (Информационный тип термина): Классификация термина запроса (Type 2), который НЕ был найден в Predetermined Locations (Title/URL). Эти термины считаются ключевыми для поиска информации внутри документа.
Location Analyzer (Анализатор местоположения): Компонент системы, который проверяет наличие терминов запроса в Predetermined Locations.
Navigational Query Type (Навигационный тип термина): Классификация термина запроса (Type 1), который был найден в Predetermined Locations (Title/URL). Считается, что эти термины полезны для нахождения самого документа, но менее полезны для определения релевантных блоков внутри него.
Predetermined Location (Предопределенное местоположение): Специфические части документа, используемые для классификации терминов. В патенте явно указаны Title (заголовок) документа и URL (Uniform Resource Locator).
Relevance Scoring Engine (Механизм оценки релевантности): Система, которая анализирует документ и запрос для ранжирования блоков информации по их релевантности.
Statistical Analyzer (Статистический анализатор): Компонент, анализирующий расположение терминов запроса внутри узлов (частота, расстояние, близость, распределение).

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод идентификации релевантной части документа.

Система получает поисковый запрос, состоящий из нескольких терминов.
Идентифицируется конкретный документ, соответствующий запросу.
Система проверяет каждый термин запроса на совпадение с информацией в Predetermined Location документа.
Термины, найденные там, классифицируются как Тип 1 (Navigational).
Термины, не найденные там, классифицируются как Тип 2 (Informational).
Каждому термину присваивается вес (weight value) в зависимости от его типа.
Документ разделяется на несколько отдельных частей (блоков/узлов).
Для каждой части рассчитывается оценка (score) с использованием присвоенных весов.
Определяется часть документа с наиболее высоким рейтингом (prominently-ranked portion).

Claim 2, 3, 4, 5 (Зависимые): Уточняют, что такое Predetermined Location.

Это может быть тег Title в HTML документе (Claim 2) или заголовок документа (Claim 3).
Это может быть идентификатор местоположения (Claim 4), например, URL (Claim 5).

Claim 7 и 14 (Зависимые): Определяют разницу в весах.

Вес, присваиваемый терминам Типа 1 (Navigational), существенно меньше (substantially less), чем вес терминов Типа 2 (Informational) (Claim 7).
В одном из вариантов терминам Типа 1 присваивается нулевой вес (zero weight) (Claim 14). Это означает полное игнорирование этих терминов при внутридокументной оценке.

Claim 13 (Независимый пункт): Описывает конкретную реализацию метода.

Система обрабатывает выбранный пользователем документ, идентифицируя термины, совпадающие либо с (i) Title документа, либо с (ii) его URL. Эти термины классифицируются как Тип 1, остальные как Тип 2. Вес Типа 1 существенно меньше веса Типа 2. Далее происходит оценка частей документа с использованием этих весов.

Где и как применяется

Этот патент описывает процесс идентификации наиболее релевантной части внутри документа (Passage Identification), а не ранжирование документов в SERP.

INDEXING – Индексирование и извлечение признаков
На этом этапе система должна проанализировать структуру документа, чтобы его можно было разделить на логические блоки (Document Nodes). Также извлекаются и сохраняются данные из Title и URL.

RANKING (Внутридокументное) / RERANKING
Основное применение патента. Relevance Scoring Engine используется для ранжирования блоков контента внутри уже выбранного документа.

Классификация терминов: Location Analyzer использует данные Title/URL для классификации терминов запроса.
Взвешивание: Веса терминов корректируются (Navigational термины пессимизируются).
Скоринг блоков: Scoring Engine оценивает блоки (Nodes), используя скорректированные веса.

Результаты могут использоваться для генерации сниппетов, Featured Snippets или активации Scroll-to-Text.

Входные данные:

Поисковый запрос (Query Terms).
Документ (содержимое, структура Nodes).
Title документа.
URL документа.

Выходные данные:

Ранжированный список блоков документа.
Местоположение наиболее релевантного блока.

На что влияет

Конкретные типы контента: Наибольшее влияние оказывается на длинные документы (лонгриды, руководства, FAQ), где ответ на запрос может находиться глубоко внутри текста.
Специфические запросы: Влияет на информационные и смешанные запросы, где пользователь ищет конкретный факт на странице с широкой тематикой.
Генерация сниппетов и Featured Snippets: Механизм критичен для выбора наиболее релевантного фрагмента текста для отображения в SERP.
Пользовательский опыт (UX): Напрямую влияет на то, что пользователь видит сразу после перехода на страницу (например, через Scroll-to-Text).

Когда применяется

Условия применения: Алгоритм применяется при обработке конкретного документа относительно конкретного запроса, когда необходимо идентифицировать ключевые пассажи.
Триггеры активации:
1. Когда система генерирует сниппет для отображения в SERP.
2. Когда система ищет кандидатов для Featured Snippet.
3. Когда активируется функция Scroll-to-Text при переходе пользователя на страницу.
4. (Гипотеза) Во время оценки релевантности пассажей в рамках Passage Ranking.

Пошаговый алгоритм

Процесс определения наиболее релевантного блока документа.

Получение данных: Система получает документ и исходный поисковый запрос (Query Terms - QT).
Инициализация: По умолчанию все QT могут быть инициализированы как Informational (Тип 2).
Анализ локации (Location Analysis): Система проверяет каждый QT на наличие в Predetermined Locations (Title и URL документа).
Классификация терминов: Если QT найден в Title или URL, он переклассифицируется как Navigational (Тип 1).
Назначение весов (Weight Assignment): Система присваивает веса терминам. Navigational терминам присваивается существенно меньший или нулевой вес.
Анализ структуры документа: Документ разбирается на иерархию узлов (Document Nodes), идентифицируются блоки информации для оценки.
Сопоставление (Matching): Система ищет совпадения QT в тексте каждого блока.
Статистический анализ: Анализируется расположение совпадений внутри блоков (например, частота, расстояние между терминами, близость, распределение).
Скоринг (Scoring): Рассчитывается оценка релевантности для каждого блока. Оценка базируется на совпадениях QT с учетом их скорректированных весов (Navigational термины вносят малый или нулевой вклад) и результатов статистического анализа.
Ранжирование и Фильтрация (Ranking and Pruning): Блоки ранжируются по полученной оценке. Блоки с низкими оценками могут быть отброшены.
Вывод результата: Идентифицируется местоположение блока с наивысшей оценкой (Top Ranking Node).

Какие данные и как использует

Данные на входе

Контентные факторы:
- Title документа: Критически важен. Используется для идентификации Navigational терминов в запросе.
- Текст документа: Используется для поиска совпадений с терминами запроса внутри блоков.
Технические факторы:
- URL документа: Используется как альтернативный источник для идентификации Navigational терминов.
Структурные факторы:
- Структура HTML (Nodes/Tags): Используется для разделения документа на оцениваемые блоки информации (Document Nodes).

Какие метрики используются и как они считаются

Query Type Classification: Бинарная классификация терминов запроса (Navigational или Informational) на основе их присутствия в Title/URL.
Weight Assignment: Присвоение весовых коэффициентов. Патент устанавливает правило: Вес(Navigational) << Вес(Informational), вплоть до нуля.
Statistical Metrics: В патенте упоминается, что при расчете оценки учитываются статистические данные о совпадениях внутри блока:
- Частота вхождения термина (frequency of occurrence).
- Расстояние между вхождениями (distance between each occurrence).
- Близость терминов друг к другу (proximity of the terms).
- Распределение вхождений (distribution of the occurrences).
Relevance Score: Итоговая оценка блока, агрегирующая статистические метрики с учетом весов терминов.

Разделение интента поиска документа и поиска внутри документа: Google четко разделяет термины, которые помогают найти страницу (Navigational), и термины, которые определяют, что именно пользователь ищет на этой странице (Informational).
Title и URL пессимизируются при внутристраничном анализе: При анализе того, какой именно фрагмент текста наиболее релевантен запросу, Google активно понижает вес (вплоть до нуля) терминов, которые присутствуют в Title или URL этого документа. Это предотвращает смещение оценки в сторону общих или вводных разделов.
Критичность локализованной релевантности: Чтобы фрагмент был признан наиболее релевантным, он должен содержать Informational термины запроса в нужной концентрации и близости. Недостаточно просто упомянуть ключевые слова по всей странице.
Важность структуры контента: Система полагается на структуру документа (Document Nodes, т.е. HTML-структуру) для разделения контента на оцениваемые блоки. Четкая и логичная структура помогает системе корректно выделить и оценить фрагменты.
Основа для Passage Identification: Этот патент описывает фундаментальный механизм, позволяющий Google идентифицировать конкретные пассажи (фрагменты) для сниппетов, Passage Ranking и функций типа Scroll-to-Text.

Best practices (это мы делаем)

Создавайте четкую логическую структуру контента: Используйте семантическую верстку (H1-H6, <section>, <article>, списки, таблицы). Это помогает поисковой системе корректно разделить контент на блоки (Nodes) для независимой оценки.
Обеспечивайте локализованную релевантность (Passage Optimization): Убедитесь, что блок контента, отвечающий на конкретный вопрос, содержит все необходимые информационные термины в достаточной близости друг к другу. Контент должен быть самодостаточным в рамках блока.
Оптимизируйте под Featured Snippets и Scroll-to-Text: Формулируйте четкие и ясные ответы в отдельных абзацах или списках. Этот патент объясняет механизм, который помогает Google найти именно этот фрагмент, фокусируясь на информационной части запроса.
Используйте анкорные ссылки и Table of Contents: Это улучшает навигацию и дополнительно сигнализирует о структуре документа, что может коррелировать с тем, как Google выделяет Document Nodes.

Worst practices (это делать не надо)

Рассчитывать на повторение Title в тексте: Предположение, что многократное повторение ключевых слов из Title внутри текста сделает его более релевантным на уровне пассажа, ошибочно. Согласно патенту, эти термины (Navigational) могут быть проигнорированы при внутристраничном анализе.
Создавать "размытый" контент без четкого фокуса: Равномерное распределение ключевых слов по всему документу без концентрации ответов в конкретных блоках затруднит системе выбор наиболее релевантного фрагмента.
Игнорировать качество верстки: Использование несемантичной верстки (например, отсутствие правильной иерархии заголовков) может помешать системе корректно выделить логические блоки контента для анализа.

Стратегическое значение

Патент подтверждает, что Google стремится не просто направлять пользователей на релевантные страницы, но и предоставлять им конкретные ответы внутри этих страниц. Это фундаментальный механизм для технологий, которые сейчас известны как Passage Ranking или Passage Identification. Стратегически это означает, что SEO-специалисты должны уделять внимание не только макро-оптимизации страницы, но и микро-оптимизации отдельных блоков контента, обеспечивая их четкую структуру и высокую информационную ценность.

Практические примеры

Сценарий: Поиск конкретной характеристики в обзоре

Запрос пользователя: [Canon R6 Mark II dynamic range] (Динамический диапазон Canon R6 Mark II).
Документ в выдаче: Статья с Title: "Canon R6 Mark II Review: A Photographer's Perspective" и URL: /reviews/canon-r6-mark-ii.
Классификация терминов системой:
- Navigational (есть в Title/URL): "Canon", "R6", "Mark", "II".
- Informational (нет в Title/URL): "dynamic", "range".
Применение весов: Терминам "Canon", "R6", "Mark", "II" присваивается нулевой или очень низкий вес. Терминам "dynamic", "range" присваивается высокий вес.
Оценка блоков: Система сканирует блоки текста.
- Блок 1 (Введение): "The Canon R6 Mark II is a great camera..." – Оценка низкая (только навигационные термины).
- Блок 2 (Раздел о сенсоре): "...tests show the dynamic range (DR) reaches 14.5 stops. This dynamic range is impressive..." – Оценка высокая (присутствуют информационные термины с хорошей близостью).
Результат: Система идентифицирует Блок 2 как наиболее релевантный фрагмент и может использовать его для сниппета или автоматически прокрутить страницу к этому разделу (Scroll-to-Text).

Что такое "навигационный" и "информационный" термин в контексте этого патента?

Навигационный термин (Navigational) — это слово из запроса, которое встречается в Title или URL анализируемого документа. Система считает, что оно помогло найти документ. Информационный термин (Informational) — это слово из запроса, которого нет в Title или URL. Именно эти слова используются для определения наиболее релевантного фрагмента внутри текста.

Означает ли это, что ключевые слова в Title и URL больше не важны для SEO?

Нет, они критически важны для первоначального ранжирования в SERP и определения общей темы документа. Однако, согласно этому патенту, они становятся менее важными или вообще игнорируются, когда система пытается определить, какой именно фрагмент текста наиболее релевантен запросу (например, для выделения пассажа или ответа).

Как система обрабатывает навигационные термины при оценке фрагмента текста?

Патент предлагает два варианта. В одном варианте им присваивается вес, который «существенно меньше» (substantially less), чем у информационных терминов. В более агрессивном варианте (Claim 14) им присваивается нулевой вес (zero weight), то есть они полностью игнорируются при оценке релевантности фрагмента.

Как этот патент связан с Passage Ranking?

Этот патент описывает базовый механизм, необходимый для работы систем типа Passage Ranking. Он предоставляет способ оценки релевантности пассажа (фрагмента текста) независимо от остальной части документа, фокусируясь только на информационных терминах. Это позволяет идентифицировать высокорелевантный пассаж внутри страницы.

Как я могу использовать это знание для улучшения SEO?

Ключевая стратегия — это четкое структурирование контента и оптимизация на уровне пассажей. Убедитесь, что вы предоставляете конкретные ответы на вопросы, используя информационные термины в основном тексте. Используйте параграфы и заголовки (семантическую верстку), чтобы помочь Google разделить контент на независимо оцениваемые блоки (Document Nodes).

Что такое "Document Node" или "Block"?

Это структурная единица контента, которую система оценивает. Патент не дает точного определения, но в контексте HTML это может быть параграф (<p>), раздел (<div>, <section>) или любой другой элемент, содержащий блок информации, ограниченный тегами.

Влияет ли этот патент на ранжирование моего сайта в поисковой выдаче (SERP)?

Напрямую он не описывает ранжирование сайтов в SERP. Однако он описывает механизм идентификации релевантных пассажей внутри страницы. В современных системах (таких как Passage Ranking), способность найти высокорелевантный пассаж может способствовать повышению ранжирования документа. Также это влияет на генерацию сниппетов и Featured Snippets.

Если я изменю Title страницы, изменится ли классификация терминов?

Да. Классификация терминов как Navigational или Informational динамическая и зависит от текущего содержания Title и URL документа. Если вы добавите термин в Title, он станет навигационным для этого документа и его вес при оценке внутренних блоков снизится.

Поможет ли повторение основного ключевого слова в тексте?

Если основное ключевое слово уже есть в Title или URL, то его повторение в тексте, согласно этому патенту, не увеличит релевантность конкретного пассажа. Система классифицирует его как Navigational и может проигнорировать. Вместо этого сосредоточьтесь на использовании синонимов и информационных терминов, которые уточняют запрос.

Что произойдет, если все термины запроса присутствуют в Title документа?

В этом случае все термины будут классифицированы как Navigational. Если система применяет нулевое взвешивание, то оценка релевантности всех блоков контента может оказаться одинаково низкой или нулевой. В такой ситуации система, вероятно, вернется к стандартному отображению документа с самого начала или будет использовать другие сигналы для определения релевантного блока.

Как Google находит и показывает наиболее релевантный фрагмент документа на мобильных устройствах

Google использует систему транскодирования для адаптации веб-страниц под мобильные устройства. Система анализирует документ, находит фрагмент, наиболее релевантный исходному поисковому запросу, и форматирует страницу так, чтобы этот фрагмент отображался вверху экрана. Это минимизирует необходимость прокрутки на маленьких дисплеях.

US8370342B1
2013-02-05

Семантика и интент

Как Google определяет основной контент страницы, анализируя визуальную структуру и характеристики разделов

Google использует систему для идентификации основного контента веб-страницы путем её разделения на логические разделы на основе визуального макета. Система оценивает характеристики каждого раздела (соотношение ссылок к тексту, количество слов, изображения, расположение) относительно характеристик всей страницы, чтобы выделить наиболее значимый контент и отделить его от навигации и шаблонов.

US20140372873A1
2014-12-18

Структура сайта
Техническое SEO
Ссылки

Как Google помогает пользователям найти релевантный контент внутри страницы после клика по результату поиска (Scroll-to-Text)

Патент описывает механизм (известный как Scroll-to-Text), который автоматически направляет пользователя к фрагменту текста на странице, наиболее релевантному его запросу. Google заранее определяет ключевые фрагменты (Resource Search Tidbits). Если после загрузки страницы эти фрагменты не видны на экране, система активирует навигацию и подсвечивает нужный текст.

US8392449B2
2013-03-05

SERP

Как Google автоматически определяет важность различных частей веб-страницы (DOM-узлов) для ранжирования

Google анализирует коллекции похожих структурированных документов (например, товарных карточек) и создает общую модель (DOM). Затем система изучает логи запросов и кликов, чтобы понять, какие части структуры (заголовки, основной контент, реклама) чаще всего содержат ключевые слова из успешных запросов. Этим частям присваивается больший вес при расчете релевантности.

US8538989B1
2013-09-17

Семантика и интент
Индексация
Структура сайта

Как Google анализирует контент топовых результатов, чтобы решить, какие блоки и элементы показать на странице выдачи

Google использует запатентованную систему для определения того, какие дополнительные элементы (например, блоки новостей, изображений, локальной выдачи) отображать на странице результатов поиска. Вместо того чтобы полагаться только на текст запроса, система анализирует и классифицирует сами результаты поиска (URL, заголовки, сниппеты). Доминирующая тематика топовых результатов определяет, какие элементы будут активированы, что позволяет точнее соответствовать намерению пользователя.

US8103676B2
2012-01-24

SERP
Семантика и интент

Как Google рассчитывает «VisualRank» для изображений и медиафайлов, используя виртуальные ссылки на основе схожести и поведения пользователей

Google использует алгоритм (концептуально называемый VisualRank) для ранжирования изображений и других медиафайлов путем создания «виртуальных ссылок» между ними. Эти ссылки основаны на визуальной схожести контента, данных о кликах пользователей и контексте размещения (URL analysis). Это позволяет оценить качество и авторитетность медиафайлов даже без явных гиперссылок, при этом система активно избегает показа слишком похожих (дублирующихся) результатов.

US8732187B1
2014-05-20

Ссылки
Мультимедиа
Поведенческие сигналы

Как Google ранжирует сущности (книги, фильмы, людей), анализируя тематичность и авторитетность их упоминаний в вебе

Google использует механизм для оценки значимости конкретных сущностей (например, изданий книг или фильмов). Система анализирует, как эти сущности упоминаются на релевантных веб-страницах, учитывая уверенность распознавания (Confidence) и то, насколько страница посвящена именно этой сущности (Topicality). Эти сигналы агрегируются с учетом авторитетности и релевантности страниц для расчета итоговой оценки сущности, которая затем корректирует ее ранжирование в поиске.

US20150161127A1
2015-06-11

Семантика и интент
EEAT и качество
SERP

Как Google использует анализ со-цитирования (Co-citation) для группировки результатов поиска по темам

Google использует механизм кластеризации для организации поисковой выдачи, особенно при неоднозначных запросах. Система анализирует, какие внешние страницы одновременно ссылаются на несколько результатов поиска (со-цитирование). На основе этого вычисляется показатель сходства, который учитывает и нормализует популярность страниц, чтобы точно сгруппировать результаты по конкретным темам (например, отделить «Saturn» как планету от «Saturn» как автомобиль).

US7213198B1
2007-05-01

Ссылки
SERP

Как Google использует пользовательский контент (UGC) и историю поиска для сбора структурированных отзывов

Google анализирует пользовательский контент (фотографии, посты, метаданные) и историю поиска, чтобы определить, с какими объектами (места, продукты, услуги) взаимодействовал пользователь. Система проактивно предлагает оставить структурированный отзыв, используя шаблон, который может быть предварительно заполнен на основе тональности исходного UGC. Это направлено на увеличение объема и подлинности отзывов.

US20190278836A1
2019-09-12

Семантика и интент
Персонализация
EEAT и качество

Как Google определяет связанность документов с использованием Co-citation, анализа текста вокруг ссылок и паттернов пользовательского доступа

Google использует методы для ограничения результатов поиска на основе заданного контекста (например, набора URL-адресов или категории). Патент детализирует, как система определяет «связанность» между документами, используя такие методы, как анализ совместного цитирования (co-citation), анализ текста, окружающего ссылки в цитирующих документах, и анализ корреляции паттернов доступа пользователей.

US7305380B1
2007-12-04

Ссылки
SERP
Поведенческие сигналы

Как Google использует клики пользователей в Поиске по Картинкам для определения реального содержания изображений

Google использует данные о поведении пользователей для автоматической идентификации содержания изображений. Если пользователи вводят определенный запрос (Идею) и массово кликают на конкретное изображение в результатах поиска, система ассоциирует это изображение с Концептом, производным от запроса. Это позволяет Google понимать, что изображено на картинке, не полагаясь исключительно на метаданные или сложный визуальный анализ, и улучшает релевантность ранжирования в Image Search.

US8065611B1
2011-11-22

Поведенческие сигналы
Семантика и интент
Мультимедиа

Как Google определяет популярность и ранжирует физические события (концерты, выставки) в локальной выдаче

Google использует специализированную систему для ранжирования физических событий в определенном месте и времени. Система вычисляет оценку популярности события на основе множества сигналов: количества упоминаний в интернете, кликов на официальную страницу, популярности связанных сущностей (артистов, команд), значимости места проведения и присутствия в общих поисковых запросах о событиях. Затем результаты переранжируются для обеспечения разнообразия, понижая схожие события или события одной категории.

US9424360B2
2016-08-23

Local SEO
Поведенческие сигналы

Как Google использует географическое положение и историю поведения пользователей для разрешения неоднозначных запросов

Google применяет механизм для интерпретации неоднозначных поисковых запросов, которые имеют несколько географических или категориальных значений. Система определяет доминирующий интент, анализируя, как пользователи в том же регионе ранее уточняли похожие запросы и насколько они были удовлетворены результатами. На основе этих локализованных данных (гистограмм и метрик неудовлетворенности) выбирается наиболее вероятная интерпретация, и выдача фильтруется соответственно.

US8478773B1
2013-07-02

Семантика и интент
Персонализация
Поведенческие сигналы

Как Google использует анализ сопутствующих ссылок (co-citation) и нормализацию веса для определения связанных сайтов и конкурентов

Google анализирует структуру ссылок для поиска сайтов, связанных с выбранным документом и находящихся на том же уровне обобщения (например, конкурентов). Система определяет, на какие еще сайты ссылаются источники, цитирующие исходный документ (co-citation). Для повышения точности вес ссылок нормализуется: снижается влияние множественных ссылок с одного хоста и ссылок со страниц-каталогов (хабов).

US6754873B1
2004-06-22

Ссылки
SERP
Техническое SEO

Как Google ранжирует сущности (например, людей с одинаковыми именами) с помощью кластеризации, контекстной авторитетности и персонализации

Google использует систему двухуровневого ранжирования для обработки неоднозначных запросов (например, имен людей). Сначала ресурсы группируются в кластеры, представляющие разные сущности. Ресурсы внутри кластера ранжируются на основе их качества и авторитетности внутри этого кластера. Затем сами кластеры ранжируются с учетом релевантности запросу и сильной персонализации (социальные связи и местоположение пользователя).

US8645393B1
2014-02-04

Персонализация
Семантика и интент
SERP