Как Google использует структуру сайта и анкорные тексты для извлечения Сущностей из шумных заголовков (Title)

DETERMINING DOCUMENT SUBJECT BY USING TITLE AND ANCHOR TEXT OF RELATED DOCUMENTS (Определение темы документа с использованием заголовка и анкорного текста связанных документов)

US7590628B2
Google LLC
2006-03-31
2009-09-15

Google использует метод для точного определения основного объекта (Сущности) веб-страницы, когда заголовок (Title) содержит лишнюю информацию (брендинг, рубрики). Система анализирует заголовки похожих страниц на том же сайте (Peer Documents) и анкорные тексты, ссылающиеся на них. Выявляя повторяющиеся шаблоны (префиксы и суффиксы) в заголовках, Google отделяет название Сущности от шума.

Какую проблему решает

Патент решает проблему неточного определения основного предмета (Сущности или Темы) документа, когда стандартные методы, такие как использование заголовка (Title) страницы, оказываются неэффективными. Заголовки часто содержат информацию, не относящуюся к основному предмету страницы, например, название бренда, рекламу или навигационные элементы (например, "CNN.com - Oscar Awards 2006"). Изобретение предлагает автоматизированный метод для отделения названия Сущности от этого шума, повышая точность извлечения фактов (Information Extraction) и понимания контента.

Что запатентовано

Запатентована система для идентификации предмета документа путем анализа структурных и ссылочных шаблонов на уровне домена. Система анализирует группу похожих документов на том же сайте (Peer Documents) и анкорные тексты, ссылающиеся на них. Путем сравнения заголовков этих документов с наиболее релевантными анкорными текстами (Labels), система выявляет общие шаблоны (General Patterns), такие как повторяющиеся префиксы или суффиксы. Применение этих шаблонов позволяет изолировать и извлечь истинный предмет целевого документа.

Как это работает

Ключевой механизм основан на предположении, что страницы в пределах одного домена часто следуют схожим шаблонам заголовков, и что анкорные тексты часто описывают суть страницы точнее, чем её полный заголовок.

Идентификация "Пэров": Система находит документы на том же домене, что и целевой документ (Peer Documents).
Генерация "Метки" (Label): Для каждого пэра система анализирует входящие анкорные тексты. Выбирается Longest-match anchor text — самый длинный анкор, который также является подстрокой заголовка пэра. Это и есть "Метка".
Выявление Шаблонов: Система сравнивает Метки с полными заголовками пэров, чтобы найти повторяющиеся префиксы и суффиксы (например, префикс "CNN Programs - Anchors/Reporters - ").
Обобщение: Наиболее частые шаблоны (превышающие порог) выбираются как Общий Шаблон (General Pattern) для сайта.
Извлечение Субъекта: Общий Шаблон применяется к заголовку целевого документа для извлечения его основного предмета (Сущности).

Актуальность для SEO

Высокая. Извлечение сущностей (Entity Extraction) и понимание основного предмета страницы остаются фундаментальными задачами для поисковых систем (Knowledge Graph, Information Retrieval). Хотя методы NLP эволюционировали, описанный подход, использующий комбинацию анализа структуры сайта (шаблонов) и ссылочных сигналов (анкоров), остается актуальным для масштабируемого и точного извлечения информации.

Важность для SEO

Патент имеет высокое значение (8/10). Он напрямую влияет на то, как Google идентифицирует основную Сущность страницы. Это критически важно для Entity-First SEO, попадания в Knowledge Graph и точного определения релевантности. Понимание этого механизма требует оптимизации структуры заголовков (Title Consistency) и стратегии анкорных текстов для обеспечения корректной интерпретации контента поисковой системой.

Термины и определения

Anchor Text (Анкорный текст): Текст гиперссылки в ссылающемся документе. Используется для описания содержания целевой страницы.
Domain (Домен): Группа документов в интернете, связанных общим доменным именем. Используется для определения Peer Documents.
General Pattern (Общий Шаблон / Второй шаблон в Claim 1): Шаблон (сочетание префиксов и суффиксов), который статистически часто встречается при сравнении Labels и Titles группы Peer Documents. Отражает структуру заголовков на сайте.
Individual Pattern (Индивидуальный Шаблон / Первый шаблон в Claim 1): Специфический префикс и/или суффикс, найденный при сравнении Title и Label одного конкретного Peer Document.
Label (Метка): Текст, предназначенный для представления предмета документа. В патенте генерируется путем выбора Longest-match anchor text для Peer Document.
Linking Document (Ссылающийся документ): Документ (внешний или внутренний), содержащий гиперссылку на Peer Document или целевой документ.
Longest-match anchor text (Самый длинный совпадающий анкорный текст): Анкорный текст, который является подстрокой (substring) заголовка (Title) документа и при этом является самым длинным среди всех таких анкорных текстов.
Peer Documents (Пэр-документы, Документы-аналоги): Документы из того же домена, что и целевой документ. Предполагается, что они имеют схожую структуру или шаблоны заголовков.
Subject (Предмет, Субъект документа): Основная тема или Сущность (Entity), описываемая в документе. Цель изобретения — его точная идентификация.
Target Document (Целевой документ): Исходный документ, для которого система пытается определить Subject.
Title (Заголовок): Заголовок документа (например, HTML-тег <TITLE>).

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод определения предмета целевого документа.

Идентификация множества Peer Documents в том же домене, что и целевой документ.
Для каждого Peer Document:
1. Идентификация ссылающихся документов (Linking Documents) и их анкорных текстов.
2. Выбор одного анкорного текста (Label) на основе заголовка Peer Document.
3. Идентификация первого шаблона (Individual Pattern), общего для заголовка и выбранного анкорного текста.
Идентификация второго шаблона (General Pattern) на основе первых шаблонов. Выбор основан на количестве Peer Documents, связанных с этими первыми шаблонами (т.е. на частоте встречаемости шаблона на сайте).
Идентификация предмета (Subject) целевого документа на основе второго шаблона и заголовка целевого документа.

Claim 2 (Зависимый от 1): Уточняет метод выбора анкорного текста (шаг 1.ii).

Выбор анкорного текста включает определение того, является ли анкорный текст подстрокой заголовка Peer Document. Выбирается тот анкорный текст, который является самой длинной подстрокой заголовка (Longest-match anchor text).

Claim 3 (Зависимый от 1): Уточняет критерий выбора второго (общего) шаблона (шаг 3).

Второй шаблон идентифицируется из первых шаблонов, если он связан с группой Peer Documents, размер которой превышает определенный порог (Threshold).

Claim 4 (Зависимый от 1): Уточняет, как идентифицируется первый шаблон (шаг 1.iii).

Идентификация первого шаблона включает определение префикса или суффикса в заголовке Peer Document относительно выбранного анкорного текста (Label).

Claim 5 (Зависимый от 1): Описывает логику применения второго шаблона.

Если второй шаблон применим к заголовку целевого документа, тема идентифицируется. Если не применим, система может определить, что у целевого документа нет конкретной темы или сущности.

Где и как применяется

Изобретение применяется на этапе индексирования для улучшения понимания контента и извлечения данных.

CRAWLING – Сканирование и Сбор данных
На этом этапе собираются необходимые исходные данные: документы, их заголовки (Titles), структура ссылок и анкорные тексты.

INDEXING – Индексирование и извлечение признаков (Indexing & Feature Extraction)

Основное применение патента. Описанный механизм является частью процесса извлечения информации (Information Extraction), который выполняется для точного определения Сущности (Subject), с которой связан документ.

Анализ Структуры Сайта: Система группирует документы по доменам (Peer Documents) для выявления шаблонов.
Анализ Ссылок и Анкоров: Используются анкорные тексты входящих ссылок для генерации Labels.
Извлечение Сущностей (Entity Extraction): Цель — вычислить General Patterns для определения истинной темы (Subject). Это критически важно для корректной атрибуции извлеченных фактов к правильному объекту в базе знаний (Fact Repository или Knowledge Graph).

Входные данные:

Целевой документ (URL, Домен, Title).
Набор Peer Documents с того же домена и их Titles.
Данные о входящих ссылках (Linking Documents) и их Anchor Texts для Peer Documents.

Выходные данные:

Идентифицированный Предмет (Subject) или Название Сущности (Entity Name) для целевого документа.
Определение того, что документ не описывает конкретную Сущность (если шаблоны не применимы).

На что влияет

Конкретные типы контента: Наиболее сильно влияет на страницы, являющиеся частью структурированных разделов сайта, где используется шаблонное формирование заголовков: биографии, карточки товаров, статьи в энциклопедиях, профили компаний.
Определенные форматы контента: Страницы, посвященные одной конкретной Сущности (Topic Pages).
Конкретные ниши или тематики: E-commerce, новостные сайты, каталоги, базы знаний — любые сайты с большим количеством однотипных страниц.

Когда применяется

Условия работы алгоритма: Алгоритм применяется во время индексирования или переиндексирования документа, когда система пытается извлечь факты и определить основную Сущность страницы.
Триггеры активации: Наличие достаточного количества Peer Documents на том же домене и наличие входящих ссылок (внутренних или внешних) с анкорными текстами на эти Peer Documents.
Пороговые значения: Алгоритм требует, чтобы общий шаблон (General Pattern) встречался среди Peer Documents выше определенного порога (Threshold). Порог может быть фиксированным (например, 50 раз) или динамическим (например, 33% от общего числа пэров).
Исключения: Если сайт не имеет четкой структуры, имеет слишком мало страниц или на страницы нет входящих ссылок, алгоритм может не сработать.

Пошаговый алгоритм

Процесс определения предмета целевого документа.

Идентификация Пэр-документов: Система определяет набор Peer Documents для целевого документа с того же домена.
Генерация Меток (Labels) для Пэров: Для каждого Peer Document выполняется:
1. Идентификация Ссылок: Находится набор Linking Documents и извлекаются их анкорные тексты.
2. Анализ и Нормализация (Опционально): Анкоры и заголовки могут нормализоваться (удаление пунктуации, стоп-слов).
3. Выбор Метки: Система сравнивает анкорные тексты с заголовком (Title) Peer Document. Выбирается Longest-match anchor text — самый длинный анкорный текст, который является подстрокой заголовка. Этот текст становится Меткой (Label).
Идентификация Индивидуальных Шаблонов: Для каждого пэра система сравнивает его Title и Label. Определяется префикс и суффикс в Title относительно Label. (Например, если Title="A - B - C", а Label="B", то префикс="A - ", суффикс=" - C"). Это формирует Individual Pattern.
Идентификация Общих Шаблонов (General Patterns): Система агрегирует все Individual Patterns и подсчитывает частоту их встречаемости. Шаблоны, частота которых превышает установленный порог (Threshold), выбираются как General Patterns.
Применение Шаблона к Целевому Документу: Система проверяет, применим ли какой-либо из General Patterns к заголовку (Title) целевого документа.
Извлечение Предмета (Subject): Если шаблон применим, он используется для извлечения части заголовка, соответствующей позиции Label в шаблоне. Эта часть и есть искомый Subject. Если применимо несколько шаблонов, может выбираться тот, который генерирует самое длинное описание предмета.

Какие данные и как использует

Данные на входе

Система использует ограниченный набор данных, фокусируясь на структуре и ссылках.

Контентные факторы:
- Заголовки (Titles): Title целевого документа и Peer Documents. Это основной источник для извлечения предмета.
Ссылочные факторы:
- Анкор-тексты (Anchor Texts): Анкорные тексты входящих ссылок на Peer Documents. Используются для генерации Labels и валидации содержания заголовков.
Технические/Структурные факторы:
- Домен/URL: Используется для группировки документов и идентификации Peer Documents на уровне сайта.

Какие метрики используются и как они считаются

Совпадение подстроки (Substring Match): Метрика соответствия анкорного текста заголовку. Анкорный текст должен быть непрерывной последовательностью символов в заголовке.
Длина строки (String Length): Используется для определения Longest-match anchor text.
Частота Шаблона (Pattern Frequency): Количество Peer Documents, чьи Individual Patterns совпадают.
Порог (Threshold): Минимальная частота (абсолютное число или процент), необходимая для того, чтобы Individual Pattern был классифицирован как General Pattern.
Нормализация: При сравнении текста могут применяться правила нормализации (удаление пунктуации, стоп-слов).

Google использует анализ шаблонов сайта для извлечения Сущностей: Система не полагается исключительно на анализ контента отдельной страницы. Она активно ищет повторяющиеся структурные элементы (шаблоны заголовков) в пределах одного домена, чтобы понять, как сайт представляет Сущности и отделяет их от шаблонного текста (boilerplate).
Анкорный текст как семантический валидатор заголовка: Патент подтверждает использование анкорного текста как семантического индикатора для определения основного предмета страницы. Longest-match anchor text используется для подтверждения того, какая часть Title является названием Сущности, а какая — шумом.
Преодоление шумных заголовков (Брендинг/Рубрики): Система спроектирована так, чтобы игнорировать брендинг, названия рубрик и другие повторяющиеся элементы в заголовках, если они идентифицированы как часть General Pattern (префикс или суффикс).
Критическая важность согласованности (Consistency): Для корректной работы алгоритма критически важна согласованность структуры заголовков. Если сайт использует множество разных шаблонов для однотипных страниц, системе будет сложнее выявить доминирующий General Pattern, что затруднит извлечение Сущностей.
Извлечение Сущности без прямых ссылок на страницу: Целевому документу самому не обязательно иметь входящие ссылки. Достаточно, чтобы ссылки были на его Peer Documents, что позволяет системе выявить общий шаблон и применить его к целевому документу.

Best practices (это мы делаем)

Обеспечение максимальной согласованности заголовков (Title Consistency): Используйте четкий и последовательный шаблон для формирования <Title> для однотипных страниц (например, карточек товаров, статей, биографий). Это поможет системе легко идентифицировать General Pattern. Например, используйте формат [Название Сущности] | [Категория] | [Бренд].
Включение названия Сущности в Title как непрерывной фразы: Убедитесь, что полное название основного предмета страницы присутствует в <Title> в виде непрерывной подстроки. Это необходимо для работы механизма Longest-match anchor text.
Оптимизация анкорных текстов (внутренних и внешних): Стимулируйте использование анкорных текстов, которые точно соответствуют названию Сущности страницы. Внутренняя перелинковка должна использовать чистые, неразбавленные анкоры. Это увеличивает вероятность того, что система выберет правильный Label.
Структурирование сайта по разделам: Четкая организация сайта на разделы с однотипным контентом помогает системе эффективно группировать Peer Documents и выявлять релевантные шаблоны.

Worst practices (это делать не надо)

Использование несогласованных или случайных заголовков: Изменение структуры <Title> от страницы к странице для одного и того же типа контента помешает системе выявить General Pattern и надежно извлекать тему.
"Размывание" названия Сущности в Title: Вставка слов внутрь названия Сущности в заголовке. Например, если Сущность — "iPhone 15 Pro Max", а заголовок — "iPhone 15, лучший Pro и большой Max - купить". Анкорный текст "iPhone 15 Pro Max" не будет являться подстрокой этого заголовка.
Использование только общих или кликбейтных анкоров: Если большинство входящих ссылок имеют анкоры типа "читать далее", "лучший продукт" или фразы, не содержащие названия Сущности, система не сможет сгенерировать корректный Label.
Длинные шаблонные префиксы: Использование очень длинных префиксов перед основной темой в заголовке увеличивает сложность анализа и риск ошибки при извлечении темы.

Стратегическое значение

Этот патент подчеркивает важность технического SEO и информационной архитектуры сайта для семантического анализа контента. Он демонстрирует, что для Google важна не только сама информация, но и то, как она структурирована и представлена на сайте. Согласованность (Consistency) является ключевым фактором, позволяющим поисковой системе понимать контент в масштабе. В контексте Entity-First SEO, обеспечение легкого и однозначного извлечения Сущностей из заголовков является фундаментом для дальнейшего ранжирования и представления в Knowledge Graph.

Практические примеры

Сценарий: Оптимизация раздела биографий на новостном сайте (Пример из патента)

Сайт CNN имеет тысячи страниц с биографиями. Необходимо, чтобы Google корректно извлекал Имя и Фамилию.

Анализ заголовков (Peer Documents): Заголовки имеют вид: "CNN Programs - Anchors/Reporters - [Имя Фамилия]" (например, "CNN Programs - Anchors/Reporters - Nancy Grace").
Анализ входящих анкоров (Labels): Внешние сайты ссылаются, используя анкоры "Nancy Grace" или "Grace".
Проверка работы алгоритма: Система определяет, что "Nancy Grace" является Longest-match anchor text. Это становится Меткой (Label).
Определение шаблона: Система анализирует множество таких страниц и определяет General Pattern: Префикс = "CNN Programs - Anchors/Reporters - ", Суффикс = "".
Действие SEO-специалиста: Убедиться, что все новые страницы биографий строго следуют этому шаблону и что внутренняя перелинковка использует полные имена в качестве анкоров.
Ожидаемый результат: Google надежно извлекает Имя и Фамилию как основную Сущность (Subject) для каждой страницы, игнорируя шаблонный префикс в заголовке.

Сценарий: Исправление ошибок извлечения Сущностей в E-commerce

Google путает названия товаров на сайте из-за непостоянных заголовков.

Анализ проблемы: На сайте используются разные форматы Title для товаров одной категории:
- "Купить Samsung Galaxy S25 Ultra в Москве недорого"
- "Samsung: Модель Galaxy S25 Ultra - характеристики"
- "Лучший смартфон 2025 года - Galaxy S25 Ultra от Samsung"
Действие SEO-специалиста: Стандартизировать все заголовки к единому формату, где название модели идет непрерывной фразой, например: "Смартфон Samsung Galaxy S25 Ultra - Характеристики и Цены | Название Магазина". Обеспечить использование анкора "Samsung Galaxy S25 Ultra" во внутренней перелинковке.
Ожидаемый результат: Система сможет выявить единый General Pattern и корректно извлекать "Samsung Galaxy S25 Ultra" как Сущность, опираясь на стандартизированные заголовки и подтверждающие анкоры.

Что такое "Peer Documents" и почему они важны в этом патенте?

Peer Documents (Пэр-документы) — это страницы на том же домене, что и целевая страница. Они критически важны, потому что алгоритм основан на предположении, что страницы на одном сайте используют схожие шаблоны для формирования заголовков (Titles). Анализируя множество пэров, система может статистически определить, какие части заголовка являются повторяющимся шумом (префиксы/суффиксы), а какие — уникальным названием Сущности.

Как система выбирает "Label" (Метку) для страницы?

Система анализирует все анкорные тексты, ссылающиеся на страницу. Она выбирает тот анкорный текст, который одновременно является подстрокой (непрерывной частью) заголовка Title этой страницы и при этом является самым длинным среди всех таких совпадающих анкоров (Longest-match anchor text). Это делается для того, чтобы найти наиболее полное и точное описание Сущности, подтвержденное как ссылками, так и самим заголовком.

Влияет ли этот патент на важность внешних ссылок?

Да, но не с точки зрения авторитетности (PageRank), а с точки зрения семантики. Патент показывает, что анкорные тексты ссылок (как внешних, так и внутренних) используются как важный сигнал для валидации и понимания основного предмета страницы. Если сайты ссылаются на вашу страницу, используя название Сущности в анкоре, это помогает Google правильно идентифицировать эту Сущность, даже если ваш Title зашумлен.

Может ли этот алгоритм работать, если на мою страницу совсем нет входящих ссылок?

Да. Алгоритму не требуются ссылки непосредственно на целевую страницу. Ему нужны ссылки на Peer Documents (другие страницы этого же сайта), чтобы выявить общий шаблон заголовков (General Pattern). Как только шаблон выявлен на основе анализа других страниц, он может быть применен к целевой странице, даже если у нее нет собственных входящих ссылок.

Что произойдет, если мой сайт использует много разных шаблонов для Title?

Это значительно снизит эффективность алгоритма. Система ищет доминирующий шаблон (General Pattern), частота которого превышает определенный порог. Если шаблонов много и ни один из них не доминирует, система не сможет надежно определить структуру заголовков. Это может привести к ошибкам в извлечении Сущностей — либо Сущность не будет извлечена, либо будет извлечена некорректно.

Как этот патент связан с микроразметкой Schema.org?

Патент описывает метод извлечения Сущности без использования микроразметки, анализируя шаблоны представления (Titles и Anchor Texts). Эти методы дополняют друг друга. Микроразметка предоставляет явные данные о Сущности, а описанный алгоритм может использоваться для валидации этих данных или как резервный механизм, если разметка отсутствует или реализована некорректно.

Влияет ли расположение названия Сущности в Title (начало, середина, конец)?

Алгоритму не важно расположение, важна структура шаблона. Система может идентифицировать как префиксы, так и суффиксы вокруг названия Сущности. Главное требование — чтобы название Сущности было непрерывной подстрокой в Title и чтобы шаблон был согласованным на большинстве Peer Documents.

Что делать, если название Сущности само по себе содержит название бренда (например, "Кроссовки Nike Air Max")?

В этом случае и анкорные тексты, и Title должны содержать полное название. Система определит "Кроссовки Nike Air Max" как Label. Шум в данном случае — это дополнительная информация в Title, например: "Купить Кроссовки Nike Air Max в Москве | Магазин Спортмастер". Алгоритм корректно отделит Сущность от префикса "Купить " и суффикса " в Москве | Магазин Спортмастер".

Актуален ли этот метод в эпоху нейронных сетей и BERT?

Хотя современные модели NLP (такие как BERT) очень эффективны в понимании контента, методы, описанные в патенте, остаются актуальными. Они основаны на структурных (шаблоны сайта) и ссылочных сигналах, которые обеспечивают масштабируемость и высокую точность при анализе огромного количества документов. Вероятно, современные системы используют комбинацию таких структурных методов и глубокого анализа контента с помощью NLP.

Стоит ли нам менять стратегию формирования Title на основе этого патента?

Если ваша текущая стратегия уже использует согласованные и четкие заголовки, то менять её радикально не нужно. Однако стоит провести аудит согласованности Titles для всех ключевых типов страниц и убедиться, что название основной Сущности всегда присутствует как непрерывная фраза. Также стоит проверить, что ваша стратегия внутренней перелинковки использует эти названия Сущностей в качестве анкорных текстов.

Как Google использует внутренние ссылки и структуру DOM для генерации шаблонов сайта и извлечения структурированных сниппетов

Google анализирует повторяющиеся блоки внутренних ссылок (например, списки товаров). Если текст возле ссылки на исходной странице совпадает с текстом на целевой странице, Google определяет DOM-структуру этого текста и создает шаблон домена. Этот шаблон позволяет автоматически извлекать ключевую информацию (например, цену и характеристики) для сниппетов со всех однотипных страниц сайта, даже без микроразметки.

US9971746B2
2018-05-15

Структура сайта
SERP
Ссылки

Как Google генерирует «синтетический анкорный текст», анализируя структуру и контекст ссылающихся страниц

Google анализирует структурно похожие страницы, ссылающиеся на различные ресурсы. Определяя, где известные поисковые запросы (Seed Queries) появляются в структуре этих ссылающихся страниц (например, в заголовках или Title), Google создает шаблоны. Эти шаблоны затем используются для извлечения текста из аналогичных мест на других страницах, создавая «синтетический описательный текст» (аналог анкорного текста) для целевых ресурсов. Это улучшает ранжирование, даже если фактический анкорный текст низкого качества.

US9208232B1
2015-12-08

Ссылки
Структура сайта
Семантика и интент

Как Google использует анкорный текст входящих ссылок для определения синонимов и псевдонимов сущностей в Knowledge Graph

Google автоматически определяет синонимы и псевдонимы для сущностей (например, людей, компаний) в своем хранилище фактов (Knowledge Graph). Система анализирует анкорный текст ссылок, ведущих на исходные документы, из которых были извлечены факты о сущности. Это позволяет системе понять, что, например, "Биг Блю" и "IBM" относятся к одной и той же компании.

US8738643B1
2014-05-27

Knowledge Graph
Семантика и интент
Ссылки

Как Google использует навигационные запросы, консенсус кликов и анкорных текстов для определения глобального качества сайта

Google анализирует потоки запросов, чтобы определить, когда пользователи ищут конкретный сайт (навигационный интент). Если запрос явно указывает на документ (через подавляющее большинство кликов пользователей или доминирование в анкор-текстах), этот документ получает «баллы качества». Эти баллы используются как глобальный сигнал качества, повышая ранжирование сайта по всем остальным запросам.

US7962462B1
2011-06-14

Поведенческие сигналы
Ссылки
SERP

Как Google сегментирует веб-страницы на семантические блоки (хедер, футер, контент) с помощью анализа геометрии рендеринга

Google использует механизм "псевдо-рендеринга" для анализа геометрической структуры веб-страницы и её разделения на семантически различные области (чанки), такие как основное содержимое, навигация, футер и реклама. Это позволяет системе определять важность контента и ссылок в зависимости от их расположения на странице.

US7913163B1
2011-03-22

Семантика и интент
Структура сайта
Техническое SEO

Как Google использует персональное дерево интересов пользователя для определения важности слов в запросе и его переписывания

Google использует иерархический профиль интересов пользователя (Profile Tree), построенный на основе истории поиска и поведения, чтобы определить, какие слова в запросе наиболее важны для конкретного человека. Специфичные интересы (глубокие узлы в дереве) получают больший вес. Это позволяет системе отфильтровать шум в длинных запросах и сгенерировать более точный альтернативный запрос.

US8326861B1
2012-12-04

Персонализация
Семантика и интент
Поведенческие сигналы

Как Google автоматически изучает синонимы, анализируя последовательные запросы пользователей и вариации анкорных текстов

Google использует методы для автоматического определения синонимов, акронимов и эквивалентных фраз. Система анализирует логи запросов: если пользователь быстро меняет запрос, сохраняя часть слов (например, с «отели в париже» на «гостиницы в париже»), система учится, что «отели» и «гостиницы» эквивалентны. Также анализируются вариации анкорных текстов, указывающих на одну и ту же страницу.

US6941293B1
2005-09-06

Семантика и интент
Ссылки

Как Google использует анализ сопутствующих ссылок (co-citation) и нормализацию веса для определения связанных сайтов и конкурентов

Google анализирует структуру ссылок для поиска сайтов, связанных с выбранным документом и находящихся на том же уровне обобщения (например, конкурентов). Система определяет, на какие еще сайты ссылаются источники, цитирующие исходный документ (co-citation). Для повышения точности вес ссылок нормализуется: снижается влияние множественных ссылок с одного хоста и ссылок со страниц-каталогов (хабов).

US6754873B1
2004-06-22

Ссылки
SERP
Техническое SEO

Как Google использует персонализированный PageRank ссылающихся страниц для переоценки значимости анкорного текста

Google может персонализировать поисковую выдачу, изменяя вес анкорного текста ссылок. Вес ссылки зависит не от глобального PageRank ссылающейся страницы, а от её "персонализированного PageRank", рассчитанного на основе предпочтений пользователя (например, любимых сайтов или тематик). Это позволяет повышать в выдаче документы, на которые ссылаются авторитетные для конкретного пользователя источники.

US7260573B1
2007-08-21

Персонализация
Ссылки

Как Google использует распределение кликов по разным типам запросов для оценки общего качества сайта (Website Quality Score)

Google оценивает качество сайта не по общему CTR, а по тому, в ответ на какие запросы он получает клики. Система сегментирует пользовательский фидбек (клики, CTR) по различным параметрам запроса (например, конкурентность, длина, популярность). Сайт считается качественным, если он получает много кликов в ответ на высококонкурентные и популярные запросы, а не только на низкочастотные или нечеткие.

US8615514B1
2013-12-24

Поведенческие сигналы

Как Google ранжирует и рекомендует источники контента (каналы, профили) на основе внутренних ссылок, аннотаций и кликов по ним

Google использует механизм для ранжирования и рекомендации источников контента (например, YouTube-каналов или профилей) внутри платформ. Система анализирует, как часто источник упоминается в аннотациях, описаниях и комментариях к контенту, который просматривал пользователь. Ключевым фактором ранжирования является не только количество упоминаний, но и общее число кликов (активаций) по этим ссылкам.

US9235625B2
2016-01-12

Ссылки
Поведенческие сигналы
Мультимедиа

Как Google использует визуальные цитаты и обратную связь для генерации и уточнения ответов в мультимодальном поиске

Google генерирует ответы на мультимодальные запросы (изображение + текст), находя визуально похожие изображения в интернете и используя текст с их исходных страниц как основу для LLM. Система показывает эти изображения как «визуальные цитаты» для подтверждения ответа и позволяет пользователям исключать нерелевантные источники, чтобы мгновенно уточнить сгенерированный результат.

US20240378236A1
2024-11-14

Мультимедиа
EEAT и качество
Ссылки

Как Google использует анализ аномалий в показах и кликах для выявления фейковых локальных бизнес-листингов (Map Spam)

Google анализирует статистику взаимодействий (кликов) для групп связанных бизнес-листингов (Common Business). Система вычисляет статистически нормальный уровень активности и устанавливает порог (Anomaly Detection Threshold). Резкий всплеск активности выше этого порога (например, на два стандартных отклонения) сигнализирует о наличии фейковых или спамных листингов, созданных для манипуляции локальной выдачей.

US20150154610A1
2015-06-04

Local SEO
Антиспам
Поведенческие сигналы

Как Google использует модифицированный PageRank (Personalized PageRank) для персонализации выдачи на основе истории и предпочтений пользователя

Патент Google, описывающий механизм персонализации поиска путем модификации алгоритма PageRank. Система определяет "точку зрения" пользователя (Point-of-View Data) на основе его истории посещений, закладок или указанных категорий. Затем стандартный расчет PageRank изменяется так, чтобы авторитет (Reset Probability) концентрировался только на этих персональных источниках, повышая в выдаче сайты, которые близки к интересам пользователя.

US7296016B1
2007-11-13

Персонализация
Поведенческие сигналы
SERP

Как Google использует цитирования на веб-страницах для ранжирования книг в основной выдаче

Google использует механизм для определения релевантных книг по общим информационным запросам, даже если пользователь не искал книгу специально. Система анализирует, какие книги цитируются на топовых веб-страницах в выдаче. Книги получают оценку, основанную на авторитетности цитирующих страниц и контексте цитирования, и затем подмешиваются в результаты поиска.

US8392429B1
2013-03-05

Ссылки
SERP
EEAT и качество