SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google идентифицирует и игнорирует шаблонный контент (Boilerplate) для фокусировки на основном содержании страницы

SYSTEMS AND METHODS FOR ANALYZING BOILERPLATE (Системы и методы анализа шаблонного контента)
  • US8041713B2
  • Google LLC
  • 2004-03-31
  • 2011-10-18
  • Индексация
  • Техническое SEO
  • Структура сайта
  • Семантика и интент
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Google использует методы для отделения основного содержания страницы от повторяющихся элементов (навигация, футеры, копирайты). Анализируя частоту повторений на сайте, пространственное расположение блоков, окружающий код и цели ссылок, система классифицирует контент как шаблонный (boilerplate) и исключает его из индексации или значительно понижает его вес.

Описание

Какую проблему решает

Патент решает фундаментальную проблему индексирования: как отличить уникальное основное содержание документа (content element) от шаблонных элементов (boilerplate), таких как навигация, футеры и юридические уведомления. Шаблонный контент повторяется на многих страницах и может "зашумлять" индекс, искажая оценку релевантности уникального содержания. Изобретение позволяет системе сфокусироваться на основном контенте, улучшая качество поиска и индексации.

Что запатентовано

Запатентованы методы для автоматической идентификации и обработки boilerplate. Ключевой механизм заключается в анализе множества связанных документов (related articles), например, страниц одного сайта, для выявления общих элементов (common elements). Эти элементы классифицируются как boilerplate на основе различных сигналов, включая их пространственное расположение (spatial location) на странице и анализ связанных с ними ссылок (link analysis).

Как это работает

Система работает на этапе индексации, анализируя группу связанных страниц:

  • Идентификация общих элементов: Выявляются блоки, которые повторяются на нескольких страницах.
  • Анализ расположения (Spatial Location): Оценивается физическое положение элемента. Элементы вверху, внизу или по бокам страницы чаще классифицируются как boilerplate (Claim 1).
  • Анализ ссылок (Link Analysis): Анализируется назначение ссылок внутри блока. Ссылки на стандартные разделы (например, помощь, контакты) указывают на boilerplate (Claim 2).
  • Анализ разметки и терминов: Также учитывается окружающий HTML/JavaScript (markup) и частота слов (IDF).
  • Обработка: Идентифицированный boilerplate может быть удален перед индексированием (Claim 1) или ему присваивается пониженный вес.

Актуальность для SEO

Критически высокая. Отделение основного контента от элементов шаблона является базовой и необходимой функцией любой современной поисковой системы. Хотя методы эволюционировали (например, с использованием визуального рендеринга и машинного обучения), принципы, заложенные в патенте — анализ повторяемости, расположения и структуры — остаются фундаментальными для понимания того, как Google интерпретирует веб-страницы в 2025 году.

Важность для SEO

Патент имеет высокое значение для SEO. Он описывает фундаментальный механизм, определяющий, какая часть контента будет считаться основной (Main Content), а какая — шаблонной. Это напрямую влияет на оценку релевантности. Если система ошибочно классифицирует важный контент как boilerplate, он не будет учитываться при ранжировании. Понимание этих механизмов критически важно для технического SEO и разработки структуры сайта.

Детальный разбор

Термины и определения

Boilerplate (Шаблонный контент)
Повторяющиеся элементы документа, которые не являются его основным содержанием. Примеры: хедеры, футеры, навигационные меню, уведомления об авторских правах.
Common element (Общий элемент)
Элемент (текст, фраза, блок), который встречается в нескольких связанных документах.
Content element (Элемент содержания)
Часть документа, которая не является boilerplate и представляет основное уникальное содержание.
Indexer (Индексатор)
Компонент системы, отвечающий за анализ документов, идентификацию boilerplate и создание индекса.
Inverse Document Frequency (IDF)
Метрика, показывающая, насколько редко термин встречается в документах в целом. Термины с низким IDF (встречаются часто глобально, например, "Контакты") чаще являются boilerplate.
Markup (Разметка)
Структурные элементы вокруг текста, такие как HTML-теги, ссылки, JavaScript. Используется для идентификации boilerplate.
Related articles (Связанные статьи/документы)
Группа документов, анализируемых совместно для выявления общих элементов. Например, несколько страниц одного веб-сайта.
Spatial location (Пространственное расположение)
Физическое положение элемента на странице (верх, низ, лево, право). Используется как сильный сигнал для идентификации boilerplate.

Ключевые утверждения (Анализ Claims)

Патент фокусируется на конкретных методах идентификации boilerplate при анализе группы документов.

Claim 1 (Независимый пункт): Описывает метод анализа boilerplate с фокусом на пространственном расположении и последующей индексации.

  1. Идентификация общего элемента (common element) во множестве документов.
  2. Анализ пространственного расположения (spatial location) этого общего элемента в документе.
  3. Определение того, является ли общий элемент boilerplate, основываясь, по крайней мере частично, на этом пространственном расположении.
  4. В случае положительного определения: удаление (removing) элемента boilerplate из документа.
  5. Индексация документа (после удаления).

Ядром изобретения здесь является использование физического расположения повторяющегося блока на странице как критерия для его классификации как шаблона и последующее исключение этого блока из индекса.

Claim 2 (Независимый пункт): Описывает метод анализа boilerplate с фокусом на анализе ссылок.

  1. Идентификация общего элемента (common element) во множестве документов.
  2. Анализ ссылки (link), связанной с этим общим элементом в документе. Этот анализ включает анализ адреса (address), на который ссылается ссылка.
  3. Определение того, является ли общий элемент boilerplate, основываясь, по крайней мере частично, на этой связанной ссылке.

Ядром изобретения здесь является использование наличия и назначения ссылки (например, ссылка на help.html или главную страницу) внутри повторяющегося блока как критерия для его классификации как шаблона.

Где и как применяется

Изобретение применяется преимущественно на этапе обработки и индексирования контента.

CRAWLING – Сканирование и Сбор данных
На этом этапе система собирает группу связанных документов (plurality of related articles), например, сканируя веб-сайт. Эти данные необходимы для последующего сравнительного анализа.

INDEXING – Индексирование и извлечение признаков
Это основной этап применения патента. Indexer выполняет обработку сырого контента:

  1. Сравнительный анализ: Происходит сравнение элементов между разными документами группы для выявления common elements.
  2. Boilerplate Detection: Применяются описанные методы (анализ расположения, ссылок, разметки, частоты) для классификации элементов как boilerplate или content element.
  3. Очистка и Взвешивание: Boilerplate удаляется (согласно Claim 1) или ему присваивается низкий вес (согласно описанию патента).
  4. Индексация: Основное содержание индексируется для последующего поиска.

RANKING – Ранжирование
На этапе ранжирования система использует индекс, который уже очищен от boilerplate или содержит информацию о весе элементов. Это позволяет рассчитывать релевантность на основе основного содержания, игнорируя шаблонный шум.

Входные данные:

  • Группа связанных документов (например, страницы сайта).
  • Сырой контент и разметка документов (HTML, JavaScript).
  • Данные о пространственном расположении блоков (могут быть получены после рендеринга).
  • Структура ссылок и их адреса назначения.

Выходные данные:

  • Индексное представление документа, сфокусированное на основном содержании.
  • Аннотации документа с разметкой зон (boilerplate vs content) и присвоенными весами.

На что влияет

  • Конкретные типы контента и ниши: Влияет на все типы сайтов. Особенно критично для ресурсов с обширными и сложными шаблонами: новостные порталы (множество блоков в сайдбарах), E-commerce (сложная навигация, фильтры, сквозные блоки), корпоративные сайты.
  • Структура страницы (Page Layout): Патент напрямую влияет на то, как поисковая система интерпретирует структуру страницы, отдавая приоритет уникальному содержанию над навигацией и вспомогательными блоками.

Когда применяется

  • Условия применения: Алгоритм применяется во время индексации или переиндексации веб-страниц.
  • Требования: Для методов, описанных в Claims 1 и 2, требуется анализ множества связанных страниц (plurality of related articles) для выявления повторений. Однако в описании патента также упоминаются методы, которые могут работать на основе анализа одного документа (например, анализ разметки или предопределенных списков терминов).

Пошаговый алгоритм

Процесс идентификации Boilerplate во время индексации:

  1. Сбор данных: Получение группы связанных документов (например, страниц сайта).
  2. Идентификация кандидатов (Frequency Analysis): Выявление элементов (текстовых блоков, структур), которые часто повторяются в разных документах группы (common elements).
  3. Анализ пространственного расположения (Spatial Location Analysis): Оценка положения кандидатов на странице. Общие элементы, постоянно находящиеся внизу, вверху или по бокам страницы, получают более высокий балл вероятности boilerplate.
  4. Анализ ссылок (Link Analysis): Анализ наличия ссылок внутри кандидата и их назначения. Ссылки на главную страницу, страницу помощи (help.html) или страницу авторских прав (copyright.html) являются сильными индикаторами boilerplate.
  5. Анализ разметки (Markup Analysis): (Из описания патента) Анализ окружающих HTML-тегов и JavaScript. Наличие навигационных скриптов или определенных структур разметки увеличивает вероятность boilerplate.
  6. Анализ терминов (Term Analysis): (Из описания патента) Сравнение текста кандидата с предопределенным списком шаблонных фраз или использование метрики IDF для выявления глобально частых терминов.
  7. Классификация и Взвешивание: Агрегация всех сигналов. Тексту присваивается вес, указывающий на вероятность того, что он является boilerplate.
  8. Обработка: Boilerplate может быть полностью удален из индексируемого текста или сохранен с низким весом.
  9. Индексация: Сохранение обработанного контента (content element) в индексе.

Какие данные и как использует

Данные на входе

Система использует разнообразные данные, извлеченные из документов и их взаимосвязей.

  • Контентные факторы: Текст, термины, фразы. Используются для анализа частоты и сравнения со списками предопределенных терминов.
  • Структурные и Технические факторы: Markup (HTML-теги, JavaScript, стили). Анализируются для выявления паттернов, характерных для навигации или шаблонов.
  • Ссылочные факторы: Наличие ссылок и адреса их назначения. Используются для идентификации навигационных элементов.
  • Пространственные данные: Расположение элементов на странице (Spatial location).
  • Междокументные данные: Данные о том, какие элементы повторяются на разных страницах (related articles).

Какие метрики используются и как они считаются

  • Частота элементов (Frequency): Подсчет количества повторений элемента в наборе связанных документов.
  • Inverse Document Frequency (IDF): Упоминается как метод идентификации терминов с низким IDF (глобально частых), что повышает вероятность того, что они являются boilerplate.
  • Вес разметки (Markup Weight): Различным видам разметки могут присваиваться разные веса. Например, ссылки или JavaScript могут иметь больший вес как индикаторы boilerplate, чем теги форматирования (bold, italics).
  • Вероятность Boilerplate (Boilerplate Probability Weight): В одном из вариантов реализации тексту присваивается вес, указывающий на вероятность того, что этот текст является boilerplate. Этот вес используется для изменения ранжирования.

Выводы

  1. Фундаментальность отделения контента от шаблона: Google активно использует сложные механизмы для отделения основного содержания страницы (Main Content) от шаблонных элементов (Boilerplate). Это ключевой процесс на этапе индексации.
  2. Многофакторный анализ Boilerplate: Идентификация шаблонов не основана на одном сигнале. Система использует комбинацию анализа повторяемости контента на сайте, его физического расположения (spatial location), анализа окружающей разметки и структуры ссылок.
  3. Игнорирование или удаление Boilerplate: Контент, классифицированный как boilerplate, может быть полностью исключен из индекса (как указано в Claim 1) или ему может быть присвоен значительно более низкий вес при расчете релевантности.
  4. Важность уникальности основного содержания: Релевантность страницы определяется почти исключительно тем контентом, который остается после вычитания boilerplate. Страницы с малым количеством уникального контента будут иметь низкую ценность для поиска.
  5. Структура ссылок как индикатор шаблонов: Патент подчеркивает, что назначение ссылок (например, навигация на главную или страницу помощи) является сильным сигналом для идентификации шаблонных блоков (Claim 2).

Практика

Best practices (это мы делаем)

  • Четкое структурное разделение контента: Проектируйте шаблоны так, чтобы основное содержание было четко отделено от навигации, сайдбаров и футера. Использование семантических тегов HTML5 (<main>, <nav>, <aside>, <footer>) помогает алгоритмам корректно определить Main Content.
  • Концентрация SEO-сигналов в Main Content: Убедитесь, что все ключевые сигналы релевантности (ключевые слова, сущности, уникальный текст) находятся в зоне основного содержания, а не в шаблонных блоках.
  • Оптимизация объема Boilerplate: Минимизируйте объем шаблонного текста. Большие блоки повторяющегося текста (например, обширные описания условий доставки в футере) могут снижать общее соотношение уникального контента к шаблону.
  • Консистентность шаблонов: Поддерживайте согласованную структуру навигации и футеров на всем сайте. Это облегчает системе задачу идентификации повторяющихся элементов и их классификации как boilerplate.

Worst practices (это делать не надо)

  • Размещение ключевых слов или "SEO-текстов" в шаблонных блоках: Оптимизация футера или сквозного сайдбара ключевыми словами неэффективна. Такой контент будет идентифицирован как boilerplate и проигнорирован или понижен в весе.
  • Доминирование шаблона над контентом: Создание страниц, где объем навигации, рекламы и других шаблонных элементов значительно превышает объем уникального основного содержания.
  • Игнорирование структуры страницы: Использование нелогичной или запутанной верстки, которая затрудняет алгоритмам определение того, где заканчивается навигация и начинается основное содержание.
  • Размещение уникального контента в шаблонных зонах: Размещение важного контента в блоках, которые по расположению (spatial location) или структуре выглядят как boilerplate (например, уникальный текст в сайдбаре).

Стратегическое значение

Патент подтверждает стратегическую важность архитектуры сайта и дизайна шаблонов (Page Layout) для SEO. Поисковая система не оценивает весь текст на странице одинаково; она сегментирует страницу на функциональные блоки. Долгосрочная стратегия должна фокусироваться на создании высококачественного, уникального основного содержания и обеспечении технической структуры, которая помогает поисковой системе корректно его идентифицировать и изолировать от шаблонов.

Практические примеры

Сценарий: Оптимизация страницы категории E-commerce

  1. Проблема: Страница категории имеет обширную боковую панель с фильтрами (сайдбар) и стандартный футер. Уникальный SEO-текст для категории размещен в самом низу страницы, под листингом товаров.
  2. Анализ по патенту: Система Google анализирует сайт. Сайдбар и футер идентифицируются как boilerplate из-за их повторяемости и расположения (spatial location). SEO-текст внизу страницы также рискует быть пониженным в весе из-за расположения, близкого к футеру. Основным содержанием считается листинг товаров.
  3. Действия по оптимизации: Переместить уникальный SEO-текст в верхнюю часть зоны Main Content (над листингом товаров). Убедиться, что верстка четко отделяет сайдбар (например, с помощью <aside>) от основного блока (<main>).
  4. Ожидаемый результат: Google более точно определяет тематику страницы на основе SEO-текста, так как он теперь находится в приоритетной зоне Main Content и надежно отделен от boilerplate.

Вопросы и ответы

Как Google определяет, что является Boilerplate? Это основано только на повторении текста?

Нет, не только на повторении. Патент подчеркивает, что система использует комбинацию сигналов. Ключевыми являются: повторение блока на разных страницах сайта, его физическое расположение на странице (spatial location, например, в футере или сайдбаре), а также анализ окружающей разметки и назначения ссылок внутри блока.

Если я размещу ключевые слова в футере или сквозном сайдбаре, они будут полностью проигнорированы?

Согласно Claim 1 патента, если блок классифицирован как boilerplate, он может быть удален перед индексацией. В альтернативном варианте ему будет присвоен значительно более низкий вес. Размещение ключевых слов только в таких блоках является крайне неэффективной стратегией ранжирования.

Влияет ли Boilerplate на оценку уникальности контента страницы?

Да. Уникальность страницы оценивается преимущественно по тому контенту, который остается после идентификации и исключения boilerplate. Если две страницы отличаются только основным содержанием, они будут считаться уникальными. Однако, если на странице мало уникального контента и доминирует шаблон, её общая ценность будет низкой.

Что такое "Spatial Location Analysis" в контексте этого патента?

Это анализ физического расположения элемента на странице. Патент указывает, что элементы, которые постоянно появляются в одних и тех же местах (например, вверху, внизу, слева или справа) на разных страницах сайта, с высокой вероятностью являются шаблонными элементами — навигацией, хедером или футером.

Как анализ ссылок помогает определить Boilerplate (Claim 2)?

Система анализирует назначение ссылок внутри повторяющегося блока. Если блок содержит ссылки на стандартные разделы сайта (например, "Главная", "Помощь", "Контакты", "Условия использования"), это служит сильным сигналом того, что весь блок является навигационным шаблоном (boilerplate).

Может ли система определить Boilerplate на одной отдельной странице без анализа всего сайта?

Claims 1 и 2 требуют анализа множества связанных статей (plurality of related articles) для выявления повторений. Однако в описании патента упоминаются дополнительные методы, которые могут работать на основе одного документа: анализ специфической разметки или сравнение с предопределенным списком шаблонных фраз (например, "Copyright").

Что такое IDF и как он связан с Boilerplate?

IDF (Inverse Document Frequency) показывает, насколько редко слово встречается в интернете в целом. Слова с низким IDF (например, "главная", "контакты") встречаются повсеместно. Патент упоминает использование низкого IDF как одного из сигналов для идентификации boilerplate, так как такие слова часто являются частью шаблонных блоков.

Влияет ли этот патент на вес внутренних ссылок в навигации (сквозных ссылок)?

Патент фокусируется на игнорировании текста шаблонов при оценке релевантности страницы-источника. Он не описывает обработку PageRank. Однако, поскольку система идентифицирует эти блоки как навигационные (boilerplate), логично предположить, что ссылки в них обрабатываются иначе и могут иметь иной вес или анкорное влияние, чем контекстные ссылки из основного контента.

Как этот старый патент (2004 год) соотносится с современным рендерингом JavaScript (WRS)?

Принципы патента актуальны. Современный рендеринг (WRS) позволяет Google лучше понять итоговую структуру страницы (DOM) и её визуальное представление. Это делает анализ пространственного расположения (spatial location), описанный в Claim 1, еще более точным, так как система видит финальное расположение блоков.

Что делать, если у меня на сайте есть важный повторяющийся контент, который не должен считаться Boilerplate?

Патент учитывает, что не все повторяющиеся элементы являются boilerplate. Чтобы избежать ложной классификации, важно, чтобы этот контент не находился в типичных шаблонных зонах (футер, боковая навигация), не был окружен навигационной разметкой и был структурно интегрирован в основное содержание страницы.

Похожие патенты

Как Google идентифицирует и игнорирует навигацию, футеры и рекламу на странице для понимания основного контента
Google использует технологию анализа структуры документа (DOM-дерева) для отделения основного содержания страницы от шаблонных элементов (boilerplate) — таких как навигационные меню, футеры, списки ссылок и рекламные блоки. Система анализирует геометрические, структурные и иерархические признаки элементов (например, размер, форму, количество дочерних ссылок, расположение), чтобы классифицировать контент как шаблонный и исключить его при анализе тематики страницы.
  • US8898296B2
  • 2014-11-25
  • Структура сайта

  • Семантика и интент

  • Техническое SEO

Как Google определяет основной контент страницы, анализируя визуальную геометрию и расположение элементов после рендеринга
Google анализирует визуальную структуру отрендеренной страницы для идентификации основного контента («Колонки интереса»). Система определяет расположение колонок, исключает выбросы (невидимый или удаленный контент) и вычисляет центральную область. Контент, найденный в этой области, получает повышенный вес при ранжировании, в то время как контент в боковых панелях, футерах и рекламе деприоритизируется.
  • US9753901B1
  • 2017-09-05
  • Индексация

  • Техническое SEO

  • Структура сайта

Как Google определяет основной контент страницы, анализируя визуальную структуру и характеристики разделов
Google использует систему для идентификации основного контента веб-страницы путем её разделения на логические разделы на основе визуального макета. Система оценивает характеристики каждого раздела (соотношение ссылок к тексту, количество слов, изображения, расположение) относительно характеристик всей страницы, чтобы выделить наиболее значимый контент и отделить его от навигации и шаблонов.
  • US20140372873A1
  • 2014-12-18
  • Структура сайта

  • Техническое SEO

  • Ссылки

Как Google автоматически создает шаблоны для извлечения структурированных данных из форумов и UGC-сайтов
Google использует систему для автоматического понимания структуры сайтов с пользовательским контентом (UGC), таких как форумы. Система разделяет страницы на статичные элементы («boilerplate») и динамический контент («posts»), определяет различные типы постов (например, посты модераторов и обычных пользователей) и создает шаблоны для точного извлечения и аннотации ключевых данных: автора, даты и основного текста.
  • US8458584B1
  • 2013-06-04
  • Краулинг

  • Структура сайта

Как Google использует внутренние ссылки и структуру DOM для генерации шаблонов сайта и извлечения структурированных сниппетов
Google анализирует повторяющиеся блоки внутренних ссылок (например, списки товаров). Если текст возле ссылки на исходной странице совпадает с текстом на целевой странице, Google определяет DOM-структуру этого текста и создает шаблон домена. Этот шаблон позволяет автоматически извлекать ключевую информацию (например, цену и характеристики) для сниппетов со всех однотипных страниц сайта, даже без микроразметки.
  • US9971746B2
  • 2018-05-15
  • Структура сайта

  • SERP

  • Ссылки

Популярные патенты

Как Google динамически фильтрует и изменяет подсказки Autocomplete в реальном времени при вводе навигационного запроса
Google использует систему для оптимизации функции автозаполнения (Autocomplete). При вводе частичного запроса система определяет широкий набор потенциальных навигационных ссылок (Superset) и фильтрует его до узкого подмножества (Subset) на основе сигналов, таких как история поиска, популярность и тип документа. Интерфейс может динамически изменять отображаемые подсказки, если пользователь делает паузу при вводе.
  • US9454621B2
  • 2016-09-27
  • Семантика и интент

  • SERP

  • Поведенческие сигналы

Как Google алгоритмически определяет и верифицирует языковые версии страниц, анализируя ссылки, контент и частоту обновлений
Google использует систему для автоматической идентификации связанных версий контента (например, переводов). Система анализирует ссылки между страницами и ищет «индикаторы связи» (названия языков в анкорах или флаги). Обнаруженная связь затем верифицируется с помощью машинного перевода и сравнения контента, а также анализа частоты обновлений. Это позволяет Google показывать пользователю наиболее подходящую языковую или региональную версию в поиске.
  • US8892596B1
  • 2014-11-18
  • Мультиязычность

  • Ссылки

  • SERP

Как Google консолидирует сигналы ранжирования между мобильными и десктопными версиями страниц, используя десктопный авторитет для мобильного поиска
Патент Google описывает механизм для решения проблемы недостатка сигналов ранжирования в мобильном вебе. Система идентифицирует корреляцию между мобильной страницей и её десктопным аналогом. Если мобильная версия недостаточно популярна сама по себе, она наследует сигналы ранжирования (например, обратные ссылки и PageRank) от авторитетной десктопной версии, улучшая её позиции в мобильном поиске.
  • US8996514B1
  • 2015-03-31
  • Техническое SEO

  • Ссылки

Как Google использует связанные запросы и временный «бустинг» для обнаружения и тестирования релевантных документов, которые ранжируются низко
Патент описывает механизм улучшения поиска путем перемещения документов на более высокие позиции. Google идентифицирует документы, которые высоко ранжируются по связанным запросам (например, с синонимами, уточнениями или исправленными ошибками), но низко по исходному запросу, и повышает их. Цель — протестировать истинную релевантность этих документов и собрать пользовательский отклик (клики) для улучшения будущего ранжирования.
  • US8521725B1
  • 2013-08-27
  • Поведенческие сигналы

  • SERP

  • Семантика и интент

Как Google переносит авторитетность бренда и описательные термины между страницами одного сайта для улучшения ранжирования
Google использует механизмы для улучшения релевантности страниц путем переноса сигналов внутри сайта. Система распространяет "авторитетные" термины (например, бренд) с главной страницы на внутренние разделы и, наоборот, поднимает "высокоописательные" термины (например, адреса, категории, уникальные слова) с внутренних страниц на главную. Это позволяет ранжировать наиболее подходящую страницу сайта, даже если нужные ключевые слова на ней отсутствуют.
  • US7933890B2
  • 2011-04-26
  • Структура сайта

  • Техническое SEO

  • Индексация

Как Google использует анализ со-цитирования (Co-citation) для группировки результатов поиска по темам
Google использует механизм кластеризации для организации поисковой выдачи, особенно при неоднозначных запросах. Система анализирует, какие внешние страницы одновременно ссылаются на несколько результатов поиска (со-цитирование). На основе этого вычисляется показатель сходства, который учитывает и нормализует популярность страниц, чтобы точно сгруппировать результаты по конкретным темам (например, отделить «Saturn» как планету от «Saturn» как автомобиль).
  • US7213198B1
  • 2007-05-01
  • Ссылки

  • SERP

Как Google анализирует текст вокруг ссылки (Rare Words) для борьбы со спамом и определения шаблонных ссылок
Google использует механизм для оценки качества ссылок, выходящий за рамки анкорного текста. Система анализирует редкие слова (rare words) в тексте, непосредственно окружающем ссылку, чтобы определить её уникальный контекст. Ранжирование улучшается при наличии разнообразия этих контекстов. Ссылки с повторяющимся контекстом (спам, Google-бомбинг или шаблонные/сквозные ссылки) идентифицируются и дисконтируются.
  • US8577893B1
  • 2013-11-05
  • Антиспам

  • Ссылки

  • Семантика и интент

Как Google использует визуальные цитаты и обратную связь для генерации и уточнения ответов в мультимодальном поиске
Google генерирует ответы на мультимодальные запросы (изображение + текст), находя визуально похожие изображения в интернете и используя текст с их исходных страниц как основу для LLM. Система показывает эти изображения как «визуальные цитаты» для подтверждения ответа и позволяет пользователям исключать нерелевантные источники, чтобы мгновенно уточнить сгенерированный результат.
  • US20240378236A1
  • 2024-11-14
  • Мультимедиа

  • EEAT и качество

  • Ссылки

Как Google автоматически определяет и отображает обратные ссылки (цитирования) между независимыми веб-страницами
Патент Google, описывающий фундаментальный механизм автоматического обнаружения ссылок между веб-страницами разных авторов. Когда система обнаруживает, что Страница B ссылается на Страницу A, она может автоматически встроить представление (например, ссылку) Страницы B в Страницу A при её показе пользователю. Это технология для построения и визуализации графа цитирований в Интернете.
  • US8032820B1
  • 2011-10-04
  • Ссылки

  • Индексация

  • Краулинг

Как Google использует контент, который вы смотрите (например, на ТВ), для автоматического переписывания и персонализации ваших поисковых запросов
Google может анализировать контент (фильмы, шоу, аудио), который пользователь потребляет на одном устройстве (например, ТВ), и использовать эту информацию как контекст для уточнения последующих поисковых запросов. Система распознает аудиовизуальный контекст и автоматически дополняет неоднозначные запросы пользователя, чтобы предоставить более релевантные результаты, в том числе на связанных устройствах (например, смартфоне).
  • US9244977B2
  • 2016-01-26
  • Персонализация

  • Семантика и интент

  • Поведенческие сигналы

seohardcore