Как Google использует шаблоны сайтов и структурированные компоненты для извлечения и расширения наборов сущностей (Entity Set Expansion)

ADDING NEW INSTANCES TO A STRUCTURED PRESENTATION (Добавление новых экземпляров в структурированное представление)

US8452791B2
Google LLC
2009-01-16
2013-05-28

Патент описывает, как Google автоматически расширяет наборы данных (например, таблицы или списки). Система анализирует существующие сущности и ищет новые похожие элементы в интернете. Для этого используются два ключевых метода: анализ повторяющихся шаблонов веб-страниц (Template Analysis) и извлечение данных из структурированных компонентов (HTML-таблиц и списков) на сайтах.

Какую проблему решает

Патент решает задачу автоматического расширения неполных наборов структурированных данных. Он описывает механизмы, позволяющие системе, имеющей частичный список сущностей (Instances), находить другие релевантные сущности из огромного неструктурированного источника (Unstructured Electronic Document Collection), такого как Интернет. Это реализует задачу, известную в Information Retrieval как Entity Set Expansion, улучшая полноту данных, используемых поисковой системой.

Что запатентовано

Запатентована система для автоматического расширения существующего структурированного представления данных (Structured Presentation), например, таблицы. Система анализирует характеристики существующих данных (сущности, атрибуты) и ищет в неструктурированном интернете новые релевантные экземпляры. Ключевыми запатентованными методами являются анализ шаблонов документов (Document Templates) и извлечение данных из структурированных компонентов (Structured Components), таких как списки и таблицы на веб-страницах.

Как это работает

Система работает путем анализа исходного набора сущностей (seed set) для понимания контекста и последующего поиска новых сущностей в вебе:

Анализ семян: Изучаются существующие Instances и их Attributes.
Поиск источников: Находятся веб-страницы, содержащие эти исходные сущности.
Извлечение кандидатов (Два основных метода):
- (а) Анализ Шаблонов (Template Analysis): Определяется Template (структура HTML) страницы с известной сущностью. Затем система ищет другие страницы с таким же шаблоном и извлекает из них новые сущности.
- (б) Анализ Компонентов: Идентифицируются Structured Components (списки/таблицы) на страницах, содержащие известные сущности, и извлекаются другие сущности из этих же компонентов.
Фильтрация: Кандидаты фильтруются по релевантности контексту (категория, схожесть атрибутов).
Добавление: Новые сущности предлагаются или добавляются в представление.

Актуальность для SEO

Высокая. Технологии извлечения структурированных данных (Information Extraction) и расширения наборов сущностей являются фундаментальными для работы современных поисковых систем. Эти методы лежат в основе построения Knowledge Graph, генерации Knowledge Panels и сравнительных таблиц в результатах поиска. Способность структурировать неструктурированный веб остается ключевым приоритетом.

Важность для SEO

Патент имеет высокое значение (8/10) для SEO-стратегии. Он описывает конкретные механизмы, с помощью которых Google идентифицирует и извлекает сущности с веб-сайтов. Это подчеркивает критическую важность поддержания консистентных шаблонов страниц (Templates) и использования семантической HTML-разметки (таблиц, списков как Structured Components) для обеспечения точного извлечения информации поисковой системой.

Термины и определения

Attribute (Атрибут): Свойство или характеристика сущности (например, «Цена», «Режиссер»). В таблице это столбец.
Document Template (Шаблон документа): Паттерн или структура (например, HTML/DOM структура), используемая для организации контента на наборе веб-страниц, обычно исходящих из одного источника. Используется для масштабного извлечения данных (Wrapper Induction).
Instance (Экземпляр, Сущность): Индивидуально идентифицируемая единица данных (например, конкретный продукт или фильм). В таблице это строка.
Instance/Attribute Collection (Коллекция Сущностей/Атрибутов): База данных (аналог Knowledge Graph), хранящая ассоциации между сущностями, их атрибутами и значениями, предварительно извлеченная из веба.
Structured Component (Структурированный компонент): Часть электронного документа, которая имеет внутреннюю структуру. Примеры: HTML-таблица (<table>) или список (<ul>, <ol>) внутри веб-страницы.
Structured Presentation (Структурированное представление): Систематическое расположение информации, например, таблица или набор карточек, где данные организованы по сущностям и атрибутам.
Unstructured Electronic Document Collection (Неструктурированная коллекция электронных документов): Набор документов, формат которых не является единым или постоянным (например, Интернет).
Value (Значение): Конкретное данное, характеризующее атрибут сущности (например, «$100»).

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод расширения структурированного представления.

Система получает данные, описывающие существующее Structured Presentation.
Система сравнивает характеристики этого представления с контентом в Unstructured Electronic Document Collection для поиска новых релевантных Instances.
Система добавляет идентификатор новой сущности, формируя расширенное представление.
Система выводит инструкции для отображения.

Ключевая деталь (обязательная часть Claim 1): Процесс добавления включает формулирование предложений (Instance Suggestions). Это формулирование ОБЯЗАТЕЛЬНО использует анализ шаблонов:

Идентификация первого документа, который содержит существующую сущность и организован в соответствии с Template.
Идентификация второго документа, который организован в соответствии с тем же Template, но относится к другой (новой) сущности.
Включение этой новой сущности в список предложений.

(Технически, Claim 1 защищает именно метод расширения через анализ шаблонов документов).

Claim 14 (Независимый пункт): Описывает систему с фокусом на взаимодействии с пользователем, но также ОБЯЗАТЕЛЬНО включает механизм Template, аналогичный Claim 1.

Зависимые пункты (например, Claim 3): Уточняют, что сравнение характеристик может также включать идентификацию документов, содержащих Structured Components (таблицы, списки), связанные с исходными сущностями.

Где и как применяется

Изобретение затрагивает этапы извлечения и структурирования информации.

CRAWLING – Сканирование и Сбор данных
Краулеры собирают сырые данные из Unstructured Electronic Document Collection.

INDEXING – Индексирование и извлечение признаков
Это ключевой этап для применения патента. На этом этапе система:

Анализирует Document Templates для извлечения данных в масштабе (Wrapper Induction).
Идентифицирует Structured Components (таблицы, списки) в документах.
Строит Instance/Attribute Collection – базу знаний (Knowledge Graph), связывающую сущности и атрибуты, извлеченные из веба.

RANKING / METASEARCH
Механизмы извлечения, описанные в патенте, используются Google для генерации ответов и SERP features на лету:

Генерация структурированных сниппетов (Featured Snippets), особенно табличных и списочных.
Дополнение данных в Панелях Знаний (Knowledge Panels) и сравнительных таблицах.

Входные данные:

Существующее Structured Presentation (исходный набор сущностей).
Unstructured Electronic Document Collection (Веб-контент).
Instance/Attribute Collection (Предварительно обработанная база знаний).

Выходные данные:

Instance Suggestions (Список предлагаемых новых сущностей).
Expanded Structured Presentation (Дополненный набор данных).

На что влияет

Типы контента и форматы: Наибольшее влияние на контент, представленный в виде HTML-таблиц (<table>), списков (<ul>, <ol>) и страниц, использующих консистентные шаблоны (например, карточки товаров, профили).
Конкретные ниши: Влияет на все ниши с наборами сущностей: E-commerce, базы знаний (фильмы, книги, персоны), каталоги, справочники.

Когда применяется

Алгоритмы извлечения применяются постоянно на этапе индексирования для пополнения базы знаний Google. Также они активируются при генерации поисковой выдачи, когда система идентифицирует интент, требующий списка или сравнения сущностей (Entity Set Expansion).

Пошаговый алгоритм

Процесс расширения структурированного представления новыми сущностями.

Получение исходных данных: Система получает описание существующего Structured Presentation (исходные сущности).
Генерация кандидатов (Potential Instances): Система генерирует набор потенциальных новых сущностей, используя методы поиска и извлечения (описаны ниже).
Методы поиска и извлечения:
Метод 1: Анализ Шаблонов (Template Analysis):
1. Поиск документа, релевантного существующей сущности.
2. Извлечение Document Template этого документа (анализ HTML-структуры).
3. Поиск других документов с таким же шаблоном.
4. Извлечение новых сущностей из этих документов (например, из тега H1).
Метод 2: Анализ Структурированных Компонентов:
1. Поиск документов, содержащих Structured Components (таблицы, списки), в которых упоминаются существующие сущности.
2. Анализ контекста компонента (например, заголовков колонок).
3. Извлечение других сущностей из этого же компонента.
Применение фильтров (Filtering Pipeline): Для сокращения списка кандидатов применяются фильтры:
1. Фильтр по Категории (Category Filter): Отбор кандидатов из той же семантической категории.
2. Фильтр по Атрибутам (Related Attribute Filter): Отбор кандидатов, которые характеризуются схожими атрибутами.
3. Фильтр по Значениям (Related Value Filter): Отбор кандидатов, чьи значения атрибутов попадают в схожий диапазон (требует нормализации единиц измерения).
Итеративная настройка (Refinement): Если количество предложений слишком велико или мало, система может автоматически корректировать параметры фильтров (например, расширить диапазон значений).
Вывод и Обновление: Система предоставляет отфильтрованный список Instance Suggestions и обновляет представление.

Какие данные и как использует

Данные на входе

Патент фокусируется на извлечении данных и использует следующие факторы:

Структурные факторы (Критически важно):
- HTML-теги и DOM-структура: Последовательность и вложенность тегов (<div>, <h1>, <title>) используются для определения и сравнения Document Template.
- Семантические элементы: Теги <table>, <tr>, <td>, <ul>, <ol>, <li> используются для идентификации Structured Components.
Контентные факторы: Текст внутри структурных элементов. Используется для идентификации названий Instances, Attributes (заголовков) и Values (содержимого).
Системные данные: Instance/Attribute Collection (предварительно собранная база знаний).

Какие метрики используются и как они считаются

Патент не приводит конкретных формул ранжирования, но описывает качественные метрики и процессы фильтрации:

Соответствие шаблона (Template Match): Метрика, определяющая, насколько структура двух документов совпадает. Основана на анализе HTML-тегов.
Релевантность структурированного компонента: Оценка того, насколько Structured Component соответствует контексту. Учитывает совпадение известных Instances и Attributes.
Схожесть атрибутов (Attribute Similarity): Метрика, определяющая пересечение наборов атрибутов между сущностями.
Схожесть значений (Value Similarity): Метрика, определяющая близость значений атрибутов. Патент явно упоминает необходимость нормализации и конвертации единиц измерения (например, метры в футы) перед сравнением.
Категоризация (Categorization): Классификация сущностей по категориям для фильтрации кандидатов.

Google активно использует анализ шаблонов для извлечения данных (Wrapper Induction). Патент подтверждает, что Google автоматически анализирует HTML-структуру сайта (Template), чтобы понять организацию данных. Этот шаблон используется для масштабного извлечения информации со всех похожих страниц сайта, даже без микроразметки.
Критическая важность нативных структурированных элементов HTML. Система активно ищет Structured Components (HTML-таблицы и списки) для идентификации наборов связанных сущностей. Использование семантической верстки облегчает Google извлечение данных.
Контекст и категория определяются через атрибуты. Для разрешения неоднозначности сущностей (например, «Чикаго» город или мюзикл) система анализирует связанные атрибуты («Население» или «Рейтинг»). Это ключевой механизм для точной классификации.
Зависимость от предварительных вычислений. Google поддерживает Instance/Attribute Collection (аналог Knowledge Graph), где хранятся извлеченные связи, что позволяет быстро находить похожие сущности без необходимости анализа веба в реальном времени.
Адаптивная фильтрация. Процесс извлечения является итеративным, система может смягчать или ужесточать критерии (например, диапазоны значений атрибутов), чтобы найти оптимальный набор связанных сущностей.

Best practices (это мы делаем)

Использование консистентных и чистых шаблонов (Templates). Убедитесь, что все страницы одного типа (например, карточки товаров) используют идентичный HTML-шаблон с семантической версткой. Это напрямую поддерживает механизм Template Analysis и облегчает Google извлечение данных со всех страниц этого типа.
Применение нативных HTML-таблиц и списков. Для представления наборов данных или перечней связанных сущностей используйте теги <table>, <ul>, <ol>, <dl>. Патент прямо указывает на использование этих Structured Components для извлечения связанных сущностей.
Четкое определение атрибутов и значений. Используйте явные и описательные названия для характеристик сущностей (заголовки таблиц, метки в списках определений). Указывайте единицы измерения для числовых значений. Это помогает системе корректно идентифицировать Attributes и сравнивать Values.
Создание авторитетных списков и сравнений. Публикация качественных структурированных списков (например, Топ-10, сравнения продуктов) помогает Google понять связи между сущностями в вашей нише и может служить источником данных для расширения Knowledge Graph.

Worst practices (это делать не надо)

Неконсистентная верстка однотипных страниц. Использование разных HTML-структур для страниц одного типа затрудняет определение Document Template и мешает масштабному извлечению данных.
Использование верстки вместо структурных элементов (Div Soup). Представление табличных данных или списков с помощью <div> и CSS вместо нативных тегов <table> или <ul>. Это снижает вероятность того, что система распознает контент как Structured Component.
Частое изменение HTML-структуры шаблонов. Постоянные изменения в DOM-структуре однотипных страниц ломают механизм Template Extraction, заставляя систему переучиваться и потенциально приводя к потере извлеченных данных.

Стратегическое значение

Этот патент иллюстрирует технические основы того, как Google превращает неструктурированный веб в структурированную базу знаний. Для SEO это означает, что оптимизация под извлечение данных (Extraction Optimization) критически важна. Стратегический приоритет должен отдаваться техническому SEO: семантической верстке, консистентности шаблонов и четкой архитектуре сайта. Это необходимые условия для того, чтобы контент был корректно извлечен и использован в Knowledge Graph и структурированных результатах поиска.

Практические примеры

Сценарий 1: Оптимизация E-commerce сайта (Template Analysis)

Задача: Улучшить извлечение данных о товарах системами Google.
Действие: Провести аудит шаблона карточки товара. Убедиться, что все товары используют идентичную HTML-структуру. Название товара всегда в <h1>, цена в предсказуемом элементе (например, <span class="price">), характеристики всегда в списке определений (<dl>).
Ожидаемый результат: Система Google идентифицирует шаблон, распознает все страницы как товары одного класса и корректно извлекает атрибуты для всех товаров сайта, используя механизм Template Analysis.

Сценарий 2: Создание сравнительной статьи (Structured Components Analysis)

Задача: Помочь Google понять связь между несколькими продуктами в обзоре (например, сравнение CRM-систем).
Действие: Включить в статью сводную HTML-таблицу (<table>), где строки – это названия CRM (Instances), а колонки – их характеристики (Attributes: Цена, Функции, Интеграции).
Ожидаемый результат: Google распознает таблицу как Structured Component, извлекает все упомянутые CRM как набор связанных сущностей и понимает их атрибуты. Это повышает вероятность показа статьи в виде табличного Featured Snippet.

Что в контексте этого патента подразумевается под «Шаблоном» (Template) и почему он важен для SEO?

Template — это повторяющаяся структура HTML или DOM страницы. Патент показывает, что Google использует эти шаблоны для массового извлечения данных (Wrapper Induction): если система понимает структуру одной страницы, она может применить это знание ко всем страницам с таким же шаблоном. Для SEO это означает, что абсолютно последовательная HTML-структура однотипных страниц критически важна для корректного извлечения информации.

Что такое «Структурированный компонент» (Structured Component) и как его использовать на сайте?

Structured Component — это блок внутри веб-страницы с явной структурой, например, HTML-таблица (<table>) или список (<ul>, <ol>). Система ищет эти компоненты, чтобы найти связанные элементы. SEO-специалистам следует использовать эти семантические элементы для представления наборов данных или перечисления связанных объектов, вместо того чтобы перечислять их текстом в абзаце.

Заменяет ли этот механизм необходимость внедрения микроразметки Schema.org?

Нет, не заменяет. Schema.org предоставляет явные данные для поисковых систем. Однако этот патент описывает, как Google извлекает данные автоматически, когда разметка отсутствует, некорректна или недостаточна. Лучшая стратегия — комбинировать качественную микроразметку с чистой, консистентной HTML-структурой.

Как система определяет категорию сущностей (например, что это список фильмов, а не городов)?

Система определяет контекст через анализ атрибутов и значений. Если существующие элементы имеют атрибуты «Режиссер» и «Рейтинг», система ищет новые элементы, которые также обладают этими атрибутами (Related Attribute Filter). Это позволяет системе различать разные типы сущностей, даже если они имеют одинаковые названия (например, «Филадельфия» как город и как фильм).

Что такое «Instance/Attribute Collection» и как это связано с Графом Знаний?

Instance/Attribute Collection — это внутренняя база данных, хранящая извлеченные из интернета сущности и их характеристики. Это, по сути, описание механизма построения и использования внутренней базы знаний, которую мы знаем как Граф Знаний (Knowledge Graph). Патент описывает, как эта коллекция пополняется и используется для поиска связанных сущностей.

Как влияют JavaScript-фреймворки и рендеринг на работу этого механизма?

Механизм зависит от анализа DOM после рендеринга. Если JavaScript значительно изменяет структуру страницы или генерирует неконсистентный HTML-код, это может помешать как идентификации шаблона, так и обнаружению структурированных компонентов. Важно убедиться, что финальный отрендеренный HTML является чистым, семантичным и консистентным на разных страницах одного типа.

Как система обрабатывает разные единицы измерения (например, метры и футы)?

Патент явно упоминает, что при сравнении значений атрибутов (Value Similarity) система может конвертировать значения в общую единицу измерения перед сравнением. Это подчеркивает важность указания единиц измерения рядом с числовыми данными на ваших страницах, чтобы облегчить эту конвертацию и сравнение.

Как система обрабатывает ситуацию, когда найдено слишком много или слишком мало новых экземпляров?

Патент описывает итеративный процесс корректировки (Refinement). Если найдено слишком мало совпадений, система может смягчить критерии фильтрации (например, расширить диапазон допустимых значений). Если найдено слишком много совпадений, система ужесточает критерии (например, требует больше совпадений атрибутов).

Может ли система использовать авторитетные источники для определения важных атрибутов?

Да, патент упоминает механизм, при котором система идентифицирует Authoritative Sources (авторитетные источники) для данной темы и анализирует, какие атрибуты они используют для описания сущностей. Эти атрибуты затем используются для более точного поиска и фильтрации новых экземпляров в общей коллекции данных. Это связано с концепцией E-E-A-T.

Какова основная рекомендация для технических SEO-специалистов на основе этого патента?

Основная рекомендация — поддерживать максимальную семантичность верстки и абсолютную консистентность шаблонов. Используйте единые HTML-шаблоны для однотипных страниц и применяйте соответствующие семантические теги (списки, таблицы) для структурирования информации внутри страниц. Это напрямую помогает алгоритмам извлечения данных Google.

Как Google автоматически определяет ключевые характеристики (атрибуты) сущностей, анализируя неструктурированный веб-контент

Google использует этот механизм для автоматического определения схемы (набора атрибутов) для любой сущности. Анализируя, как различные веб-страницы описывают набор схожих объектов (например, список фильмов), система выявляет новые релевантные характеристики (например, «Режиссер», «Время выполнения»), извлекая их из таблиц, списков или шаблонов страниц в интернете.

US8615707B2
2013-12-24

Knowledge Graph
Семантика и интент

Как Google автоматизирует извлечение структурированных данных с веб-страниц для создания списков ключевых слов

Патент Google описывает инструмент для автоматического извлечения данных со структурированных веб-страниц. Пользователь выбирает два примера элемента (например, названия товаров), а инструмент анализирует структуру документа (DOM-дерево), находит шаблон и автоматически извлекает все остальные элементы, соответствующие этому шаблону. Это используется для быстрого сбора ключевых слов для рекламных кампаний.

US8341176B1
2012-12-25

Структура сайта

Как Google извлекает цены и изображения товаров с веб-страниц для Google Shopping

Этот патент описывает, как Google автоматически идентифицирует страницы электронной коммерции и извлекает структурированные данные о товарах (такие как цена и изображение) из неструктурированного HTML. Система использует анализ близости элементов, структуру HTML и сигналы форматирования для поиска правильных атрибутов, что формирует основу для поисковых систем по товарам, таких как Google Shopping.

US7836038B2
2010-11-16

Google Shopping
SERP
Индексация

Как Google автоматически распознает и извлекает структурированные данные с сайтов-классифайдов и шаблонных сайтов

Google использует систему для автоматического распознавания сайтов, организованных по шаблону (например, классифайды, сайты недвижимости, форумы). Система анализирует структуру URL и HTML-код для выявления повторяющихся паттернов и "динамических областей". На основе этого создаются шаблоны для извлечения данных (например, цена, местоположение, атрибуты), которые затем сохраняются в структурированном виде для использования в поиске.

US8682881B1
2014-03-25

Структура сайта
Краулинг

Как Google использует структурированные данные для борьбы с дублированием страниц с одинаковыми сущностями (например, фасеты и сортировки)

Google анализирует структурированные данные (например, Schema.org) на веб-страницах, чтобы определить, какие сущности (товары, объекты) на них представлены. Если несколько страниц, особенно с одного сайта, содержат одинаковый набор сущностей (например, листинги с разной сортировкой), Google идентифицирует их как дубликаты. Система понижает или удаляет эти дубликаты из выдачи для повышения разнообразия результатов.

US20140280084A1
2014-09-18

Семантика и интент
SERP
Индексация

Как Google модифицирует PageRank, используя модель «Разумного серфера» для взвешивания ссылок на основе вероятности клика

Google использует машинное обучение для прогнозирования вероятности клика по ссылкам на основе их характеристик (позиция, размер шрифта, анкор) и реального поведения пользователей. Эта модель («Разумный серфер») модифицирует алгоритм PageRank, придавая больший вес ссылкам, которые с большей вероятностью будут использованы, и уменьшая вес игнорируемых ссылок.

US7716225B1
2010-05-11

Ссылки
Поведенческие сигналы
SERP

Как Google интерпретирует последовательные запросы для автоматического уточнения поискового намерения пользователя

Google использует механизм для понимания контекста сессии, анализируя последовательные запросы (например, Q1: [рестораны в Москве], затем Q2: [итальянские]). Система автоматически объединяет их в уточненный запрос (Q3: [итальянские рестораны в Москве]), основываясь на исторических данных о том, как пользователи обычно уточняют запросы. Это позволяет системе лучше понимать намерение пользователя в диалоговом режиме.

US9116952B1
2015-08-25

Семантика и интент
Поведенческие сигналы

Как Google рассчитывает оценку авторитетности сайта, используя соотношение Независимых Ссылок и Брендовых Запросов

Google рассчитывает метрику авторитетности для веб-сайтов на основе соотношения количества независимых входящих ссылок к количеству брендовых (референсных) запросов. Сайты, имеющие много независимых ссылок относительно их поисковой популярности, получают преимущество. Напротив, популярные сайты с недостаточным количеством внешних ссылок могут быть понижены в ранжировании по общим запросам.

US8682892B1
2014-03-25

Ссылки
EEAT и качество
SERP

Как Google использует язык интерфейса пользователя и поведенческие сигналы для определения языковой релевантности документа

Google определяет, для носителей каких языков релевантен документ, анализируя агрегированные данные о кликах. Система изучает, какой языковой интерфейс поиска (например, google.fr или google.de) использовали пользователи, кликнувшие на результат. Учитывая поведенческие факторы, такие как время пребывания на странице (Dwell Time) и позиция клика, Google рассчитывает Оценку Языковой Релевантности. Это позволяет определить целевую аудиторию страницы независимо от языка ее контента.

US9208231B1
2015-12-08

Мультиязычность
Поведенческие сигналы
SERP

Как Google выбирает модель визуальной релевантности для сложных запросов в Поиске по картинкам

Google решает проблему ранжирования изображений для сложных или редких запросов, для которых нет специализированной модели релевантности. Система тестирует существующие модели, созданные для частей запроса (подзапросов), и выбирает ту, которая лучше всего соответствует поведению пользователей (кликам) по исходному запросу. Это позволяет улучшить визуальную релевантность в Image Search.

US9152652B2
2015-10-06

Поведенческие сигналы
Мультимедиа
Семантика и интент

Как Google использует историю физических перемещений пользователя для фильтрации и персонализации результатов поиска

Google может собирать и хранить историю физических перемещений пользователя (Location History). Патент описывает интерфейс, позволяющий пользователю осознанно включать свои прошлые местоположения (например, «места, где я был на прошлой неделе») в качестве фильтра для нового поискового запроса, чтобы сделать результаты более релевантными личному опыту.

US8874594B2
2014-10-28

Персонализация
Поведенческие сигналы
Local SEO

Как Google использует близость цитирований (ссылок) для кластеризации результатов поиска

Google может группировать результаты поиска, анализируя, как документы ссылаются друг на друга. Система оценивает силу связи между документами, проверяя контекстуальную близость общих цитирований. Ссылки, расположенные в одном предложении (co-citation) или абзаце, имеют значительно больший вес, чем ссылки, просто присутствующие в документе. Это позволяет формировать точные тематические кластеры, отсеивая группы со слабыми связями.

US8612411B1
2013-12-17

Ссылки
SERP

Как Google использует внутренние ссылки и структуру DOM для генерации шаблонов сайта и извлечения структурированных сниппетов

Google анализирует повторяющиеся блоки внутренних ссылок (например, списки товаров). Если текст возле ссылки на исходной странице совпадает с текстом на целевой странице, Google определяет DOM-структуру этого текста и создает шаблон домена. Этот шаблон позволяет автоматически извлекать ключевую информацию (например, цену и характеристики) для сниппетов со всех однотипных страниц сайта, даже без микроразметки.

US9971746B2
2018-05-15

Структура сайта
SERP
Ссылки

Как Google фильтрует персонализированные предложения запросов на основе контента просматриваемой страницы

Google использует механизм для генерации предложений следующего запроса после того, как пользователь покинул страницу выдачи. Система создает кандидатов на основе истории поиска пользователя, а затем фильтрует их, проверяя релевантность контенту страницы, которую пользователь просматривает в данный момент. Это гарантирует, что предложения соответствуют как интересам пользователя, так и текущему контексту просмотра.

US8392435B1
2013-03-05

Персонализация
Поведенческие сигналы
SERP

Как Google ранжирует сущности (например, фильмы или книги), используя популярность связанных веб-страниц и поисковых запросов в качестве прокси-сигнала

Google использует механизм для определения популярности контентных сущностей (таких как фильмы, телешоу, книги), когда прямые данные о потреблении недоступны. Система идентифицирует авторитетные «эталонные веб-страницы» (например, страницы Википедии) и связанные поисковые запросы. Затем она измеряет популярность сущности, анализируя объем трафика на эти эталонные страницы и частоту связанных запросов в поиске, используя эти данные как прокси-сигнал для ранжирования сущности.

US9098551B1
2015-08-04

EEAT и качество
Поведенческие сигналы
SERP