Как Яндекс извлекает структурированные данные (товары, цены, объявления) из HTML-кода и показывает их прямо в выдаче (SERP)

Яндекс патентует метод обогащения поисковой выдачи путем анализа HTML-структуры веб-страниц. Система автоматически обнаруживает повторяющиеся шаблоны кода (например, карточки товаров или объявления) и извлекает из них конкретные данные (цены, изображения, заголовки). Эти данные отображаются прямо на странице результатов поиска, заменяя стандартное описание, и могут использоваться для фильтрации выдачи.

Описание

Какую задачу решает

Патент решает проблему недостаточной информативности стандартных сниппетов в поисковой выдаче (SERP) для страниц, содержащих множество однотипных записей (например, каталоги интернет-магазинов, доски объявлений). Стандартный сниппет часто не позволяет пользователю оценить конкретные предложения (цены, внешний вид товара) без перехода на сайт, что снижает эффективность поиска.

Что запатентовано

Запатентована система автоматического извлечения структурированных данных из полуструктурированных веб-страниц для генерации расширенных сниппетов. Суть изобретения заключается в анализе кода веб-страницы для обнаружения «повторяющихся шаблонов информации» (repeating pattern of information) и последующего извлечения «не повторяющихся сегментов данных» (non-repeating data segments) для отображения на SERP.

Как это работает

Система анализирует HTML-код страницы для выявления повторяющихся структурных элементов, определяемых как «шаблон кодирования» (coding template) — например, блок кода для карточки товара. Как только шаблон идентифицирован, система извлекает конкретное содержимое (цену, изображение, заголовок) из каждого экземпляра этого шаблона на странице. Эти элементы отображаются непосредственно в SERP, часто заменяя стандартное текстовое описание. Кроме того, система может предоставлять интерактивные фильтры (например, диапазон цен) на основе извлеченных данных.

Актуальность для SEO

Высокая. Извлечение структурированных данных и генерация расширенных сниппетов являются фундаментальными аспектами современного поиска, особенно в e-commerce и на агрегаторах. Хотя поисковые системы предпочитают микроразметку (например, Schema.org), автоматическое извлечение на основе анализа HTML остается критически важным механизмом для обеспечения широкого охвата веба.

Важность для SEO

Влияние на SEO критическое (8.5/10). Этот механизм напрямую влияет на представление сайта в выдаче и CTR. Критически важно, что в патенте (Claim 6) явно указана возможность присвоения более высокого ранга (higher ranking) страницам, на которых были обнаружены такие повторяющиеся шаблоны. Это подчеркивает стратегическую важность чистой, последовательной и семантически верной HTML-структуры для страниц с листингами.

Детальный разбор

Термины и определения

Coding Template (Шаблон кодирования): Определяется как повторяющийся шаблон элементов кодирования (например, HTML-тегов). Это конкретная HTML-структура, используемая для отображения одной единицы контента (например, одной карточки товара или объявления).
Non-repeating data segment (Не повторяющийся сегмент данных): Конкретные данные, извлеченные с использованием повторяющегося шаблона. Это фактическое содержимое внутри шаблона кодирования (например, конкретная цена «1000 руб.», URL изображения или заголовок товара).
OpenSearch: Технология, упомянутая в описании патента в качестве примера реализации возможности фильтрации данных, извлеченных из веб-страниц, непосредственно на SERP.
Repeating pattern of information (Повторяющийся шаблон информации): Общий термин для описания однотипной структуры данных на веб-странице. Часто реализуется через повторяющиеся шаблоны кодирования (Coding Templates). Характерен для результатов поиска по базам данных, таким как объявления или каталоги товаров.

Ключевые утверждения (Анализ Claims)

Патент описывает систему для улучшения представления результатов поиска путем извлечения и отображения структурированных данных.

Claim 1 (Независимый пункт): Описывает основной процесс извлечения данных на стороне сервера.

Система получает поисковый запрос и находит результаты (веб-страницы).
Поисковый сервер идентифицирует «повторяющийся шаблон информации» путем анализа кода (analyzing the coding) веб-страницы.
Используя этот шаблон, система извлекает «не повторяющиеся сегменты данных».
Критически важно: извлекается множество (plurality) сегментов, которые частично отличаются друг от друга (т.е. извлекаются данные из нескольких разных товаров или объявлений на странице).
Генерируется SERP, включающая эти сегменты.
SERP отображается так, что извлеченные сегменты данных находятся в непосредственной близости от ссылки на исходную веб-страницу.

Claim 2, 3 и 4 (Зависимые пункты): Уточняют механизм индексации и хранения шаблонов.

Повторяющийся шаблон включает повторяющийся шаблон элементов кодирования, определяющий «шаблон кодирования» (Claim 2).
Информация о структуре этого шаблона кодирования может быть сохранена на сервере (Claim 3).
Анализ веб-страницы для обнаружения шаблона и сохранение его структуры могут происходить до получения поискового запроса (Claim 4). Это указывает на то, что процесс является частью стандартного индексирования (офлайн-обработка).

Claim 5 (Зависимый пункт): Уточняет отображение в SERP.

Извлеченный сегмент данных заменяет (replaces) по крайней мере часть стандартного описания (description) веб-страницы (сниппета).

Claim 6 (Зависимый пункт): Критическое утверждение для SEO.

Генерация SERP включает ранжирование результатов алгоритмом ранжирования.
Этот алгоритм присваивает более высокий ранг (higher ranking) веб-страницам, связанным с обнаруженным повторяющимся шаблоном элементов.

Claim 7 и 8 (Зависимые пункты): Описывают механизм фильтрации.

Система получает запрос на фильтрацию (filter request) извлеченных данных (например, по цене) от пользователя.
Сервер выполняет второй поиск (second search) с учетом исходного запроса И нового фильтра.
Генерируется вторая SERP, включающая только те сегменты данных, которые соответствуют запросу на фильтрацию.
Это может применяться как к данным с одной страницы (Claim 7), так и к данным общего типа с нескольких страниц в выдаче (Claim 8).

Где и как применяется

Изобретение затрагивает несколько этапов поисковой архитектуры Яндекса.

INDEXING – Индексирование и извлечение признаков

Основная часть анализа происходит на этом этапе. Как указано в Claim 4, обнаружение «повторяющихся шаблонов» и сохранение «шаблонов кодирования» может происходить до получения запроса пользователя.

Анализ HTML: Система анализирует код страницы для выявления повторяющихся структур (Coding Templates).
Извлечение данных: Из шаблонов извлекаются «не повторяющиеся сегменты данных» (цены, изображения).
Хранение: Структура шаблонов и извлеченные данные сохраняются в индексе или связанном хранилище.

RANKING – Ранжирование

Наличие успешно извлеченных структурированных данных используется как сигнал ранжирования. Согласно Claim 6, алгоритм ранжирования (вероятно, на уровнях L3/L4) может повышать в выдаче страницы, для которых удалось определить повторяющийся шаблон.

Генерация SERP (Модуль Snippets и Шаблонизация)

На этапе формирования SERP система принимает решение о формате сниппета.

Расширенный сниппет: Если для страницы доступны извлеченные данные, система формирует расширенный сниппет, отображая несколько конкретных элементов (например, карточек товаров). Этот сниппет может заменять стандартное текстовое описание (Claim 5).
Интерактивные элементы: Система может генерировать интерфейсы фильтрации (например, слайдеры цен) на основе типа извлеченных данных.

На что влияет

Конкретные типы контента: Наибольшее влияние оказывается на страницы с листингами: товары в категориях e-commerce, объявления (classified ads), списки вакансий, каталоги недвижимости, рецепты.
Специфические запросы: Высокое влияние на коммерческие и транзакционные запросы, где пользователи сравнивают предложения.
Конкретные ниши или тематики: E-commerce, Авто, Недвижимость, Работа, Агрегаторы услуг — все тематики с каталогами однотипных предложений.
Структурные факторы (HTML): Влияет на требования к чистоте и консистентности HTML-кода.

Когда применяется

Триггеры активации (Индексация): Алгоритм активируется при обходе страниц, которые потенциально содержат списки данных и имеют консистентную HTML-структуру.
Триггеры активации (Генерация SERP): Расширенный сниппет отображается, когда система считает, что извлеченные структурированные данные будут более полезны пользователю, чем стандартный текстовый сниппет, и эти данные доступны в индексе.

Пошаговый алгоритм

Фаза 1: Индексация и Извлечение (Офлайн)

Сканирование: Получение HTML-кода веб-страницы.
Анализ структуры: Анализ кода (например, DOM-дерева) для обнаружения повторяющихся структурных блоков.
Идентификация шаблона: Определение «повторяющегося шаблона информации» и соответствующего ему «шаблона кодирования» (Coding Template).
Определение типов данных: Идентификация типа информации внутри шаблона (например, цена, изображение, локация, описание).
Извлечение данных: Извлечение «не повторяющихся сегментов данных» из каждого экземпляра шаблона на странице.
Сохранение: Сохранение структуры шаблона и извлеченных данных в базе данных или индексе, ассоциированном с URL.

Фаза 2: Обработка запроса и Ранжирование (Онлайн)

Получение запроса и идентификация релевантных документов.
Ранжирование: Применение алгоритма ранжирования. Страницы, для которых были успешно обнаружены повторяющиеся шаблоны, могут получить повышение в ранге (Ranking Boost).
Генерация SERP:
1. Для релевантных страниц извлекаются сохраненные «не повторяющиеся сегменты данных».
2. Формирование расширенного сниппета, включающего эти сегменты (например, в виде карусели товаров) вблизи ссылки на страницу.
3. При необходимости, генерация интерфейса для фильтрации на основе извлеченных данных.
Отправка SERP пользователю.

Фаза 3: Взаимодействие с фильтрами (Онлайн)

Получение запроса на фильтрацию (Filter Request) от пользователя через интерфейс SERP.
Обработка фильтра: Выполнение второго поиска сервером, объединяющего исходный запрос и критерии фильтрации.
Генерация и отображение обновленной SERP.

Какие данные и как использует

Данные на входе

Основным источником данных для этого патента является структура самой веб-страницы.

Структурные факторы (HTML): Ключевой источник данных. Система анализирует HTML-теги, их вложенность, атрибуты и общую структуру документа (DOM) для выявления «шаблонов кодирования».
Контентные факторы: Текстовое содержимое, числовые значения (цены, рейтинги) и атрибуты, которые находятся внутри HTML-структуры и являются «не повторяющимися сегментами данных».
Мультимедиа факторы: URL изображений (src атрибуты), извлеченные из шаблонов (упомянуто в Claims 10 и 16).

Какие метрики используются и как они считаются

Патент не детализирует конкретные алгоритмы обнаружения шаблонов, но описывает используемые концепции:

Идентификация шаблона: Основывается на обнаружении повторяемости (repeating pattern) элементов кодирования (coding elements) в структуре страницы.
Извлечение данных: После идентификации шаблона система определяет поля внутри этого шаблона и извлекает соответствующие значения для каждого экземпляра шаблона на странице.
Типизация данных: Методы определения семантического типа извлеченных данных (например, распознавание цен, дат, локаций), необходимые для реализации фильтров.
Сигнал ранжирования: Наличие обнаруженного повторяющегося шаблона используется как положительный фактор ранжирования (Claim 6). Вероятно, это бинарный признак или метрика, учитывающая качество/полноту извлеченных данных.

Выводы

Автоматическое извлечение данных из верстки: Яндекс активно пытается понять структуру страницы и извлечь данные о конкретных сущностях (товарах, объявлениях), даже если отсутствует явная микроразметка (Schema.org). Это достигается путем анализа и выявления повторяющихся шаблонов в HTML-коде.
Структура как фактор ранжирования: Ключевой вывод для SEO — в Claim 6 явно указано, что страницы, на которых успешно обнаружены повторяющиеся шаблоны, могут ранжироваться выше. Это прямой стимул для использования структурированного и консистентного HTML.
Генерация Rich Snippets для листингов: Основная цель механизма — создание информативных расширенных сниппетов, которые показывают конкретные предложения прямо в SERP, заменяя стандартное описание (Claim 5). Это критически важно для e-commerce и агрегаторов.
Интерактивная выдача и фильтрация: Система позволяет создавать интерактивные элементы в SERP, такие как фильтры по цене или другим характеристикам, основываясь на автоматически извлеченных данных.
Индексация шаблонов: Процесс обнаружения шаблонов и извлечения данных интегрирован в основной процесс индексации и выполняется заранее (Claim 4), а не в момент запроса.

Практика

Best practices (это мы делаем)

Обеспечение абсолютной консистентности HTML для листингов: Гарантируйте, что все однотипные элементы на странице (карточки товаров в категории, объявления) используют идентичную HTML-структуру. Это облегчает системе обнаружение «шаблона кодирования».
Использование семантической верстки: Применяйте семантические HTML5 теги (например, <article>, <figure>) для разметки элементов списка. Это помогает поисковой системе лучше понять структуру и типы данных.
Четкое представление ключевых данных: Убедитесь, что цены, названия и ссылки на изображения четко и недвусмысленно представлены в HTML-коде внутри каждого элемента списка. Используйте консистентные и стабильные CSS-классы для однотипных элементов (например, класс .price для всех цен).
Внедрение микроразметки (Дополнительно): Хотя патент описывает извлечение на основе верстки, использование микроразметки (Schema.org/Product, Offer) значительно повышает надежность интерпретации данных Яндексом и является приоритетной рекомендацией.

Worst practices (это делать не надо)

Непоследовательная верстка: Использование разных HTML-структур для однотипных элементов на одной странице (например, разная верстка для товаров со скидкой и без) затрудняет или делает невозможным обнаружение единого шаблона.
Сложная и запутанная HTML-структура: Чрезмерно глубокая вложенность HTML-тегов без четкой семантической роли или «грязный» код могут запутать алгоритмы извлечения.
Скрытие ключевых данных за JavaScript: Чрезмерная зависимость от клиентского JavaScript (CSR) для рендеринга критически важной информации (цен, наличия) может помешать извлечению, если краулер не сможет эффективно обработать скрипты и получить финальный DOM.
Рандомизированные или нестабильные CSS-классы: Если для обнаружения шаблона используются классы, то их постоянное изменение может помешать извлечению данных. Важно сохранять стабильную базовую HTML-структуру.

Стратегическое значение

Патент подтверждает стратегический приоритет Яндекса на предоставление пользователям структурированной и полезной информации непосредственно в выдаче. Для владельцев сайтов (особенно e-commerce и агрегаторов) это означает, что техническая оптимизация верстки и чистота кода напрямую влияют не только на представление сайта в SERP (и CTR), но и являются фактором ранжирования (Claim 6). Долгосрочная стратегия должна включать регулярный аудит консистентности HTML-шаблонов на ключевых страницах листингов.

Практические примеры

Сценарий: Оптимизация страницы категории интернет-магазина

Задача: Улучшить представление страницы категории «Ноутбуки» в выдаче Яндекса и потенциально повысить ее ранг.
Анализ текущей ситуации: Аудит показал, что из-за особенностей CMS некоторые карточки товаров имеют немного другую структуру HTML (например, у товаров в наличии добавляются лишние <div>, которых нет у товаров под заказ).
Действие (на основе патента): Провести рефакторинг HTML-кода страницы категории. Внедрить единый, чистый «шаблон кодирования» для всех карточек ноутбуков, независимо от их статуса. Убедиться, что структура тегов и классы для заголовка, цены и изображения идентичны для всех товаров.
Ожидаемый результат: При следующей индексации Яндекс обнаружит консистентный «повторяющийся шаблон». В SERP сниппет изменится со стандартного текста на расширенный, показывающий несколько конкретных ноутбуков с ценами и изображениями. Согласно Claim 6, страница также может получить прирост в ранжировании за счет улучшения структуры данных.

Вопросы и ответы

Влияет ли описанная в патенте технология на ранжирование сайта?

Да, влияет напрямую. В патенте (Claim 6) прямо указано, что алгоритм ранжирования присваивает более высокий ранг (higher ranking) тем веб-страницам, для которых был успешно обнаружен повторяющийся шаблон элементов. Это означает, что наличие чистой, структурированной верстки, позволяющей извлекать данные, может являться положительным фактором ранжирования.

Заменяет ли этот механизм необходимость внедрения микроразметки Schema.org?

Нет, не заменяет. Микроразметка Schema.org всегда предпочтительнее, так как она предоставляет данные в явном и однозначном виде. Однако данный патент описывает механизм, который Яндекс использует, если микроразметка отсутствует или некорректна. Он позволяет извлекать данные путем анализа HTML-верстки, выступая как автоматизированный парсер структуры.

Что такое «Repeating pattern of information» и «Coding template» простыми словами?

«Coding template» (Шаблон кодирования) — это шаблон верстки. Например, это HTML-структура одной карточки товара на странице категории. «Repeating pattern of information» (Повторяющийся шаблон информации) — это результат применения этого шаблона многократно на одной странице. Если у вас на листинге 20 товаров, и все они сверстаны одинаково, система видит этот повторяющийся паттерн и понимает, что это список однородных сущностей.

Какие типы сайтов получат наибольшую выгоду от этого механизма?

Сайты, содержащие списки однотипных сущностей. В первую очередь это интернет-магазины (страницы категорий), доски объявлений, агрегаторы недвижимости, сайты по поиску работы, каталоги услуг и рецептурные сайты. Для них возможность показать конкретные предложения (товары, цены, фото) прямо в SERP критически важна для привлечения трафика.

Как я могу помочь Яндексу обнаружить шаблоны на моем сайте?

Ключевой фактор — консистентность верстки. Убедитесь, что каждый элемент в списке (каждый товар или объявление) имеет абсолютно одинаковую HTML-структуру. Используйте семантические теги и понятные, стабильные CSS-классы для ключевых элементов, таких как цена, заголовок и изображение. Избегайте сложной вложенности и нелогичной структуры кода.

Заменяет ли этот обогащенный вид стандартный текстовый сниппет?

Да. В патенте (Claim 5) указано, что извлеченные не повторяющиеся сегменты данных (non-repeating data segments) заменяют по крайней мере часть стандартного описания (description) веб-страницы. На практике это часто приводит к полной замене текстового сниппета на карусель товаров или список предложений с ценами и изображениями.

Как работает фильтрация результатов прямо на SERP, описанная в патенте?

Если система извлекла данные определенного типа (например, цены), она может добавить в SERP интерфейс фильтрации (например, слайдер цен). Когда пользователь применяет фильтр, система выполняет новый поиск (second search), учитывая и исходный запрос, и наложенный фильтр (Claim 7, 8). После этого SERP обновляется, показывая только релевантные результаты.

Может ли использование JavaScript-фреймворков (React, Vue) и Client-Side Rendering (CSR) помешать работе этого механизма?

Да, это может создать проблемы. Метод основан на анализе кода страницы. Если контент рендерится на клиенте сложным JavaScript, система может не суметь выполнить структурный анализ на этапе индексации. Для обеспечения совместимости рекомендуется использовать Server-Side Rendering (SSR) или пререндеринг, чтобы финальная DOM-структура была доступна поисковому роботу.

На каком этапе происходит анализ структуры страницы?

Патент (Claim 4) указывает, что анализ веб-страницы для обнаружения повторяющихся шаблонов и сохранение шаблонов кодирования могут происходить ДО получения поискового запроса. Это означает, что Яндекс выполняет эту работу офлайн, на этапе индексирования и анализа контента, а не в реальном времени при ответе на запрос.

Что произойдет, если верстка на моем сайте немного отличается для разных товаров (например, у одного есть блок «Скидка», а у другого нет)?

Значительные отличия в HTML-структуре могут помешать системе идентифицировать единый повторяющийся шаблон. Если структура меняется в зависимости от наличия/отсутствия блока, система может не суметь извлечь данные для обогащенного сниппета. Рекомендуется управлять видимостью опциональных блоков через CSS (display: none/block) при сохранении единой структуры HTML.