Как Яндекс автоматически извлекает структурированные данные (цены, изображения) из листингов для обогащения сниппетов и фильтрации выдачи

Яндекс патентует метод анализа структуры веб-страниц для выявления «повторяющихся шаблонов» (например, карточек товаров или объявлений). Система автоматически извлекает «неповторяющиеся сегменты данных» (цены, изображения, заголовки) из этих шаблонов и отображает их непосредственно в сниппете, часто заменяя стандартное описание и добавляя интерактивные фильтры на SERP.

Описание

Какую задачу решает

Патент решает проблему недостаточной информативности стандартных сниппетов для веб-страниц, содержащих списки однотипных записей (например, каталоги товаров, доски объявлений). Традиционный сниппет часто не позволяет пользователю оценить конкретные предложения (цены, внешний вид) без перехода на сайт, что приводит к неэффективному поиску. Изобретение улучшает пользовательский опыт, предоставляя ключевую структурированную информацию непосредственно на странице результатов поиска (SERP).

Что запатентовано

Запатентован метод построения SERP путем автоматического извлечения структурированных данных из веб-страниц. Суть изобретения заключается в обнаружении «повторяющегося шаблона информации» (repeating pattern of information) на странице (например, однотипных HTML-блоков для карточек товаров) и извлечении из них «неповторяющихся сегментов данных» (non-repeating data segments) — конкретных цен, изображений, заголовков. Эти данные затем используются для формирования обогащенного сниппета.

Как это работает

Система анализирует структуру веб-страницы (HTML/DOM) для выявления повторяющихся элементов кода, которые определяются как «шаблон кодирования» (coding template). Этот анализ может происходить заранее, на этапе индексации. После идентификации шаблона система извлекает переменные данные (неповторяющиеся сегменты) из нескольких экземпляров этого шаблона на странице. При генерации SERP стандартное описание страницы может быть заменено этими извлеченными данными (например, показ нескольких конкретных товаров с ценами и фото). Кроме того, система может предоставлять возможность фильтрации результатов поиска на основе этих извлеченных данных (например, фильтр по цене).

Актуальность для SEO

Высокая. Автоматическое извлечение структурированных данных и формирование обогащенных сниппетов (Rich Snippets) являются ключевыми направлениями развития современных поисковых систем. Описанный механизм объясняет, как Яндекс может генерировать товарные или структурированные сниппеты для сайтов, даже если они не используют специальную микроразметку, полагаясь исключительно на анализ верстки.

Важность для SEO

Влияние на SEO критически важно (8.5/10), особенно для e-commerce, досок объявлений и агрегаторов. Патент описывает механизм, который фундаментально меняет внешний вид сниппета, напрямую влияя на CTR. Отображение конкретных товаров и цен может привести к более квалифицированному трафику. Критически важно, что патент прямо утверждает (Claim 7), что алгоритм ранжирования может присваивать более высокий рейтинг страницам, на которых обнаружены такие повторяющиеся шаблоны.

Детальный разбор

Термины и определения

Coding Template (Шаблон кодирования): Повторяющийся шаблон элементов кодирования (например, HTML-тегов и структуры DOM), который определяет структуру представления однотипных данных на странице (например, верстка карточки товара). Определен в Claim 3.
Filter Request (Запрос на фильтрацию): Запрос от пользователя на фильтрацию результатов поиска по критериям, основанным на извлеченных данных (например, фильтрация по диапазону цен).
Non-repeating data segment (Неповторяющийся сегмент данных): Конкретные данные, извлеченные из повторяющегося шаблона. Это переменная часть шаблона, например, конкретная цена, URL изображения или заголовок отдельного товара/объявления.
OpenSearch: Технология, упомянутая в описании патента (не в Claims) как один из возможных способов реализации функциональности фильтрации результатов на SERP.
Repeating pattern of information (Повторяющийся шаблон информации): Однотипная информация, представленная на веб-странице в виде списка или набора записей, часто с использованием схожей структуры верстки (Coding Template).

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод работы системы.

Получение поискового запроса.
Выполнение поиска и получение результатов (веб-страниц).
Анализ как минимум одной веб-страницы для обнаружения «повторяющегося шаблона информации».
Извлечение как минимум одного «неповторяющегося сегмента данных», используя этот шаблон.
Генерация SERP, включающей этот сегмент данных.
Отправка команды на устройство пользователя для отображения SERP, где ссылка на веб-страницу и извлеченный сегмент данных расположены в непосредственной близости.

Claim 3, 4 и 5: Уточняют механизм анализа и хранения шаблонов.

Повторяющийся шаблон информации включает повторяющийся шаблон элементов кодирования, определяющий «шаблон кодирования» (Claim 3). Это указывает на анализ HTML/DOM структуры.
Информация о структуре этого шаблона кодирования сохраняется в хранилище данных (Claim 4).
Анализ страницы и сохранение структуры шаблона могут происходить ДО получения поискового запроса (Claim 5). Это означает, что система работает на этапе индексации (Offline).

Claim 6: Влияние на внешний вид сниппета.

При отображении результатов поиска извлеченный неповторяющийся сегмент данных заменяет как минимум часть описания (стандартного сниппета) веб-страницы.

Claim 7: Влияние на ранжирование.

Генерация SERP включает ранжирование результатов. Алгоритм ранжирования присваивает более высокий рейтинг тем веб-страницам, которые связаны с обнаруженным повторяющимся шаблоном элементов. Это критически важное утверждение для SEO.

Claim 8 и 9: Описывают механизм фильтрации.

Система может получить запрос на фильтрацию (Filter Request) на основе извлеченных данных (например, по цене) для одной (Claim 8) или нескольких страниц (Claim 9), содержащих общий тип данных.
Система выполняет второй поиск на основе исходного запроса И фильтра.
Генерируется вторая SERP, включающая только те неповторяющиеся сегменты данных, которые соответствуют запросу на фильтрацию.

Где и как применяется

Изобретение затрагивает несколько слоев архитектуры поиска.

CRAWLING & INDEXING (Сканирование и Индексация)
Значительная часть работы происходит на этом этапе (Claim 5). Во время обхода и индексации система (Parser Platform) анализирует структуру (DOM) страниц для обнаружения «шаблонов кодирования» (Coding Templates). При обнаружении система сохраняет структуру шаблона (Claim 4) и может извлекать и индексировать «неповторяющиеся сегменты данных». Эти данные, вероятно, сохраняются в Прямом Индексе (Forward Index).

RANKING (Ранжирование)
На этапе ранжирования факт наличия обнаруженного повторяющегося шаблона на странице используется как позитивный сигнал. Алгоритм ранжирования (вероятно, на уровнях L2/L3, где применяются ML-модели) может присваивать таким страницам более высокий рейтинг (Claim 7).

BLENDER & SERP Generation (Метапоиск, Смешивание и Генерация SERP)
Основное применение происходит на этапе формирования выдачи. Модуль генерации сниппетов принимает решение использовать извлеченные структурированные данные вместо генерации текстового сниппета.

Обогащение сниппетов: Стандартное описание заменяется несколькими извлеченными сегментами (например, 3 карточки товаров с фото и ценой) (Claim 6).
Интеграция фильтров: Если извлеченные данные позволяют (например, найдены цены), система может добавить в SERP элементы интерфейса для фильтрации.
Обработка фильтрации: При активации фильтра пользователем система выполняет повторный поиск (Second Search) с учетом новых критериев (Claims 8, 9).

На что влияет

Конкретные типы контента и ниши: Наибольшее влияние оказывается на страницы-списки: категории интернет-магазинов (E-commerce), доски объявлений (Classifieds), каталоги недвижимости, списки вакансий.
Специфические запросы: Коммерческие и транзакционные запросы, где пользователь ищет объект с определенными характеристиками (цена, фото).
Форматы контента: Страницы листингов (PLP).

Когда применяется

Триггеры активации: Алгоритм активируется, когда для релевантной страницы в индексе обнаружен и сохранен «шаблон кодирования» и связанные с ним «неповторяющиеся сегменты данных». Активация также зависит от типа запроса (например, коммерческий интент).
Условия: Наличие четкой, консистентной и повторяющейся HTML-структуры на целевой странице.

Пошаговый алгоритм

Этап 1: Анализ и Индексация (Выполняется Offline)

Сканирование: Получение контента и структуры (DOM) веб-страницы.
Обнаружение шаблонов: Анализ DOM на предмет повторяющихся структурных элементов (например, схожих поддеревьев DOM), которые определяются как «шаблон кодирования».
Извлечение данных: Идентификация переменных частей внутри шаблона и извлечение «неповторяющихся сегментов данных» (цен, изображений, заголовков). Патент упоминает извлечение цен (Claim 10) и изображений (Claim 11).
Сохранение: Сохранение структуры шаблона и извлеченных данных в индексе, привязанных к URL страницы.

Этап 2: Обработка запроса и Генерация SERP (Online)

Получение запроса и поиск кандидатов.
Ранжирование: Оценка релевантности кандидатов. Страницы с обнаруженными шаблонами могут получать повышенный рейтинг (Claim 7).
Формирование сниппета: Для высокоранжированных страниц система проверяет наличие извлеченных структурированных данных.
Обогащение SERP: Если данные есть, система заменяет стандартное описание на блок, содержащий несколько извлеченных сегментов данных (Claim 6).
Добавление фильтров (Опционально): Включение в SERP интерфейса для фильтрации на основе типа извлеченных данных.
Отправка SERP пользователю.

Этап 3: Обработка фильтрации (Online)

Получение запроса на фильтрацию (например, пользователь установил диапазон цен).
Второй поиск: Выполнение нового поиска, комбинируя исходный запрос и критерии фильтрации, с фокусом на индексированных структурированных данных.
Генерация обновленной SERP: Отображение только тех сегментов данных и страниц, которые соответствуют фильтру.

Какие данные и как использует

Данные на входе

Структурные факторы (HTML/DOM): Это основной источник данных для изобретения. Система анализирует верстку страницы, иерархию тегов (div, table, li и т.д.), классы и атрибуты для выявления повторяющихся шаблонов (Coding Templates).
Контентные факторы: Текстовое содержимое внутри шаблонов (заголовки, цены, описания), которое извлекается как «неповторяющиеся сегменты данных».
Мультимедиа факторы: URL изображений, которые извлекаются из шаблонов (Claim 11).

Какие метрики используются и как они считаются

Обнаружение шаблонов: Патент не детализирует конкретные алгоритмы, но подразумевает использование методов структурного сравнения (например, анализ схожести поддеревьев DOM) для идентификации «шаблона кодирования».
Метрики ранжирования: Патент утверждает, что алгоритм ранжирования присваивает более высокий рейтинг страницам с обнаруженными шаблонами (Claim 7), но не раскрывает, как именно рассчитывается этот буст или какие метрики качества шаблона используются.

Выводы

Автоматическое извлечение структурированных данных: Яндекс активно использует методы анализа верстки (DOM-анализ) для извлечения структурированных данных (цены, фото, характеристики) без необходимости наличия микроразметки (Schema.org) на сайте.
Обогащенные сниппеты для листингов: Основная цель — трансформация сниппетов страниц-листингов. Вместо общего описания Яндекс стремится показать конкретные предложения (товары) прямо на SERP, заменяя стандартный сниппет (Claim 6).
Структура верстки как фактор ранжирования: Патент прямо заявляет (Claim 7), что обнаружение таких повторяющихся структур может приводить к повышению рейтинга страницы. Это делает структурную оптимизацию верстки фактором, влияющим не только на сниппет, но и на позиции.
Важность чистой и консистентной верстки: Для того чтобы система могла корректно идентифицировать «шаблон кодирования», верстка однотипных элементов (карточек товаров) должна быть идентичной или максимально схожей.
Динамическая фильтрация на SERP: Яндекс может генерировать интерфейсы фильтрации (например, по цене) непосредственно в выдаче, основываясь на извлеченных данных, и выполнять повторный поиск при их использовании (Claim 8, 9).

Практика

Best practices (это мы делаем)

Обеспечение абсолютной консистентности верстки листингов: Убедитесь, что все однотипные элементы (карточки товаров, объявления) на странице используют идентичную HTML-структуру и набор классов. Это критически важно для идентификации «шаблона кодирования».
Использование семантической и чистой верстки: Применяйте чистый, валидный HTML-код. Чем проще, логичнее и семантичнее структура DOM, тем выше вероятность корректного извлечения данных и получения потенциального бонуса ранжирования (Claim 7).
Доступность ключевой информации в DOM: Убедитесь, что ключевые данные (цена, основное изображение, заголовок) присутствуют в HTML-коде при загрузке страницы и не скрыты за сложными JavaScript-взаимодействиями, которые могут помешать анализу структуры во время индексации.
Оптимизация изображений: Поскольку изображения являются одним из ключевых типов извлекаемых данных (Claim 11), убедитесь, что основные изображения товаров доступны для сканирования (например, через тег <img>, а не через CSS background) и имеют оптимальный размер для быстрого отображения в сниппете.

Worst practices (это делать не надо)

Использование разных структур для однотипных элементов: Рандомизация классов, использование разных HTML-тегов или разной вложенности для карточек товаров на одной странице помешает системе идентифицировать повторяющийся шаблон.
Вставка посторонних блоков внутрь листингов: Вставка рекламных блоков или виджетов между элементами списка может нарушить повторяющийся шаблон и помешать извлечению данных.
«Мусорная» верстка и избыточная вложенность: Сложные, перегруженные структуры DOM затрудняют анализ и извлечение полезных данных.
Скрытие цен или ключевых характеристик: Отображение цен в виде изображений или их загрузка только после действия пользователя не позволит системе извлечь эти данные для сниппета и фильтрации.

Стратегическое значение

Патент подтверждает стратегию Яндекса на предоставление пользователю максимально быстрого доступа к информации, в идеале — прямо на SERP. Для коммерческих сайтов это означает, что оптимизация структуры сайта становится критически важной. Наличие чистой структуры дает двойное преимущество: более привлекательные (и кликабельные) сниппеты и прямое повышение в ранжировании (согласно Claim 7). Это также снижает зависимость получения обогащенных сниппетов от сложного внедрения микроразметки, хотя она и остается рекомендованной практикой.

Практические примеры

Сценарий: Оптимизация страницы категории интернет-магазина (например, «мотошлемы»).

Анализ текущей верстки: Проверить, что все карточки товаров на листинге имеют одинаковую структуру. Например, все используют <div class=»product-card»>, внутри которого всегда есть <img class=»product-image»>, <h3 class=»product-title»> и <span class=»product-price»>.
Внесение исправлений (Действие): Если обнаружены различия (например, у товаров со скидкой другая структура или другие классы для цены), привести верстку к единому стандарту. Устранить вставки рекламных блоков между товарами, вынеся их за пределы контейнера листинга.
Проверка доступности данных: Убедиться, что цены указаны в числовом формате, а изображения доступны по прямым ссылкам в атрибуте src.
Ожидаемый результат: Яндекс идентифицирует стандартизированную верстку как «шаблон кодирования». В результатах поиска по запросу «купить мотошлем» сниппет сайта трансформируется: вместо текстового описания категории отображаются несколько конкретных шлемов с их фото, названиями и ценами. Также в выдаче может появиться фильтр по цене, а страница может получить небольшой буст в ранжировании.

Вопросы и ответы

Влияет ли этот патент на ранжирование напрямую?

Да, влияет. В патенте (Claim 7) прямо указано, что алгоритм ранжирования может присваивать более высокий рейтинг веб-страницам, на которых был обнаружен повторяющийся шаблон элементов. Это означает, что наличие чистой, консистентной и легко парсируемой структуры листинга может само по себе являться позитивным фактором ранжирования.

Заменяет ли этот механизм необходимость внедрения микроразметки (Schema.org)?

Не полностью, но значительно снижает зависимость от нее для получения обогащенных сниппетов. Микроразметка всегда предпочтительнее, так как она предоставляет данные в явном виде. Однако данный патент описывает механизм, позволяющий Яндексу извлекать данные автоматически, анализируя верстку. Если ваша верстка чистая и консистентная, вы можете получить обогащенные сниппеты и без Schema.org.

Что такое «повторяющийся шаблон информации» и «шаблон кодирования»?

«Повторяющийся шаблон информации» — это наличие на странице однотипных блоков контента (например, список товаров или объявлений). «Шаблон кодирования» (Coding Template) — это техническая реализация этого контента в виде повторяющейся HTML-структуры или DOM-поддерева. Система ищет именно повторяющиеся шаблоны кодирования, чтобы понять, как структурированы данные на странице.

Что произойдет, если моя верстка «грязная» или непоследовательная?

Если система не сможет надежно идентифицировать «шаблон кодирования» из-за различий в HTML-структуре однотипных элементов или избыточной сложности DOM, она не сможет извлечь данные. В этом случае для вашей страницы будет показан стандартный текстовый сниппет, и вы не получите потенциального преимущества в ранжировании, упомянутого в Claim 7.

Какие типы данных Яндекс извлекает в первую очередь?

Патент явно упоминает ценовую информацию (Claim 10) и изображения (Claim 11) как примеры «неповторяющихся сегментов данных». Также логично предположить, что извлекаются заголовки/названия объектов и, возможно, ключевые характеристики или локация, если они однотипно представлены в шаблоне.

Как работает фильтрация, упомянутая в патенте?

Если система извлекла данные, подходящие для фильтрации (например, цены), она может отобразить на SERP соответствующий интерфейс (например, слайдер цены). Когда пользователь использует этот фильтр, система выполняет «второй поиск» (Second Search), комбинируя исходный запрос с новыми критериями фильтрации, и обновляет выдачу, показывая только релевантные результаты (Claim 8, 9).

Заменяют ли эти извлеченные данные стандартный сниппет (Description)?

Да, в патенте (Claim 6) указано, что неповторяющийся сегмент данных заменяет как минимум часть описания веб-страницы. На практике это часто приводит к полной замене текстового сниппета на галерею извлеченных товаров или список объявлений, что делает оптимизацию мета-тега Description менее приоритетной для таких страниц.

Когда происходит анализ структуры страницы — при индексации или в момент запроса?

Патент (Claim 5)明确 указывает, что анализ веб-страницы для обнаружения повторяющегося шаблона и сохранение структуры шаблона могут происходить ДО получения поискового запроса. Это означает, что система преимущественно работает на этапе индексации (Offline), что позволяет быстро формировать SERP в реальном времени.

Может ли этот механизм негативно повлиять на трафик?

Да, это возможно. С одной стороны, обогащенные сниппеты более привлекательны и могут повысить CTR, а трафик становится более целевым (пользователь видит цены и фото до клика). С другой стороны, это может привести к Zero-Click сценариям, если пользователь получит всю необходимую информацию прямо на SERP и не перейдет на сайт.

Влияет ли использование JavaScript-фреймворков (React, Vue) и CSR на работу этого механизма?

Это зависит от реализации рендеринга. Если используется Server-Side Rendering (SSR) или поисковый робот способен корректно отрендерить страницу и получить финальную DOM-структуру, то механизм сможет работать. Если же структура формируется исключительно на клиенте (CSR) и робот не может ее увидеть или проанализировать во время индексации, извлечение данных будет затруднено.