Как Яндекс автоматически извлекает структурированные данные (цены, изображения) из страниц и отображает их прямо в результатах поиска (SERP)

Яндекс использует технологию для анализа страниц в результатах поиска с целью обнаружения повторяющихся шаблонов (например, карточек товаров или объявлений). Система автоматически извлекает уникальные данные (цены, изображения, характеристики) из этих шаблонов и отображает их непосредственно на странице выдачи (SERP), заменяя или дополняя стандартный сниппет. Это позволяет пользователям сравнивать предложения без перехода на сайт.

Описание

Какую задачу решает

Патент решает проблему неэффективности стандартного представления результатов поиска (SERP) для веб-сайтов со структурированным контентом, таких как сайты объявлений (classifieds), интернет-магазины или каталоги. Стандартный сниппет (заголовок, URL, описание) часто не содержит ключевой информации (например, цены, изображения, местоположения), необходимой пользователю для оценки релевантности результата. Это вынуждает пользователя переходить на веб-страницу для оценки ее содержания, что снижает эффективность поиска.

Что запатентовано

Запатентован способ улучшения представления результатов поиска путем автоматического извлечения и отображения структурированных данных непосредственно на SERP. Суть изобретения заключается в анализе веб-страниц для обнаружения «шаблона повторяющегося набора информации» (например, HTML-структуры карточки товара) и последующего извлечения «неповторяющихся сегментов данных» (например, конкретной цены или изображения) с использованием этого шаблона.

Как это работает

Система анализирует HTML-код веб-страниц, попавших в результаты поиска. Она ищет повторяющиеся комбинации кодирующих элементов (тегов), которые определяют «шаблон кодирования». Обнаружив такой шаблон (например, структуру списка товаров), система извлекает из него уникальные данные (цены, изображения, заголовки). Затем при формировании SERP эти извлеченные данные отображаются в непосредственной близости от ссылки на веб-страницу, часто заменяя стандартное текстовое описание. Дополнительно система может предоставлять фильтры на SERP на основе извлеченных данных.

Актуальность для SEO

Высокая. Описанная технология является фундаментом для реализации расширенных сниппетов и интерактивных элементов в выдаче Яндекса (например, блок «Товары и предложения», сниппеты для сайтов объявлений, рецептов и т.д.). Автоматическое извлечение структурированных данных для обогащения SERP является ключевым направлением развития современных поисковых систем.

Важность для SEO

Влияние на SEO критическое (9/10). Этот патент напрямую влияет на внешний вид сайта в результатах поиска, что критически важно для CTR и видимости, особенно в E-commerce и для сайтов-агрегаторов. Он описывает механизм, позволяющий Яндексу извлекать данные без явной микроразметки, полагаясь на структуру HTML. Более того, в патенте (Claim 7) явно указано, что алгоритм ранжирования может присваивать более высокий рейтинг страницам, на которых обнаружена такая повторяющаяся структура.

Детальный разбор

Термины и определения

SERP (Search Engine Results Page): Страница результатов работы поисковой системы.
Неповторяющийся сегмент данных (Non-repeating data segment): Уникальный фрагмент информации, извлеченный из структурированного блока на веб-странице. Примеры, приведенные в патенте: информация о ценах, изображения. Также упоминаются местонахождение, описание, название, рейтинг, информация о продавце.
Шаблон кодирования (Coding template): Структура, определяемая повторяющейся комбинацией кодирующих элементов (например, HTML-тегов). Это конкретная реализация «Шаблона повторяющегося набора информации».
Шаблон повторяющегося набора информации (Template of a repeating set of information): Повторяющаяся структура на веб-странице, используемая для представления однотипных объектов (например, список объявлений, каталог товаров). Система обнаруживает этот шаблон для извлечения данных.
OpenSearch: Технология, упомянутая в патенте как один из возможных вариантов реализации функции фильтрации на SERP на основе извлеченных данных.

Ключевые утверждения (Анализ Claims)

Патент фокусируется на механизме обнаружения структуры, извлечения данных и их отображения на SERP.

Claim 1 (Независимый пункт): Описывает основной процесс.

Получение поискового запроса.
Выполнение поиска и получение результатов (веб-страниц).
Анализ веб-страниц для обнаружения «шаблона повторяющегося набора информации».
Извлечение «неповторяющихся сегментов данных» с использованием этого шаблона.
Формирование SERP, включающей эти извлеченные сегменты.
Отображение SERP пользователю, где извлеченные сегменты показаны в непосредственной близости от ссылки на соответствующую веб-страницу.

Claims 3, 4, 5 (Зависимые пункты): Детализируют механизм обнаружения и время его работы.

(Claim 3) Повторяющийся набор информации состоит из повторяющейся комбинации кодирующих элементов (например, HTML-тегов), которые определяют «шаблон кодирования». Это указывает на анализ структуры верстки.
(Claim 4) Система может сохранять информацию о структуре этого шаблона кодирования в хранилище данных.
(Claim 5) Критически важно: анализ веб-страницы для обнаружения шаблона и сохранение его структуры может происходить ДО момента получения поискового запроса. Это означает, что процесс может быть частью индексации.

Claim 6 (Зависимый пункт): Уточняет формат отображения.

Извлеченный неповторяющийся сегмент данных может ЗАМЕНЯТЬ по меньшей мере часть стандартного описания (сниппета) веб-страницы на SERP.

Claim 7 (Зависимый пункт): Ключевой пункт для SEO, касающийся ранжирования.

При формировании SERP используется алгоритм ранжирования, который присваивает более высокий рейтинг веб-страницам, для которых была обнаружена повторяющаяся комбинация элементов.

Claims 8, 9 (Зависимые пункты): Описывают механизм фильтрации на SERP.

Система получает запрос на фильтрацию от пользователя (например, по цене).
Выполняется ВТОРОЙ ПОИСК в соответствии с исходным запросом И примененным фильтром.
Формируется вторая SERP, содержащая только результаты, удовлетворяющие фильтру.
(Claim 9) Это применимо, если множество разных веб-страниц содержат общий тип извлеченных данных (например, цены на разных сайтах).

Где и как применяется

Изобретение затрагивает несколько слоев поисковой архитектуры Яндекса.

CRAWLING & INDEXING (Сканирование и Индексация)

Согласно Claim 5, анализ страниц и обнаружение «шаблонов кодирования» может происходить до получения запроса, т.е. на этапе индексации. Компоненты, отвечающие за парсинг (Parser Platform), анализируют HTML-структуру, выявляют повторяющиеся шаблоны и извлекают «неповторяющиеся сегменты данных». Информация о структуре шаблона и сами извлеченные данные сохраняются в индексе (вероятно, в Прямом Индексе для быстрого доступа при генерации сниппетов).

RANKING (Ранжирование)

Согласно Claim 7, факт обнаружения структурированных данных (повторяющихся комбинаций) на странице может использоваться как сигнал ранжирования. Алгоритм ранжирования (например, на уровне L2 или L3) может присваивать более высокий рейтинг таким страницам. Это может быть реализовано как отдельный фактор в модели CatBoost.

BLENDER & GENERATION SERP (Метапоиск, Смешивание и Генерация SERP)

Это основной этап применения патента. При формировании финальной выдачи система принимает решение о том, как отображать результат.

Генерация сниппетов: Модуль, отвечающий за сниппеты, вместо генерации стандартного текстового фрагмента использует извлеченные структурированные данные (цены, изображения). Claim 6 указывает, что эти данные могут заменять стандартное описание.
Интерактивные элементы/Фильтры: Если извлеченные данные позволяют (например, цены), система может добавить на SERP элементы управления для фильтрации (Claims 8, 9). В патенте упоминается технология OpenSearch как один из вариантов реализации.

На что влияет

Конкретные типы контента: Наибольшее влияние оказывается на страницы со списками однотипных объектов: листинги товаров (PLP), списки объявлений, каталоги, рецепты, списки вакансий.
Специфические запросы: В основном влияет на коммерческие и транзакционные запросы, где пользователь ищет конкретные предложения и сравнивает их (например, «купить котенка», «купить мотоциклетный шлем в Москве» — примеры из патента).
Конкретные ниши: E-commerce, недвижимость, авто, сайты поиска работы (Job boards), Classifieds.

Когда применяется

Алгоритм активируется при соблюдении следующих условий:

Обнаружение структуры: Система смогла успешно идентифицировать «шаблон повторяющегося набора информации» на веб-странице.
Извлечение данных: Система смогла извлечь значимые «неповторяющиеся сегменты данных» (например, цены, изображения).
Релевантность запросу: Страница ранжируется достаточно высоко по запросу, для которого такое представление является полезным (чаще всего коммерческие интенты).

Пошаговый алгоритм

Процесс можно разделить на офлайн (индексация) и онлайн (обработка запроса) этапы.

Этап 1: Анализ и Извлечение (Может происходить Офлайн — при индексации, или Онлайн)

Анализ структуры страницы: Система анализирует HTML-код веб-страницы.
Обнаружение шаблона: Идентификация повторяющихся комбинаций кодирующих элементов (тегов), формирующих «шаблон кодирования».
Идентификация типов данных: Определение типов информации в шаблоне (например, где находится цена, где изображение).
Извлечение данных: Извлечение «неповторяющихся сегментов данных» для каждого экземпляра шаблона на странице (каждого товара/объявления).
Сохранение: Сохранение структуры шаблона и извлеченных данных в базе данных (индексе).

Этап 2: Обработка запроса и Генерация SERP (Онлайн)

Получение запроса и Поиск.
Ранжирование: Определение порядка результатов. При этом, согласно Claim 7, страницам с обнаруженной структурой может быть присвоен более высокий рейтинг.
Формирование SERP: Для страниц, у которых есть извлеченные данные:

Система принимает решение использовать расширенное представление.
Извлеченные данные (изображения, цены) встраиваются в SERP, заменяя или дополняя стандартный сниппет (Claim 6).
Если применимо (например, найдены цены на нескольких сайтах), система добавляет фильтры на SERP.

Отправка SERP пользователю.

Этап 3: Фильтрация (Онлайн — по действию пользователя)

Получение запроса на фильтр: Пользователь использует фильтр на SERP (например, указывает диапазон цен).
Выполнение второго поиска: Система выполняет новый поиск, комбинируя исходный запрос и критерии фильтра (Claims 8, 9).
Генерация обновленной SERP: Отображение только отфильтрованных результатов.

Какие данные и как использует

Данные на входе

Структурные факторы (HTML): Основной источник данных для этого патента. Система анализирует HTML-код, теги, их вложенность и последовательность для обнаружения «повторяющихся комбинаций из кодирующих элементов».
Контентные факторы: Текстовое содержимое внутри обнаруженных структур (названия, цены, описания).
Мультимедиа факторы: URL-адреса изображений, извлеченные из шаблонов.

Какие метрики используются и как они считаются

Патент не детализирует конкретные алгоритмы обнаружения шаблонов (Pattern Recognition) или машинного обучения, используемые для этого, но описывает сам подход:

Анализ последовательности элементов: Метод основан на поиске повторяющихся последовательностей в структуре документа (вероятно, DOM-дереве).
Идентификация типов данных: Система способна идентифицировать типы извлекаемых данных (цена, изображение, местонахождение и т.д.), что предполагает использование эвристик или классификаторов для анализа контента и контекста внутри шаблона.
Рейтинг (Ranking Score): Упоминается, что стандартный алгоритм ранжирования может быть скорректирован для повышения рейтинга страниц с обнаруженной структурой (Claim 7).

Выводы

Автоматическое извлечение структурированных данных: Яндекс активно использует анализ HTML-структуры для извлечения структурированных данных (цены, изображения, характеристики), не полагаясь исключительно на явную микроразметку (например, Schema.org). Система ищет повторяющиеся шаблоны верстки.
Трансформация SERP: Для сайтов с каталогами (E-commerce, Classifieds) стандартный текстовый сниппет может быть полностью заменен на интерактивный блок с товарами/объявлениями, извлеченными со страницы (Claim 6). SERP становится витриной.
Потенциальное преимущество в ранжировании: Claim 7 является критически важным выводом. Патент прямо заявляет, что обнаружение такой повторяющейся структуры на странице может привести к присвоению ей более высокого рейтинга. Это подчеркивает важность чистой и структурированной верстки.
Индексация структуры: Процесс анализа структуры и извлечения данных может происходить на этапе индексации (Claim 5), а не в момент запроса, что позволяет системе работать быстро.
Фильтрация на стороне SERP: Яндекс стремится предоставить пользователю инструменты для уточнения запроса (фильтрации по цене, характеристикам) прямо в выдаче, выполняя повторный поиск с учетом этих фильтров (Claims 8, 9).

Практика

Best practices (это мы делаем)

Обеспечение чистой и консистентной верстки листингов: Используйте предсказуемую и валидную HTML-структуру для страниц каталогов (PLP) и списков объявлений. Каждый элемент списка (товар/объявление) должен иметь идентичную или очень похожую структуру верстки. Это облегчает системе обнаружение «шаблона кодирования».
Семантическая верстка: Используйте семантические теги HTML5 для разметки элементов внутри карточки товара (например, для заголовка, изображения, цены). Это помогает системе правильно идентифицировать типы «неповторяющихся сегментов данных».
Доступность ключевой информации в HTML: Убедитесь, что цены, названия и основные изображения доступны в исходном HTML-коде или эффективно рендерятся при использовании JavaScript (SSR предпочтителен). Цены должны быть представлены текстом, а не картинками.
Оптимизация изображений для SERP: Так как изображения извлекаются и отображаются прямо в выдаче, они должны быть качественными, релевантными и оптимизированными по размеру, чтобы привлекать внимание пользователя на SERP.
Стремление к получению структурированного представления: Учитывая Claim 7 (повышение рейтинга), наличие четкой структуры, которую Яндекс может распознать, является не только преимуществом для CTR, но и прямым фактором, потенциально улучшающим позиции.

Worst practices (это делать не надо)

Непостоянная структура верстки: Использование разных HTML-шаблонов для однотипных элементов на одной странице (например, разные классы или теги для разных товаров в листинге) затрудняет обнаружение повторяющегося шаблона.
Обфускация кода и сложные скрипты для отображения контента: Скрытие цен или характеристик за сложными JavaScript-взаимодействиями или использование динамических, непредсказуемых имен классов может помешать извлечению данных.
Использование неинформативных сниппетов: Полагаться только на стандартный текстовый сниппет в коммерческих тематиках означает упускать возможность занять больше места на SERP и потенциально терять позиции из-за отсутствия распознанной структуры (Claim 7).

Стратегическое значение

Патент подтверждает стратегию Яндекса на превращение SERP из списка ссылок в интерактивную среду для решения задач пользователя (концепция «Острова»). Для E-commerce и сайтов-агрегаторов это означает, что борьба за внимание пользователя и первичное сравнение предложений происходит непосредственно в выдаче, еще до перехода на сайт. Техническое SEO и качество верстки приобретают повышенное значение, так как напрямую влияют на способность системы извлекать данные и, как следствие, на видимость и потенциально на ранжирование сайта.

Практические примеры

Сценарий: Оптимизация страницы категории интернет-магазина (PLP)

Задача: Улучшить видимость и ранжирование страницы категории «Мотоциклетные шлемы».
Действия по патенту:
- Проверить верстку листинга. Убедиться, что все карточки товаров используют единый HTML-шаблон (например, <div class=»product-item»>…</div>).
- Внутри шаблона четко выделить блоки для изображения (<img src=»…»>), названия (<h3 class=»product-title»>) и цены (<span class=»price»>).
- Убедиться, что цены указаны в числовом формате с указанием валюты и доступны в HTML.
Ожидаемый результат:
- Яндекс обнаруживает «шаблон кодирования» и извлекает данные.
- В SERP по запросу «купить мотоциклетный шлем» сниппет сайта заменяется на галерею товаров с ценами и изображениями (как на Фиг. 9 патента).
- Пользователи могут сравнивать предложения прямо в выдаче, что повышает CTR.
- Страница может получить небольшой буст в ранжировании за счет распознанной структуры (Claim 7).

Вопросы и ответы

В патенте говорится о повышении рейтинга (Claim 7). Значит ли это, что наличие структурированных данных является фактором ранжирования?

Да, согласно тексту патента (Claim 7), алгоритм ранжирования может присваивать более высокий рейтинг тем веб-страницам, на которых была обнаружена повторяющаяся комбинация элементов (т.е. структурированные данные, которые система смогла распознать). Это делает качество и консистентность верстки потенциальным фактором ранжирования, особенно для сайтов E-commerce и агрегаторов.

Описывает ли этот патент работу микроразметки Schema.org?

Нет. Этот патент описывает альтернативный механизм извлечения структурированных данных. Вместо того чтобы полагаться на явную разметку, предоставленную вебмастером (как Schema.org), система автоматически анализирует HTML-код и ищет повторяющиеся шаблоны верстки («шаблоны кодирования»). Это позволяет Яндексу получать структурированные данные даже с сайтов, которые не используют микроразметку.

Что произойдет, если верстка на моем сайте сложная или непостоянная?

Если верстка листингов непостоянная (например, разные товары имеют разную HTML-структуру) или слишком сложная, система может не справиться с обнаружением «шаблона повторяющегося набора информации». В этом случае сайт будет показан со стандартным текстовым сниппетом, потеряет преимущество в CTR и не получит потенциального повышения рейтинга, описанного в Claim 7.

Могут ли извлеченные данные заменить мой стандартный сниппет?

Да. В патенте (Claim 6) прямо указано, что извлеченные неповторяющиеся сегменты данных (например, галерея товаров с ценами) могут заменять по меньшей мере часть стандартного описания веб-страницы на SERP. На практике часто происходит полная замена текстового сниппета на структурированный блок.

Когда происходит анализ страницы: во время индексации или в момент запроса?

Патент предусматривает оба варианта, но в Claim 5 особо подчеркивается, что анализ веб-страницы для обнаружения шаблона и сохранение его структуры может происходить ДО получения поискового запроса. Это указывает на то, что основная работа по извлечению данных выполняется на этапе индексации.

Как работает фильтрация на SERP, описанная в патенте?

Если система извлекла однотипные данные (например, цены), она может предложить пользователю фильтр на SERP. Когда пользователь применяет фильтр (Claims 8, 9), система выполняет «второй поиск», комбинируя исходный запрос с критериями фильтра, и генерирует новую SERP только с релевантными результатами. Это позволяет уточнять поиск, не покидая выдачу Яндекса.

Какие типы данных система умеет извлекать?

В патенте в качестве примеров «неповторяющихся сегментов данных» явно указаны информация о ценах (Claim 10) и изображения (Claim 11). Также в описании упоминаются рисунок, местонахождение, описание, название, ключевое слово, рейтинг или информация о продавце.

Как этот патент влияет на сайты, использующие JavaScript-фреймворки и CSR (Client-Side Rendering)?

Патент основан на анализе «кодирующих элементов» (HTML). Если ключевая структура и данные (цены, изображения) формируются на стороне клиента с помощью JS таким образом, что они не видны или слишком сложны для анализа поисковым роботом на этапе индексации, система может не справиться с извлечением данных. Для успешной работы этого механизма рекомендуется использовать SSR (Server-Side Rendering) или пререндеринг для страниц листингов.

Влияет ли этот механизм на информационные сайты или только на E-commerce?

Хотя основные примеры в патенте касаются E-commerce и объявлений («купить котенка», «купить шлем»), механизм применим к любой странице с повторяющимися блоками. Это могут быть списки статей в блоге (извлечение даты, автора, изображения), рецепты, списки курсов и т.д. Однако наибольшее влияние он оказывает на коммерческие ниши.

Что важнее для SEO в контексте этого патента: техническая оптимизация или контент?

В контексте именно этого патента критическое значение имеет техническая оптимизация и структура верстки (HTML). Способность системы распознать шаблон напрямую зависит от качества и консистентности кода. Контент (сами цены, изображения) важен для привлечения пользователя, но без правильной технической реализации он может быть не извлечен и не показан на SERP.