Яндекс использует метод для точной идентификации специфических объектов на веб-странице (реклама, логотипы, карты, формы) после ее полной отрисовки браузером. Система анализирует как визуальные характеристики (размер, положение, стиль), так и характеристики исходного кода (HTML-атрибуты, JS-скрипты), применяя машинное обучение для определения типа объекта. Это позволяет поисковой системе лучше понимать структуру, компоновку и качество страницы.
Описание
Какую задачу решает
Патент решает задачу точной идентификации конкретных элементов веб-страницы (Целевых объектов), таких как реклама, баннеры, логотипы, карты и формы ввода данных. Точная идентификация этих элементов необходима для понимания структуры и компоновки страницы (Page Layout), оценки ее качества (например, плотности рекламы), улучшения пользовательского опыта (например, блокировки рекламы браузером) или сбора структурированных данных (например, использования логотипов в качестве иконок для закладок).
Что запатентовано
Запатентован способ идентификации Целевых объектов на веб-странице, который выполняется после ее полной отрисовки (рендеринга). Суть изобретения заключается в комплексном анализе элемента-кандидата с использованием двух типов данных: Характеристик отрисованного объекта (визуальные параметры: размер, положение, стиль) и, опционально, Характеристик кода (HTML-теги, атрибуты, связанные скрипты). Система применяет набор предопределенных правил к этим характеристикам и использует алгоритм машинного обучения для вычисления вероятности того, что кандидат является искомым объектом.
Как это работает
Система (браузер или краулер, эмулирующий браузер) получает инструкции отрисовки (HTML, CSS, JS). Сначала происходит разбор инструкций для выявления потенциальных Кандидатов на целевой объект. Затем страница отрисовывается. После рендеринга запускается процесс проверки: система определяет визуальные характеристики кандидата (например, его точный размер и положение на экране) и анализирует его исходный код. Эти данные проверяются на соответствие предопределенным правилам для искомого типа объекта (например, правила для баннеров). На основе результатов проверки алгоритм машинного обучения назначает Параметр вероятности. Если он превышает порог, объект идентифицируется.
Актуальность для SEO
Высокая. Анализ отрендеренной страницы (DOM после выполнения JS и применения CSS) является фундаментальным для современных поисковых систем. Сегментация страницы и идентификация ее элементов (Page Segmentation/Layout Analysis) — ключевой компонент для оценки качества, пользовательского опыта и релевантности, что напрямую связано с метриками Proxima и алгоритмами Anti-Quality.
Важность для SEO
Влияние на SEO значительно (7/10). Патент не описывает фактор ранжирования напрямую, но он детально раскрывает механизм, с помощью которого Яндекс технически «видит» и идентифицирует компоновку страницы и рекламные блоки. Понимание этого механизма критически важно, так как данные, собранные этой системой, служат входными сигналами для алгоритмов оценки качества (например, Anti-Quality), которые пессимизируют сайты за агрессивную рекламу, плохую компоновку и низкий пользовательский опыт.
Детальный разбор
Термины и определения
- Целевой объект (Target Object)
- Конкретный тип элемента веб-страницы, который система пытается идентифицировать. Примеры: логотип, карта, баннер, реклама, форма ввода данных.
- Кандидат на целевой объект (Candidate for Target Object)
- Элемент веб-страницы, идентифицированный на этапе парсинга как потенциально соответствующий Целевому объекту. Подлежит дальнейшей проверке.
- Инструкции отрисовки (Rendering Instructions)
- Данные, необходимые для отображения веб-страницы браузером. Включают HTML-код, каскадные таблицы стилей (CSS), а также сценарии (например, JavaScript, ActionScript).
- Характеристики отрисованного объекта (Rendered Object Characteristics)
- Визуальные характеристики элемента после рендеринга страницы. Включают размер (высота/ширина в пикселях), расположение (координаты на экране), стили (например, рамка, затемнение), иерархию и порядок изображения (видимость, перекрытие другими элементами).
- Характеристики кода (Code Characteristics)
- Характеристики элемента, извлекаемые из исходного кода (Инструкций отрисовки). Включают HTML-теги, атрибуты, значения атрибутов (например, содержимое атрибута src), связанные сценарии и строки кода.
- Процесс проверки (Verification Process)
- Процедура подтверждения того, что Кандидат является Целевым объектом. Включает применение правил к Характеристикам отрисованного объекта и Характеристикам кода.
- Предопределенные правила (Predefined Rules)
- Набор правил, созданных экспертами на основе анализа типичных характеристик Целевых объектов. Могут быть «жесткими» (точное соответствие) или «нежесткими» (соответствие диапазону значений).
- Параметр вероятности (Probability Parameter)
- Оценка (например, в процентах), указывающая на вероятность того, что Кандидат является Целевым объектом. Вычисляется на основе результатов Процесса проверки, часто с помощью алгоритма машинного обучения.
Ключевые утверждения (Анализ Claims)
Патент защищает метод идентификации объектов, который опирается в первую очередь на анализ визуального представления страницы после рендеринга, а также может использовать анализ исходного кода.
Claim 1 (Независимый пункт): Описывает базовый способ, фокусирующийся на визуальном анализе.
- Получение инструкций отрисовки.
- Разбор инструкций для идентификации Кандидата на целевой объект.
- Отрисовка (рендеринг) веб-страницы на экране (или в памяти устройства).
- Выполнение Процесса проверки на отрисованной версии страницы.
- Применение набора Предопределенных правил к отрисованной версии Кандидата. Правила основаны на Характеристиках отрисованного целевого объекта (т.е. как обычно выглядит искомый объект).
- Определение значений Характеристик отрисованного объекта для Кандидата (например, его фактический размер и положение).
- Проверка каждого правила с этими значениями.
- Назначение Параметра вероятности на основе результатов проверки.
Claim 3 (Зависимый от п.1): Уточняет, что выполнение процесса проверки осуществляется посредством алгоритма машинного обучения. Это означает, что результаты проверки правил (вектор признаков) подаются на вход ML-модели, которая выдает итоговый Параметр вероятности.
Claim 7 (Зависимый от п.1): Описывает расширенный (гибридный) способ, включающий анализ кода.
- При разборе инструкций идентифицируется тип Кандидата (например, изображение, скрипт, ссылка).
- Процесс проверки также выполняется с Инструкциями отрисовки (исходным кодом).
- Применяются дополнительные правила, основанные на Характеристиках кода, типичных для данного типа объекта (например, наличие определенных тегов или атрибутов в коде карты). Эти характеристики определяются экспертами.
- Проверка этих правил со значениями Характеристик кода Кандидата.
- Параметр вероятности основывается на результатах проверки как визуальных характеристик (из п.1), так и характеристик кода.
Claim 11 и 12 (Зависимые от п.10): Описывают механизм работы с множеством кандидатов разных типов.
- Набор правил разделен на подгруппы. Каждая подгруппа соответствует определенному потенциальному типу объекта (например, подгруппа для логотипа-изображения и подгруппа для логотипа-ссылки).
- Каждая подгруппа содержит правила, основанные как на Характеристиках отрисованного объекта, так и на Характеристиках кода для этого типа.
- К каждому Кандидату применяется соответствующая его типу подгруппа правил для вычисления Параметра вероятности.
Где и как применяется
Изобретение реализуется на этапах сбора и первичной обработки данных, когда поисковая система анализирует содержимое и структуру страницы.
CRAWLING – Сканирование и Сбор данных
Для применения этого метода краулер Яндекса должен функционировать как полноценный браузер (headless browser). Он не просто скачивает HTML, но и выполняет рендеринг страницы: применяет CSS и исполняет JavaScript. Это необходимо для получения финального состояния DOM и вычисления Характеристик отрисованного объекта (визуальной компоновки).
INDEXING – Индексирование и извлечение признаков
На этапе индексации происходит глубокий анализ отрендеренной страницы (Parser Platform). Описанный в патенте Процесс проверки запускается для идентификации ключевых элементов. Результаты этой идентификации (например, «Элемент X является рекламой с вероятностью 90%», «Элемент Y является логотипом») сохраняются в индексе как признаки (features) страницы. Это по сути является этапом сегментации страницы (Page Segmentation).
QUALITY & GOVERNANCE LAYER (Слой Качества и Метрик — Подразумевается)
Хотя патент напрямую не упоминает Proxima или Anti-Quality, извлеченные признаки о компоновке страницы и наличии рекламы являются критически важными входными данными для этих алгоритмов. Например, Anti-Quality использует данные об идентифицированных рекламных блоках для оценки общей зашумленности страницы и агрессивности рекламы.
На что влияет
- Конкретные типы контента: Наибольшее влияние оказывается на страницы со сложной компоновкой, наличием рекламы, интерактивными элементами (карты, формы) и мультимедиа. Целевые объекты: логотипы, карты, баннеры, реклама, формы ввода данных.
- Оценка качества и UX: Влияет на оценку пользовательского опыта. Система позволяет точно определить расположение, размер и поведение рекламных блоков, что используется для выявления нарушений (перекрытие контента, избыток рекламы).
- Понимание структуры страницы: Помогает системе понять назначение блоков страницы (например, идентификация карты и формы ввода данных может указывать на контактную информацию).
Когда применяется
Алгоритм применяется во время процесса сканирования и индексации, когда краулер выполняет рендеринг страницы для анализа ее содержимого и структуры.
- Условия работы: Требуется полная отрисовка страницы, включая выполнение скриптов и применение стилей.
- Триггеры активации: Активируется при обнаружении Кандидатов на целевой объект во время парсинга инструкций отрисовки. Кандидаты могут определяться по типу элемента (например, все изображения, видео, флэш-объекты, скрипты) или по другим эвристикам (например, первый загружаемый элемент).
Пошаговый алгоритм
Процесс идентификации Целевого объекта:
- Получение данных: Система получает Инструкции отрисовки (HTML, CSS, JS), связанные с веб-страницей.
- Парсинг и Идентификация Кандидатов: Инструкции отрисовки разбираются. Идентифицируются элементы, которые потенциально могут быть Целевыми объектами (Кандидаты). Также определяется тип каждого Кандидата (например, изображение, ссылка, объект карты).
- Рендеринг: Система выполняет отрисовку веб-страницы на основе инструкций. Формируется финальная визуальная компоновка.
- Процесс Проверки (для каждого Кандидата):
- Определение Характеристик Отрисованного Объекта: Вычисляются визуальные параметры Кандидата (размер, положение, стиль, видимость, перекрытия).
- Определение Характеристик Кода (Опционально): Извлекаются параметры из исходного кода Кандидата (теги, атрибуты, скрипты).
- Применение Правил: Выбирается набор (или подгруппа) Предопределенных правил, соответствующий типу Целевого объекта и типу Кандидата.
- Проверка Правил: Каждое правило проверяется на соответствие вычисленным характеристикам (визуальным и кодовым). Используются как «жесткие», так и «нежесткие» правила.
- Вычисление Вероятности: Результаты проверки правил (вектор признаков) подаются на вход алгоритма машинного обучения, который назначает Параметр вероятности.
- Подтверждение: Если Параметр вероятности превышает предопределенный порог (например, 80%), Кандидат подтверждается как Целевой объект.
- Сбор данных (Опционально): Система может собирать данные о подтвержденных Целевых объектах (например, для аналитики или использования в других сервисах).
Какие данные и как использует
Данные на входе
Система использует два основных источника данных: Инструкции отрисовки (исходный код) и результаты рендеринга (визуальное представление).
- Структурные и Контентные факторы (Характеристики кода):
- HTML-теги (например, <img>, <video>, <object>, <map>, <area>).
- Специфические теги (например, <lat>, <lng> для карт).
- Атрибуты и их значения (например, анализ атрибута src на наличие ключевых слов вроде «map», «geocode»).
- Связанные сценарии (JavaScript, ActionScript) и строки кода внутри них.
- Технические и Визуальные факторы (Характеристики отрисованного объекта):
- Размер: Высота и ширина в пикселях (например, правило для баннера: ширина не более 500px, высота не более 150px).
- Расположение: Координаты на экране, положение относительно других элементов (справа, по центру).
- Стили (CSS): Ширина рамки (например, не более 5px), затемнение/прозрачность (например, менее 50%).
- Порядок изображения и видимость: Является ли объект скрытым, перекрывается ли он другими элементами.
Какие метрики используются и как они считаются
- Вектор Проверки (Verification Vector): Вектор, где каждое измерение соответствует результату проверки одного Предопределенного правила. Этот вектор служит входными данными для алгоритма машинного обучения.
- Параметр Вероятности (Probability Parameter): Итоговая метрика, вычисляемая алгоритмом машинного обучения на основе Вектора Проверки. Указывает на вероятность соответствия Кандидата Целевому объекту.
- Алгоритмы машинного обучения: В патенте упоминается использование ML-алгоритмов для выполнения Процесса проверки. Эти алгоритмы предварительно обучены для конкретных категорий Целевых объектов (например, отдельная модель для баннеров, отдельная для логотипов). Они определяют вес каждого правила при вычислении финальной вероятности.
- Пороговые значения: Используется предопределенный порог (например, 80%) для принятия решения о том, соответствует ли Кандидат Целевому объекту на основе Параметра вероятности.
Выводы
- Критическая важность рендеринга: Яндекс проводит детальный анализ веб-страницы именно в том виде, в котором ее видит пользователь (после выполнения JS и применения CSS). Анализ только исходного HTML недостаточен.
- Гибридный анализ для идентификации элементов: Для точной идентификации объектов (рекламы, логотипов, карт) используется комбинация визуальных характеристик (размер, положение, стиль) и характеристик исходного кода (теги, атрибуты, скрипты).
- Машинное обучение в сегментации страницы: Классификация элементов страницы (Page Segmentation) выполняется с помощью ML-моделей, обученных на основе правил, заданных экспертами. Это позволяет системе адаптироваться к различным реализациям объектов.
- Основа для алгоритмов качества (Anti-Quality): Этот патент описывает технический механизм, позволяющий Яндексу «видеть» компоновку страницы и точно идентифицировать рекламные блоки. Это является фундаментом для работы алгоритмов, оценивающих качество страницы и пессимизирующих за агрессивную или избыточную рекламу.
- Адаптивность к разным типам реализации: Система способна обрабатывать разные технические реализации одного и того же объекта (например, логотип в виде изображения или в виде ссылки), применяя специфические подгруппы правил для каждого типа.
Практика
Best practices (это мы делаем)
- Обеспечение корректного рендеринга: Убедитесь, что краулеры Яндекса могут корректно отрисовывать ваш сайт. JS и CSS должны быть доступны для сканирования и быстро исполняться. Ошибки рендеринга могут привести к неверной интерпретации компоновки страницы.
- Соблюдение баланса контента и рекламы: Помните, что Яндекс точно идентифицирует рекламные блоки, их размер и положение. Поддерживайте чистую компоновку страницы с четким визуальным разделением между основным контентом и рекламой. Реклама не должна доминировать.
- Оптимизация пользовательского опыта (UX): Убедитесь, что реклама и другие элементы не мешают взаимодействию с основным контентом. Патент явно упоминает анализ перекрытий и порядка изображения. Элементы, перекрывающие контент, будут идентифицированы.
- Чистый и семантичный код для ключевых элементов: Используйте стандартные и семантически верные подходы для реализации логотипов, карт и форм. Например, для карт используйте стандартные API (Яндекс.Карты, Google Maps), так как патент упоминает анализ характеристик кода (наличие тегов <lat>, <lng>, ключевых слов «map», «geocode» в скриптах). Это поможет системе корректно идентифицировать эти элементы.
Worst practices (это делать не надо)
- Агрессивная и избыточная реклама: Размещение большого количества рекламных блоков, особенно в верхней части страницы или блоков большого размера, будет точно зафиксировано этой системой и может привести к пессимизации алгоритмами Anti-Quality.
- Маскировка рекламы под контент: Попытки сделать рекламу визуально неотличимой от основного контента могут быть неэффективны, так как система анализирует не только внешний вид, но и Характеристики кода (например, скрипты рекламных сетей).
- Использование Cloaking или подмены элементов: Попытки скрыть элементы от краулера при рендеринге или показать ему другую компоновку будут выявлены, так как система анализирует финальный результат отрисовки.
- Блокировка ресурсов для рендеринга: Закрытие CSS и JS файлов в robots.txt не позволит системе корректно оценить компоновку страницы, что может негативно сказаться на индексации и ранжировании.
Стратегическое значение
Патент подтверждает стратегический приоритет Яндекса на анализ пользовательского опыта и качества компоновки страницы (Page Layout) с помощью сложных технических средств, включая машинное зрение и ML. Он демонстрирует, что оценка качества сайта выходит далеко за рамки текстового анализа и включает детальное понимание того, как страница выглядит и функционирует. Для SEO это означает, что техническая оптимизация рендеринга и работа над UX/UI являются неотъемлемой частью стратегии продвижения, особенно для сайтов, монетизирующихся за счет рекламы.
Практические примеры
Сценарий 1: Анализ рекламного баннера (выявление нарушений)
- Действие SEO-специалиста: Размещение большого рекламного блока вверху страницы для максимизации дохода.
- Действие системы: Краулер рендерит страницу. Система идентифицирует элемент как Кандидата (например, по типу скрипта).
- Анализ: Система проверяет Характеристики отрисованного объекта: размер (например, 600x800px), положение (вверху страницы), перекрытие (перекрывает часть основного контента). Также анализируются Характеристики кода (скрипт рекламной сети).
- Результат: ML-модель применяет правила для баннеров и выдает высокую вероятность (95%), что это реклама. Данные о размере и положении передаются алгоритмам качества (Anti-Quality), которые могут посчитать это нарушением (избыточная или агрессивная реклама) и понизить страницу в выдаче.
Сценарий 2: Идентификация карты на странице контактов
- Действие SEO-специалиста: Внедрение интерактивной карты Яндекс на страницу контактов с использованием стандартного API.
- Действие системы: Краулер рендерит страницу и идентифицирует Кандидата.
- Анализ: Система анализирует Характеристики кода. Она обнаруживает в атрибуте src строку «api-maps.yandex.ru» и, возможно, параметры геокодирования. Визуальные характеристики (размер, интерактивность) также соответствуют правилам для карт.
- Результат: Система уверенно идентифицирует объект как карту. Это помогает Яндексу лучше понять структуру и назначение страницы (страница контактов с гео-привязкой), что является позитивным сигналом для локального SEO и общей оценки качества ресурса.
Вопросы и ответы
Что такое «Характеристики отрисованного объекта» и почему они важны?
Это визуальные параметры элемента после того, как страница была полностью отрендерена браузером (или краулером). К ним относятся точный размер в пикселях, положение на экране (координаты), примененные стили (цвет, рамки, прозрачность), а также видимость и перекрытие другими элементами. Они важны, потому что показывают, как страница выглядит на самом деле, в отличие от исходного HTML, который может не отражать финальное состояние после выполнения JavaScript и CSS.
Означает ли этот патент, что Яндекс использует компьютерное зрение для анализа сайтов?
Да, в определенном смысле. Хотя система не анализирует скриншот как картинку, она анализирует результаты работы графического движка браузера (дерево отрисовки), что является формой машинного зрения. Система получает точные данные о расположении и визуальных характеристиках каждого элемента, что позволяет ей «видеть» компоновку страницы (Page Layout) и идентифицировать объекты на основе их внешнего вида.
Как этот патент связан с алгоритмами оценки качества (Proxima, Anti-Quality)?
Этот патент описывает механизм сбора данных, которые затем используются алгоритмами качества. Например, чтобы алгоритм Anti-Quality мог наказать сайт за избыток рекламы или всплывающие окна, ему нужно сначала точно идентифицировать эти рекламные блоки и определить их характеристики (размер, положение, поведение). Данный патент как раз и решает задачу такой идентификации.
Что такое «Характеристики кода» и как они используются?
Это информация, извлекаемая из исходного кода элемента: HTML-теги, атрибуты, значения атрибутов (например, URL в src) и связанные скрипты. Они используются в дополнение к визуальным характеристикам для более точной идентификации. Например, наличие в коде скриптов рекламной сети или специфических тегов для карт (<lat>, <lng>) помогает системе подтвердить тип объекта.
Может ли система ошибочно принять обычный контент за рекламу?
Теоретически это возможно, но маловероятно при использовании гибридного подхода. Система использует машинное обучение и набор правил, основанных как на внешнем виде, так и на коде. Если элемент выглядит как баннер (по размеру и положению), но его код не содержит признаков рекламных скриптов, вероятность ошибки снижается. Однако использование слишком «кричащих» стилей для нерекламных блоков может повысить риск неверной классификации.
Как мне убедиться, что Яндекс правильно идентифицирует элементы на моем сайте?
Используйте чистый, семантически верный код и стандартные решения для реализации функционала (например, официальные API для карт). Обеспечьте четкое визуальное разделение между основным контентом, навигацией и рекламой. Самое главное — убедитесь, что ваш сайт корректно и быстро рендерится, и все необходимые JS/CSS ресурсы доступны для краулера.
Что такое «нежесткие» правила, упомянутые в патенте?
«Нежесткое» правило проверяет не точное совпадение значения, а вхождение в определенный диапазон. Например, вместо правила «ширина равна 400px» («жесткое»), используется правило «ширина не более 400px» («нежесткое»). Это делает систему более гибкой и устойчивой к небольшим вариациям в реализации объектов на разных сайтах.
Влияет ли скорость загрузки страницы на работу этого алгоритма?
Да, косвенно влияет. Алгоритм работает только после полной отрисовки страницы. Если страница загружается слишком медленно или рендеринг прерывается из-за таймаута краулера, система может не успеть проанализировать все элементы или получит неполные данные о компоновке. Это подчеркивает важность оптимизации скорости загрузки.
Используется ли этот метод для анализа мобильной или десктопной версии сайта?
Патент не делает различий и описывает общий подход к анализу веб-страницы на электронном устройстве. Логично предположить, что метод применяется ко всем версиям сайта, которые сканирует Яндекс. Краулер рендерит страницу в соответствующем разрешении (мобильном или десктопном) и анализирует полученную компоновку.
Если я использую нестандартную реализацию карты (например, статичное изображение), распознает ли ее система?
Система способна распознать и это. В патенте указано, что изображение может быть одним из потенциальных типов для карты. В этом случае система будет опираться в большей степени на визуальные характеристики (внешний вид карты) и, возможно, на около-элементный контекст, хотя анализ кода (отсутствие интерактивных скриптов) также будет учтен ML-моделью при вычислении вероятности.