Google анализирует разницу между полным кодом страницы (DOM) и тем, что фактически видит пользователь (Render Tree). Текст, присутствующий в коде, но невидимый при загрузке (например, скрытый в выпадающих меню, через CSS или мелким шрифтом), помечается как «скрытый». Система использует эти данные для пессимизации скрытого текста при выборе сниппетов и понижает в ранжировании страницы, злоупотребляющие невидимым контентом.
Описание
Какую задачу решает
Патент решает проблему оценки контента, который присутствует в исходном коде веб-страницы (HTML), но не виден пользователю при ее загрузке. Это включает текст, скрытый с помощью CSS (например, позиционирование за пределами экрана, цвет шрифта, совпадающий с фоном, слишком мелкий шрифт), а также контент, требующий взаимодействия (например, в выпадающих меню или hover-элементах). Изобретение направлено на то, чтобы такой контент не использовался для манипуляции ранжированием и не попадал в поисковые сниппеты, что повышает качество выдачи и удовлетворенность пользователей.
Что запатентовано
Запатентована система и метод для идентификации скрытого текста путем сравнения полного содержания страницы (Document Object Model (DOM) tree) с ее визуальным представлением (Render Tree). Система создает Hidden Text Index и рассчитывает Weighting Factors (весовые коэффициенты) для скрытого контента. Эти данные используются для активной пессимизации скрытого текста при генерации сниппетов и для корректировки общего рейтинга страницы в результатах поиска.
Как это работает
Ключевой механизм основан на процессе рендеринга:
- Генерация DOM Tree: Система анализирует HTML-код и создает первую структуру данных (DOM tree), включающую весь текст (видимый и скрытый).
- Генерация Render Tree: Система выполняет рендеринг страницы, применяя CSS и JavaScript, и создает вторую структуру данных (Render Tree), включающую только тот текст, который будет визуально отображен пользователю.
- Сравнение и Индексация: Путем сравнения двух структур идентифицируется текст, присутствующий в DOM, но отсутствующий в Render Tree. Этот текст помечается как скрытый и заносится в Hidden Text Index.
- Расчет Весов: Для скрытого текста рассчитываются Weighting Factors (например, демотивирующие баллы) на основе его количества или соотношения с видимым текстом.
- Применение: При обработке запроса система использует эти веса, чтобы предпочесть видимый текст при выборе сниппета и скорректировать общий балл ранжирования страницы.
Актуальность для SEO
Высокая. Способность поисковой системы точно понимать, какой контент видит пользователь после выполнения JavaScript и применения CSS, является фундаментальной для современного поиска. Этот патент описывает базовый механизм, лежащий в основе систем рендеринга (например, Web Rendering Service в Google), и критически важен для оценки качества контента и противодействия манипуляциям в сложных веб-интерфейсах.
Важность для SEO
Влияние на SEO высокое (8/10). Патент напрямую влияет на контентные и технические стратегии. Он устанавливает четкий механизм, позволяющий Google игнорировать или пессимизировать контент, который не виден пользователю по умолчанию. Это делает классические методы «клоакинга» на основе CSS неэффективными и подчеркивает важность того, чтобы основной контент был доступен и виден сразу после рендеринга страницы.
Детальный разбор
Термины и определения
- DOM Tree (Document Object Model Tree / Дерево объектной модели документа)
- Первая структура данных. Стандартизированное представление всех элементов веб-страницы на основе ее HTML-кода. Включает узлы как для видимого, так и для скрытого текста.
- Render Tree (Дерево рендеринга)
- Вторая структура данных, генерируемая на основе DOM Tree с применением стилей (CSS) и скриптов (JS). Включает только те узлы, которые будут визуально отображены пользователю на экране.
- Hidden Text (Скрытый текст)
- Текст, который присутствует в DOM Tree, но отсутствует в Render Tree. Также включает текст, который технически рендерится, но не виден из-за стилей (например, размер шрифта ниже порога, цвет шрифта совпадает с фоном, позиционирование за пределами экрана).
- Hidden Text Index (Индекс скрытого текста)
- База данных или индекс, содержащий информацию о скрытом тексте на веб-страницах, идентифицированном путем сравнения DOM и Render деревьев.
- Weighting Factor (Весовой коэффициент)
- Метрика (например, демотивирующий или мотивирующий балл), присваиваемая тексту на основе его видимости. Используется для корректировки оценки ранжирования или выбора сниппета. Может рассчитываться на основе количества скрытого текста или его пропорции.
- Snippet (Сниппет)
- Краткое текстовое описание страницы, отображаемое в результатах поиска.
- Tidbit Database (База данных фрагментов)
- Хранилище потенциальных сниппетов (фрагментов текста) из веб-страниц и связанных с ними весовых коэффициентов.
Ключевые утверждения (Анализ Claims)
Патент защищает два основных применения механизма обнаружения скрытого текста: влияние на выбор сниппета и влияние на ранжирование.
Claims 1 и 6 (Влияние на сниппеты): Описывают метод выбора сниппета для веб-страницы в ответ на запрос.
- Система идентифицирует веб-страницу, релевантную запросу.
- Идентифицируется скрытый текст (hidden text) и видимый текст (visible text) на странице, связанный с запросом.
- Определяется оценка (score) для скрытого текста и/или видимого текста. Оценка скрытого текста основана на его количестве (amount of the hidden text) на странице.
- Генерируется сниппет, который включает часть видимого текста и исключает скрытый текст, основываясь на рассчитанных оценках.
- Генерируется страница результатов поиска (SERP), включающая этот сниппет.
Система активно предпочитает видимый текст скрытому при формировании сниппета. Решение принимается на основе оценок, которые зависят от статуса видимости текста и количества скрытого контента на странице.
Claims 11 и 16 (Влияние на ранжирование): Описывают метод ранжирования нескольких веб-страниц в ответ на запрос.
- Система идентифицирует первую и вторую веб-страницы, релевантные запросу.
- Определяются значения (values, т.е. оценки ранжирования) для первой страницы. Эти значения включают оценку ее видимого и/или скрытого текста. Оценка скрытого текста основана на его количестве.
- Аналогично определяются значения для второй страницы.
- Генерируется SERP, где информация о первой и второй страницах ранжируется на основе рассчитанных значений.
Присутствие и количество скрытого текста напрямую используется для расчета оценки (value) страницы, которая затем используется для ее ранжирования относительно других страниц. Это указывает на то, что скрытый текст является фактором ранжирования (вероятно, негативным).
Где и как применяется
Изобретение затрагивает этапы индексирования (для анализа контента) и ранжирования/метапоиска (для применения результатов анализа).
INDEXING – Индексирование и извлечение признаков
Это основной этап работы алгоритма.
- Document Model Module и Render Model Module обрабатывают контент. Происходит генерация DOM Tree и Render Tree.
- Hidden Text Index Module сравнивает эти деревья, идентифицирует скрытый текст и создает Hidden Text Index.
- На этом же этапе рассчитываются Weighting Factors для страниц и отдельных фрагментов текста. Это офлайн-процесс, происходящий до получения запроса пользователя.
RANKING – Ранжирование
Search Engine Module использует предварительно рассчитанные значения (values) или оценки (scores), на которые повлияло наличие скрытого текста (согласно Claims 11 и 16), для определения порядка документов в выдаче.
METASEARCH – Метапоиск и Смешивание (Snippet Generation)
Snippet Generation Module активно использует Hidden Text Index и Tidbit Database. При выборе сниппета для отображения в SERP применяются Weighting Factors, чтобы предпочесть видимый текст и исключить скрытый (согласно Claims 1 и 6).
Входные данные:
- Веб-страницы (HTML, CSS, JavaScript).
- Поисковый запрос (на этапе применения).
Выходные данные:
- DOM Tree и Render Tree (промежуточные данные).
- Hidden Text Index.
- Weighting Factors (демотивирующие/мотивирующие баллы).
- Финальная SERP с оптимизированным ранжированием и сниппетами.
На что влияет
- Конкретные типы контента: Наибольшее влияние оказывается на страницы, использующие сложные элементы интерфейса для структурирования контента: табы, аккордеоны, слайдеры, выпадающие и hover-меню.
- Технические реализации: Влияет на то, как оценивается контент, отображаемый с помощью JavaScript и CSS. Патент явно упоминает методы скрытия, такие как CSS-позиционирование за пределами экрана (left: -999em), мелкий шрифт и совпадение цвета текста с фоном.
- Манипуляции: Напрямую противодействует попыткам «накачать» страницу ключевыми словами (keyword stuffing), которые скрыты от пользователя.
Когда применяется
- Во время индексирования: Анализ видимости (сравнение DOM и Render Tree) происходит каждый раз, когда система рендерит страницу для индексации.
- Во время ранжирования: Оценки, учитывающие наличие скрытого текста, применяются при расчете релевантности страницы запросу.
- Во время генерации сниппета: Механизм активируется, когда система выбирает наилучший фрагмент текста для отображения в SERP. Триггером для пессимизации фрагмента является его идентификация как Hidden Text.
Пошаговый алгоритм
Фаза 1: Индексирование и Анализ (Офлайн)
- Получение веб-страницы: Система получает HTML, CSS и JS ресурсы.
- Генерация DOM Tree: Создается полная структура документа на основе HTML.
- Генерация Render Tree: Система выполняет рендеринг (применяет стили и скрипты) и определяет, какие элементы будут визуально отображены.
- Сравнение деревьев: Система обходит узлы DOM Tree и сравнивает их с узлами Render Tree.
- Идентификация скрытого текста: Узлы, присутствующие в DOM, но отсутствующие в Render Tree (или соответствующие критериям невидимости по стилям), помечаются как Hidden Text.
- Создание индекса: Информация о скрытом тексте сохраняется в Hidden Text Index.
- Расчет весовых коэффициентов: Рассчитываются Weighting Factors для текста или страницы. Факторы могут зависеть от общего количества скрытого текста или соотношения скрытого текста к видимому.
Фаза 2: Обработка запроса и Генерация SERP (Онлайн)
- Получение запроса и идентификация страниц: Система находит релевантные страницы.
- Оценка ранжирования (Claims 11, 16): При расчете финального рейтинга используются значения (values), на которые повлияли Weighting Factors, связанные со скрытым текстом. Страницы с большим количеством скрытого текста могут быть понижены.
- Идентификация кандидатов в сниппеты (Claims 1, 6): Система определяет фрагменты текста (видимые и скрытые), релевантные запросу.
- Применение весовых коэффициентов: К кандидатам применяются Weighting Factors. Скрытый текст получает демотивирующий балл.
- Выбор сниппета: Система выбирает сниппет с наивысшей итоговой оценкой. Механизм гарантирует, что видимый текст будет предпочтен скрытому.
- Генерация SERP: Формируется финальная выдача с оптимизированным ранжированием и сниппетами.
Какие данные и как использует
Данные на входе
Система анализирует следующие факторы для определения видимости контента:
- Контентные факторы: Весь текст, содержащийся на странице (внутри DOM Tree).
- Технические и Структурные факторы (CSS/HTML):
- Размер шрифта (Font Size): Текст с размером шрифта ниже определенного порога считается скрытым.
- Цвет и Контраст: Текст, цвет которого совпадает с цветом фона (background display color), считается скрытым.
- Позиционирование (CSS Positioning): Текст, который с помощью CSS перемещен за пределы видимой области экрана (например, left: -999em).
- Структура HTML: Элементы, используемые для создания интерактивных меню (например, <option> внутри <select>, которые не видны сразу).
- Факторы рендеринга: Результат выполнения JavaScript и применения CSS, зафиксированный в Render Tree.
Какие метрики используются и как они считаются
- Amount of Hidden Text (Количество скрытого текста): Метрика, фиксирующая объем (например, количество слов или символов) скрытого текста на странице. Является основой для расчета оценок в Claims 1, 6, 11, 16.
- Ratio of Hidden to Visible Text (Соотношение скрытого и видимого текста): В описании упоминается расчет пропорции скрытого текста к видимому как основа для применения весового коэффициента.
- Weighting Factor (Весовой коэффициент): Итоговый балл (демотивирующий или мотивирующий), применяемый к фрагменту текста или ко всей странице. В патенте приводятся примеры применения демотивирующих баллов (demotion) к скрытому тексту.
Выводы
- Видимость контента критически важна: Google обладает сложными механизмами для определения того, что именно видит пользователь. Это достигается путем полноценного рендеринга страницы и анализа разницы между исходным кодом (DOM Tree) и результатом рендеринга (Render Tree).
- Скрытый текст активно идентифицируется и пессимизируется: Текст, невидимый по умолчанию (включая скрытый через CSS-трюки, мелкий шрифт, цвет фона или требующий взаимодействия), помечается и обрабатывается иначе, чем видимый контент.
- Двойное негативное влияние скрытого текста: Патент описывает два механизма воздействия:
- Сниппеты: Скрытый текст с высокой вероятностью будет исключен из сниппета в пользу видимого текста (Claims 1, 6). Это делается для того, чтобы сниппет точно отражал видимое содержание страницы.
- Ранжирование: Наличие и количество скрытого текста используется для расчета оценки ранжирования страницы (Claims 11, 16). Злоупотребление скрытым текстом ведет к понижению рейтинга.
- Легитимный скрытый текст также подвержен влиянию: Механизм не делает различий между спамным скрытым текстом и текстом, скрытым в целях улучшения UI/UX (например, в табах или аккордеонах). Любой контент, невидимый при загрузке, может иметь пониженный вес или не попасть в сниппет.
- Техническое SEO должно учитывать рендеринг: Недостаточно анализировать только исходный HTML-код. Необходимо проверять, как страница рендерится поисковой системой и какой контент является видимым в финальном представлении.
Практика
Best practices (это мы делаем)
- Приоритет видимому контенту: Убедитесь, что основной контент страницы (H1, ключевые абзацы, основной текст) виден пользователю по умолчанию, сразу после загрузки страницы, и не требует дополнительных действий (кликов, наведения мыши).
- Проверка рендеринга: Регулярно используйте инструменты проверки (например, «Проверка URL» в Google Search Console), чтобы сравнить исходный HTML и отрендеренный вид страницы. Убедитесь, что Google видит контент так же, как и пользователь.
- Осторожное использование табов и аккордеонов: Контент, скрытый в UI-элементах (табы, спойлеры, аккордеоны), хотя и может быть проиндексирован, согласно этому патенту будет иметь меньший вес и вряд ли попадет в сниппет. Если информация критична для ранжирования, она не должна быть скрыта.
- Соблюдение контрастности и размера шрифта: Убедитесь, что текст легко читаем и контрастен по отношению к фону. Это важно не только для Accessibility (Доступности), но и для того, чтобы контент не был классифицирован как Hidden Text.
- Прогрессивное улучшение (Progressive Enhancement): Проектируйте сайты так, чтобы основной контент был доступен даже при частичной загрузке стилей или скриптов.
Worst practices (это делать не надо)
- Keyword Stuffing через CSS: Размещение блоков текста с ключевыми словами и их скрытие с помощью display: none, visibility: hidden, позиционирования за экраном (text-indent: -9999px), использования нулевого размера шрифта или прозрачности. Этот патент напрямую нацелен на борьбу с такими техниками.
- Маскировка текста фоном: Использование цвета шрифта, идентичного или слишком близкого к цвету фона.
- Размещение важного контента в Hover-меню: Размещение информации, критически важной для понимания содержания страницы или ранжирования, в элементах, которые видны только при наведении курсора.
- Подмена контента после загрузки: Показ одного контента в исходном HTML и его полное скрытие/замена с помощью JavaScript без взаимодействия с пользователем.
Стратегическое значение
Этот патент подтверждает, что Google давно и системно инвестирует в технологии рендеринга для точной оценки пользовательского опыта. Стратегия SEO должна основываться на принципе: «Что пользователь видит, то и оценивает Google». Игнорирование аспектов рендеринга и видимости контента создает значительные риски пессимизации. Патент также объясняет, почему важность технического SEO, особенно в части анализа JavaScript и CSS, продолжает расти.
Практические примеры
Сценарий: Оптимизация страницы товара в E-commerce
Плохая реализация: На странице товара основные характеристики и отзывы скрыты в табах «Характеристики» и «Отзывы». По умолчанию виден только краткий маркетинговый текст в табе «Описание».
Проблема (по патенту): Текст в неактивных табах классифицируется как Hidden Text. При запросе по конкретной характеристике система может не выбрать сниппет из таба «Характеристики» и понизить страницу в ранжировании из-за высокой доли скрытого текста.
Хорошая реализация: Ключевые характеристики вынесены в видимый блок рядом с ценой. Полное описание и отзывы расположены ниже на странице в видимых блоках (или используется «ленивая загрузка» для отзывов, но без скрытия контента табами).
Результат (по патенту): Весь основной контент классифицируется как Visible Text. Система может свободно использовать любой релевантный текст для сниппетов, а общий рейтинг страницы не подвергается пессимизации за скрытый контент.
Вопросы и ответы
Означает ли этот патент, что Google игнорирует контент, скрытый в табах или аккордеонах?
Патент не утверждает, что такой контент игнорируется полностью, но он четко описывает механизм его идентификации как Hidden Text и последующей пессимизации. Контент в табах, неактивных по умолчанию, скорее всего, получит меньший вес при ранжировании и не будет использоваться в сниппетах. Если контент важен для SEO, он должен быть виден по умолчанию.
Как именно система определяет, что текст скрыт?
Основной метод — это сравнение DOM Tree (весь код) и Render Tree (что отображается на экране). Если текст есть в DOM, но отсутствует в Render Tree, он скрыт. Кроме того, патент упоминает проверку стилей: слишком мелкий шрифт, совпадение цвета текста с фоном и позиционирование элемента за пределами видимой области экрана.
Влияет ли использование display: none или visibility: hidden на SEO?
Да, напрямую. Текст, скрытый с помощью этих CSS-свойств, будет отсутствовать в Render Tree и, следовательно, будет классифицирован как Hidden Text. Злоупотребление этими свойствами для скрытия SEO-текста приведет к применению демотивирующих коэффициентов (Weighting Factors) к странице.
Как Google обрабатывает контент, который появляется при прокрутке (Lazy Loading)?
Патент фокусируется на контенте, который не виден при первоначальной загрузке и рендеринге страницы. Современные системы рендеринга Google способны эмулировать прокрутку для доступа к контенту с ленивой загрузкой. Если контент загружается и становится видимым в процессе стандартного использования страницы (прокрутки), он обычно не считается скрытым в контексте этого патента. Скрытым считается контент, требующий клика/наведения или намеренно спрятанный стилями.
Что важнее для Google: предотвратить попадание скрытого текста в сниппет или наказать сайт за скрытый текст в ранжировании?
Патент описывает оба механизма как важные. Claims 1 и 6 сосредоточены на генерации качественных сниппетов, исключающих скрытый текст. Claims 11 и 16 сосредоточены на использовании количества скрытого текста для расчета общей оценки ранжирования страницы. Оба механизма служат общей цели повышения качества поисковой выдачи.
Как этот патент соотносится с Mobile-First Indexing?
Он крайне актуален. На мобильных устройствах из-за ограниченного пространства экранов чаще используются табы и аккордеоны для скрытия части контента. Этот патент подчеркивает, что даже при Mobile-First Indexing контент, скрытый по умолчанию на мобильной версии, может получить пониженный приоритет по сравнению с видимым контентом.
Учитывает ли система намерения пользователя? Например, если пользователь ищет список, а он скрыт в меню?
В патенте упоминается, что в некоторых случаях, если весовые коэффициенты видимого и скрытого текста близки, система может выбрать скрытый текст, если он лучше отвечает на запрос (например, является списком, когда запрос требует списка). Однако общий принцип заключается в предпочтении видимого текста, и полагаться на то, что система выберет скрытый контент, рискованно.
Как проверить, считает ли Google мой текст скрытым?
Напрямую проверить классификацию Google нельзя. Косвенно можно использовать инструмент «Проверка URL» в GSC и проанализировать скриншот отрендеренной страницы. Если текст не виден на скриншоте или в отрендеренном HTML (после выполнения JS/CSS), вероятно, он классифицируется как Hidden Text.
Влияет ли этот механизм на обработку мета-тегов или alt-атрибутов?
Патент фокусируется на тексте внутри <body>, который предназначен для отображения пользователю. Мета-теги (например, description) по своей природе не предназначены для визуального отображения на самой странице и обрабатываются другими системами. Alt-атрибуты изображений также имеют свою логику обработки, хотя они и связаны с визуальным контентом.
Что такое Tidbit Database и как она связана с этим патентом?
Tidbit Database — это хранилище потенциальных сниппетов (фрагментов текста) и их весов. При генерации сниппета система обращается к этой базе и к Hidden Text Index. Патент описывает, как статус видимости (из Hidden Text Index) используется для корректировки весов фрагментов (из Tidbit Database), чтобы выбрать лучший сниппет для отображения.