SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google использует сравнение DOM и Render Tree для обнаружения и девальвации скрытого текста при генерации сниппетов и ранжировании

HIDDEN TEXT DETECTION FOR SEARCH RESULT SCORING (Обнаружение скрытого текста для оценки результатов поиска)
  • US8639680B1
  • Google LLC
  • 2012-05-07
  • 2014-01-28
  • Техническое SEO
  • Индексация
  • SERP
  • Антиспам
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Google использует механизм для точного определения, какой текст на веб-странице виден пользователю при загрузке, а какой скрыт. Система сравнивает весь код страницы (DOM Tree) с тем, что фактически отображается (Render Tree). Обнаруженный скрытый текст (например, в меню, скрытый через CSS или цветом фона) получает понижающий коэффициент (Weighting Factor), что снижает вероятность его попадания в сниппет и может влиять на оценку страницы.

Описание

Какую проблему решает

Патент решает проблему оценки контента, который присутствует в исходном коде страницы (HTML/DOM), но не виден пользователю при стандартной загрузке. Это включает как легитимные элементы интерфейса (выпадающие меню, табы), так и манипулятивные техники (текст цветом фона, текст за пределами экрана). Если поисковая система использует этот скрытый текст для оценки релевантности или генерации сниппета, это вводит пользователя в заблуждение, так как он не может быстро найти этот текст на странице.

Что запатентовано

Запатентована система и метод для автоматического обнаружения скрытого текста путем анализа рендеринга страницы. Система генерирует две структуры данных: Document Object Model (DOM) tree, содержащую весь контент, и Render tree, содержащую только визуально отображаемый контент. Сравнение этих структур позволяет идентифицировать скрытый текст. Этому тексту присваиваются Weighting Factors (весовые коэффициенты, часто понижающие), которые используются при генерации сниппетов и оценке (scoring) результатов поиска.

Как это работает

Ключевой механизм основан на сравнении двух моделей страницы на этапе индексирования и рендеринга:

  • Генерация DOM Tree: Система анализирует веб-страницу и строит первую структуру данных (DOM tree), включающую все текстовые узлы.
  • Генерация Render Tree: Система симулирует отображение страницы в браузере (применяя CSS, исполняя JS) и строит вторую структуру данных (Render tree), включающую только те узлы, которые будут визуально отображены.
  • Сравнение и Индексация: Текст, присутствующий в DOM, но отсутствующий в Render Tree, помечается как скрытый и заносится в Hidden Text Data Index. Также скрытым признается текст с нечитаемым размером шрифта или цветом, совпадающим с фоном.
  • Генерация Весовых Коэффициентов: Для скрытого текста генерируются понижающие Weighting Factors. Коэффициент может зависеть от объема скрытого текста или его соотношения с видимым текстом.
  • Применение: При обработке запроса система использует эти коэффициенты, чтобы предпочесть видимый текст при выборе сниппета и потенциально скорректировать ранжирование.

Актуальность для SEO

Высокая. Способность Google анализировать отрендеренный контент (Web Rendering Service) является критически важной частью современного поиска, особенно с ростом сложности веб-приложений (JavaScript, CSS) и Mobile-First Indexing. Точное понимание того, что видит пользователь, необходимо для оценки качества страницы (Page Experience) и борьбы с манипуляциями. Этот патент описывает фундаментальный механизм, лежащий в основе этого анализа.

Важность для SEO

Патент имеет высокое значение (85/100). Он напрямую влияет на то, как Google воспринимает и оценивает контент страницы. Во-первых, он описывает конкретный механизм для пессимизации текста, скрытого манипулятивными методами (спам). Во-вторых, он объясняет, почему текст, скрытый в элементах интерфейса (меню, табы), может иметь меньший вес или не попадать в сниппеты. Это подчеркивает критическую важность обеспечения видимости ключевого контента при первичной загрузке страницы.

Детальный разбор

Термины и определения

Document Object Model (DOM) Tree (Объектная модель документа)
Первая структура данных (Document Model). Иерархическое представление всех элементов веб-страницы на основе исходного кода. Включает текст, который будет виден, и текст, который не будет виден при рендеринге.
Render Tree (Дерево рендеринга)
Вторая структура данных (Render Model). Представление элементов веб-страницы, которые фактически визуально отображаются на экране пользователя после применения стилей (CSS) и скриптов (JavaScript). Основано на DOM Tree.
Hidden Text (Скрытый текст / Tokens)
Текст, который присутствует в DOM Tree, но отсутствует в Render Tree, или текст, невидимый из-за стилей (размер шрифта ниже порога, цвет совпадает с фоном, позиционирование за пределами экрана).
Hidden Text Data Index (Индекс скрытого текста)
База данных, хранящая информацию об обнаруженном скрытом тексте и связанные с ним Weighting Factors.
Weighting Factor (Весовой коэффициент)
Числовое значение (повышение/promotion или понижение/demotion), присваиваемое скрытому тексту. Используется для снижения вероятности выбора этого текста в качестве сниппета и/или для корректировки оценки ранжирования.
Snippet Generation Module (Модуль генерации сниппетов)
Компонент поисковой системы, отвечающий за выбор текстового фрагмента (сниппета) для отображения в результатах поиска.
Tidbit Database
База данных, содержащая кандидатов для сниппетов (tidbits) и связанные с ними весовые коэффициенты.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод обнаружения скрытого текста и генерации весовых коэффициентов.

  1. Система генерирует первую структуру данных (DOM Tree), включающую видимый и невидимый текст.
  2. Система генерирует вторую структуру данных (Render Tree) на основе первой, включающую только текст, который будет визуально отображен при рендеринге.
  3. Система сравнивает узлы первой и второй структур для идентификации узлов, которые не будут визуально отображены (скрытый текст).
  4. Система генерирует Weighting Factors для этих идентифицированных скрытых текстовых узлов.

Claim 3 (Зависимый от 1): Описывает применение механизма во время поиска для выбора сниппета.

  1. Система получает поисковый запрос и идентифицирует множественных кандидатов текста (потенциальные сниппеты), релевантных запросу.
  2. Система выбирает финальный текст (сниппет) из кандидатов, основываясь на Weighting Factors (сгенерированных в Claim 1), отдавая предпочтение видимому тексту.

Claim 4 (Зависимый от 1), Claim 12 (Зависимый от 10), Claim 19 (Зависимый от 15): Уточняют расчет весового коэффициента. Weighting Factor генерируется на основе объема (amount) скрытого текста на веб-странице.

Claim 6 (Зависимый от 5): Указывает на влияние на ранжирование. Список результатов поиска отображается в ранжированном порядке (rank order), основанном на Weighting Factors. Это подразумевает, что коэффициенты влияют не только на выбор сниппета, но и на итоговое ранжирование результатов.

Claim 8 (Зависимый от 1) и Claim 18 (Зависимый от 15): Определяют технические критерии скрытого текста. Это текст, который:

  • Имеет размер шрифта ниже определенного порога (predetermined/particular font size threshold);
  • Имеет цвет шрифта, совпадающий с цветом фона;
  • Присутствует в первой структуре (DOM), но отсутствует во второй (Render Tree).

Claim 15 (Независимый пункт): Описывает метод создания Hidden Text Data Index. Он повторяет логику Claim 1, но фокусируется на создании индекса, который идентифицирует скрытые узлы и включает связанные с ними Weighting Factor.

Где и как применяется

Изобретение применяется на нескольких ключевых этапах поисковой архитектуры, связывая процессы рендеринга и формирования выдачи.

CRAWLING – Сканирование и Сбор данных
На этом этапе загружается исходный код страницы (HTML, CSS, JavaScript), необходимый для анализа.

INDEXING – Индексирование и извлечение признаков
Основной этап работы алгоритма (офлайн-процесс).

  • Рендеринг (WRS): Система выполняет рендеринг страницы для генерации DOM Tree и, что критически важно, Render Tree. Это требует исполнения JavaScript и применения CSS.
  • Анализ и Извлечение Признаков: Происходит сравнение DOM и Render Tree.
  • Расчет Метрик: Вычисляются Weighting Factors на основе объема и характера скрытого текста.
  • Индексация: Данные сохраняются в Hidden Text Data Index и Tidbit Database. Текст в индексе аннотируется как видимый или скрытый.

RANKING – Ранжирование
Weighting Factors, рассчитанные на основе объема скрытого текста, могут использоваться как сигнал качества или спама на этапах ранжирования (согласно Claim 6).

METASEARCH – Метапоиск и Смешивание / RERANKING – Переранжирование
На финальных этапах формирования выдачи (онлайн-процесс) происходит применение рассчитанных данных. Snippet Generation Module использует Weighting Factors, чтобы выбрать наилучший сниппет, предпочитая видимый текст скрытому.

Входные данные:

  • Исходный код веб-страницы (HTML, CSS, JavaScript).
  • Поисковый запрос (на этапе применения).

Выходные данные:

  • Hidden Text Data Index.
  • Weighting Factors для скрытого текста.
  • Выбранный сниппет для SERP.
  • Скорректированный порядок результатов поиска.

На что влияет

  • Типы контента: Влияет на любой контент, отображаемый через веб-браузер. Особенно критично для страниц, активно использующих JavaScript и CSS для управления видимостью (SPA, сложные интерфейсы).
  • Форматы контента: Влияет на текст, скрытый в элементах UI (аккордеоны, табы, выпадающие меню, модальные окна), а также на текст, скрытый намеренно (спам).
  • Конкретные ниши: Влияет на E-commerce и агрегаторы, где часто используется сложный интерфейс для структурирования информации, а также на ниши с высокой конкуренцией, где ранее применялись техники скрытия текста.

Когда применяется

  • Условия работы: Алгоритм анализа применяется при индексации и рендеринге веб-страницы (офлайн). Алгоритм выбора сниппета применяется при обработке запроса (онлайн).
  • Триггеры активации (для пессимизации): Применение понижающих Weighting Factors активируется при обнаружении скрытого текста. Степень понижения зависит от объема скрытого текста (Claim 4) или его пропорции.
  • Критерии скрытого текста: Применяется, если текст соответствует техническим критериям (Claim 8): размер шрифта ниже порога, совпадение цвета текста и фона, или отсутствие в Render Tree (например, из-за display: none, visibility: hidden или позиционирования за пределами экрана).

Пошаговый алгоритм

Процесс А: Индексация и Обнаружение скрытого текста (Офлайн)

  1. Получение страницы: Поисковая система получает исходный код (HTML, CSS, JS).
  2. Генерация DOM Tree: Document Model Module обрабатывает страницу и генерирует первую структуру данных (DOM Tree), содержащую все текстовые узлы.
  3. Генерация Render Tree: Render Model Module симулирует отображение страницы в браузере и генерирует вторую структуру данных (Render Tree), содержащую только визуально отображаемые узлы.
  4. Сравнение структур: Hidden Text Index Module сравнивает узлы DOM Tree с узлами Render Tree.
  5. Идентификация скрытого текста: Узлы, присутствующие в DOM, но отсутствующие в Render Tree, или не соответствующие порогам видимости (цвет, размер), идентифицируются как скрытый текст.
  6. Генерация Weighting Factors: Система рассчитывает весовые коэффициенты для скрытого текста. Например, рассчитывается пропорция скрытого текста к видимому. При высокой пропорции применяется сильное понижение (demotion).
  7. Сохранение данных: Идентифицированный скрытый текст и его Weighting Factors сохраняются в Hidden Text Data Index и Tidbit Database.

Процесс Б: Обработка запроса и Генерация сниппета (Онлайн)

  1. Получение запроса: Система получает запрос пользователя и находит релевантные страницы.
  2. Идентификация кандидатов: Snippet Generation Module определяет несколько кандидатов для сниппета на этих страницах.
  3. Оценка кандидатов: Модуль проверяет, содержат ли кандидаты текст, помеченный в Hidden Text Data Index.
  4. Применение Weighting Factors: К оценкам кандидатов применяются весовые коэффициенты. Кандидаты из скрытого текста получают понижение. Кандидаты из видимого текста получают предпочтение.
  5. Выбор сниппета: Выбирается кандидат с наилучшей итоговой оценкой.
  6. Формирование SERP: Результаты поиска предоставляются пользователю. Ранжирование также может быть скорректировано на основе Weighting Factors (Claim 6).

Какие данные и как использует

Данные на входе

Система использует данные, определяющие структуру и визуальное представление контента.

  • Контентные факторы: Весь текст страницы.
  • Технические факторы: Исходный код страницы (HTML).
  • Структурные факторы: Структура DOM Tree, иерархия элементов.
  • Визуальные/Стилевые факторы (CSS, JavaScript): Данные, влияющие на рендеринг:
    • Свойства шрифта (размер, цвет).
    • Цвет фона.
    • CSS правила позиционирования (например, смещение за экран, патент упоминает left: -999em в описании).
    • CSS правила видимости (например, display, visibility).
    • Скрипты, динамически управляющие видимостью элементов (например, для hover-меню).

Какие метрики используются и как они считаются

  • Наличие скрытого текста: Бинарный результат сравнения DOM Tree и Render Tree.
  • Weighting Factor (Весовой коэффициент): Метрика понижения (demotion) или повышения (promotion). Рассчитывается для скрытого текста. Патент приводит примеры в описании (Table 2): -25 demotion, если 70% текста скрыто; -5 demotion за факт наличия скрытого текста.
  • Объем скрытого текста (Amount of hidden text): Количество слов или символов, идентифицированных как скрытые (Claim 4).
  • Пропорция скрытого текста (Ratio): Соотношение объема скрытого текста к объему видимого текста на странице.
  • Пороги визуализации:
    • Минимальный порог размера шрифта (predetermined font size threshold).
    • Совпадение цвета шрифта и фона.

Выводы

  1. Рендеринг критичен для индексации: Google не просто читает HTML. Система полноценно рендерит страницу, чтобы понять, что именно видит пользователь. Оценка контента основана на Render Tree, а не только на DOM Tree.
  2. Скрытый текст имеет меньший вес: Текст, который не виден пользователю при загрузке, идентифицируется и получает понижающие коэффициенты (Weighting Factors). Это относится как к спаму, так и к легитимным элементам UI (меню, табы, аккордеоны).
  3. Приоритет видимого контента в сниппетах: Основная цель патента — улучшение качества сниппетов. Система активно избегает использования скрытого текста в сниппетах, чтобы не вводить пользователя в заблуждение.
  4. Объем скрытого текста как фактор ранжирования: Патент указывает (Claim 4, Claim 6), что Weighting Factors зависят от объема скрытого текста и могут влиять на итоговый порядок результатов (ранжирование). Большое соотношение скрытого текста к видимому может привести к пессимизации страницы.
  5. Точное обнаружение визуальных и структурных манипуляций: Система способна обнаруживать классические техники спама: текст цветом фона, мелкий шрифт (анализ Render Tree), а также текст, скрытый с помощью CSS-позиционирования или свойств видимости (сравнение DOM и Render Tree).

Практика

Best practices (это мы делаем)

  • Обеспечение видимости ключевого контента: Основной контент страницы, отвечающий на интент пользователя, должен быть виден по умолчанию при загрузке. Не следует скрывать важный SEO-контент за табами, аккордеонами или кнопками "Читать далее", если это не критично для UX.
  • Приоритет рендеринга при аудите: При техническом SEO-аудите необходимо анализировать не исходный код, а финальное визуальное отображение страницы (Render Tree). Используйте Google Search Console URL Inspection Tool, чтобы убедиться, что Googlebot видит контент так же, как пользователь.
  • Оптимизация JavaScript и CSS: Убедитесь, что ресурсы JS и CSS, отвечающие за формирование и видимость основного контента, доступны для сканирования и быстро исполняются. Блокировка или ошибки в этих ресурсах могут привести к тому, что контент будет классифицирован как скрытый.
  • Соблюдение стандартов доступности (Accessibility): Обеспечивайте достаточный размер шрифта и высокую контрастность между текстом и фоном. Это гарантирует, что контент не будет классифицирован как скрытый по визуальным критериям (Claim 8).

Worst practices (это делать не надо)

  • Использование техник скрытия текста для SEO (Keyword Stuffing): Абсолютно недопустимо использование display: none, visibility: hidden, текста цветом фона, шрифта размером 0/1px, а также смещения текста за пределы экрана (например, text-indent: -9999px или left: -999em). Этот патент описывает прямой механизм борьбы с этими техниками.
  • Клоакинг (Cloaking): Предоставление разного контента пользователям и Googlebot. Система сравнения DOM и Render Tree направлена на выявление таких расхождений.
  • Скрытие основного контента в сложных интерфейсах: Размещение важного контента в элементах, требующих взаимодействия пользователя (клик, наведение) для отображения. Это несет риск того, что контент получит понижающий Weighting Factor.
  • Избыточное количество шаблонного скрытого текста: Большие объемы текста в мега-меню или скрытых блоках могут негативно повлиять на соотношение видимого и скрытого контента, что может привести к применению более агрессивных Weighting Factors ко всей странице.

Стратегическое значение

Этот патент подтверждает стратегический приоритет Google на оценку контента с точки зрения пользователя (User Experience). Фундаментальный механизм сравнения DOM и Render Tree является основой для многих алгоритмов качества и удобства страниц. Для SEO это означает, что техническая оптимизация должна быть неразрывно связана с UX и дизайном. Стратегия должна фокусироваться на создании быстрых, доступных интерфейсов, где ключевая информация легко обнаруживается как пользователем, так и поисковым роботом при рендеринге.

Практические примеры

Сценарий 1: Выбор сниппета для страницы товара (E-commerce)

  1. Страница: Карточка товара смартфона. Основное описание видно сразу. Подробные характеристики скрыты во вкладке (табе), которая неактивна по умолчанию.
  2. Запрос: "Смартфон X время работы батареи".
  3. Анализ Google: Система рендерит страницу. Текст характеристик (включая время работы батареи) присутствует в DOM, но не в Render Tree. Он попадает в Hidden Text Index с понижающим коэффициентом.
  4. Генерация сниппета: Система находит ответ в скрытой вкладке. Из-за понижающего Weighting Factor она предпочтет менее релевантный текст из видимой части или выберет другую страницу для ответа.
  5. Рекомендация SEO: Если время работы батареи является ключевым УТП, его следует разместить в видимой части страницы, чтобы гарантировать его использование в сниппетах и при оценке релевантности.

Сценарий 2: Борьба со спамом

  1. Страница: Статья, внизу которой добавлен блок текста с ключевыми словами, скрытый через <div style="color: #FFFFFF"> на белом фоне (#FFFFFF).
  2. Анализ Google: Система генерирует DOM (включает скрытый блок). При генерации Render Tree система определяет, что цвет текста совпадает с цветом фона (Claim 8).
  3. Результат: Текст помечается как скрытый. Страница получает значительный понижающий Weighting Factor из-за большого объема скрытого текста (Claim 4). Страница может быть понижена в ранжировании, а скрытый текст не используется в сниппетах.

Вопросы и ответы

Как именно Google определяет, является ли текст скрытым?

Патент описывает три основных метода. Первый и главный — сравнение DOM Tree (весь контент в коде) и Render Tree (визуально отображаемый контент). Если текст есть в DOM, но отсутствует в Render Tree (например, из-за display: none или смещения за экран), он скрыт. Второй — анализ размера шрифта; если он ниже определенного порога. Третий — сравнение цвета шрифта и фона; если они совпадают.

Означает ли этот патент, что текст в выпадающих меню, аккордеонах или табах полностью игнорируется Google?

Нет, не полностью игнорируется. Текст индексируется, так как он присутствует в DOM Tree. Однако патент указывает, что такой текст идентифицируется как скрытый (так как он отсутствует в Render Tree при загрузке без взаимодействия пользователя) и получает понижающий Weighting Factor. Это снижает его значимость по сравнению с видимым контентом и уменьшает вероятность его использования в сниппетах.

Влияет ли этот механизм только на сниппеты или также на ранжирование?

Основной фокус патента — улучшение генерации сниппетов. Однако в патенте также указано (Claim 6), что Weighting Factors, рассчитанные на основе объема скрытого текста (Claim 4), могут использоваться для определения итогового порядка (ранжирования) результатов поиска. Страницы с избыточным количеством скрытого текста могут быть понижены.

Что такое Render Tree и чем он отличается от DOM Tree?

DOM Tree — это полное дерево всех объектов страницы, как они определены в коде. Render Tree — это дерево визуальных элементов, построенное на основе DOM с применением CSS и JavaScript. Оно содержит только те элементы, которые фактически отображаются на экране, с их финальными визуальными характеристиками (позиция, размер, цвет). Google использует Render Tree для понимания пользовательского опыта.

Как система обрабатывает контент, который появляется при наведении мыши (hover) или клике?

Патент определяет видимый текст как тот, который отображается при загрузке страницы, без необходимости взаимодействия. Текст, требующий клика (например, в табах) или наведения мыши (hover menus, которые прямо упоминаются в патенте), не попадает в изначальный Render Tree и классифицируется как скрытый.

Как проверить, какой контент Google считает видимым на моем сайте?

Используйте инструменты, которые показывают отрендеренную версию страницы глазами Googlebot. Основные инструменты — это Google Search Console URL Inspection Tool (Проверка URL) и Mobile-Friendly Test. Анализируйте скриншот и отрендеренный HTML в этих инструментах, чтобы убедиться, что ключевой контент виден и корректно загружен.

Обнаруживает ли эта система текст, смещенный за пределы экрана с помощью CSS?

Да. В патенте приводится пример кода, который позиционирует элемент за пределами левого края страницы (left: -999em). Такой текст не попадет в Render Tree и будет идентифицирован как скрытый при сравнении с DOM Tree.

Зависит ли пессимизация от намерения (манипуляция против элементов UI)?

Согласно патенту, механизм работает автоматически и не оценивает намерение. Любой текст, который не виден при загрузке, классифицируется как скрытый. Однако степень пессимизации зависит от объема скрытого текста. Большие блоки скрытого текста (характерные для спама) могут приводить к более сильному понижению (demotion), чем короткие фразы в легитимных элементах навигации.

Считается ли текст в выпадающих списках (`<select><option>`) скрытым?

Да. Патент приводит конкретный пример (FIG. 3C-3G), где значения опций в элементе <select> присутствуют в DOM Tree, но не попадают в Render Tree, так как они не видны до взаимодействия пользователя со списком. Этот текст идентифицируется как скрытый.

Как этот патент связан с Mobile-First Indexing?

Он имеет прямое отношение. В мобильных интерфейсах из-за ограничений экрана гораздо чаще используется скрытие контента (гамбургер-меню, аккордеоны). Механизм, описанный в патенте, позволяет Google точно определить, какой контент виден на мобильном устройстве сразу, а какой скрыт за элементами интерфейса, и соответствующим образом скорректировать его вес.

Похожие патенты

Как Google анализирует рендеринг страницы (DOM и CSS) для обнаружения скрытого текста и ссылок
Google использует методы анализа визуального представления страницы для выявления скрытого контента. Система строит структурное представление документа (DOM) и анализирует свойства элементов (цвет, размер, позиция, Z-index), чтобы определить, виден ли контент пользователю. Это позволяет обнаруживать и игнорировать манипуляции (спам), такие как текст цветом фона или позиционирование за пределами экрана.
  • US8392823B1
  • 2013-03-05
  • Антиспам

  • Структура сайта

  • Индексация

Как Google извлекает и может отображать оригинальный дизайн (стили) контента в сниппетах поисковой выдачи
Google разработал систему для отображения текстовых сниппетов в поисковой выдаче с сохранением их оригинального стиля (шрифт, размер, форматирование) из исходного документа. Для этого система создает отдельные индексы для текста и стилей. Это позволяет пользователям оценить визуальный контекст, важность контента и эстетику сайта непосредственно в SERP, влияя на выбор результата.
  • US10311114B2
  • 2019-06-04
  • SERP

  • Индексация

  • Техническое SEO

Как Google использует машинное обучение для обнаружения дубликатов, анализируя контент до и после рендеринга
Google использует комплексную систему для обнаружения дубликатов, которая сравнивает как исходный HTML-код (Fetched Body), так и финальную версию страницы после выполнения JavaScript (Synthetic Body). Система вычисляет множество сигналов сравнения, включая основанные на контексте запроса (сниппеты), и использует модель машинного обучения для определения вероятности того, что страницы являются дубликатами.
  • US20140188919A1
  • 2014-07-03
  • Индексация

  • SERP

  • Краулинг

Как Google сегментирует веб-страницы на семантические блоки (хедер, футер, контент) с помощью анализа геометрии рендеринга
Google использует механизм "псевдо-рендеринга" для анализа геометрической структуры веб-страницы и её разделения на семантически различные области (чанки), такие как основное содержимое, навигация, футер и реклама. Это позволяет системе определять важность контента и ссылок в зависимости от их расположения на странице.
  • US7913163B1
  • 2011-03-22
  • Семантика и интент

  • Структура сайта

  • Техническое SEO

Как Google использует внутренние ссылки и структуру DOM для генерации шаблонов сайта и извлечения структурированных сниппетов
Google анализирует повторяющиеся блоки внутренних ссылок (например, списки товаров). Если текст возле ссылки на исходной странице совпадает с текстом на целевой странице, Google определяет DOM-структуру этого текста и создает шаблон домена. Этот шаблон позволяет автоматически извлекать ключевую информацию (например, цену и характеристики) для сниппетов со всех однотипных страниц сайта, даже без микроразметки.
  • US9971746B2
  • 2018-05-15
  • Структура сайта

  • SERP

  • Ссылки

Популярные патенты

Как Google автоматически добавляет текст существующих объявлений к сайтлинкам (Sitelinks) для повышения CTR
Google использует систему для автоматического улучшения сайтлинков в рекламных объявлениях. Система анализирует существующие текстовые объявления (креативы) рекламодателя и определяет их конечные целевые страницы, игнорируя параметры отслеживания. Затем она сопоставляет их с URL сайтлинков и добавляет наиболее релевантный и эффективный текст креатива к сайтлинку для повышения кликабельности (CTR).
  • US10650066B2
  • 2020-05-12
  • Ссылки

  • SERP

Как Google индексирует контент внутри мобильных приложений для показа в результатах поиска (App Indexing)
Google использует механизм для индексации контента, который пользователи просматривают в нативных мобильных приложениях. Система получает данные о просмотренном контенте и deep links напрямую от приложения на устройстве. Эта информация сохраняется в индексе (персональном или публичном) и используется для генерации результатов поиска, позволяя пользователям переходить к контенту внутри приложений напрямую из поисковой выдачи.
  • US10120949B2
  • 2018-11-06
  • Индексация

  • SERP

  • Персонализация

Как Google использует исторические данные о поведении пользователей для сохранения эффективных синонимов
Google постоянно обновляет модели, определяющие синонимы для расширения запросов. Этот патент описывает защитный механизм: если новая модель отключает синоним, который исторически давал хорошие результаты (пользователи были довольны выдачей), система автоматически вернет этот синоним в работу, опираясь на накопленные данные о поведении пользователей.
  • US8762363B1
  • 2014-06-24
  • Семантика и интент

  • Поведенческие сигналы

  • SERP

Как Google определяет основной контент страницы, анализируя визуальную структуру и характеристики разделов
Google использует систему для идентификации основного контента веб-страницы путем её разделения на логические разделы на основе визуального макета. Система оценивает характеристики каждого раздела (соотношение ссылок к тексту, количество слов, изображения, расположение) относительно характеристик всей страницы, чтобы выделить наиболее значимый контент и отделить его от навигации и шаблонов.
  • US20140372873A1
  • 2014-12-18
  • Структура сайта

  • Техническое SEO

  • Ссылки

Как Google выбирает каноническую (основную) версию документа, основываясь на авторитетности источника и полноте контента
Google использует систему для выбора канонической (основной) версии документа среди его дубликатов. Система присваивает «приоритет авторитетности» каждой версии, основываясь на источнике (например, официальный издатель) и праве публикации. Основной версией выбирается та, которая имеет высокий авторитет и является полной. При отсутствии идеального варианта выбирается версия с наибольшим объемом информации (например, самая длинная или с наибольшим PageRank).
  • US8095876B1
  • 2012-01-10
  • EEAT и качество

  • Техническое SEO

  • Ссылки

Как Google использует историю поиска, поведение и многофакторные профили пользователей для персонализации поисковой выдачи
Google создает детальные профили пользователей на основе истории запросов, взаимодействия с результатами (клики, время просмотра) и анализа контента посещенных страниц. Эти профили (включающие интересы по терминам, категориям и ссылкам) используются для корректировки стандартных оценок ранжирования. Степень персонализации динамически регулируется уровнем уверенности системы в профиле (Confidence Score).
  • US9298777B2
  • 2016-03-29
  • Персонализация

  • Поведенческие сигналы

  • SERP

Как Google (YouTube) анализирует трафик конкурирующих видео для рекомендации улучшений метаданных
Google использует систему для анализа конкуренции между видео на основе общих поисковых запросов и времени просмотра. Система выявляет поисковые запросы, которые приводят трафик на конкурирующие (например, производные) видео, и сравнивает их с метаданными оригинального видео. Если обнаруживаются релевантные термины, отсутствующие у оригинала, они рекомендуются автору для улучшения видимости.
  • US10318581B2
  • 2019-06-11
  • Поведенческие сигналы

  • Мультимедиа

  • Семантика и интент

Как Google запоминает вопросы без авторитетного ответа и автономно сообщает его позже через Ассистента
Патент Google описывает механизм для обработки запросов, на которые в момент поиска нет качественного или авторитетного ответа. Система запоминает информационную потребность и продолжает мониторинг. Когда появляется информация, удовлетворяющая критериям качества (например, в Knowledge Graph), Google автономно доставляет ответ пользователю, часто встраивая его в следующий диалог с Google Assistant, даже если этот диалог не связан с исходным вопросом.
  • US11238116B2
  • 2022-02-01
  • Knowledge Graph

  • Семантика и интент

  • EEAT и качество

Как Google определяет географическую релевантность веб-страницы, анализируя физическое местоположение её посетителей
Google анализирует физическое местоположение (используя GPS, IP и т.д.) пользователей, которые взаимодействуют с веб-страницей (например, совершают клик и долго её изучают). Агрегируя эти данные, система определяет географическую релевантность страницы («Центр») и область её популярности («Дисперсию»), даже если на самой странице нет адреса. Эта информация используется для повышения позиций страницы в поиске для пользователей, находящихся в этой области.
  • US9552430B1
  • 2017-01-24
  • Local SEO

  • Поведенческие сигналы

Как Google использует машинное обучение для оптимизации обхода Knowledge Graph и поиска связанных концепций
Google оптимизирует обход Knowledge Graph для эффективного поиска семантически связанных фраз. Вместо анализа всех связей сущности система использует ML-модели для выбора только тех отношений (свойств), которые вероятнее всего приведут к ценным результатам. Этот выбор основан на истории поисковых запросов и контексте пользователя, что позволяет экономить вычислительные ресурсы и повышать релевантность предложений.
  • US10140286B2
  • 2018-11-27
  • Knowledge Graph

  • Семантика и интент

  • Персонализация

seohardcore