SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google автоматически создает шаблоны для извлечения структурированных данных из форумов и UGC-сайтов

EXTRACTION AND ANALYSIS OF USER-GENERATED CONTENT (Извлечение и анализ пользовательского контента)
  • US8458584B1
  • Google LLC
  • 2010-11-18
  • 2013-06-04
  • Краулинг
  • Структура сайта
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Google использует систему для автоматического понимания структуры сайтов с пользовательским контентом (UGC), таких как форумы. Система разделяет страницы на статичные элементы («boilerplate») и динамический контент («posts»), определяет различные типы постов (например, посты модераторов и обычных пользователей) и создает шаблоны для точного извлечения и аннотации ключевых данных: автора, даты и основного текста.

Описание

Какую проблему решает

Патент решает проблему сложности автоматического извлечения и характеризации (аннотирования) структурированных данных с сайтов, содержащих пользовательский контент (User-Generated Content, UGC), таких как форумы, блоги и разделы комментариев. Из-за большого разнообразия форматов и структур таких сайтов, а также вариативности внутри одного сайта, поисковым системам сложно автоматически идентифицировать основное содержание (посты) и отличать его от навигации или рекламы, а также извлекать метаданные (автор, дата).

Что запатентовано

Запатентована система автоматической генерации шаблонов (Site Template) для сайтов с UGC. Система анализирует выборку страниц сайта, разделяет их на статические элементы (Boilerplate) и динамические посты (Posts). Она группирует страницы с похожей структурой и идентифицирует различные типы постов (Post-types) внутри этих групп. Затем система создает шаблоны для каждого типа постов и аннотирует ключевые элементы (например, автор, дата, текст), формируя итоговый шаблон сайта для точного извлечения данных.

Как это работает

Система работает путем анализа структуры страниц (например, HTML/DOM), полученных краулером:

  • Сканирование и Разделение: Crawler собирает страницы, а Page Splitter разделяет каждую на Boilerplate (статическая часть) и Posts (повторяющиеся структурированные данные).
  • Агрегация страниц: Страницы группируются на основе схожести их Boilerplate.
  • Агрегация постов: Внутри каждой группы страниц система идентифицирует и группирует посты схожего типа (Post-types), учитывая, что посты могут выглядеть по-разному (например, у модераторов и обычных пользователей).
  • Слияние и создание шаблонов: Схожие Boilerplate объединяются в Boilerplate Template. Схожие посты объединяются в Post-type Templates.
  • Анализ и аннотирование: Post Analyzer анализирует шаблоны постов, используя эвристики (Annotation Criteria), чтобы определить, какие элементы соответствуют тексту, дате или автору.
  • Генерация шаблона сайта: Все компоненты объединяются в финальный Site Template, который применяется для анализа новых страниц этого сайта.

Актуальность для SEO

Высокая. Понимание и структурирование UGC остается критически важной задачей для поисковых систем. Автоматическое извлечение основного контента (Main Content Extraction) и удаление шаблонных элементов (Boilerplate Removal) являются фундаментальными для масштабируемого веб-краулинга и индексирования. Точное извлечение авторов и дат напрямую влияет на оценку свежести и авторитетности контента.

Важность для SEO

Патент имеет высокое значение (8/10) для SEO, особенно для сайтов, основанных на UGC (форумы, сообщества, Q&A). Он описывает инфраструктурный механизм, с помощью которого Google определяет, что является основным контентом (постом), а что — шумом (навигация, реклама). Если структура сайта непостоянна или запутана, система может ошибочно классифицировать контент, что приведет к проблемам с индексацией и оценкой релевантности.

Детальный разбор

Термины и определения

Annotation Criteria (Критерии аннотирования)
Набор правил или схем, используемых для идентификации и маркировки (аннотирования) конкретных элементов внутри поста, таких как автор, дата или основной текст.
Aggregator (Агрегатор)
Компонент системы, отвечающий за группировку элементов. Включает Boilerplate Aggregator (группирует страницы по схожести Boilerplate) и Post-type Aggregator (группирует посты по схожести их типа).
Boilerplate (Шаблонный/Статический контент)
Часть веб-страницы, которая остается неизменной или почти неизменной на нескольких страницах сайта. Обычно это контент, предоставляемый владельцем сайта (навигация, заголовки, футеры, реклама), а не UGC.
Boilerplate Template (Шаблон статического контента)
Обобщенное представление Boilerplate, созданное путем слияния схожих статических частей из группы страниц.
Crawler (Краулер)
Компонент, который извлекает страницы сайта и анализирует их структуру (например, HTML/DOM).
Merger (Модуль слияния)
Компонент, который объединяет схожие элементы для создания шаблонов. Включает Boilerplate Merger и Post-type Merger.
Page Splitter (Разделитель страниц)
Компонент, который анализирует структуру страницы и разделяет ее на Boilerplate и Posts.
Post (Пост)
Единица пользовательского контента (UGC). Это динамическая, структурированная и повторяющаяся часть страницы (например, сообщение на форуме, комментарий).
Post Analyzer (Анализатор постов)
Компонент, который исследует сгруппированные посты определенного типа для идентификации и аннотирования их элементов (автор, дата, текст) на основе Annotation Criteria.
Post-type (Тип поста)
Классификация постов на основе их структуры, формата или стиля. Разные типы могут быть связаны с разными классами пользователей (например, модератор vs. обычный пользователь).
Post-type Template (Шаблон типа поста)
Обобщенное и аннотированное представление постов определенного типа.
Site Template (Шаблон сайта)
Конечный результат работы системы. Состоит из Boilerplate Template и всех связанных с ним Post-type Templates. Используется для извлечения и анализа контента с других страниц этого сайта.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод генерации шаблона сайта.

  1. Система (Page Splitter) разделяет первую страницу сайта на первый Boilerplate и первые посты, и вторую страницу на второй Boilerplate и вторые посты.
  2. Система (Aggregator) ассоциирует первую страницу со второй на основе схожести их Boilerplate (т.е. группирует их).
  3. Система (Aggregator) ассоциирует посты с первой и второй страниц с первым типом поста (first post-type), и по крайней мере один пост со второй страницы со вторым типом поста (second post-type).
  4. Система (Merger) выполняет слияние:
    • Первый и второй Boilerplate сливаются в Boilerplate Template.
    • Посты первого типа с обеих страниц сливаются в First Post-type Template.
    • Посты второго типа со второй страницы сливаются в Second Post-type Template.
  5. Система объединяет Boilerplate Template, First Post-type Template и Second Post-type Template в Site Template, ассоциированный с сайтом.

Ядро изобретения заключается в автоматическом определении структуры сайта путем последовательной агрегации и слияния как статических (Boilerplate), так и динамических (Posts) элементов, с учетом вариативности типов постов.

Claim 2 (Зависимый от 1): Дополняет процесс функцией анализа и аннотирования.

Система включает Post Analyzer, который анализирует объединенные посты (например, первого типа), извлекает из них элементы и аннотирует эти элементы на основе Annotation Criteria для включения в соответствующий Post-type Template.

Claim 3 (Зависимый от 2): Уточняет критерии аннотирования.

Посты включают UGC, а Annotation Criteria включают метки для текста (text label), автора (author label) и даты (date label).

Где и как применяется

Изобретение является частью инфраструктуры сбора и первичной обработки данных Google. Оно применяется на ранних этапах поискового конвейера для понимания структуры и контента сайтов.

CRAWLING – Сканирование и Сбор данных
Crawler собирает исходные данные (веб-страницы). Система использует эти данные для генерации шаблона. В дальнейшем сгенерированный шаблон может использоваться на этом этапе или сразу после него для эффективного извлечения UGC.

INDEXING – Индексирование и извлечение признаков
Это основной этап применения патента. Описанная система (Template Generator) работает в рамках конвейера индексирования для структурирования неструктурированных данных и извлечения признаков (Feature Extraction).

  1. Структурирование данных: Система анализирует HTML/DOM для разделения контента на Boilerplate и Posts.
  2. Очистка контента: Отделение Boilerplate позволяет системе индексирования сосредоточиться на основном контенте (Posts), игнорируя навигацию и рекламу.
  3. Извлечение признаков: Аннотирование позволяет точно извлечь метаданные, такие как автор (важно для E-E-A-T и определения сущностей) и дата (важно для определения свежести).

Входные данные:

  • Набор веб-страниц (HTML/DOM) с одного сайта, полученный краулером.
  • Annotation Criteria (предопределенные схемы аннотирования).

Выходные данные:

  • Site Template (состоящий из Boilerplate Template и Post-type Templates).
  • Структурированные и аннотированные данные постов (текст, автор, дата), извлеченные с помощью Site Template.

На что влияет

  • Конкретные типы контента: Наибольшее влияние оказывается на страницы с повторяющимся структурированным UGC: форумы, треды обсуждений, Q&A сайты, разделы комментариев к статьям, списки отзывов о товарах.
  • Специфические запросы: Улучшает качество индексации и, как следствие, ранжирование по запросам, ответы на которые часто содержатся в UGC (технические вопросы, отзывы, мнения).

Когда применяется

  • Условия применения: Алгоритм применяется к сайтам, которые идентифицированы как содержащие UGC или повторяющиеся структурированные данные.
  • Частота применения (Генерация): Генерация Site Template происходит периодически (офлайн) на основе выборки страниц или запускается при обнаружении значительных изменений в структуре сайта (редизайн).
  • Частота применения (Использование): Применение сгенерированного Site Template происходит при каждом сканировании и индексировании страниц этого сайта.

Пошаговый алгоритм

Процесс А: Генерация шаблона сайта (Template Generation)

  1. Определение сайта и Сканирование: Выбор целевого сайта и сбор выборки страниц с помощью Crawler.
  2. Разделение страниц (Итерация по страницам):
    • Выбор страницы из выборки.
    • Page Splitter разделяет страницу на Boilerplate (общие части) и Posts (повторяющиеся структуры с разным содержанием), анализируя DOM-дерево.
    • Предварительное разделение постов на основе их типа (Post-type).
  3. Агрегация страниц (Boilerplate Aggregation): Группировка страниц на основе схожести их Boilerplate. Формируются группы страниц (Page Groups).
  4. Обработка групп страниц (Итерация по группам):
    • Выбор группы страниц.
    • Создание Boilerplate Template: Boilerplate Merger объединяет Boilerplate всех страниц в группе, формируя единый шаблон.
    • Обработка типов постов (Итерация по типам):
      • Выбор типа поста.
      • Агрегация постов (Post-type Aggregation): Группировка всех постов данного типа со всех страниц группы.
      • Слияние постов: Post-type Merger объединяет сгруппированные посты в обобщенную структуру.
      • Анализ и Аннотирование: Post Analyzer анализирует результат, используя Annotation Criteria. Он проверяет согласованность данных (например, форматы дат) во всех примерах постов, чтобы выбрать наилучший паттерн для идентификации автора, даты, текста.
      • Создание Post-type Template: Сохранение аннотированного шаблона.
  5. Создание Site Template: Объединение всех созданных Boilerplate Templates и соответствующих им Post-type Templates в финальный Site Template.

Процесс Б: Применение шаблона (Template Application)

  1. Сканирование новой страницы: Crawler загружает новую страницу сайта.
  2. Применение Site Template: Система использует Site Template для идентификации и удаления Boilerplate и для извлечения Posts.
  3. Аннотирование: Извлеченные посты структурируются и аннотируются согласно соответствующим Post-type Templates.
  4. Индексирование: Структурированные данные передаются в индекс.

Какие данные и как использует

Данные на входе

Патент фокусируется на анализе структуры страниц для извлечения контента.

  • Технические/Структурные факторы: Основные данные для анализа. Система анализирует структуру страниц (DOM-дерево), HTML-теги, их иерархию, расположение и форматирование элементов. Схожесть структуры используется для разделения на Boilerplate и Posts, а также для агрегации.
  • Контентные факторы: Текстовое содержимое элементов используется на этапе анализа постов (Post Analyzer) для аннотирования. Система ищет паттерны в контенте, соответствующие Annotation Criteria (например, форматы дат, имена/никнеймы).

Какие метрики используются и как они считаются

Патент не приводит конкретных формул для расчета схожести, но описывает используемые метрики и методы:

  • Метрики схожести (Similarity Measures): Используются для группировки страниц (по Boilerplate) и постов (по Post-type). Эти метрики оценивают структурное сходство между DOM-деревьями или их частями. В патенте упоминается возможность использования техник, основанных на "Tree Edit Distance" (расстояние редактирования дерева) для определения схожести.
  • Пороговые значения схожести (Similarity Thresholds): Используются для определения, достаточно ли похожи два элемента для их группировки или слияния в шаблон. Пороги настраиваются для баланса между точностью (Precision) и полнотой (Recall) шаблона.
  • Анализ согласованности и Паттернов (Consistency Analysis / Pattern Recognition): Используется Post Analyzer для идентификации элементов поста. Система анализирует расположение и паттерн (формат) данных на нескольких страницах. Например, для дат система выбирает наиболее правдоподобный паттерн, проверяя валидность данных (например, отличая MM/DD от DD/MM, найдя примеры с числами больше 12 в первом блоке).

Выводы

  1. Автоматизация извлечения UGC: Патент описывает масштабируемый способ понимания структуры сайтов с UGC без ручной настройки под каждый сайт. Это позволяет Google эффективно индексировать форумы и аналогичные ресурсы.
  2. Важность отделения контента от шума: Ключевым элементом является способность системы отличать основной контент (Posts) от статического окружения (Boilerplate). Точность этого разделения напрямую влияет на качество индексации и оценку релевантности.
  3. Учет вариативности структуры (Post-types): Система разработана с учетом того, что посты на одном сайте могут иметь разную структуру (например, в зависимости от статуса пользователя). Создание отдельных Post-type Templates позволяет точно извлекать данные из всех вариантов.
  4. Структура первична для извлечения: Первичная идентификация и группировка Boilerplate и Posts основана в первую очередь на структурной схожести (HTML/DOM), а не на семантике контента.
  5. Точность метаданных через анализ паттернов: Система использует анализ паттернов и эвристики на множестве примеров для точного аннотирования метаданных (автор, дата), что критично для последующих этапов ранжирования (например, оценки свежести).

Практика

Best practices (это мы делаем)

  • Обеспечение консистентности структуры сайта (Consistency): Используйте постоянную и чистую HTML-структуру для Boilerplate (навигация, сайдбары) на всех страницах одного типа. Это поможет системе точно определить Boilerplate Template и сгруппировать страницы.
  • Четкое структурное выделение UGC: Посты, комментарии или отзывы должны быть реализованы как повторяющиеся, структурно идентичные блоки. Используйте семантическую разметку (например, <article> для каждого поста), чтобы помочь Page Splitter отделить их от Boilerplate.
  • Консистентность типов постов: Если на сайте есть разные типы постов (например, ответ эксперта и комментарий пользователя), убедитесь, что каждый тип имеет уникальную и постоянную структуру. Это позволит системе корректно сгенерировать отдельные Post-type Templates.
  • Стандартизация метаданных: Используйте консистентные и недвусмысленные форматы для дат и времени (например, ISO 8601, желательно в теге <time> с атрибутом datetime). Размещайте автора и дату в одних и тех же местах внутри структуры поста. Это повысит точность работы Post Analyzer.
  • Применение микроразметки (Schema.org): Хотя система работает без нее, использование структурированных данных (например, DiscussionForumPosting, Comment, QAPage) предоставляет прямые сигналы и гарантирует правильную интерпретацию данных, дополняя автоматическое извлечение.

Worst practices (это делать не надо)

  • Частое изменение или непоследовательность структуры Boilerplate: Постоянный редизайн, A/B тестирование структуры навигации или использование разного Boilerplate на однотипных страницах может помешать системе создать стабильный шаблон.
  • Смешивание контента и Boilerplate: Вставка рекламы, навигационных ссылок или блоков "похожие посты" внутрь основного потока UGC таким образом, что они структурно неотличимы от постов. Это может привести к индексации шума как части UGC.
  • Неконсистентное форматирование постов: Использование разных HTML-структур или динамически меняющихся классов CSS для одного и того же типа поста затруднит агрегацию и создание Post-type Template.
  • Использование неоднозначных форматов дат: Использование форматов типа XX/XX/XX или относительного времени («вчера») без технической разметки усложняет точное аннотирование даты.

Стратегическое значение

Патент подчеркивает важность технического SEO и качества веб-разработки для успешной индексации. Google не просто читает текст; он активно анализирует структуру сайта, чтобы понять назначение различных блоков. Для владельцев сайтов с UGC стратегически важно обеспечить техническую возможность для Google легко извлекать и структурировать этот контент. Чистая, консистентная и семантически верная структура напрямую влияет на то, насколько полно и точно пользовательский контент будет представлен в индексе Google.

Практические примеры

Сценарий: Оптимизация структуры форума для лучшего извлечения данных

  1. Анализ текущей структуры: SEO-специалист обнаруживает, что посты на форуме индексируются с "мусором" (например, включают кнопки "Пожаловаться", "Цитировать" как часть текста поста), а даты публикации определяются неверно.
  2. Применение принципов патента: Это означает, что Site Template, сгенерированный Google, неточно определяет границы основного текста и неверно аннотирует дату.
  3. Действия по оптимизации:
    • Пересмотреть HTML-шаблоны форума.
    • Убедиться, что основной текст поста заключен в отдельный контейнер (например, <div class="post-content">), а служебные кнопки структурно отделены.
    • Внедрить стандартный формат даты, используя тег <time datetime="..."> с указанием времени в формате ISO 8601.
    • Убедиться, что структура постов одинакова на всех страницах тредов.
  4. Ожидаемый результат: Система Google при следующем обновлении Site Template сможет более точно извлечь и аннотировать текст, автора и дату. Это улучшит качество индексации, позволит лучше оценивать свежесть контента и может привести к более информативным сниппетам в выдаче.

Вопросы и ответы

Что такое «Boilerplate» и почему его отделение так важно для SEO?

Boilerplate — это повторяющиеся на многих страницах элементы: шапка сайта, навигационное меню, сайдбары, футер, рекламные блоки. Отделение Boilerplate критически важно, так как позволяет поисковой системе идентифицировать основной уникальный контент страницы (в данном патенте — Posts). Если система не сможет этого сделать, она может ошибочно придавать вес тексту из навигации или рекламы при определении релевантности страницы, что ухудшает ранжирование.

Как система определяет, что является постом (Post), а что — статическим контентом (Boilerplate)?

Page Splitter анализирует структуру страницы (DOM-дерево) и сравнивает её со структурами других страниц сайта. Boilerplate определяется как части структуры, которые являются общими или очень похожими на всех анализируемых страницах. Posts определяются как повторяющиеся структурные блоки, количество и содержание которых различается на разных страницах.

Что такое «Post-type» и зачем системе их различать?

Post-type (тип поста) — это различие в структуре или формате постов на одном сайте. Например, пост модератора может иметь дополнительный блок, а пост обычного пользователя — нет; или первый пост темы отличается от ответов. Различение типов позволяет системе создать отдельный точный шаблон (Post-type Template) для каждого варианта, что гарантирует точность извлечения данных независимо от типа поста.

Как система определяет автора и дату, если они не размечены?

Этим занимается Post Analyzer. Он анализирует все примеры постов определенного типа и ищет паттерны, соответствующие Annotation Criteria. Он ищет текстовые блоки, похожие на имена, и числовые блоки, похожие на форматы дат. Система проверяет согласованность этих данных на всем наборе постов (например, валидируя формат даты), чтобы выбрать наиболее вероятную интерпретацию.

Влияет ли описанный в патенте механизм на ранжирование?

Напрямую нет. Это патент об извлечении данных (Extraction) и индексировании (Indexing), а не о ранжировании (Ranking). Однако точное извлечение данных является необходимым условием для качественного ранжирования. Если система не может точно определить текст поста, его автора или дату, то системы ранжирования не получат корректных сигналов (например, свежести, релевантности, E-E-A-T), что косвенно ухудшит позиции сайта.

Что произойдет, если я сделаю редизайн своего форума?

При значительном изменении структуры существующий Site Template перестанет работать корректно. Система Google должна будет обнаружить эти изменения и запустить процесс генерации нового Site Template на основе новой структуры. В этот переходный период точность извлечения данных может снизиться, что потенциально повлияет на индексацию нового контента.

Как обеспечить максимальную точность извлечения данных моим сайтом?

Ключ к точности — консистентность и чистота кода. Убедитесь, что все однотипные страницы имеют идентичный Boilerplate (навигацию, структуру), и что все посты имеют чистую, предсказуемую HTML-структуру с четко выделенными элементами для метаданных (автор, дата) и основного текста. Использование семантической верстки также помогает.

Поможет ли использование микроразметки (Schema.org) этой системе?

Патент описывает метод, который работает без микроразметки, полагаясь на структурный анализ. Однако внедрение микроразметки (например, для Comment или DiscussionForumPosting) предоставляет явные сигналы о том, где находится пост, автор и дата. Это значительно повышает надежность извлечения данных и является рекомендуемой практикой, дополняющей автоматический анализ.

Может ли система ошибочно принять рекламу между постами за UGC?

Да, это возможно, если рекламные блоки структурно похожи на посты и появляются в той же области страницы. Чтобы избежать этого, необходимо убедиться, что верстка рекламных блоков существенно отличается от верстки UGC, и что они четко идентифицируются как не основной контент (например, размещением вне основного потока контента).

Применяется ли эта технология только к форумам?

Нет. Хотя форумы являются основным примером, технология применима к любому сайту, где есть повторяющийся структурированный пользовательский контент. Это включает комментарии к статьям в СМИ, блоги, сайты вопросов и ответов (Q&A) и разделы отзывов о товарах.

Похожие патенты

Как Google автоматически распознает и извлекает структурированные данные с сайтов-классифайдов и шаблонных сайтов
Google использует систему для автоматического распознавания сайтов, организованных по шаблону (например, классифайды, сайты недвижимости, форумы). Система анализирует структуру URL и HTML-код для выявления повторяющихся паттернов и "динамических областей". На основе этого создаются шаблоны для извлечения данных (например, цена, местоположение, атрибуты), которые затем сохраняются в структурированном виде для использования в поиске.
  • US8682881B1
  • 2014-03-25
  • Структура сайта

  • Краулинг

Как Google извлекает структурированные данные путем анализа и запоминания шаблонов DOM-дерева сайта
Google использует гибридную систему для извлечения структурированных данных (например, списков эпизодов, треков альбома) с сайтов, даже если они не используют микроразметку. Система сначала применяет эвристики для поиска данных, проверяет их точность путем сравнения с другими источниками, а затем анализирует DOM-дерево сайта, чтобы запомнить шаблон расположения этих данных. Это позволяет Google эффективно извлекать информацию, понимая структуру HTML-шаблонов сайта.
  • US8954438B1
  • 2015-02-10
  • Структура сайта

  • Индексация

Как Google использует внутренние ссылки и структуру DOM для генерации шаблонов сайта и извлечения структурированных сниппетов
Google анализирует повторяющиеся блоки внутренних ссылок (например, списки товаров). Если текст возле ссылки на исходной странице совпадает с текстом на целевой странице, Google определяет DOM-структуру этого текста и создает шаблон домена. Этот шаблон позволяет автоматически извлекать ключевую информацию (например, цену и характеристики) для сниппетов со всех однотипных страниц сайта, даже без микроразметки.
  • US9971746B2
  • 2018-05-15
  • Структура сайта

  • SERP

  • Ссылки

Как Google идентифицирует и игнорирует навигацию, футеры и рекламу на странице для понимания основного контента
Google использует технологию анализа структуры документа (DOM-дерева) для отделения основного содержания страницы от шаблонных элементов (boilerplate) — таких как навигационные меню, футеры, списки ссылок и рекламные блоки. Система анализирует геометрические, структурные и иерархические признаки элементов (например, размер, форму, количество дочерних ссылок, расположение), чтобы классифицировать контент как шаблонный и исключить его при анализе тематики страницы.
  • US8898296B2
  • 2014-11-25
  • Структура сайта

  • Семантика и интент

  • Техническое SEO

Как Google идентифицирует и игнорирует шаблонный контент (Boilerplate) для фокусировки на основном содержании страницы
Google использует методы для отделения основного содержания страницы от повторяющихся элементов (навигация, футеры, копирайты). Анализируя частоту повторений на сайте, пространственное расположение блоков, окружающий код и цели ссылок, система классифицирует контент как шаблонный (boilerplate) и исключает его из индексации или значительно понижает его вес.
  • US8041713B2
  • 2011-10-18
  • Индексация

  • Техническое SEO

  • Структура сайта

Популярные патенты

Как Google анализирует распределение качества входящих ссылок для классификации и понижения сайтов в выдаче
Google использует систему для оценки качества ссылочного профиля сайта. Система фильтрует входящие ссылки (удаляя шаблонные и дублирующиеся с одного домена), группирует оставшиеся по качеству источника (например, Vital, Good, Bad) и вычисляет взвешенный «Link Quality Score». Если доля низкокачественных ссылок слишком велика, сайт классифицируется как низкокачественный и понижается в результатах поиска.
  • US9002832B1
  • 2015-04-07
  • Ссылки

  • Антиспам

  • SERP

Как Google использует клики (CTR) и время на сайте (Click Duration) для выявления спама и корректировки ранжирования в тематических выдачах
Google использует итеративный процесс для улучшения классификации контента и выявления спама, анализируя поведенческие сигналы (CTR и продолжительность клика). Если пользователи быстро покидают документ или игнорируют его в выдаче, он помечается как спам или нерелевантный теме. Эти данные затем используются для переобучения классификатора и корректировки ранжирования для будущих тематических запросов.
  • US7769751B1
  • 2010-08-03
  • Поведенческие сигналы

  • Антиспам

  • SERP

Как Google персонализирует мобильную выдачу, повышая в ранжировании приложения, которые пользователь часто использует (Affinity Score)
Google рассчитывает «Affinity Score» для мобильных приложений на основе того, как часто и долго пользователь их использует (относительное вовлечение). При поиске с мобильного устройства система повышает в ранжировании результаты (deep links), ведущие в приложения с высоким Affinity Score, делая выдачу более персонализированной.
  • US10248698B2
  • 2019-04-02
  • Персонализация

  • Поведенческие сигналы

  • SERP

Как Google использует данные о кликах разных групп пользователей (популяций) для локализации и персонализации ранжирования
Google адаптирует результаты поиска, анализируя, как разные группы пользователей (популяции), определяемые по местоположению, языку или демографии, взаимодействуют с выдачей. Система рассчитывает «Сигнал Популяции» (Population Signal) на основе исторических кликов группы и корректирует ранжирование. Также используется механизм сглаживания для компенсации нехватки данных по конкретным группам.
  • US7454417B2
  • 2008-11-18
  • Персонализация

  • Поведенческие сигналы

  • SERP

Как Google определяет, действительно ли новость посвящена сущности, и строит хронологию событий
Google использует систему для определения релевантности новостей конкретным объектам (сущностям, событиям, темам). Система анализирует кластеры новостных статей (коллекции), оценивая общий интерес к объекту (поисковые запросы, социальные сети) и значимость объекта внутри коллекции (упоминания в заголовках, центральность в тексте). Ключевой механизм — оценка уместности событий: система проверяет, соответствует ли событие типу объекта (например, «новый метод лечения» для болезни), чтобы отфильтровать мимолетные упоминания и создать точную хронологию новостей.
  • US9881077B1
  • 2018-01-30
  • Семантика и интент

  • Поведенческие сигналы

Как Google рассчитывает «VisualRank» для изображений и медиафайлов, используя виртуальные ссылки на основе схожести и поведения пользователей
Google использует алгоритм (концептуально называемый VisualRank) для ранжирования изображений и других медиафайлов путем создания «виртуальных ссылок» между ними. Эти ссылки основаны на визуальной схожести контента, данных о кликах пользователей и контексте размещения (URL analysis). Это позволяет оценить качество и авторитетность медиафайлов даже без явных гиперссылок, при этом система активно избегает показа слишком похожих (дублирующихся) результатов.
  • US8732187B1
  • 2014-05-20
  • Ссылки

  • Мультимедиа

  • Поведенческие сигналы

Как Google предсказывает ваш следующий запрос на основе контента, который вы просматриваете, и истории поиска других пользователей
Google использует систему контекстной информации, которая анализирует контент на экране пользователя (например, статью или веб-страницу) и предсказывает, что пользователь захочет искать дальше. Система не просто ищет ключевые слова на странице, а использует исторические данные о последовательностях запросов (Query Logs). Она определяет, что другие пользователи искали после того, как вводили запросы, связанные с текущим контентом, и предлагает эти последующие запросы в качестве рекомендаций.
  • US20210232659A1
  • 2021-07-29
  • Семантика и интент

  • Поведенческие сигналы

  • Персонализация

Как Google вычисляет оценку качества сайта на основе соотношения брендового интереса и общего поискового трафика
Google использует поведенческие данные для расчета оценки качества сайта (Site Quality Score). Метрика основана на соотношении количества уникальных запросов, направленных конкретно на сайт (брендовый/навигационный интерес), к общему количеству уникальных запросов, которые привели пользователей на этот сайт. Высокий показатель этого соотношения свидетельствует о высоком качестве и авторитетности сайта.
  • US9031929B1
  • 2015-05-12
  • Поведенческие сигналы

  • EEAT и качество

Как Google подменяет ссылки в выдаче, чтобы обойти медленные редиректы на мобильные версии сайтов
Google оптимизирует скорость загрузки, определяя, когда клик по результату поиска вызовет условный редирект (например, с десктопной версии на мобильную). Система заранее подменяет исходную ссылку в выдаче на конечный URL редиректа. Это позволяет устройству пользователя сразу загружать нужную страницу, минуя промежуточный запрос и экономя время.
  • US9342615B2
  • 2016-05-17
  • Техническое SEO

  • SERP

  • Ссылки

Как Google использует погоду, время и местоположение для понимания истинного намерения пользователя и адаптации поисковой выдачи
Google анализирует, как физическое окружение (погода, время, местоположение) влияет на то, что ищут пользователи. Система выявляет корреляции между средой и поведением пользователей в прошлом (включая длительность кликов), чтобы лучше понять текущий интент многозначных запросов. Затем она переранжирует выдачу или переписывает запрос для предоставления наиболее релевантных результатов и рекламы.
  • US8898148B1
  • 2014-11-25
  • Семантика и интент

  • Поведенческие сигналы

  • Персонализация

seohardcore