Как Google автоматически распознает и извлекает структурированные данные с сайтов-классифайдов и шаблонных сайтов

SYSTEM AND METHOD FOR EXTRACTING STRUCTURED DATA FROM CLASSIFIED WEBSITES (Система и метод извлечения структурированных данных с классифайдов)

US8682881B1
Google LLC
2011-09-07
2014-03-25

Google использует систему для автоматического распознавания сайтов, организованных по шаблону (например, классифайды, сайты недвижимости, форумы). Система анализирует структуру URL и HTML-код для выявления повторяющихся паттернов и "динамических областей". На основе этого создаются шаблоны для извлечения данных (например, цена, местоположение, атрибуты), которые затем сохраняются в структурированном виде для использования в поиске.

Какую проблему решает

Патент решает проблему эффективного сбора и структурирования информации с веб-сайтов, имеющих шаблонную организацию и частое обновление контента, таких как классифайды (например, Craigslist), сайты недвижимости или вакансий. Ручное создание правил извлечения (wrappers) для каждого такого сайта не масштабируется. Цель изобретения — автоматизировать процесс идентификации таких сайтов, понимания их структуры и извлечения данных в структурированном формате (Attribute-Value Pairs).

Что запатентовано

Запатентована система (Classified Site Analysis Server System) для автоматического извлечения структурированных данных. Система идентифицирует сайты-классифайды, используя эвристики (например, географическую локализацию в URL) и классификаторы машинного обучения. Затем она анализирует структуру сайта (Главная -> Страница города -> Страница листинга -> Страница деталей), определяет динамические области на страницах и создает модели (шаблоны) для извлечения конкретных типов информации. Эти шаблоны используются для регулярного сканирования и наполнения базы структурированных данных.

Как это работает

Система работает в несколько этапов:

Идентификация сайта: Анализируются URL и контент для поиска признаков классифайда (гео-локализация, ключевые слова, шаблонная структура). Используются классификаторы (Classifiers), обученные на известных сайтах.
Идентификация типов страниц: Система распознает страницы листингов (по повторяющимся строкам/паттернам) и страницы деталей (по ссылкам из листингов).
Генерация моделей (Шаблонов): Для каждого типа страниц определяются динамические области (контент, который меняется от записи к записи) и типы данных в них (цена, адрес и т.д.). Создается шаблон извлечения.
Извлечение данных: Краулеры используют эти шаблоны для извлечения контента из динамических областей и сохранения его в структурированном хранилище (Extracted Data Store).

Актуальность для SEO

Высокая. Извлечение структурированных данных (Information Extraction) из шаблонных сайтов является фундаментальной задачей для поисковых систем. Механизмы, описанные в патенте, лежат в основе того, как Google обрабатывает сайты электронной коммерции, недвижимости, вакансий для создания обогащенных результатов (Rich Results) и вертикальных поисковых сервисов (Google Shopping, Google Jobs). Хотя конкретные ML-модели могли эволюционировать, принципы остаются актуальными.

Важность для SEO

Патент имеет высокое значение (7.5/10) для SEO-стратегий сайтов, основанных на шаблонах (E-commerce, агрегаторы, листинги, директории). Он описывает инфраструктурный механизм, определяющий, насколько эффективно Google может извлечь и структурировать информацию с сайта. Если система не сможет корректно определить шаблоны и динамические области, ключевая информация о товарах или услугах может быть не извлечена, что снизит видимость сайта в специализированных блоках выдачи.

Термины и определения

Candidate Site (Сайт-кандидат): Веб-сайт, предварительно идентифицированный как потенциальный классифайд на основе эвристик (например, структура URL или наличие определенных терминов).
City Page (Страница города/региона): Страница на классифайде, агрегирующая контент для определенной географической области (например, sf.craigslist.org).
Classified Site Models (Модели классифайдов): База данных, хранящая шаблоны (структуру, динамические области, типы данных) для уже известных классифайдов. Используется для обучения классификаторов и идентификации новых сайтов.
Classifiers (Классификаторы): Алгоритмы машинного обучения (упоминаются WinNOW, Naive Bayes, SVM и др.), используемые для оценки вероятности того, что сайт-кандидат или страница-кандидат является классифайдом/листингом/детальной страницей.
Details Page (Страница деталей): Страница, содержащая подробную информацию об одной конкретной записи (объявлении, товаре). Обычно доступна по ссылке со страницы листинга.
Dynamic Regions (Динамические области): Области на веб-странице, контент которых меняется от страницы к странице одного типа (например, цена товара, описание), в отличие от статических областей (навигация, футер).
Extracted Data Store (Хранилище извлеченных данных): База данных, где извлеченный контент хранится в структурированном виде (пары атрибут-значение).
Geographically Localized (Географически локализованный): Характеристика сайта, указывающая на его привязку к конкретным регионам. Часто проявляется в структуре URL (например, {cityname}.domain.com).
Heuristics (Эвристики): Набор правил и признаков для предварительной идентификации классифайдов (например, наличие определенных слов, структура URL).
Listing Page (Страница листинга): Страница, содержащая список записей (объявлений, товаров), часто в виде таблицы или повторяющихся блоков. Характеризуется наличием repeating pattern.
Page Models / Templates (Модели страниц / Шаблоны): Структурированное описание страницы, идентифицирующее динамические области и типы информации, содержащиеся в них.
User Access Data (Данные о доступе пользователей): Данные об интернет-активности пользователей (например, собранные через тулбары), включая поисковые запросы, просмотры и клики. Используются для понимания структуры сайта и навигации между страницами.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод автоматического извлечения данных.

Система определяет, что веб-сайт является "area specific classified website" (классифайдом, специфичным для региона). Ключевое условие: определение основано, по крайней мере частично, на том, что сайт является geographically localized.
Система получает доступ к моделям страниц других классифайдов.
Идентифицируется Listing Page на новом сайте на основе схожести с этими моделями.
Создается модель (listing page model) для этой страницы листинга. Процесс создания включает:
- Идентификацию одной или нескольких dynamic regions.
- Определение типа информации в каждой динамической области.
- Создание и сохранение шаблона (listing page template), который описывает эти области и типы данных.
Данные извлекаются с сайта с использованием этой модели.
Извлеченные данные сохраняются в базе данных для ответа на запросы пользователей (classified site query).

Claim 2 (Зависимый): Дополняет Claim 1, указывая, что система также идентифицирует Details Page, связанную со страницей листинга, создает для нее модель и извлекает данные с ее помощью.

Claim 5 (Зависимый): Указывает, что система может идентифицировать дополнительные страницы (например, City Pages или страницы категорий) на основе user access data (данных о поведении пользователей) и создавать модели для них.

Claim 9 (Зависимый): Уточняет, что определение сайта как классифайда также может основываться на наборе эвристик, включающем определение того, содержит ли сайт "common classified site terms" (общие термины классифайдов).

Claim 10 (Зависимый): Уточняет, что Listing Page идентифицируется, по крайней мере частично, по наличию набора строк, демонстрирующих "repeating pattern" (повторяющийся паттерн).

Где и как применяется

Изобретение является частью инфраструктуры сбора и обработки данных Google.

CRAWLING – Сканирование и Сбор данных
Система используется для оптимизации сканирования. Идентификация сайта как классифайда позволяет применить к нему особые политики сканирования (Refresh Policy), так как такие сайты обновляются очень часто. Специализированные краулеры (City Page Crawler, Listing Page Crawler, Detail Page Crawler) используются для эффективного обхода структуры сайта.

INDEXING – Индексирование и извлечение признаков
Основное применение патента. На этом этапе происходит анализ структуры страниц (Page Type Identifier), генерация моделей и шаблонов (Model Generator) и извлечение данных (Data Extractor). Вместо хранения только сырого HTML, система извлекает структурированные данные (пары атрибут-значение) и сохраняет их в Extracted Data Store. Это форма глубокого извлечения признаков и структурирования контента.

METASEARCH – Метапоиск и Смешивание
Извлеченные структурированные данные используются для формирования ответов в вертикальном поиске или специализированных блоках выдачи (например, блок вакансий, товаров), агрегируя данные из множества источников.

Входные данные:

Сырой HTML и DOM-структура страниц сайта.
Структура URL сайта.
База существующих моделей классифайдов (Classified Site Models).
Эвристики и ключевые слова (Heuristics).
(Опционально) Данные о поведении пользователей (Access Data).

Выходные данные:

Классификация сайта (является ли он классифайдом).
Новые шаблоны для извлечения данных (Page Templates).
Структурированные данные в формате атрибут-значение (например, Price: $340, Location: Cow Hollow).

На что влияет

Конкретные типы контента и ниши: Патент оказывает критическое влияние на все сайты, использующие шаблонную структуру для представления сущностей. Хотя в патенте акцент сделан на классифайдах, описанные методы применимы к E-commerce (листинги товаров, карточки товаров), сайтам вакансий, агрегаторам билетов, форумам, сайтам рецептов и любым директориям.
Структурные факторы: Влияет на то, как Google интерпретирует HTML/DOM структуру. Сайты с четкими, повторяющимися паттернами и семантической разметкой будут обработаны более эффективно.
Географические факторы: Система активно ищет признаки географической локализации в URL как индикатор того, что сайт может быть классифайдом.

Когда применяется

Триггеры активации (Идентификация): Алгоритм идентификации запускается, когда эвристики указывают на то, что сайт может быть классифайдом. Ключевые триггеры:
- Структура URL вида {cityname}.domain.com (географическая локализация).
- Наличие в доменном имени известных терминов классифайдов.
- Наличие на страницах ключевых слов, характерных для объявлений (цена, спальни, продажа и т.д.).
Триггеры активации (Извлечение): Процесс моделирования и извлечения активируется после того, как сайт классифицирован. Извлечение происходит во время регулярного сканирования сайта.

Пошаговый алгоритм

Патент описывает два основных процесса: Идентификацию классифайда и Извлечение данных.

Процесс А: Идентификация классифайда (Method 900)

Определение сайта-кандидата: Система определяет, является ли сайт потенциальным классифайдом. Это делается путем проверки:
- Содержит ли доменное имя известные термины.
- Является ли сайт географически локализованным (например, анализ URL на наличие паттерна {cityname}.domain.com).
Определение кандидатов в страницы листинга: Поиск страниц с табличной структурой или повторяющимися паттернами (repeating pattern) в HTML.
Определение кандидатов в страницы деталей: Поиск страниц, на которые ведут ссылки из повторяющихся блоков на страницах листинга.
Расчет оценки листинга (Listing Page Score): Использование классификатора для оценки кандидатов в листинги. Классификатор анализирует степень схожести ключевых слов и URL-токенов кандидата с корпусом известных классифайдов. Учитываются веса ключевых слов.
Расчет оценки деталей (Detail Page Score): Аналогичный процесс для кандидатов в страницы деталей с использованием соответствующего классификатора.
Расчет оценки сайта (Candidate Site Score): Агрегация оценок листингов и деталей для получения общей оценки сайта. В патенте приводится пример расчета: $W(Site) \sim C(\{l\}) + C(\{d\})$ (где C - классификатор, {l} и {d} - наборы страниц листингов и деталей).
Принятие решения: Если оценка сайта превышает заданный порог, сайт определяется как классифайд.

Процесс Б: Моделирование и Извлечение данных (Method 800)

Идентификация типов страниц: После подтверждения статуса сайта система идентифицирует конкретные страницы листингов и деталей. Дополнительные страницы (City Pages) могут быть идентифицированы с помощью User Access Data.
Создание моделей (Генерация шаблонов): Для каждого типа страниц (листинг, детали):
- Идентификация Dynamic Regions (например, с помощью DOM-анализа).
- Определение типа информации в каждой динамической области (например, цена, количество спален).
- Создание и сохранение шаблона (Page Template), фиксирующего эту структуру.
Извлечение данных:
- Краулер получает доступ к странице.
- Система загружает соответствующий шаблон.
- Контент извлекается из Dynamic Regions, определенных в шаблоне.
Хранение данных: Извлеченный контент сохраняется в Extracted Data Store как значение для соответствующего типа информации (атрибута).

Какие данные и как использует

Данные на входе

Система использует несколько типов данных для идентификации сайтов и извлечения информации:

Технические факторы (URL): Структура URL критически важна. Анализируются URL-токены. Наличие географической локализации (например, {cityname}.domain.com) является сильным сигналом для идентификации сайта-кандидата. Также анализируются токены, указывающие на категории.
Структурные факторы (HTML/DOM): Анализируется структура документа (DOM-анализ) для выявления повторяющихся паттернов (repeating pattern) на страницах листинга и для идентификации Dynamic Regions на всех типах страниц.
Контентные факторы (Keywords): Ключевые слова на странице используются классификаторами для определения типа сайта и типа страницы. Упоминается, что разные ключевые слова имеют разный вес (например, "bedroom" и "price" имеют высокий вес для недвижимости).
Пользовательские факторы (Access Data): Данные об интернет-активности группы пользователей (поиск, просмотр, клики) могут использоваться для понимания структуры сайта, например, для идентификации того, какие страницы пользователи посещают до или после страницы листинга.

Какие метрики используются и как они считаются

Listing Page Score (Оценка страницы листинга): Метрика, указывающая на вероятность того, что страница-кандидат является листингом классифайда. Рассчитывается классификатором (например, WinNOW, Naive Bayes, SVM), обученным на корпусе известных сайтов, на основе ключевых слов и URL-токенов.
Detail Page Score (Оценка страницы деталей): Аналогичная метрика для страниц деталей.
Candidate Site Score (W(Site)): Агрегированная оценка сайта, основанная на комбинации Listing Page Score и Detail Page Score.
Threshold (Порог): Предопределенное значение, которое должна превысить Candidate Site Score, чтобы сайт был признан классифайдом. Патент предполагает, что порог может быть установлен на основе ручного анализа или статистически (например, 70% от средней оценки известного корпуса).

Автоматическое структурирование данных: Патент описывает инфраструктуру Google для автоматического распознавания и извлечения структурированных данных с шаблонных сайтов без необходимости ручной разметки или использования Schema.org (хотя Schema.org помогает).
Идентификация через структуру и URL: Система активно ищет структурные подсказки для идентификации типа сайта. Географическая локализация в URL (city.domain.com) и наличие повторяющихся паттернов (repeating patterns) в HTML являются ключевыми сигналами.
Машинное обучение для классификации: Идентификация не полагается только на эвристики, но использует ML-классификаторы, обученные на существующих моделях, для оценки новых сайтов на основе их контента (ключевых слов) и структуры.
Ключевая роль "Динамических областей": Основой извлечения является способность системы отличать статический контент (шаблон сайта) от динамического (данные о сущности) и определять тип данных в этих областях.
Использование поведенческих данных для понимания структуры: Патент явно указывает на возможность использования данных об активности пользователей (User Access Data) для определения взаимосвязей между страницами и идентификации их типов (например, определение City Page по тому, что пользователи часто переходят с нее на Listing Page).
Основа для вертикального поиска: Описанный механизм является инфраструктурной основой для создания специализированных поисковых вертикалей, агрегирующих данные из множества источников.

Best practices (это мы делаем)

Обеспечение абсолютной консистентности шаблонов: Для сайтов, основанных на шаблонах (E-commerce, недвижимость, агрегаторы), критически важно использовать идентичную HTML-структуру (DOM-дерево) для всех страниц одного типа (например, всех карточек товаров). Это облегчает системе идентификацию Dynamic Regions и создание надежного шаблона извлечения.
Использование семантической и чистой HTML-разметки: Используйте осмысленные HTML-теги и CSS-классы для ключевых элементов (цена, атрибуты, заголовки). Это помогает системе определить тип информации в Dynamic Regions. Четкое отделение контента от шаблона (boilerplate) в DOM упрощает анализ.
Четкая структура листингов: Страницы листингов должны иметь явно выраженный повторяющийся паттерн (repeating pattern). Каждая запись в листинге должна иметь схожую HTML-структуру и содержать ссылку на соответствующую страницу деталей.
Логичная иерархия и структура URL: Используйте понятную структуру URL, отражающую иерархию сайта (Категория -> Листинг -> Деталь). Если сайт ориентирован на регионы, использование географических идентификаторов в URL (как описано в патенте: city.domain.com или domain.com/city/) может помочь системе быстрее понять организацию контента.
Дополнение микроразметкой (Schema.org): Хотя патент описывает автоматическое извлечение, использование Schema.org (Product, LocalBusiness, JobPosting и т.д.) устраняет неоднозначность и гарантирует, что система корректно определит типы данных в динамических областях.

Worst practices (это делать не надо)

Использование разных шаблонов для однотипных страниц: Применение A/B тестов, изменяющих структуру HTML, или использование разных вариантов дизайна для страниц одного типа может помешать системе создать стабильный шаблон извлечения.
Сложная или обфусцированная структура HTML: Избыточная вложенность элементов, несемантическая верстка (например, <div> для всего) или динамическая генерация HTML, создающая неконсистентный DOM, затрудняют идентификацию Dynamic Regions.
Хранение ключевых данных в неструктурированном виде: Размещение важных атрибутов (цена, характеристики) внутри больших блоков неструктурированного текста или в изображениях снижает вероятность их успешного извлечения.
Отсутствие четких листингов: Страницы категорий, которые не имеют повторяющегося паттерна или четких ссылок на детальные страницы, могут быть не распознаны как Listing Pages.

Стратегическое значение

Патент подтверждает стратегическую важность технического SEO и качества структуры сайта для успешного индексирования. Google стремится понять контент на уровне сущностей и атрибутов, а не просто на уровне ключевых слов. Для шаблонных сайтов способность Google эффективно извлекать структурированные данные напрямую влияет на их представление в поиске, включая обогащенные результаты и вертикальные сервисы. Консистентность и чистота кода являются не просто рекомендацией, а необходимым условием для работы систем извлечения данных.

Практические примеры

Сценарий: Оптимизация сайта недвижимости для лучшего извлечения данных

Анализ структуры URL: Убедиться, что URL отражают географию и тип объекта, например: site.com/new-york/rentals/apartment-id123. Это соответствует эвристикам патента.
Оптимизация страницы листинга (Listing Page): Проверить шаблон листинга. Убедиться, что каждый объект в списке использует идентичный блок HTML (repeating pattern). Например:
```
<div class="listing-item">
  <span class="price">$2500</span>
  <span class="bedrooms">2BR</span>
  <a href="/apartment-id123">Название объекта</a>
</div>
```
Это позволяет системе легко идентифицировать динамические области (price, bedrooms, ссылка).
Оптимизация страницы деталей (Details Page): Убедиться, что шаблон карточки объекта консистентен. Ключевые атрибуты должны находиться в предсказуемых местах в DOM и иметь четкую разметку.
Результат: Система Google успешно идентифицирует сайт, создает надежные шаблоны и извлекает структурированные данные (цены, количество спален, локации), что повышает шансы на появление в специализированных блоках выдачи по запросам о недвижимости.

Заменяет ли этот механизм необходимость внедрения микроразметки Schema.org?

Нет, не заменяет. Патент описывает, как Google пытается автоматически извлечь данные, анализируя шаблоны страниц. Это страховочный механизм. Внедрение Schema.org устраняет необходимость для Google "угадывать" структуру и типы данных, предоставляя информацию в явном виде. Для максимальной эффективности рекомендуется использовать и чистую HTML-структуру (как описано в патенте), и микроразметку Schema.org.

Как понять, успешно ли Google извлекает структурированные данные с моего сайта?

Основным индикатором являются отчеты в Google Search Console в разделе "Улучшения" (Enhancements). Если там появляются отчеты по вашим типам контента (Товары, Вакансии, Мероприятия и т.д.) и количество действительных элементов растет, значит, система успешно структурирует данные. Также косвенным признаком является появление вашего контента в обогащенных результатах (Rich Results) в выдаче.

Что такое "Динамические области" (Dynamic Regions) с точки зрения SEO?

Это те части вашего HTML-кода, которые содержат основную информацию о сущности на странице (цена, название, атрибуты, описание), в отличие от сквозных блоков (меню, сайдбар, футер). SEO-специалисту важно обеспечить, чтобы эти динамические области были четко выделены в DOM, имели консистентную структуру на всех однотипных страницах и содержали семантическую разметку.

Как A/B тестирование дизайна может повлиять на работу этого алгоритма?

Если A/B тестирование значительно изменяет структуру HTML или расположение ключевых элементов на страницах одного типа, это может нарушить консистентность шаблонов. Система может не справиться с созданием стабильного шаблона извлечения, если ей постоянно попадаются разные версии верстки. Рекомендуется проводить A/B тесты, минимально затрагивающие основную структуру DOM.

Насколько важна структура URL, упомянутая в патенте (например, city.domain.com)?

Она важна как один из первичных сигналов для идентификации типа сайта. Патент явно указывает, что географическая локализация в URL используется для определения сайтов-кандидатов. Если ваш сайт имеет региональную привязку, логичная иерархическая структура URL (с указанием города или региона) поможет системе быстрее и точнее понять организацию контента.

Что означает "повторяющийся паттерн" (repeating pattern) для страниц листинга?

Это означает, что каждый элемент в списке (товар, объявление, статья) должен быть обернут в блок HTML, который имеет ту же структуру, последовательность тегов и, желательно, те же CSS-классы, что и соседние элементы. Это позволяет системе понять, что страница является списком однородных сущностей и идентифицировать границы каждой сущности.

Может ли этот механизм извлекать данные, загружаемые через JavaScript (AJAX)?

Патент не детализирует процесс рендеринга, но фокусируется на анализе DOM. Современные поисковые системы выполняют рендеринг JavaScript. Однако, чтобы извлечение было успешным, финальный DOM после рендеринга должен быть консистентным, семантичным и соответствовать требованиям к структуре (наличие динамических областей и повторяющихся паттернов). Задержки при загрузке данных через AJAX могут негативно повлиять на процесс.

Патент упоминает использование данных о поведении пользователей (User Access Data). Как это влияет на SEO?

Это подтверждает, что Google может использовать поведенческие данные для понимания архитектуры сайта. Если пользователи легко находят путь от главной страницы к листингам и далее к детальным страницам, это сигнализирует о логичной структуре сайта. Хорошая внутренняя перелинковка и продуманный UX помогают не только пользователям, но и поисковым системам в интерпретации структуры ресурса.

Применяется ли этот патент только к классифайдам типа Craigslist?

Нет. Хотя классифайды используются как основной пример, описанная технология извлечения данных из шаблонных структур является универсальной. Она применяется к сайтам E-commerce, форумам, сайтам недвижимости, вакансий, рецептов и любым другим ресурсам, где контент организован по предсказуемому шаблону.

Что делать, если структура моего сайта сложная и не соответствует модели City -> Listing -> Detail?

Ключевым элементом патента является не конкретная иерархия, а сам принцип автоматического создания шаблонов через идентификацию Dynamic Regions и Repeating Patterns. Даже при сложной структуре необходимо обеспечить консистентность шаблонов для однотипных страниц и четкость HTML-разметки, чтобы система могла извлечь данные.

Как Google автоматизирует извлечение структурированных данных с веб-страниц для создания списков ключевых слов

Патент Google описывает инструмент для автоматического извлечения данных со структурированных веб-страниц. Пользователь выбирает два примера элемента (например, названия товаров), а инструмент анализирует структуру документа (DOM-дерево), находит шаблон и автоматически извлекает все остальные элементы, соответствующие этому шаблону. Это используется для быстрого сбора ключевых слов для рекламных кампаний.

US8341176B1
2012-12-25

Структура сайта

Как Google извлекает структурированные данные путем анализа и запоминания шаблонов DOM-дерева сайта

Google использует гибридную систему для извлечения структурированных данных (например, списков эпизодов, треков альбома) с сайтов, даже если они не используют микроразметку. Система сначала применяет эвристики для поиска данных, проверяет их точность путем сравнения с другими источниками, а затем анализирует DOM-дерево сайта, чтобы запомнить шаблон расположения этих данных. Это позволяет Google эффективно извлекать информацию, понимая структуру HTML-шаблонов сайта.

US8954438B1
2015-02-10

Структура сайта
Индексация

Как Google автоматически создает шаблоны для извлечения структурированных данных из форумов и UGC-сайтов

Google использует систему для автоматического понимания структуры сайтов с пользовательским контентом (UGC), таких как форумы. Система разделяет страницы на статичные элементы («boilerplate») и динамический контент («posts»), определяет различные типы постов (например, посты модераторов и обычных пользователей) и создает шаблоны для точного извлечения и аннотации ключевых данных: автора, даты и основного текста.

US8458584B1
2013-06-04

Краулинг
Структура сайта

Как Google использует атрибуты и метки от владельцев контента для структурирования данных и динамической фильтрации результатов поиска (Google Base)

Патент описывает систему (исторически Google Base), позволяющую владельцам загружать структурированные данные и определять собственные атрибуты (пары имя/значение) и метки. Google индексирует эту информацию и использует наиболее популярные атрибуты для создания динамических фильтров в результатах поиска, позволяя пользователям уточнять запросы. Система также автоматически определяет и продвигает популярные пользовательские атрибуты в статус "основных" для улучшения структуры данных.

US20130339338A1
2013-12-19

Индексация
SERP

Как Google извлекает цены и изображения товаров с веб-страниц для Google Shopping

Этот патент описывает, как Google автоматически идентифицирует страницы электронной коммерции и извлекает структурированные данные о товарах (такие как цена и изображение) из неструктурированного HTML. Система использует анализ близости элементов, структуру HTML и сигналы форматирования для поиска правильных атрибутов, что формирует основу для поисковых систем по товарам, таких как Google Shopping.

US7836038B2
2010-11-16

Google Shopping
SERP
Индексация

Как Google нормализует поведенческие сигналы (Dwell Time), калибруя показатели «короткого» и «длинного» клика для разных категорий сайтов

Google использует механизм для устранения предвзятости в поведенческих сигналах, таких как продолжительность клика (Dwell Time). Поскольку пользователи взаимодействуют с разными типами контента по-разному, система определяет, что считать «коротким кликом» и «длинным кликом» отдельно для каждой категории (например, Новости, Недвижимость, Словари). Это позволяет более точно оценивать качество ресурса, сравнивая его показатели с нормами его конкретной ниши.

US8868565B1
2014-10-21

Поведенческие сигналы
SERP

Как Google определяет основной контент страницы, анализируя визуальную структуру и характеристики разделов

Google использует систему для идентификации основного контента веб-страницы путем её разделения на логические разделы на основе визуального макета. Система оценивает характеристики каждого раздела (соотношение ссылок к тексту, количество слов, изображения, расположение) относительно характеристик всей страницы, чтобы выделить наиболее значимый контент и отделить его от навигации и шаблонов.

US20140372873A1
2014-12-18

Структура сайта
Техническое SEO
Ссылки

Как Google снижает ценность ссылок между аффилированными сайтами для борьбы с линк-схемами

Google использует модификацию алгоритмов расчета качества (типа PageRank), которая учитывает аффилированность между ссылающимися документами. Если система определяет, что сайты связаны (например, принадлежат одному владельцу, находятся в одной сети или имеют схожие паттерны трафика), ценность ссылок между ними агрессивно снижается. Вместо суммирования веса всех ссылок система учитывает только максимальный вклад от аффилированной группы, нейтрализуя эффект линк-ферм и PBN.

US7783639B1
2010-08-24

Ссылки
Антиспам
EEAT и качество

Как Google определяет и ранжирует вертикали поиска (Web, Images, News, Local) на основе интента запроса и профиля пользователя

Патент описывает фундаментальный механизм Универсального Поиска (Universal Search). Система генерирует результаты из разных индексов (Web, Картинки, Новости, Карты) и вычисляет «Оценку Вероятности» (Likelihood Value) для каждой категории. Эта оценка определяет, какая вертикаль наиболее релевантна интенту запроса. Для расчета используются как агрегированные данные о поведении всех пользователей по схожим запросам, так и индивидуальный профиль пользователя.

US7966309B2
2011-06-21

Семантика и интент
Персонализация
SERP

Как Google анализирует текст вокруг ссылки (Rare Words) для борьбы со спамом и определения шаблонных ссылок

Google использует механизм для оценки качества ссылок, выходящий за рамки анкорного текста. Система анализирует редкие слова (rare words) в тексте, непосредственно окружающем ссылку, чтобы определить её уникальный контекст. Ранжирование улучшается при наличии разнообразия этих контекстов. Ссылки с повторяющимся контекстом (спам, Google-бомбинг или шаблонные/сквозные ссылки) идентифицируются и дисконтируются.

US8577893B1
2013-11-05

Антиспам
Ссылки
Семантика и интент

Как Google вычисляет оценку качества сайта на основе соотношения брендового интереса и общего поискового трафика

Google использует поведенческие данные для расчета оценки качества сайта (Site Quality Score). Метрика основана на соотношении количества уникальных запросов, направленных конкретно на сайт (брендовый/навигационный интерес), к общему количеству уникальных запросов, которые привели пользователей на этот сайт. Высокий показатель этого соотношения свидетельствует о высоком качестве и авторитетности сайта.

US9031929B1
2015-05-12

Поведенческие сигналы
EEAT и качество

Как Google консолидирует сигналы ранжирования между мобильными и десктопными версиями страниц, используя десктопный авторитет для мобильного поиска

Патент Google описывает механизм для решения проблемы недостатка сигналов ранжирования в мобильном вебе. Система идентифицирует корреляцию между мобильной страницей и её десктопным аналогом. Если мобильная версия недостаточно популярна сама по себе, она наследует сигналы ранжирования (например, обратные ссылки и PageRank) от авторитетной десктопной версии, улучшая её позиции в мобильном поиске.

US8996514B1
2015-03-31

Техническое SEO
Ссылки

Как Google использует машинное зрение и исторические клики для определения визуального интента и ранжирования изображений

Google использует систему, которая определяет визуальное значение текстового запроса, анализируя объекты на картинках, которые пользователи выбирали ранее по этому или похожим запросам. Система создает набор «меток контента» (визуальный профиль) для запроса и сравнивает его с объектами, распознанными на изображениях-кандидатах с помощью нейросетей. Это позволяет ранжировать изображения на основе их визуального соответствия интенту пользователя.

US20200159765A1
2020-05-21

Семантика и интент
Мультимедиа
Персонализация

Как Google использует историю чтения новостных сайтов для определения географических интересов пользователя и персонализации выдачи

Google может определять географические интересы пользователя, анализируя местоположение издателей новостных сайтов, которые он посещал. Эта информация (Geo Signal) используется для корректировки ранжирования будущих поисковых запросов, повышая результаты, релевантные этим интересам, даже если пользователь физически находится в другом месте.

US20130246381A1
2013-09-19

Персонализация
Поведенческие сигналы
SERP

Как Google использует крупномасштабное машинное обучение и данные о поведении пользователей для предсказания кликов и ранжирования результатов

Google использует систему машинного обучения для создания модели ранжирования, которая предсказывает вероятность клика пользователя по документу. Модель обучается на огромных массивах данных о прошлых поисках (запросы, документы, клики). Система учитывает базовую вероятность клика (Prior Probability), основанную на позиции и предыдущей оценке документа, а затем корректирует её с помощью правил, выявляющих, какие признаки (Features) документа и запроса влияют на выбор пользователя.

US7231399B1
2007-06-12

Поведенческие сигналы