SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google использует атрибуты и метки от владельцев контента для структурирования данных и динамической фильтрации результатов поиска (Google Base)

ADDING ATTRIBUTES AND LABELS TO STRUCTURED DATA (Добавление атрибутов и меток к структурированным данным)
  • US20130339338A1
  • Google LLC
  • 2013-08-23 (Оригинальная заявка 2005-10-23)
  • 2013-12-19
  • Индексация
  • SERP
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Патент описывает систему (исторически Google Base), позволяющую владельцам загружать структурированные данные и определять собственные атрибуты (пары имя/значение) и метки. Google индексирует эту информацию и использует наиболее популярные атрибуты для создания динамических фильтров в результатах поиска, позволяя пользователям уточнять запросы. Система также автоматически определяет и продвигает популярные пользовательские атрибуты в статус "основных" для улучшения структуры данных.

Описание

Какую проблему решает

Патент решает проблему поиска и организации разнородных коллекций данных, которые могут не иметь заранее определенной или единой структуры. Традиционным поисковым системам сложно эффективно сужать большие наборы результатов на основе специфических характеристик элементов (например, цены, цвета, локации). Изобретение создает платформу (Google Base), позволяющую поставщикам контента (Providers) самостоятельно структурировать свои данные с помощью атрибутов и меток, делая их доступными для детального поиска и фасетной фильтрации.

Что запатентовано

Запатентована система для приема, структурирования и поиска данных, загружаемых пользователями. Ключевой особенностью является возможность для Providers определять собственные Attributes (пары имя/значение) и Labels (теги без значения) для своих элементов данных (data items). Система динамически использует эти атрибуты для уточнения поиска, предлагая пользователям фильтры на основе наиболее популярных атрибутов в результатах. Кроме того, запатентован механизм автоматической эволюции схемы данных, при котором часто используемые пользовательские атрибуты продвигаются в статус основных (Core Attributes).

Как это работает

Система работает в нескольких режимах:

  • Загрузка данных: Поставщики загружают данные через UI или массовую загрузку (Bulk Upload, FTP, RSS), определяя тип информации (Information Type) и назначая атрибуты и метки.
  • Индексирование и Ранжирование: Система индексирует контент и его структуру. Рассчитывается независимая от запроса оценка элемента (Item Rank) на основе полноты и качества данных.
  • Поиск и Фильтрация: При получении запроса система находит релевантные элементы. Затем она анализирует атрибуты этих элементов, определяет наиболее популярные (используя Popularity Rank, учитывающий частоту и CTR) и отображает их как динамические фильтры.
  • Эволюция схемы: Система отслеживает, какие пользовательские атрибуты часто используются поставщиками или пользователями. Если атрибут достигает порога популярности, он автоматически добавляется в набор Core Attributes.

Актуальность для SEO

Высокая. Хотя платформа Google Base, описанная в патенте (оригинальная заявка подана в 2005 году), устарела, описанные механизмы лежат в основе критически важных современных систем Google. Принципы загрузки структурированных данных через фиды, использования атрибутов для ранжирования (Item Rank) и динамической фильтрации являются ядром Google Shopping (Merchant Center), а также вертикалей Поиска Работы, Рецептов, Недвижимости и обработки структурированных данных (Schema.org) в целом.

Важность для SEO

Патент имеет критическое значение (85/100) для SEO в e-commerce и для любых вертикалей, зависящих от фидов данных. Он описывает фундаментальные механизмы того, как Google обрабатывает и ранжирует структурированные элементы. Полнота и качество предоставляемых атрибутов напрямую влияют на Item Rank (независимый от запроса ранг) и определяют, по каким фильтрам элемент будет доступен пользователям. Понимание этого патента необходимо для эффективной оптимизации товарных фидов и структурированных данных.

Детальный разбор

Термины и определения

Attribute (Атрибут)
Пара имя/значение, описывающая характеристику элемента данных. Например, "Price": "150". Атрибуты могут иметь типы: STRING, INT, DATE, LOCATION, URL и т.д.
Attribute Promotion (Продвижение атрибутов)
Автоматический процесс, при котором система идентифицирует популярные пользовательские атрибуты и добавляет их в набор Core Attributes.
Bulk Upload (Массовая загрузка)
Механизм загрузки большого количества элементов данных и их атрибутов, например, через TSV-файлы, RSS-фиды или FTP.
Core Attributes (Основные атрибуты)
Набор атрибутов, которые автоматически предлагаются поставщику при добавлении нового элемента определенного Information Type. Этот набор может эволюционировать автоматически.
Information Type (Тип информации)
Категория элемента данных (например, "Products", "Events", "Housing"). Определяет набор Core Attributes.
Item Rank (Ранг элемента)
Независимая от запроса оценка (Query Independent Rank) элемента. Рассчитывается на основе сигналов поставщика (рейтинг) и сигналов элемента (полнота описания, количество атрибутов, меток, изображений, свежесть).
Label (Метка)
Тег без значения (valueless tag), используемый для классификации элемента. Например, "Medical".
Normalization (Нормализация)
Процесс приведения имен и значений атрибутов к стандартному виду (стемминг, обработка аббревиатур, эквивалентность единиц измерения, исправление ошибок) для улучшения фильтрации.
Popularity Rank (PR) (Ранг популярности атрибута)
Метрика для выбора атрибутов, отображаемых в качестве фильтров. Определяется как: Популярность в результатах запроса * CTR для этого конкретного запроса.
Provider (Поставщик контента)
Сущность (человек или система), загружающая данные и определяющая их атрибуты и метки.

Ключевые утверждения (Анализ Claims)

ВАЖНО: В предоставленном тексте патента (US20130339338A1), который является патентом-продолжением, Claim 1 отменен (canceled). Claims 2-21 фокусируются исключительно на механизме автоматического продвижения атрибутов в статус основных (Core Attributes).

Claim 2 (Независимый пункт): Описывает основной процесс эволюции схемы данных.

  1. Система определяет, удовлетворяет ли конкретный атрибут критериям для добавления в набор Core Attributes для элементов определенного Information Type.
  2. (Определение Core Attribute: атрибут, который идентифицируется поставщику при добавлении нового элемента этого типа, и для которого запрашивается значение).
  3. Если атрибут удовлетворяет критериям, он добавляется в набор Core Attributes.

Это описывает автоматизированный процесс обновления схемы данных (предлагаемых атрибутов) на основе анализа паттернов использования кастомных атрибутов. Если многие поставщики начинают использовать новый атрибут, система автоматически делает его стандартом для этой ниши (краудсорсинг схемы).

Claim 3 (Зависимый от 2): Описывает применение обновленного набора Core Attributes.

Как только атрибут продвигается, он становится частью стандартной формы ввода. Система отправляет ответ поставщику (например, форму), который запрашивает значение для этого нового основного атрибута.

Claims 4, 5, 6 (Зависимые от 2): Определяют критерии (метрики популярности) для продвижения атрибута.

  • Claim 4: Критерий основан на том, что атрибут является наиболее часто выбираемым пользователями (для фильтрации) за определенный период времени.
  • Claim 5: Критерий основан на том, что атрибут принадлежит элементам, которые наиболее часто появляются в результатах поиска за определенный период времени.
  • Claim 6: Критерий основан на том, что атрибут используется в наибольшем количестве вновь добавленных элементов данного типа (принят многими поставщиками).

Google определяет "популярность" для эволюции схемы, используя комбинацию метрик: взаимодействие пользователей, видимость в SERP и скорость принятия индустрией.

Где и как применяется

Изобретение охватывает инфраструктуру для работы со структурированными данными (Google Base и его наследники, например, Merchant Center).

CRAWLING – Сканирование и Сбор данных (Data Acquisition)
Система принимает данные через прямую загрузку от поставщиков (UI, Bulk Upload, FTP, RSS), что является альтернативой традиционному краулингу веб-страниц.

INDEXING – Индексирование и извлечение признаков

  • Извлечение признаков: Во время индексации Attributes и Labels извлекаются, нормализуются (Normalization) и сохраняются.
  • Расчет оценок: Вычисляется Item Rank (независимая от запроса оценка) на основе полноты предоставленных данных (количество атрибутов, изображений, длина описания и т.д.).
  • Офлайн-процессы: Механизм Attribute Promotion работает в офлайн-режиме, анализируя статистику использования атрибутов для эволюции схемы данных (обновления Core Attributes).

RANKING – Ранжирование
Search and Query Engine извлекает элементы, соответствующие запросу. Ранжирование использует как зависимую от запроса оценку (IR score), так и независимую (Item Rank). Формула ранжирования (упомянутая в Description): FinalScore=QueryDependentRank∗ItemRankFinal Score = Query Dependent Rank * Item RankFinalScore=QueryDependentRank∗ItemRank.

RERANKING – Переранжирование (Динамическая фильтрация)
Основное применение во время поисковой сессии. Система анализирует атрибуты в наборе результатов ранжирования для определения наиболее популярных (используя Popularity Rank) и представляет их как динамические фильтры (Twiddlers для уточнения). Когда пользователь применяет фильтр, результаты переранжируются (фильтруются).

На что влияет

  • Конкретные типы контента и ниши: Влияет в первую очередь на вертикали, основанные на структурированных данных и фидах: E-commerce (Products), Вакансии (Jobs), События (Events), Недвижимость (Housing), Транспорт (Vehicles). Это основа Google Shopping, Google Jobs и т.д.
  • Специфические запросы: Влияет на коммерческие и информационные запросы, связанные с поиском конкретных сущностей или объектов, где важны характеристики (например, "красные кроссовки 42 размера", "квартира 2 комнаты у метро").

Когда применяется

  • Динамическая фильтрация: Активируется, когда набор результатов поиска содержит достаточное количество элементов со структурированными атрибутами, и когда определенные атрибуты достаточно популярны (по частоте и CTR), чтобы быть полезными для уточнения запроса.
  • Продвижение в Core Attributes: Происходит периодически в офлайн-режиме, когда пользовательский (custom) атрибут достигает определенного порога популярности среди поставщиков или пользователей (Claims 4-6).

Пошаговый алгоритм

Процесс А: Обработка запроса и динамическая фильтрация (На основе Description)

  1. Получение запроса и ранжирование: Система получает запрос и определяет набор релевантных результатов, используя Item Rank и IR score.
  2. Определение релевантных результатов (Порог q): Выбираются 'q' наиболее релевантных результатов.
  3. Определение популярных атрибутов (Порог n): Для 'q' результатов определяются 'n' наиболее популярных атрибутов. Популярность (Popularity Rank) учитывает частоту в результатах и историю кликов пользователей (CTR) по этим атрибутам в качестве фильтров.
  4. Расчет гистограмм (Порог m): Для 'n' атрибутов определяются гистограммы топ 'm' пар атрибут/значение.
  5. Нормализация: Имена атрибутов опционально нормализуются (например, стемминг, синонимы: "brand" и "make" могут быть объединены в зависимости от контекста запроса).
  6. Отображение фильтров: Наиболее популярные атрибуты и метки отображаются пользователю вместе с количеством совпадающих элементов (Offer Counts).
  7. Уточнение запроса: Пользователь выбирает атрибуты/метки для фильтрации.
  8. Переранжирование: Система повторно определяет и отображает результаты в соответствии с выбранными фильтрами.

Процесс Б: Эволюция схемы данных (Promoting Attributes to Core) (На основе Claims)

  1. Анализ использования атрибутов: Система анализирует (офлайн), какие новые (пользовательские) атрибуты используются поставщиками для каждого Information Type.
  2. Оценка популярности: Определяется популярность этих атрибутов на основе метрик: частота выбора пользователями (Claim 4), частота появления в результатах поиска (Claim 5), частота использования поставщиками (Claim 6).
  3. Проверка порога: Определяется, превышает ли популярность атрибута установленный порог.
  4. Продвижение в Core: Если порог превышен, атрибут добавляется в набор Core Attributes для данного Information Type.
  5. Обновление интерфейса ввода: При следующей загрузке данных этого типа поставщикам будет предложено заполнить этот новый основной атрибут.

Какие данные и как использует

Данные на входе

Система использует данные, предоставленные поставщиками, а также данные о поведении пользователей.

  • Структурные факторы (Ключевые): Attributes (пары имя/значение), Labels (метки), Information Type (тип информации). Указаны типы данных атрибутов: BOOLEAN, INT, FLOAT, URL, STRING, LOCATION, DATE, DATE RANGE.
  • Контентные факторы: Title (Название), Description (Описание). Явно указано, что поиск ведется по этим полям.
  • Мультимедиа факторы: Pictures/Image URLs. Упоминаются как поля ввода и как фактор, влияющий на Item Rank.
  • Технические факторы: URL (Link) элемента.
  • Поведенческие факторы: Clicks (клики), Impressions (показы), CTR. Используются для определения популярности атрибутов (Popularity Rank) при выборе фильтров для отображения.
  • Временные факторы: Recency (свежесть) элемента упоминается как фактор ранжирования.
  • Факторы поставщика (Provider Factors): Рейтинг поставщика (Rating of the provider) используется при расчете Item Rank. Также упоминается возможность использования PageRank веб-сайта поставщика.

Какие метрики используются и как они считаются

  • Item Rank (Query Independent Rank): Независимая от запроса оценка элемента. Рассчитывается на основе агрегации:
    • Сигналы поставщика (например, рейтинг, PageRank сайта).
    • Сигналы элемента: длина описания (Length of Desc), длина заголовка (Length of Title), количество меток (Number of Labels), количество атрибутов (Number of Attributes), наличие изображений (Pictures), свежесть предложения (Recency), количество жалоб на спам.
  • Query Dependent Rank: Стандартная оценка релевантности (IR score).
  • Final Score (Итоговая оценка ранжирования): QueryDependentRank∗QueryIndependentRankQuery Dependent Rank * Query Independent RankQueryDependentRank∗QueryIndependentRank (включая Item Rank).
  • Веса при ранжировании: Метки (Labels) имеют больший вес, чем заголовки (Titles), которые имеют больший вес, чем описания (Descriptions). Значения атрибутов (Attribute values) имеют тот же вес, что и метки.
  • Popularity Rank (PR) (для атрибутов): Используется для выбора фильтров. PR=Популярность в результатах запроса∗CTR для этого запросаPR = Популярность в результатах запроса * CTR для этого запросаPR=Популярностьврезультатахзапроса∗CTR дляэтогозапроса.

Выводы

  1. Приоритет структурированных данных в вертикальном поиске: Патент демонстрирует инфраструктуру Google для работы с сущностями (товары, вакансии, события) через фиды данных. Это основа современных вертикалей поиска Google (Shopping, Jobs и т.д.).
  2. Полнота данных напрямую влияет на ранжирование (Item Rank): В отличие от традиционного SEO, здесь критична структурированная полнота. Элементы с большим количеством атрибутов, меток, изображений и длинным описанием получают более высокий Item Rank, что повышает итоговый Final Score.
  3. Вес структурированных данных в ранжировании: Значения атрибутов и метки имеют больший вес при ранжировании, чем заголовки и описания. Это подчеркивает важность точной атрибуции.
  4. Динамическая и адаптивная фильтрация: Фильтры в поиске не фиксированы, а генерируются на лету в зависимости от запроса и атрибутов, присутствующих в результатах. Выбор фильтров основан на популярности атрибутов, включая поведенческие факторы (CTR фильтров).
  5. Автоматическая эволюция схемы данных (Краудсорсинг): Google автоматически изучает важные атрибуты для каждой ниши, анализируя, какие кастомные атрибуты используют поставщики и пользователи. Популярные атрибуты становятся стандартом (Core Attributes).

Практика

Best practices (это мы делаем)

Рекомендации критически важны для E-commerce (Google Shopping) и других вертикалей, использующих фиды данных.

  • Максимальная оптимизация фидов данных: Необходимо traktovat фиды (например, Google Merchant Center, фиды вакансий) как основной канал продвижения. Заполняйте все релевантные Core Attributes, предоставляемые Google для вашего Information Type.
  • Использование кастомных атрибутов: Активно используйте пользовательские атрибуты (custom attributes), если стандартные не покрывают все важные характеристики вашего продукта/услуги. Это повышает Item Rank за счет полноты данных и увеличивает шансы на попадание под специфические фильтры пользователей.
  • Оптимизация контентных полей в фидах: Оптимизируйте Title и Description в фидах. Они используются для расчета Query Dependent Rank (IR score), но помните, что значения атрибутов и метки имеют больший вес.
  • Обеспечение полноты данных для повышения Item Rank: Предоставляйте высококачественные изображения (Image URL), полные описания и максимально возможное количество меток (Labels). Все это учитывается в расчете Item Rank.
  • Поддержание свежести данных: Регулярно обновляйте фиды. Свежесть (Recency) является фактором в расчете Item Rank. Патент указывает на необходимость обновления фида как минимум раз в 30 дней.
  • Соблюдение правил форматирования и нормализации: Строго следуйте требованиям к типам данных (например, не указывайте единицы измерения в числовых полях цены или веса). Неправильный формат может привести к игнорированию атрибута.

Worst practices (это делать не надо)

  • Предоставление минимальных данных: Загрузка только обязательных атрибутов снижает Item Rank и ограничивает видимость элемента при использовании фильтров.
  • Спам атрибутами и метками (Attribute/Label Stuffing): Добавление нерелевантных атрибутов или меток для манипуляции выдачей. Патент упоминает использование количества жалоб на спам при расчете Item Rank.
  • Использование HTML в полях фида: Патент указывает, что HTML не следует включать в поля массовой загрузки для лучшего отображения.
  • Нестабильные идентификаторы (ID): Изменение уникального идентификатора элемента при последующих загрузках. Патент требует сохранения одного и того же ID для каждого элемента.

Стратегическое значение

Патент подтверждает стратегический переход Google к поиску на основе сущностей (entity-based search) и критическую роль фидов данных. Успех в таких вертикалях, как Google Shopping, полностью зависит от освоения этой системы, основанной на атрибутах. Он объясняет, как Google структурирует информацию за пределами традиционных веб-страниц и как адаптирует свое понимание различных рынков на основе данных, предоставляемых самими участниками рынка (эволюция Core Attributes).

Практические примеры

Сценарий: Оптимизация товарного фида для интернет-магазина электроники

  1. Задача: Повысить видимость и ранжирование ноутбука в Google Shopping.
  2. Анализ Core Attributes: Убедиться, что все основные атрибуты для типа "Products" заполнены: Brand, UPC (GTIN), Manufacturer ID (MPN), Price, Condition, Image URL, Title, Description.
  3. Повышение Item Rank:
    • Добавить максимальное количество релевантных атрибутов: Memory, Memory Unit, Processor, Processor Unit, Size, Weight.
    • Добавить несколько высококачественных изображений (до 10).
    • Написать детальное описание (Description).
    • Добавить релевантные метки (Labels/Custom Labels): "Laptop", "Gaming", "Ultrabook".
  4. Использование Custom Attributes: Если ноутбук имеет специфические характеристики (например, "Touch Bar", "Refresh Rate 144Hz"), добавить их как кастомные атрибуты (например, через product_detail в GMC). Это улучшит полноту данных и позволит фильтровать по ним.
  5. Ожидаемый результат: Ноутбук получает более высокий Item Rank, что улучшает его общие позиции в выдаче. Он также становится видимым, когда пользователи применяют динамические фильтры по специфическим характеристикам (RAM, Processor, Refresh Rate).

Вопросы и ответы

Какое отношение этот патент имеет к современному Google Shopping?

Этот патент описывает Google Base, который является прямым предшественником Google Shopping и Google Merchant Center. Все описанные механизмы — загрузка фидов (Bulk Upload), использование атрибутов для описания товаров, расчет Item Rank на основе полноты данных и динамическая фильтрация результатов — являются фундаментом работы современного Google Shopping. По сути, это инструкция по оптимизации товарных фидов.

Что такое Item Rank и как его повысить?

Item Rank — это независимая от запроса оценка качества и полноты элемента данных. Патент указывает, что он рассчитывается на основе рейтинга поставщика и сигналов элемента: длины описания, количества атрибутов, меток, наличия изображений, свежести данных и отсутствия жалоб на спам. Для его повышения необходимо максимально полно и точно заполнять все поля в фиде данных.

Как Google решает, какие фильтры (атрибуты) показать пользователю для конкретного запроса?

Система анализирует топовые результаты поиска и определяет наиболее популярные атрибуты среди них. Популярность (Popularity Rank) рассчитывается не только по частоте встречаемости атрибута в результатах, но и по тому, как часто пользователи кликают на этот атрибут в качестве фильтра (CTR) для данного запроса. Это динамическая система, адаптирующаяся к поведению пользователей.

Стоит ли использовать кастомные (пользовательские) атрибуты в фидах?

Да, это рекомендуется. Во-первых, это увеличивает полноту данных, что положительно влияет на Item Rank. Во-вторых, это позволяет вашим элементам появляться при использовании специфических фильтров. В-третьих, если ваш кастомный атрибут станет популярным в нише, Google может автоматически продвинуть его в статус Core Attribute (Основного атрибута).

Что такое "Продвижение в Core Attributes" (Attribute Promotion)?

Это механизм автоматической эволюции схемы данных. Если система замечает, что многие поставщики начинают использовать определенный кастомный атрибут для одного типа информации (например, все стали указывать "Емкость аккумулятора" для телефонов), и этот атрибут популярен у пользователей, система автоматически добавит его в стандартный набор (Core) для этого типа.

Что важнее для ранжирования элемента: релевантность запросу или Item Rank?

Оба фактора критичны. Патент указывает формулу: FinalScore=QueryDependentRank∗ItemRankFinal Score = Query Dependent Rank * Item RankFinalScore=QueryDependentRank∗ItemRank. Это означает, что высокая релевантность запросу (зависит от Title/Description) умножается на качество и полноту данных (Item Rank). Слабое звено в любом из множителей ухудшит итоговый результат.

Какой вес имеют разные поля при ранжировании в этой системе?

Патент дает четкое указание на веса: Метки (Labels) и Значения Атрибутов (Attribute values) имеют наибольший вес. Заголовки (Titles) имеют меньший вес, чем метки. Описания (Descriptions) имеют наименьший вес среди перечисленных. Это критически важный инсайт для оптимизации фидов.

Влияет ли этот патент на ранжирование обычных веб-страниц?

Напрямую нет. Патент описывает ранжирование элементов внутри структурированной базы данных (Google Base/Shopping), а не веб-страниц в основном индексе. Однако он подтверждает общие принципы Google по использованию структурированных данных и важности полноты информации для оценки качества сущностей, что косвенно применимо к использованию микроразметки (Schema.org) на сайтах.

Насколько важна свежесть данных согласно этому патенту?

Свежесть (Recency) упоминается как один из факторов, влияющих на расчет Item Rank. Кроме того, в описании механизма массовой загрузки указано, что обновленный фид должен отправляться не реже одного раза в 30 дней, чтобы элементы оставались в коллекции данных. Это подчеркивает важность регулярного обновления фидов.

Учитываются ли поведенческие факторы при работе этой системы?

Да, поведенческие факторы играют важную роль в выборе атрибутов для отображения в качестве фильтров. Система использует Popularity Rank, который учитывает CTR (как часто пользователи кликают на фильтр). Также упоминается, что если пользователи почти всегда применяют определенные фильтры к запросу (например, цену и локацию для запроса "ipod"), система может начать применять эти фильтры автоматически.

Похожие патенты

Как Google извлекает цены и изображения товаров с веб-страниц для Google Shopping
Этот патент описывает, как Google автоматически идентифицирует страницы электронной коммерции и извлекает структурированные данные о товарах (такие как цена и изображение) из неструктурированного HTML. Система использует анализ близости элементов, структуру HTML и сигналы форматирования для поиска правильных атрибутов, что формирует основу для поисковых систем по товарам, таких как Google Shopping.
  • US7836038B2
  • 2010-11-16
  • Google Shopping

  • SERP

  • Индексация

Как Google автоматически категоризирует локальный контент и историю пользователя для контекстного поиска по неявным запросам
Патент Google, описывающий технологию для локального (Desktop) или персонализированного поиска. Система отслеживает взаимодействие пользователя с контентом (события) и использует «схемы событий» для автоматической категоризации файлов, электронных писем и истории просмотров. Эти категории затем используются для предоставления релевантных результатов в ответ на неявные запросы, генерируемые системой на основе текущего контекста пользователя.
  • US7788274B1
  • 2010-08-31
  • Персонализация

  • Поведенческие сигналы

  • Local SEO

Как Google автоматически распознает и извлекает структурированные данные с сайтов-классифайдов и шаблонных сайтов
Google использует систему для автоматического распознавания сайтов, организованных по шаблону (например, классифайды, сайты недвижимости, форумы). Система анализирует структуру URL и HTML-код для выявления повторяющихся паттернов и "динамических областей". На основе этого создаются шаблоны для извлечения данных (например, цена, местоположение, атрибуты), которые затем сохраняются в структурированном виде для использования в поиске.
  • US8682881B1
  • 2014-03-25
  • Структура сайта

  • Краулинг

Как Google классифицирует веб-страницы и персонализирует выдачу, используя историю запросов и поведенческие данные
Google использует итеративный метод для тематической классификации веб-страниц, не анализируя их контент напрямую. Система анализирует исторические логи запросов и данные о кликах. Классификация известных страниц переносится на запросы, в результатах которых они появляются, а затем классификация этих запросов переносится на новые страницы. Эти данные используются для построения профилей пользователей и персонализации поисковой выдачи.
  • US8185544B2
  • 2012-05-22
  • Персонализация

  • Поведенческие сигналы

  • SERP

Как Google автоматически определяет ключевые характеристики (атрибуты) сущностей, анализируя неструктурированный веб-контент
Google использует этот механизм для автоматического определения схемы (набора атрибутов) для любой сущности. Анализируя, как различные веб-страницы описывают набор схожих объектов (например, список фильмов), система выявляет новые релевантные характеристики (например, «Режиссер», «Время выполнения»), извлекая их из таблиц, списков или шаблонов страниц в интернете.
  • US8615707B2
  • 2013-12-24
  • Knowledge Graph

  • Семантика и интент

Популярные патенты

Как Google использует организационные структуры (папки, ярлыки) как ссылки для расчета PageRank и ранжирования документов
Google может анализировать, как документы организованы пользователями (например, в папках, через ярлыки или закладки), и использовать эти организационные структуры для расчета рейтинга документа. Документы, концептуально сгруппированные вместе, передают друг другу ранжирующий вес (аналогично PageRank), причем более тесные связи (например, в одной папке) передают больше веса, чем более слабые связи (например, в соседних папках).
  • US8090736B1
  • 2012-01-03
  • Ссылки

  • SERP

  • Структура сайта

Как Google автоматически изучает синонимы, анализируя последовательные запросы пользователей и вариации анкорных текстов
Google использует методы для автоматического определения синонимов, акронимов и эквивалентных фраз. Система анализирует логи запросов: если пользователь быстро меняет запрос, сохраняя часть слов (например, с «отели в париже» на «гостиницы в париже»), система учится, что «отели» и «гостиницы» эквивалентны. Также анализируются вариации анкорных текстов, указывающих на одну и ту же страницу.
  • US6941293B1
  • 2005-09-06
  • Семантика и интент

  • Ссылки

Как Google оценивает и выбирает контент для Featured Snippets (Блоков с ответами) на основе консенсуса выдачи
Google использует систему для выбора и оценки Featured Snippets. Система анализирует топовые результаты поиска, чтобы предсказать, какие термины должны быть в ответе (Answer Terms). Затем она оценивает отрывки текста, учитывая совпадение с запросом, наличие предсказанных терминов ответа (консенсус топа), качество исходного сайта, форматирование и языковую модель контента.
  • US9940367B1
  • 2018-04-10
  • SERP

  • Семантика и интент

  • EEAT и качество

Как Google идентифицирует, оценивает и ранжирует «Глубокие статьи» (In-Depth Articles) и «Вечнозеленый контент»
Google использует систему для идентификации и ранжирования высококачественного лонгрид-контента (In-Depth Articles). Система определяет авторитетные сайты на основе внешних наград и ссылочных паттернов. Контент оценивается по критериям «вечнозелености» (Evergreen Score), структуры (Article Score), отсутствия коммерческого интента и авторитетности автора (Author Score). Ранжирование основано на комбинации качества (IDA Score) и релевантности запросу (Topicality Score).
  • US9996624B2
  • 2018-06-12
  • EEAT и качество

  • Индексация

  • Семантика и интент

Как Google генерирует блок "Похожие вопросы" (People Also Ask) на основе анализа кликов и поведения пользователей
Google анализирует топовые результаты по исходному запросу и определяет "Тематические запросы" (Topic Sets) — прошлые запросы, по которым пользователи кликали на эти результаты. Затем система ищет популярные вопросы, соответствующие этим темам, фильтрует дубликаты на основе общности кликов и показывает их в блоке PAA для дальнейшего исследования темы.
  • US9213748B1
  • 2015-12-15
  • SERP

  • Семантика и интент

  • Поведенческие сигналы

Как Google использует офлайн-сигналы и авторитетность сущностей для ранжирования контента
Google использует реальные, офлайн-сигналы авторитетности для ранжирования документов, у которых отсутствует естественная ссылочная структура (например, оцифрованные книги). Система оценивает коммерческий успех документа (данные о продажах, списки бестселлеров), репутацию связанных сущностей (автора и издателя) и может переносить ссылочный авторитет с официальных сайтов этих сущностей на сам документ для улучшения его позиций в поиске.
  • US8799107B1
  • 2014-08-05
  • EEAT и качество

  • SERP

  • Поведенческие сигналы

Как Google создает мгновенные интерактивные результаты на SERP, предварительно загружая и персонализируя скрытый контент
Google использует механизм для создания интерактивных блоков ответов (Answer Boxes), таких как Погода или Панели Знаний. Система отправляет пользователю не только видимый результат, но и дополнительный скрытый контент («карточки»), выбранный на основе истории взаимодействий пользователя. При взаимодействии с блоком (свайп или клик) дополнительный контент отображается мгновенно, без отправки нового запроса на сервер.
  • US9274683B2
  • 2016-03-01
  • SERP

  • Персонализация

  • Поведенческие сигналы

Как Google в Автоподсказках (Suggest) предлагает искать запрос в разных вертикалях поиска (Картинки, Новости, Карты)
Патент описывает механизм "разветвления" (forking) автоподсказок Google Suggest. Система анализирует введенные символы и определяет, в каких вертикалях поиска (Корпусах) — таких как Картинки, Новости или Карты — пользователи чаще всего ищут предложенный запрос. Если корреляция с конкретной вертикалью высока (на основе Corpus Score), система предлагает пользователю искать сразу в ней, наряду со стандартным универсальным поиском.
  • US9317605B1
  • 2016-04-19
  • Семантика и интент

  • SERP

  • Поведенческие сигналы

Как Google собирает и структурирует данные о поведении пользователей в Поиске по картинкам (включая ховеры, клики и 2D-позицию)
Патент Google описывает инфраструктуру для детального сбора данных в Поиске по картинкам. Система фильтрует общие логи, фиксируя не только клики, но и наведение курсора (ховеры), длительность взаимодействия и точное 2D-расположение (строка/столбец) изображения на выдаче. Эти данные агрегируются в Модель Запросов Изображений для оценки релевантности.
  • US8898150B1
  • 2014-11-25
  • Поведенческие сигналы

  • SERP

  • Мультимедиа

Как Google консолидирует сигналы ранжирования между мобильными и десктопными версиями страниц, используя десктопный авторитет для мобильного поиска
Патент Google описывает механизм для решения проблемы недостатка сигналов ранжирования в мобильном вебе. Система идентифицирует корреляцию между мобильной страницей и её десктопным аналогом. Если мобильная версия недостаточно популярна сама по себе, она наследует сигналы ранжирования (например, обратные ссылки и PageRank) от авторитетной десктопной версии, улучшая её позиции в мобильном поиске.
  • US8996514B1
  • 2015-03-31
  • Техническое SEO

  • Ссылки

seohardcore