Как Google автоматически определяет ключевые характеристики (атрибуты) сущностей, анализируя неструктурированный веб-контент

ADDING NEW ATTRIBUTES TO A STRUCTURED PRESENTATION (Добавление новых атрибутов в структурированное представление)

US8615707B2
Google LLC
2009-01-16
2013-12-24

Google использует этот механизм для автоматического определения схемы (набора атрибутов) для любой сущности. Анализируя, как различные веб-страницы описывают набор схожих объектов (например, список фильмов), система выявляет новые релевантные характеристики (например, «Режиссер», «Время выполнения»), извлекая их из таблиц, списков или шаблонов страниц в интернете.

Какую проблему решает

Патент решает проблему сложности ручного определения полной и релевантной схемы (набора атрибутов) для разнообразных наборов сущностей, существующих в интернете. Он автоматизирует процесс обнаружения ключевых характеристик (attributes) для заданного набора элементов (instances), используя коллективный интеллект, содержащийся в неструктурированных веб-документах. Это позволяет системе понять, какие характеристики важны для определенной категории сущностей, без предварительного ручного определения схемы.

Что запатентовано

Запатентована система для автоматического расширения структурированного набора данных (например, таблицы) путем выявления и добавления новых релевантных атрибутов (например, колонок). Система анализирует существующие элементы (instances) в наборе данных и ищет в интернете (unstructured collection of electronic documents), чтобы обнаружить, как эти элементы описываются на других веб-страницах. Найденные новые характеристики предлагаются как attribute suggestions.

Как это работает

Механизм анализирует характеристики существующего структурированного представления (сущности, атрибуты, значения). Затем он ищет в неструктурированной коллекции документов (интернете) документы, релевантные этим характеристикам. Для выявления новых атрибутов используются несколько стратегий:

Анализ структурированных компонентов: Поиск таблиц, списков или записей на веб-страницах, которые упоминают те же сущности.
Извлечение шаблонов (Template Extraction): Распознавание повторяющейся структуры HTML (шаблона страницы), используемой сайтом для описания схожих сущностей.
Использование базы знаний: Обращение к предварительно скомпилированной коллекции связей сущность-атрибут (Instance/Attribute Collection).
Категоризация: Определение категории сущностей и предложение атрибутов, общих для этой категории.

Найденные атрибуты добавляются в исходное представление.

Актуальность для SEO

Высокая. Понимание сущностей, извлечение фактов и автоматическое обнаружение схемы являются фундаментальными задачами современного поиска (например, для построения Knowledge Graph и формирования структурированных сниппетов). Этот патент описывает базовые техники для извлечения структурированных данных из неструктурированного веба, что критически важно для ответа на запросы пользователей.

Важность для SEO

Патент имеет значительное влияние на SEO (8/10), особенно в области entity-oriented search и структурирования данных. Он напрямую описывает, как поисковые системы учатся понимать, какие характеристики являются определяющими для любой темы или сущности. Патент подчеркивает критическую важность четкого, структурированного и полного представления информации на веб-страницах, поскольку эти структуры (таблицы, списки, шаблоны) явно используются в качестве целей для извлечения данных.

Термины и определения

Attribute (Атрибут): Свойство, особенность или характеристика сущности (например, «Режиссер» для фильма или «Разрешение» для камеры).
Instance (Экземпляр Сущности): Индивидуально идентифицируемая сущность (например, конкретный фильм «Филадельфия» или конкретная модель камеры).
Instance/Attribute Collection (Коллекция Экземпляров/Атрибутов): База данных или хранилище, которое содержит извлеченные из веба ассоциации между сущностями и их атрибутами.
Structured Components (Структурированные компоненты): Части или области электронного документа, которые имеют внутреннюю структуру, такие как таблицы, списки, записи или пары атрибут-значение (например, HTML-таблицы).
Structured Presentation (Структурированное представление): Систематическое расположение информации, соответствующее структурированному дизайну (например, таблица, набор карточек или записей), где связи между сущностями и их атрибутами определяются расположением элементов.
Template (Шаблон): Паттерн или макет для организации контента в подмножестве документов (например, стандартная HTML-структура, используемая сайтом для всех страниц продуктов).
Unstructured Collection of Electronic Documents (Неструктурированная коллекция электронных документов): Набор документов, формат которых не является строго заданным или постоянным для всей коллекции (например, Интернет).
Value (Значение): Конкретные данные для атрибута экземпляра сущности (например, «Джонатан Демме» для атрибута «Режиссер»).

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод расширения данных.

Система получает данные, описывающие существующее структурированное представление (preexisting structured presentation).
Система проводит поиск в неструктурированной коллекции документов, сравнивая характеристики существующего представления с контентом документов.
Цель поиска — найти документы, которые идентифицируют новый атрибут (new attribute), релевантный существующему представлению.
В ответ на обнаружение таких документов система добавляет идентификатор нового атрибута к существующему представлению, формируя расширенное представление (expanded structured presentation).
Система выводит инструкции для отображения расширенного представления.

Ключевым элементом Claim 1 является детализация процесса добавления атрибута (шаг 4 выше), который включает:

Формулирование коллекции предложений атрибутов (attribute suggestions).
Это формулирование включает:
- Идентификацию документа, релевантного сущности из существующего представления, который организован в соответствии с шаблоном (template).
- Добавление атрибута, используемого в этом документе (и соответствующего шаблону), в коллекцию предложений.
Предоставление коллекции предложений пользователю.
Получение выбора пользователя.

Ядро изобретения — это механизм использования существующей структуры и анализа шаблонов в неструктурированных данных для автоматического обнаружения и предложения новых релевантных атрибутов.

Claim 14 (Независимый пункт): Описывает метод с фокусом на механизме предложений.

Система формулирует коллекцию предложений атрибутов на основе контента двух или более документов из неструктурированной коллекции.
Система предоставляет эту коллекцию пользователю.
Система получает выбор пользователя.
Система добавляет идентификатор выбранного атрибута в структурированное представление.

Этот пункт подчеркивает, что источником атрибутов является именно неструктурированный контент, а процесс может быть полуавтоматическим (с участием пользователя в выборе).

Где и как применяется

Изобретение в первую очередь относится к этапам сбора и обработки данных для преобразования неструктурированного контента в структурированные знания.

CRAWLING – Сканирование и Сбор данных
Система должна сканировать Unstructured Collection (Интернет) для сбора сырых данных, которые будут анализироваться на наличие атрибутов.

INDEXING – Индексирование и извлечение признаков
Это основной этап применения патента. В процессе индексирования система выполняет глубокий анализ контента для извлечения фактов и структуры.

Извлечение структурированных компонентов: Идентификация таблиц, списков и других структурированных элементов на веб-страницах.
Анализ и извлечение шаблонов (Template Extraction): Распознавание повторяющихся макетов страниц для идентификации того, как атрибуты представлены в HTML.
Построение базы знаний: Создание и обновление Instance/Attribute Collection — базы данных, связывающей сущности с обнаруженными атрибутами.

QUNDERSTANDING и RANKING
Патент напрямую не описывает применение на этих этапах, но структурированные данные (например, Knowledge Graph), полученные в результате работы этого механизма, оказывают огромное влияние на понимание запросов и ранжирование, позволяя системе лучше понимать семантику контента и интент пользователя.

Входные данные:

Существующее структурированное представление (или стартовый запрос, генерирующий его).
Неструктурированная коллекция электронных документов (веб-корпус).
База данных Instance/Attribute Collection (если используется).

Выходные данные:

Коллекция предложений новых атрибутов (New Attribute Suggestions).
Расширенное структурированное представление.
Обновления для Instance/Attribute Collection.

На что влияет

Конкретные типы контента: Наибольшее влияние оказывается на контент, богатый фактами, спецификациями и сравнениями. Это включает страницы продуктов, обзоры, биографии, описания мест, рецепты и т.д.
Конкретные ниши или тематики: E-commerce, медиа (фильмы, музыка), путешествия, а также любые информационные сайты (справочники, энциклопедии), где преобладают структурированные данные.
Структурные факторы: Влияет на то, как система воспринимает HTML-структуру страницы, отдавая предпочтение контенту, который легко извлечь через анализ шаблонов или структурированных компонентов (таблицы, списки).

Когда применяется

Триггеры активации: Когда система (или пользователь) имеет набор сущностей (instances) и необходимо обнаружить релевантные атрибуты для их описания или сравнения. Это может происходить при построении Knowledge Panel, ответе на запрос, подразумевающий сравнение (например, «лучшие гибридные автомобили»), или при автоматическом расширении базы знаний.
Условия работы: Наличие достаточного количества информации в неструктурированной коллекции, позволяющей идентифицировать структурированные компоненты или шаблоны, связанные с интересующими сущностями.

Пошаговый алгоритм

Описание процесса обнаружения и добавления новых атрибутов (на основе FIG. 9 и 10):

Получение характеристик: Система получает характеристики существующего структурированного представления (идентификаторы сущностей, существующие атрибуты, значения, предполагаемую категорию).
Идентификация релевантных документов: Поиск документов в неструктурированной коллекции, которые релевантны полученным характеристикам (например, содержат упоминания сущностей).
Формулирование предложений атрибутов: Применение одной или нескольких стратегий для извлечения потенциальных новых атрибутов из найденных документов:
- Стратегия А: Анализ структурированных компонентов (FIG. 11): Идентификация таблиц, списков или записей в документах, которые описывают интересующие сущности. Извлечение заголовков или меток из этих компонентов как кандидатов в атрибуты.
- Стратегия Б: Извлечение шаблонов (FIG. 13): Идентификация документов, использующих общий шаблон (Template). Извлечение структуры шаблона и идентификация меток внутри шаблона как кандидатов в атрибуты (например, текст внутри тегов <h5> в повторяющихся блоках <div class="info">, как показано на FIG. 14).
- Стратегия В: Использование коллекции знаний (FIG. 17): Обращение к Instance/Attribute Collection для поиска атрибутов, которые часто ассоциируются с интересующими сущностями или их атрибутами.
- Стратегия Г: Категоризация (FIG. 20): Определение категории, к которой принадлежат сущности, и выбор атрибутов, которые часто используются для описания сущностей в этой категории.
Фильтрация и Ранжирование (FIG. 22): Применение фильтров (категориальный фильтр, фильтр по связанным сущностям/атрибутам, фильтр по значениям) для уточнения списка потенциальных атрибутов.
Предоставление предложений: Вывод списка предложенных атрибутов (пользователю или системе).
Выбор и Добавление: Получение выбора атрибутов (автоматически или вручную) и добавление их в структурированное представление (например, добавление новых колонок в таблицу).

Какие данные и как использует

Данные на входе

Система использует следующие данные для обнаружения новых атрибутов:

Контентные факторы: Текст веб-страниц, заголовки, метки и подписи внутри структурированных компонентов (например, заголовки колонок таблиц).
Структурные факторы: HTML-разметка критически важна. Система анализирует теги (<table>, <ul>, <dl>, <div>, <h1>-<h6>) и их взаимное расположение для идентификации структурированных компонентов и извлечения шаблонов страниц. Имена классов CSS также могут использоваться при анализе шаблонов.
Системные данные: Существующие структурированные представления, а также внутренняя база знаний Instance/Attribute Collection, содержащая ранее извлеченные факты.

Какие метрики используются и как они считаются

Патент не приводит конкретных формул, но описывает следующие методы и метрики для анализа и выбора атрибутов:

Релевантность документа: Оценка релевантности веб-страниц интересующим сущностям (instances) и атрибутам (attributes).
Идентификация шаблона (Template Identification): Распознавание повторяющихся HTML-структур на разных страницах (часто с одного источника). Используются методы парсинга HTML для сравнения структуры документов.
Частотность атрибутов (Attribute Commonality): Частота использования атрибута для описания сущностей внутри определенной категории или в релевантных документах.
Авторитетность источников (Authoritative Sources): Идентификация источников, считающихся авторитетными для конкретных сущностей (FIG. 18), для приоритизации атрибутов, извлеченных из них.
Совпадение характеристик: Сравнение атрибутов и значений в существующем представлении с данными, найденными в вебе, для определения контекста и выбора наиболее подходящих новых атрибутов (как показано на FIG. 12 и 21, где выбирается контекст «Фильмы», а не «Города» или «Спортивные команды»).

Автоматическое обнаружение схемы: Google активно стремится определить релевантную схему (набор ключевых атрибутов) для любой сущности, анализируя неструктурированный веб. Система не полагается только на ручную разметку (вроде Schema.org), а учится на том, как информация представлена в интернете.
Критичность структуры веб-страницы: Патент явно описывает методы извлечения данных из Structured Components (таблицы, списки) и распознавания Templates (шаблонов страниц). Четкая и консистентная HTML-структура значительно облегчает этот процесс.
Контекст определяется через сравнение: Система определяет правильный контекст сущности (например, является ли «Ягуар» автомобилем или животным), сравнивая существующие атрибуты с теми, что найдены в вебе. Это позволяет выбирать релевантные новые атрибуты.
Коллективный интеллект и полнота данных: То, как веб коллективно описывает сущность, определяет ее атрибуты в глазах системы. Цель системы — найти новые атрибуты, что подразумевает стремление к получению максимально полной информации о сущности.
Инфраструктура извлечения фактов: Описанные механизмы, включая Instance/Attribute Collection, являются частью инфраструктуры для построения и расширения баз знаний, таких как Knowledge Graph.

Best practices (это мы делаем)

Использование структурированных компонентов для фактов: Представляйте спецификации, факты и ключевые характеристики сущностей с использованием семантически верных HTML-элементов. <table> для табличных данных, <dl> (definition lists) для пар атрибут-значение, <ul>/<ol> для списков. Патент явно указывает на извлечение данных из таких компонентов.
Поддержание консистентных шаблонов страниц (Templates): Используйте единую HTML-структуру и имена классов CSS для однотипных страниц (например, все страницы товаров или все статьи блога). Это облегчает системе распознавание Template и точное извлечение атрибутов из соответствующих мест на странице.
Полнота описания сущностей (Comprehensiveness): Включайте все релевантные атрибуты, которые пользователи и другие авторитетные сайты используют для описания сущности. Если вы продаете камеры, убедитесь, что указаны разрешение, тип сенсора, светосила объектива и т.д. Система ищет эти атрибуты.
Четкие и описательные названия атрибутов: Используйте понятные и общепринятые названия для характеристик (например, «Время работы от аккумулятора», а не «Длительность»). Это помогает системе корректно идентифицировать атрибут при извлечении из структурированных компонентов или шаблонов.
Развитие авторитетности в тематике: Стремитесь к тому, чтобы ваш сайт рассматривался как Authoritative Source (упоминается в патенте), так как это может повысить приоритет извлеченных с него данных.

Worst practices (это делать не надо)

Скрытие спецификаций в неструктурированном тексте: Размещение ключевых атрибутов внутри длинных абзацев прозы или на изображениях затрудняет их извлечение с помощью описанных механизмов.
Непоследовательная HTML-структура: Использование разных макетов или хаотичной HTML-верстки для однотипных страниц препятствует эффективному извлечению шаблонов (Template Extraction).
Использование неясной разметки для таблиц/списков: Использование <div> для построения того, что семантически является таблицей или списком, усложняет идентификацию Structured Components.
Упущение ключевых атрибутов: Отсутствие важных характеристик, определяющих сущность, снижает ценность контента и заставляет Google полагаться на сторонние сайты для получения полной информации.

Стратегическое значение

Этот патент подтверждает фундаментальную важность entity-oriented SEO и автоматического извлечения структурированных данных. Он демонстрирует, что Google инвестирует в технологии, позволяющие понимать веб без зависимости от добровольной разметки (хотя разметка помогает). Стратегически, чтобы быть авторитетным источником, сайт должен представлять информацию в наиболее полном и легко извлекаемом формате. Это означает, что техническое SEO, касающееся структуры HTML и консистентности шаблонов, напрямую влияет на способность Google извлекать знания с вашего сайта.

Практические примеры

Сценарий: Оптимизация страницы обзора фильма на сайте

Анализ (Применение патента): Google хочет узнать ключевые атрибуты фильма. Он будет искать Structured Components и анализировать Template страницы, чтобы найти такие атрибуты, как «Режиссер», «Актеры», «Дата выхода», «Время выполнения».
Действие SEO-специалиста: Вместо того чтобы просто упоминать эти факты в тексте обзора, необходимо создать отдельный блок (например, боковую панель или блок под заголовком). В этом блоке использовать семантическую разметку, например, список определений (<dl>):
<dl class="movie-specs">
<dt>Режиссер:</dt><dd>Имя Режиссера</dd>
<dt>Время выполнения:</dt><dd>120 мин</dd>
</dl>
Ожидаемый результат: Система Google с большей вероятностью точно извлечет эти атрибуты, используя методы анализа структурированных компонентов (FIG. 11) или извлечения шаблонов (FIG. 13, благодаря консистентному использованию class="movie-specs" на всех страницах обзоров). Это повышает шансы на попадание данных в Knowledge Graph или формирование расширенных сниппетов.

Что в контексте патента означает «Instance» и «Attribute»?

Instance (Экземпляр) — это конкретная сущность, например, определенная модель автомобиля (Ford Escape Hybrid) или конкретный город (Philadelphia). Attribute (Атрибут) — это характеристика или свойство этой сущности, например, «Расход топлива» для автомобиля или «Население» для города. Патент описывает, как автоматически находить новые атрибуты для заданного набора экземпляров.

Как этот патент связан с микроразметкой Schema.org?

Патент описывает методы, которые позволяют Google обнаруживать атрибуты сущностей без использования микроразметки. Это альтернативный и комплементарный подход. Если Schema.org — это способ явно указать атрибуты, то описанный механизм — это способ автоматически их обнаружить, анализируя структуру и контент веб-страниц. Использование Schema.org помогает, но данный патент показывает, что Google не зависит исключительно от нее.

Что такое «Structured Components» и почему они важны для SEO?

Structured Components — это области на веб-странице, имеющие внутреннюю структуру, такие как HTML-таблицы (<table>), списки (<ul>, <ol>, <dl>) или записи. Они важны, потому что патент явно указывает их как основной источник для извлечения атрибутов. Представление данных в таких компонентах значительно упрощает их распознавание и извлечение поисковой системой.

Как Google идентифицирует «Template» (шаблон) страницы?

Система анализирует HTML-структуру множества страниц (часто с одного домена). Если она обнаруживает повторяющийся макет и расположение элементов (например, определенная последовательность тегов <div>, <h> и классов CSS) используется для описания разных сущностей, она распознает это как Template. Затем она может использовать этот шаблон для точного извлечения атрибутов с аналогичных страниц.

Описывает ли этот патент процесс построения Knowledge Graph?

Да, фундаментально. Knowledge Graph — это база знаний о сущностях и их атрибутах. Этот патент описывает ключевые механизмы того, как эта база знаний автоматически расширяется: как система узнает, что для сущности типа «Фильм» важны атрибуты «Режиссер» и «Время выполнения», анализируя веб-контент. Это процесс обнаружения схемы и извлечения фактов.

Как я могу гарантировать, что Google распознает атрибуты на моем сайте?

Гарантий нет, но можно значительно повысить вероятность. Используйте четкую семантическую HTML-разметку (таблицы, списки определений), поддерживайте консистентность шаблонов страниц для однотипного контента и используйте общепринятые названия для атрибутов. Комплексный подход, сочетающий эти методы с микроразметкой Schema.org, является оптимальным.

Что делать, если моя CMS затрудняет поддержание консистентных шаблонов?

Это является техническим недостатком с точки зрения SEO. Если система не может надежно идентифицировать Template из-за хаотичной или постоянно меняющейся верстки, извлечение атрибутов будет менее эффективным. В долгосрочной перспективе стоит рассмотреть рефакторинг кода или переход на систему, обеспечивающую более чистую и консистентную HTML-структуру.

Что такое «Instance/Attribute Collection»?

Это внутренняя база данных Google (или аналогичной системы), упомянутая в патенте, которая хранит ранее извлеченные ассоциации между сущностями и их атрибутами. Это, по сути, формализованное хранилище фактов, извлеченных из веба, которое используется для быстрого поиска релевантных атрибутов при обработке новых запросов или анализе новых данных.

Означает ли этот патент, что Google предпочитает данные в таблицах?

Да, для определенных типов данных. Таблицы явно упоминаются как Structured Components, из которых легко извлекать атрибуты и значения, поскольку их структура (колонки, строки, заголовки) четко определяет связи между данными. Если информация носит табличный характер (например, спецификации продукта), использование тега <table> является лучшей практикой.

Как это влияет на SEO для E-commerce?

Влияние критическое. Для страниц продуктов жизненно важно, чтобы все спецификации были полными и легко извлекаемыми. Использование консистентных шаблонов и структурированных компонентов (например, таблиц спецификаций) помогает Google точно определить все атрибуты товара (размер, цвет, вес, технические характеристики), что улучшает видимость в поиске и товарных агрегаторах.

Как Google использует шаблоны сайтов и структурированные компоненты для извлечения и расширения наборов сущностей (Entity Set Expansion)

Патент описывает, как Google автоматически расширяет наборы данных (например, таблицы или списки). Система анализирует существующие сущности и ищет новые похожие элементы в интернете. Для этого используются два ключевых метода: анализ повторяющихся шаблонов веб-страниц (Template Analysis) и извлечение данных из структурированных компонентов (HTML-таблиц и списков) на сайтах.

US8452791B2
2013-05-28

Knowledge Graph
Семантика и интент
Структура сайта

Как Google использует атрибуты сущностей для генерации «Дополненных запросов» и уточнения поиска

Google использует механизм для помощи в исследовании тем, связанных с сущностями (люди, места, продукты). Система распознает сущность в запросе, определяет ее ключевые атрибуты (анализируя результаты поиска или Knowledge Graph) и автоматически генерирует список предлагаемых «дополненных запросов» (Сущность + Атрибут). Это позволяет пользователю одним кликом запустить новый, более сфокусированный поиск по теме.

US10055462B2
2018-08-21

Семантика и интент
Knowledge Graph
SERP

Как Google автоматизирует извлечение структурированных данных с веб-страниц для создания списков ключевых слов

Патент Google описывает инструмент для автоматического извлечения данных со структурированных веб-страниц. Пользователь выбирает два примера элемента (например, названия товаров), а инструмент анализирует структуру документа (DOM-дерево), находит шаблон и автоматически извлекает все остальные элементы, соответствующие этому шаблону. Это используется для быстрого сбора ключевых слов для рекламных кампаний.

US8341176B1
2012-12-25

Структура сайта

Как Google использует данные веб-поиска для распознавания сущностей в специализированных вертикалях (на примере поиска медиаконтента)

Google использует двухэтапный процесс для ответа на описательные запросы в специализированных поисках (например, поиск фильмов по сюжету). Сначала система ищет информацию в основном веб-индексе, анализирует топовые результаты для выявления релевантных сущностей (названий фильмов), а затем использует эти сущности для поиска в специализированной базе данных.

US9063984B1
2015-06-23

Семантика и интент
Мультимедиа
Индексация

Как Google определяет сущности (например, болезни) по списку признаков (например, симптомов) в запросе пользователя

Google использует различные методы для ответа на запросы, содержащие список признаков (атрибутов), но не называющие саму сущность. Система определяет, какой тип сущности ищет пользователь (например, медицинское состояние по симптомам), и идентифицирует наиболее релевантные сущности. Для этого анализируется частота упоминания сущностей в результатах поиска по исходному запросу или используются специально сгенерированные комбинированные запросы.

US8843466B1
2014-09-23

Семантика и интент
Knowledge Graph
Индексация

Как Google использует историю запросов, сделанных на Картах, для ранжирования локальных результатов и рекламы

Google анализирует, что пользователи ищут, когда просматривают определенную географическую область на карте (Viewport). Эта агрегированная история запросов используется для определения популярности локальных бизнесов и контента в этом конкретном районе. Результаты, которые часто запрашивались в этой области, особенно недавно, получают значительное повышение в ранжировании.

US9129029B1
2015-09-08

Local SEO
Поведенческие сигналы
Свежесть контента

Как Google использует историю местоположений для определения физической активности пользователя и гиперперсонализации поиска

Google анализирует историю перемещений пользователя (местоположения и скорость), чтобы определить его текущую физическую активность (например, поход, шоппинг) и способ передвижения (например, пешком, на автобусе). Эта информация используется для радикальной персонализации: система корректирует ранжирование результатов, изменяет запросы и формирует подсказки, чтобы они соответствовали контексту реальных действий пользователя.

US20150006290A1
2015-01-01

Поведенческие сигналы
Персонализация
Local SEO

Как Google использует офлайн-сигналы и авторитетность сущностей для ранжирования контента

Google использует реальные, офлайн-сигналы авторитетности для ранжирования документов, у которых отсутствует естественная ссылочная структура (например, оцифрованные книги). Система оценивает коммерческий успех документа (данные о продажах, списки бестселлеров), репутацию связанных сущностей (автора и издателя) и может переносить ссылочный авторитет с официальных сайтов этих сущностей на сам документ для улучшения его позиций в поиске.

US8799107B1
2014-08-05

EEAT и качество
SERP
Поведенческие сигналы

Как Google вычисляет важность сущностей внутри документа, используя контекст, ссылки и поведение пользователей, для улучшения ранжирования

Google использует систему для определения относительной важности сущностей (люди, места, даты) внутри документа (книги или веб-страницы) независимо от поискового запроса. Важность рассчитывается на основе того, где сущность упомянута (контекст, структура), насколько точно она определена, ссылаются ли на этот раздел внешние источники и как часто его просматривают пользователи. Эти оценки важности сущностей затем используются как сигнал для ранжирования самого документа в результатах поиска.

US7783644B1
2010-08-24

Поведенческие сигналы
Индексация
Семантика и интент

Как Google (YouTube) ранжирует видео, повышая те, которые начинают сессию просмотра и приводят внешний трафик ("Lead Video")

Google использует систему ранжирования для видеоплатформ, которая идентифицирует "ведущее видео" (Lead Video), инициирующее сессию просмотра. Система применяет повышающие коэффициенты (Scaling Factors) ко времени просмотра этого видео. Видео, привлекшие пользователя на платформу из внешних источников (например, из социальных сетей или поиска Google), получают значительно больший коэффициент, чем те, что были найдены через внутренние рекомендации.

US10346417B2
2019-07-09

Мультимедиа
Поведенческие сигналы
SERP

Как Google извлекает сущности из активности пользователя для запуска проактивных (имплицитных) поисковых запросов

Анализ патента Google, описывающего метод идентификации «именованных сущностей» (людей, тем, фраз) путем мониторинга действий пользователя, таких как электронная почта, просмотр веб-страниц и набор текста. Система использует эти сущности для проактивного запуска фоновых поисковых запросов (имплицитных запросов), релевантных текущему контексту пользователя, часто с использованием персонализированных данных.

US9009153B2
2015-04-14

Персонализация
Семантика и интент
Поведенческие сигналы

Как Google использует данные о кликах и пропусках для валидации и удаления неэффективных синонимов в поиске

Google постоянно тестирует правила подстановки (синонимы) для расширения запросов. Этот патент описывает механизм оценки эффективности этих правил с помощью анализа поведения пользователей (клики и пропуски результатов). Если пользователи часто пропускают результаты, содержащие подставленный термин, система автоматически удаляет это правило, очищая понимание запросов от нерелевантных синонимов.

US8965875B1
2015-02-24

Поведенческие сигналы
Семантика и интент
EEAT и качество

Как Google (YouTube) анализирует трафик конкурирующих видео для рекомендации улучшений метаданных

Google использует систему для анализа конкуренции между видео на основе общих поисковых запросов и времени просмотра. Система выявляет поисковые запросы, которые приводят трафик на конкурирующие (например, производные) видео, и сравнивает их с метаданными оригинального видео. Если обнаруживаются релевантные термины, отсутствующие у оригинала, они рекомендуются автору для улучшения видимости.

US10318581B2
2019-06-11

Поведенческие сигналы
Мультимедиа
Семантика и интент

Как Google понижает в выдаче результаты, которые пользователь уже видел или проигнорировал в рамках одной поисковой сессии

Google использует механизм для улучшения пользовательского опыта во время длительных поисковых сессий. Если пользователь вводит несколько связанных запросов подряд, система идентифицирует результаты, которые уже появлялись в ответ на предыдущие запросы. Эти повторяющиеся результаты понижаются в ранжировании для текущего запроса, чтобы освободить место для новых, потенциально более полезных страниц. Понижение контролируется порогом релевантности, чтобы не скрывать важный контент.

US8051076B1
2011-11-01

SERP
Поведенческие сигналы

Как Google использует блокировку сайтов пользователями для персонализации выдачи и как глобальный сигнал ранжирования (Remove List Score)

Google позволяет пользователям удалять нежелательные документы или целые сайты из своей поисковой выдачи. Система агрегирует эти данные о блокировках от множества пользователей и использует их как глобальный сигнал ранжирования — «Remove List Score» — для выявления низкокачественного контента и улучшения качества поиска для всех.

US8417697B2
2013-04-09

Персонализация
Поведенческие сигналы
Антиспам