Как Google автоматически классифицирует сущности в Knowledge Graph с помощью "Коллекций"

DETERMINING COLLECTION MEMBERSHIP IN A DATA GRAPH (Определение принадлежности к коллекции в графе данных)

US20150100605A1
Google LLC
2014-02-21
2015-04-09

Google использует систему для автоматического создания и категоризации групп сущностей ("Коллекций") в Knowledge Graph на основе общих признаков. Патент описывает язык правил для определения принадлежности к коллекции и высокоэффективный механизм, который проверяет сущность на соответствие всем коллекциям за один проход, обеспечивая масштабируемость и актуальность данных.

Какую проблему решает

Патент решает проблему масштабируемой классификации сущностей в больших графах знаний (например, Knowledge Graph). Графы содержат мелкозернистые факты (триплеты), но для поиска, анализа данных и таргетинга рекламы часто полезнее понимать сущности на более высоком уровне (например, знать, что кто-то "Отец" или "Гитарист", а не конкретные имена детей или альбомы). Ручное создание таких групп (Collections) не масштабируется. Изобретение автоматизирует обнаружение полезных коллекций и обеспечивает высокоэффективный механизм определения принадлежности сущностей к ним.

Что запатентовано

Запатентована система и метод для эффективного определения принадлежности узла (сущности) к коллекциям в графе данных. Изобретение включает формальный язык для определения правил коллекций (Collection Definitions) и механизм индексации этих правил (Collection Index). Ключевая особенность — способность системы определить принадлежность сущности ко всем существующим коллекциям за один проход по ее окрестностям (связям) в графе.

Как это работает

Система работает в нескольких режимах:

Обнаружение Коллекций (Офлайн): Система автоматически идентифицирует потенциальные коллекции, анализируя группы сущностей (из поисковых логов, категорий Википедии) и находя общие для них свойства (property-value pairs). Для выбора лучших определений используется метрика Information Gain.
Индексация Правил (Офлайн): Правила опубликованных коллекций (определенные в виде условий и ограничений) индексируются для быстрого доступа. Создается Collection Index, разделенный по типам ограничений (Constraint Types).
Оценка Принадлежности (Пакетно или Онлайн): Для определения членства сущности система итерирует по всем ее связям (ребрам) только один раз. Каждая связь проверяется по Collection Index. Система отслеживает выполнение условий для всех коллекций одновременно. Если все условия коллекции выполнены, система генерирует в графе связь между сущностью и коллекцией.

Актуальность для SEO

Высокая. Автоматическая и масштабируемая классификация сущностей является фундаментом для работы Knowledge Graph. Этот механизм напрямую влияет на то, как Google понимает сущности, формирует Knowledge Panels и отвечает на запросы о категориях объектов. Технология остается критически важной для развития семантического поиска.

Важность для SEO

Патент имеет высокое стратегическое значение для Entity SEO и оптимизации под Knowledge Graph. Он описывает механизм, с помощью которого Google классифицирует сущности. Понимание этого механизма позволяет SEO-специалистам понять, какие именно данные и связи необходимы для того, чтобы ключевые сущности (компании, продукты, авторы) были корректно отнесены к важным коллекциям (например, "Award-Winning Authors" или "San Francisco-based Startups"), что напрямую влияет на видимость и понимание E-E-A-T.

Термины и определения

Collection (Коллекция): Группа сущностей в графе данных, объединенных общими характеристиками. Примеры: "Президенты США", "Лауреаты Нобелевской премии".
Collection Definition (Определение коллекции): Набор правил, определяющих условия членства в коллекции. Состоит из одного или нескольких условий (Conditions).
Condition (Условие): Часть определения коллекции. Состоит из одного или нескольких ограничений (Constraints). Если в условии несколько ограничений, они связаны логическим ИЛИ (дизъюнкция).
Conjunctive Normal Form (CNF) (Конъюнктивная нормальная форма): Формат определения коллекций. Все условия (Conditions) коллекции должны быть выполнены (логическое И) для членства. Каждое условие является дизъюнкцией (логическое ИЛИ) ограничений.
Constraint (Ограничение): Элементарное правило, проверяющее наличие или отсутствие определенного пути или значения в графе. Имеет тип (Constraint Type) и выражение (Constraint Expression).
Constraint Types (Типы ограничений): Категории правил: Exists (путь существует), Not Exists (путь не существует), Equals (путь ведет к конкретному значению/сущности), Not Equals (путь не ведет к значению), Template (динамическое создание коллекций на основе значения).
Collection Index (Индекс коллекций): Структура данных, индексирующая все ограничения из всех опубликованных коллекций. Позволяет быстро находить, какие условия выполняются при обходе связей сущности.
Data Graph (Граф данных): База знаний (например, Knowledge Graph), где сущности представлены узлами (Nodes/Entities), а отношения между ними — ребрами (Edges/Relationships).
Information Gain (Прирост информации): Метрика из теории информации, используемая в процессе автоматического обнаружения коллекций для оценки того, насколько хорошо комбинация ограничений определяет набор сущностей.
Property-Value Pair (Пара свойство-значение): Комбинация пути (свойства/отношения) и целевого узла (значения) в графе.
Template Variable (Переменная шаблона): Переменная в ограничении типа Template, которая позволяет значению целевого узла определять, к какой именно коллекции принадлежит сущность (например, [CTRY] в "Presidents of [CTRY]").

Ключевые утверждения (Анализ Claims)

Патент фокусируется на механизме индексации правил и эффективном вычислении принадлежности к коллекциям.

Claim 1 (Независимый пункт): Описывает систему для эффективной оценки принадлежности.

Система имеет граф данных (узлы и ребра) и индекс ограничений (index of constraints) из определений коллекций.
Определение коллекции состоит из условий, которые связаны логическим И (conjunctive).
Система оценивает ребро (связь) для узла (сущности) по индексу, чтобы определить, какие условия выполняются этим ребром и его окрестностью.
Этот процесс повторяется для каждого ребра, связанного с узлом.
Система определяет, что все условия для первой коллекции выполнены.
Генерируется индикатор в графе данных о том, что узел является членом этой коллекции.

Claim 16 (Независимый пункт): Описывает пошаговый метод оценки принадлежности с использованием структур данных для отслеживания выполнения условий и нарушений.

Инициализация первых структур данных (для отслеживания выполнения условий включения – condition met/not met) для узла.
Инициализация вторых структур данных (для отслеживания нарушений условий исключения – violation found/not found).
Оценка связи и ее окрестности по индексу коллекций.
Если связь удовлетворяет выражению:
- Если это включение: установка флага condition met в первой структуре.
- Если это исключение: установка флага violation found во второй структуре.
Повторение оценки для оставшихся связей узла.
Финализация: Для каждой второй структуры, если флаг violation not found, установка флага condition met в первой структуре.
Генерация членства: Для каждой первой структуры, если все флаги condition met, генерация связи в графе, указывающей на членство узла в коллекции.

Claim 21 (Независимый пункт): Описывает систему, которая генерирует индекс коллекций.

Система хранит определения коллекций, где условие может быть одним ограничением или группой ограничений (дизъюнкция).
Система генерирует индекс для этих определений.
Каждая запись индекса для ограничения включает: тип ограничения, выражение ограничения, идентификатор коллекции и индикатор условия внутри коллекции, связанного с этим ограничением.

Где и как применяется

Изобретение является инфраструктурной технологией для управления и использования Графа Знаний (Knowledge Graph).

INDEXING – Индексирование и извлечение признаков
Основное применение. На этом этапе происходит построение самого графа данных. Описанный механизм используется для анализа существующих связей и генерации новых связей, классифицирующих сущности.

Пакетная обработка (Batch Process): Система может периодически пересчитывать принадлежность всех сущностей ко всем коллекциям (Claim 8). Это обогащает индекс новыми классификационными данными.
Генерация признаков: Принадлежность к определенным коллекциям (например, "Award-Winning Journalists") может использоваться как признак качества или авторитетности (E-E-A-T) для дальнейшего ранжирования.

QUNDERSTANDING – Понимание Запросов
Коллекции используются для интерпретации запросов о группах объектов. Если пользователь ищет "19th Century Leaders", система может использовать соответствующую коллекцию для быстрого поиска членов (Claim 9).

RANKING – Ранжирование
Принадлежность к коллекциям может использоваться как сигнал ранжирования. Сущности, принадлежащие к высококачественным или релевантным запросу коллекциям, могут получать преимущество.

Входные данные:

Граф данных (сущности и их связи).
Определения опубликованных коллекций (Published Collections).
Индекс коллекций (Collection Index).

Выходные данные:

Новые ребра в графе данных, соединяющие сущности с узлами, представляющими коллекции (Collection Entities).

На что влияет

Конкретные типы контента: Влияет на любой контент, связанный с сущностями, представленными в Knowledge Graph (статьи об организациях, биографии, описания продуктов).
Специфические запросы: Наибольшее влияние на информационные запросы, ищущие списки, категории или классификации (например, "актеры, играющие на скрипке", "компании, основанные в 2020 году").
Конкретные ниши или тематики: Влияет на все ниши, но особенно критично в YMYL-тематиках, где классификация экспертов и организаций имеет решающее значение для оценки E-E-A-T.

Когда применяется

Пакетная обработка: Периодически (например, ежедневно) для обновления членства во всем графе (офлайн-процесс).
При обновлении данных: Может применяться к отдельной сущности, когда ее данные или связи изменяются в графе.
В реальном времени (Опционально): Система может выполнять оценку принадлежности в ответ на запрос, чтобы вернуть актуальные коллекции для сущности (Claim 15).

Пошаговый алгоритм

Процесс А: Генерация Индекса Коллекций (Офлайн)

Сбор определений: Система получает набор опубликованных коллекций.
Анализ ограничений: Каждое ограничение в каждом определении анализируется для определения его типа (Equals, Exists, Template и т.д.) и выражения.
Генерация индекса: Система создает Collection Index, который может состоять из нескольких субиндексов (по одному для каждого типа ограничения). Каждая запись в индексе связывает выражение ограничения с парой (Идентификатор Коллекции, Идентификатор Условия).

Процесс Б: Оценка Принадлежности Сущности (Пакетно или Онлайн)

Инициализация структур данных: Для оцениваемой сущности создаются структуры данных:
- Структура выполнения условий (например, битовый вектор для каждой коллекции), инициализируется значением "не выполнено".
- Структура нарушений (для ограничений типа Not Exists/Not Equals), инициализируется значением "нарушение не найдено".
Итерация по окрестности (Один проход): Система перебирает все связи (ребра) сущности.
Оценка связи по индексу: Каждая связь проверяется по всем субиндексам:
- Проверка Exists/Equals/Template: Если связь соответствует выражению в индексе, соответствующий флаг в структуре выполнения условий устанавливается в "выполнено".
- Проверка Not Exists/Not Equals: Если связь соответствует выражению в индексе, соответствующий флаг в структуре нарушений устанавливается в "нарушение найдено".
Рекурсивный обход (Опционально): Если требуется проверка путей длиной более одного, система итерирует по связям целевого узла, конкатенируя пути.
Обработка нарушений: После завершения итерации система анализирует структуру нарушений. Если для условия нарушение не найдено, соответствующий флаг в структуре выполнения условий устанавливается в "выполнено".
Определение рекурсивного членства: Система проверяет условия, зависящие от членства в других коллекциях (используя индексы Member/Not Member).
Финализация и генерация связей: Система анализирует структуру выполнения условий. Для каждой коллекции, где все условия помечены как "выполнено", система генерирует новое ребро в графе данных, связывающее сущность с узлом коллекции. Для коллекций типа Template система использует сохраненные значения переменных для генерации связей с конкретными динамическими коллекциями.

Какие данные и как использует

Данные на входе

Патент фокусируется исключительно на данных, хранящихся в графе знаний.

Структурные факторы: Система использует структуру графа данных — узлы (сущности) и ребра (отношения). Анализируются property-value pairs (пары свойство-значение) для каждой сущности. Это включает прямые связи и пути длиной более одного.
Системные данные: Определения коллекций (Collection Definitions) и сгенерированный индекс ограничений (Collection Index).
Поведенческие факторы (Только для обнаружения): На этапе автоматического обнаружения кандидатов в коллекции система может использовать поисковые логи (Search Records) для идентификации популярных запросов и оценки популярности коллекций.

Какие метрики используются и как они считаются

Метрики делятся на два этапа: Обнаружение коллекций и Оценка принадлежности.

Этап Обнаружения (Discovery):

Information Gain (Прирост информации): Используется для выбора наилучшей комбинации ограничений для определения коллекции. Рассчитывается на основе энтропии, учитывая общее количество сущностей в графе, количество сущностей в исходном наборе, и количество сущностей, удовлетворяющих ограничениям.
Correlation Score (Оценка корреляции): Используется для выбора наиболее значимых property-value pairs. Может использовать Information Gain, TF-IDF и учитывать популярность сущностей.
Search Popularity Score (Оценка поисковой популярности): Используется для ранжирования кандидатов в коллекции. Генерируются псевдо-запросы на основе определения коллекции и проверяется их частотность в поисковых логах.
Quality Threshold (Порог качества): Агрегированная оценка (включая ранг, качество имени и т.д.), используемая для принятия решения о публикации коллекции.

Этап Оценки Принадлежности (Membership Evaluation):

Флаги выполнения условий (Condition Met Flags): Бинарные индикаторы, отслеживающие выполнение каждого условия коллекции в процессе обхода графа.
Флаги нарушений (Violation Found Flags): Бинарные индикаторы, отслеживающие нарушение условий исключения (Not Exists/Not Equals).

Автоматическая классификация в масштабе: Патент описывает инфраструктуру, позволяющую Google автоматически классифицировать миллиарды сущностей в Knowledge Graph без ручного вмешательства. Это основа семантического поиска.
Эффективность как ключевой фактор: Центральное место в патенте занимает эффективность вычисления. Способность проверить принадлежность ко всем коллекциям за один проход (O(N), где N – количество связей сущности) позволяет поддерживать актуальность данных и использовать их в реальном времени.
Гибкий язык правил: Использование Conjunctive Normal Form (И условий, состоящих из ИЛИ ограничений) и различных типов ограничений (Exists, Equals, Not) обеспечивает высокую гибкость в определении сложных коллекций.
Динамические коллекции (Template Type): Ограничения типа Template крайне важны. Они позволяют динамически генерировать тысячи гранулярных коллекций (например, "Актеры из [Город]", "Выпускники [Университет]") на основе значений атрибутов сущности.
Рекурсивные определения: Система поддерживает рекурсию, позволяя определять коллекции через принадлежность к другим коллекциям (например, Коллекция А = Члены Коллекции Б И Условие В).
Основа для E-E-A-T и авторитетности: Принадлежность к определенным коллекциям (например, "Сертифицированные врачи", "Авторы NYT") является сильным сигналом авторитетности. Этот механизм позволяет Google вычислять такие сигналы автоматически.

Best practices (это мы делаем)

Обеспечение полноты данных о сущности (Entity Completeness): Необходимо обеспечить максимальную полноту и точность фактов о ключевых сущностях (компания, авторы, продукты) в источниках, которые использует Google (Structured Data, Wikidata, Wikipedia, официальные профили). Чем больше атрибутов известно системе, тем точнее она сможет классифицировать сущность и включить ее в релевантные коллекции.
Фокус на определяющих атрибутах (Defining Attributes): Идентифицируйте ключевые атрибуты, которые формируют важные коллекции в вашей нише (например, для авторов: награды, место работы, образование; для компаний: местоположение, тип бизнеса, год основания). Убедитесь, что эти данные доступны для индексации и корректны.
Использование стандартизированных значений: При указании атрибутов (например, в микроразметке) используйте стандартизированные значения и ссылки на известные сущности (например, через sameAs, указывая на Wikidata ID). Это гарантирует, что Google корректно распознает целевой узел (target node) при оценке ограничений типа Equals и Template.
Мониторинг классификации сущностей: Отслеживайте, как Google классифицирует ваши сущности (например, тип сущности, отображаемый в Knowledge Panel). Если классификация неверна, это сигнал о том, что Google не видит необходимых связей для включения в правильную коллекцию.

Worst practices (это делать не надо)

Предоставление противоречивых данных: Публикация противоречивых фактов о сущности в разных источниках может привести к некорректной классификации или потере доверия к данным.
Игнорирование Entity SEO: Фокусироваться только на ключевых словах и игнорировать оптимизацию сущностей в Knowledge Graph. В современном поиске видимость часто зависит от того, как классифицирована ваша сущность.
Манипуляция данными о сущностях: Попытки искусственно создать связи для включения в авторитетные коллекции (например, ложное указание наград или аффилиаций) рискованны и могут привести к пессимизации.

Стратегическое значение

Патент подтверждает фундаментальную роль Knowledge Graph в поиске Google. Он демонстрирует, что классификация сущностей — это не ручной процесс, а высоко автоматизированная и масштабируемая система. Для SEO это означает, что управление репутацией и данными о сущностях (Entity Management) является критически важной частью стратегии. Долгосрочный успех зависит от способности предоставить Google четкие, непротиворечивые и полные данные, которые позволят системе корректно классифицировать ваши сущности и оценить их авторитетность (E-E-A-T).

Практические примеры

Сценарий: Оптимизация профиля автора для улучшения E-E-A-T

Задача: Улучшить восприятие авторитетности автора медицинских статей.

Анализ целевых коллекций: Определяем, в какие коллекции должен входить автор. Например: "Врачи-кардиологи", "Выпускники [Название Мед. ВУЗа]", "Сотрудники [Название Клиники]", "Авторы научных публикаций".
Анализ требований (Constraints): Предполагаем ограничения для коллекции "Врачи-кардиологи":
- Condition 0: Equals profession=Cardiologist
- Condition 1: Exists medical_license
Действия по оптимизации:
- Structured Data (Schema.org): На странице автора используем разметку Person. Четко указываем jobTitle ("Cardiologist"). Указываем alumniOf (ВУЗ) и worksFor (Клиника), ссылаясь на их сущности (если есть).
- Внешние источники: Обновляем профиль автора в Wikidata, профессиональных реестрах и на сайте клиники, убеждаясь, что профессия и лицензия указаны корректно и единообразно.
Ожидаемый результат: Система Google при следующем обходе графа обнаружит необходимые связи. Механизм оценки принадлежности проверит их по индексу, подтвердит выполнение условий и включит автора в целевые коллекции. Это повысит E-E-A-T автора и контента, который он создает.

Что такое "Коллекция" в контексте этого патента и чем она отличается от типа сущности?

Тип сущности (например, "Person", "Organization") — это базовая классификация. Коллекция — это более гранулярная и динамическая группировка, основанная на выполнении определенных правил и наличии атрибутов. Например, сущность с типом "Person" может одновременно принадлежать к коллекциям "19th Century Leaders", "Lawyers" и "Only Children". Коллекции описывают роли и характеристики сущности более детально, чем типы.

Как этот патент влияет на E-E-A-T?

Он напрямую влияет на автоматическую оценку Авторитетности (Authority) и Экспертности (Expertise). Если система Google может автоматически включить автора в коллекции типа "Award-Winning Journalists" или "Certified Doctors" на основе его атрибутов и связей, это служит сильным сигналом E-E-A-T. Этот механизм позволяет Google масштабировать оценку авторитетности без ручной проверки.

Что означает "оценка принадлежности за один проход" и почему это важно?

Это означает, что система проверяет каждую связь (ребро) сущности только один раз, одновременно сопоставляя ее с правилами всех существующих коллекций. Это критически важно для производительности. Вместо того чтобы многократно обходить граф для каждой коллекции, система делает это один раз, что позволяет обрабатывать миллиарды сущностей и поддерживать актуальность Knowledge Graph.

Что такое тип ограничения "Template" и как он используется в SEO?

Тип Template позволяет динамически создавать коллекции на основе значения атрибута. Например, правило "Гражданство=[Страна]" создаст коллекции "Граждане Франции", "Граждане США" и т.д. Для SEO это подчеркивает важность точного указания ключевых атрибутов (местоположение, профессия, университет), так как они напрямую определяют, в какие гранулярные коллекции попадет ваша сущность.

Как Google автоматически находит новые коллекции?

Патент описывает процесс обнаружения (Discovery). Система анализирует группы сущностей, которые часто появляются вместе в поисковых запросах или категориях Википедии. Затем она ищет общие для них свойства в графе и использует метрику Information Gain, чтобы определить, какие свойства лучше всего определяют эту группу. Так формируются кандидаты в коллекции.

Какие источники данных использует Google для этого механизма?

Механизм оценки принадлежности использует исключительно данные из Knowledge Graph (узлы и связи). Сам Knowledge Graph наполняется из различных источников, включая структурированные данные (Schema.org), Wikidata, Wikipedia, официальные сайты и данные, извлеченные из веб-страниц. Ваша задача — обеспечить наличие корректных данных в этих источниках.

Что делать, если моя сущность (например, компания) неправильно классифицирована Google?

Неправильная классификация означает, что система видит связи, которые соответствуют правилам неверной коллекции, или не видит связей, необходимых для правильной. Необходимо провести аудит данных о сущности во всех источниках (ваш сайт, разметка, Wikidata, профили), найти противоречия или отсутствующие факты и исправить их, обеспечив консистентность данных.

Влияет ли этот механизм на локальный поиск?

Да. Локальные бизнесы являются сущностями в графе. Механизм позволяет создавать коллекции типа "Рестораны в [Город]", "Круглосуточные магазины" или "Бизнесы, принимающие [Тип оплаты]". Корректное заполнение данных в Google Business Profile и микроразметке гарантирует попадание в релевантные локальные коллекции.

Что такое Conjunctive Normal Form (CNF) в определении коллекций?

Это означает, что определение состоит из нескольких условий, и все они должны быть выполнены (логическое И). При этом каждое условие может состоять из нескольких ограничений, из которых достаточно выполнить хотя бы одно (логическое ИЛИ). Пример: (Условие 1: Профессия=Президент ИЛИ Профессия=Монарх) И (Условие 2: Год рождения > 1800).

Может ли сущность быть исключена из коллекции, даже если она соответствует правилам?

Да. Патент упоминает возможность использования "черных списков" (blacklist) в определении коллекции. Сущности в черном списке исключаются из коллекции независимо от выполнения условий. Также существуют "белые списки" (whitelist) для принудительного включения сущностей.

Как Google использует Knowledge Graph для генерации коллекций связанных сущностей и облегчения навигации в поиске

Google использует этот механизм для помощи пользователям в изучении тем, связанных с их исходным запросом. Когда пользователь ищет коллекцию сущностей (например, «Романтические фильмы»), система анализирует связи этих сущностей в Knowledge Graph (например, кто режиссер, кто актер). На основе этих связей (триплетов) система генерирует и предлагает пользователю новые коллекции для изучения (например, «Актеры романтических фильмов»).

US20160063106A1
2016-03-03

Knowledge Graph
Семантика и интент

Как Google использует Граф Знаний для выбора, группировки и ранжирования связанных сущностей в Knowledge Panel

Google использует этот механизм для определения того, какие группы связанных сущностей (например, "Фильмы", "Члены семьи", "Коллеги") показать в Панели Знаний. Система анализирует пути в Графе Знаний, группирует сущности по типу их связи (Path Type) и ранжирует эти группы по популярности и силе связи (Relationship Strength), основанной на совместном упоминании в вебе и запросах.

US9411857B1
2016-08-09

Knowledge Graph
Семантика и интент

Как Google автоматически выбирает категории и контент для страниц сущностей, комбинируя данные о поведении пользователей и Knowledge Graph

Google использует механизм для автоматического создания страниц о сущностях (например, о фильмах или персонажах). Система определяет, какие категории (свойства) сущности наиболее интересны пользователям, сравнивая данные из Knowledge Graph с данными о том, что пользователи ищут или смотрят вместе с этой сущностью. Затем она наполняет эти категории популярным контентом.

US11036743B2
2021-06-15

Knowledge Graph
Семантика и интент
Поведенческие сигналы

Как Google ранжирует сущности в Knowledge Graph, используя адаптивные веса для метрик вклада, известности и наград

Google использует систему для ранжирования сущностей, извлеченных из Knowledge Graph. Система рассчитывает четыре ключевые метрики: связанность, значимость типа, вклад и награды. Затем она применяет весовые коэффициенты, которые адаптируются в зависимости от типа сущности (например, «Фильм» или «Человек»), чтобы определить итоговый рейтинг. Это влияет на то, какие сущности будут показаны в каруселях, панелях знаний и других функциях поиска, связанных с сущностями.

US10235423B2
2019-03-19

Knowledge Graph
Семантика и интент
SERP

Как Google автоматически определяет ключевые характеристики (атрибуты) сущностей, анализируя неструктурированный веб-контент

Google использует этот механизм для автоматического определения схемы (набора атрибутов) для любой сущности. Анализируя, как различные веб-страницы описывают набор схожих объектов (например, список фильмов), система выявляет новые релевантные характеристики (например, «Режиссер», «Время выполнения»), извлекая их из таблиц, списков или шаблонов страниц в интернете.

US8615707B2
2013-12-24

Knowledge Graph
Семантика и интент

Как Google использует позиционный CTR (Selection Rate) для ранжирования и группировки вертикалей в Универсальном поиске

Google использует механизм для структурирования поисковой выдачи путем группировки результатов по категориям (вертикалям), таким как Новости, Видео или Веб. Система определяет порядок этих категорий, основываясь на ожидаемой частоте кликов (Selection Rate/CTR) тех позиций, которые занимают результаты категории в исходном смешанном ранжировании. Это определяет структуру Универсального поиска (Universal Search).

US8498984B1
2013-07-30

SERP
Поведенческие сигналы

Как Google использует структуру сайта и анкорные тексты для извлечения Сущностей из шумных заголовков (Title)

Google использует метод для точного определения основного объекта (Сущности) веб-страницы, когда заголовок (Title) содержит лишнюю информацию (брендинг, рубрики). Система анализирует заголовки похожих страниц на том же сайте (Peer Documents) и анкорные тексты, ссылающиеся на них. Выявляя повторяющиеся шаблоны (префиксы и суффиксы) в заголовках, Google отделяет название Сущности от шума.

US7590628B2
2009-09-15

Семантика и интент
Структура сайта
Ссылки

Как Google динамически повышает порог качества для результатов поиска по «рискованным» запросам

Google оценивает «риск» поискового запроса, анализируя общее качество топовых результатов. Если запрос часто привлекает спам, кликбейт или нежелательный контент (особенно видео), система динамически повышает минимальный порог качества. Контент, не соответствующий этому повышенному стандарту, понижается в выдаче, при этом учитываются такие сигналы, как показатель просмотров (Watch Rate).

US11609949B2
2023-03-21

Антиспам
SERP
Поведенческие сигналы

Как Google использует обучение с подкреплением (Reinforcement Learning) для оптимизации ранжирования и переписывания запросов на основе успешности поисковых сессий

Google использует систему Reinforcement Learning для динамической адаптации поисковых процессов. Система анализирует поисковые сессии (последовательности запросов и кликов) и учится оптимизировать выдачу, чтобы пользователь быстрее находил нужный результат. Это достигается путем корректировки весов факторов ранжирования, переписывания запросов или даже обновления индекса на лету для конкретных ситуаций.

US11157488B2
2021-10-26

Индексация
Поведенческие сигналы
Семантика и интент

Как Google (YouTube) ранжирует видео, повышая те, которые начинают сессию просмотра и приводят внешний трафик ("Lead Video")

Google использует систему ранжирования для видеоплатформ, которая идентифицирует "ведущее видео" (Lead Video), инициирующее сессию просмотра. Система применяет повышающие коэффициенты (Scaling Factors) ко времени просмотра этого видео. Видео, привлекшие пользователя на платформу из внешних источников (например, из социальных сетей или поиска Google), получают значительно больший коэффициент, чем те, что были найдены через внутренние рекомендации.

US10346417B2
2019-07-09

Мультимедиа
Поведенческие сигналы
SERP

Как Google использует время просмотра (Watch Time) для ранжирования видео и другого контента

Google измеряет, сколько времени пользователи тратят на потребление контента (особенно видео) после клика по результату поиска и во время последующей сессии. Ресурсы, которые удерживают внимание пользователей дольше, получают повышение в ранжировании (Boost), а ресурсы с коротким временем просмотра понижаются. Система учитывает не только клики, но и фактическое вовлечение пользователя в рамках всей сессии просмотра.

US9098511B1
2015-08-04

Поведенческие сигналы
Мультимедиа
SERP

Как Google интегрирует персональный и социальный контент (Email, посты друзей, календарь) в универсальную поисковую выдачу

Google использует этот механизм для глубокой персонализации поиска, интегрируя релевантный контент из личных источников пользователя (Gmail, Drive, Calendar) и от его социальных связей. Система индексирует этот контент с разрешения пользователя, ранжирует его с учетом социальных сигналов (Affinity) и адаптивно отображает в SERP, смешивая с публичными результатами.

US20150310100A1
2015-10-29

Персонализация
Индексация
Поведенческие сигналы

Как Google использует социальные связи для выявления предвзятых ссылок и борьбы со ссылочными схемами и кликфродом

Google анализирует взаимоотношения между администраторами веб-сайтов (используя данные социальных сетей), чтобы определить независимость ссылок или кликов по рекламе. Если обнаружена тесная связь, это интерпретируется как предвзятость (Bias). В результате вес ссылки для ранжирования может быть снижен (борьба с Search Spamming), или клик по рекламе может быть дисконтирован (борьба с Ad Spamming).

US10402457B1
2019-09-03

Ссылки
Антиспам
Краулинг

Как Google автоматически дополняет запросы пользователя терминами из его недавней истории поиска для уточнения интента

Google использует механизм для улучшения релевантности результатов путем анализа недавней истории поиска пользователя. Если текущий запрос похож на предыдущие, система определяет ключевые контекстные термины, которые часто повторялись в истории (устойчивый интент), но отсутствуют в текущем запросе. Эти термины автоматически добавляются к запросу, чтобы предоставить более точные и персонализированные результаты.

US9449095B1
2016-09-20

Семантика и интент
Персонализация
Поведенческие сигналы

Как Google динамически изменяет вес синонимов в ранжировании на основе поведения пользователей

Google не присваивает фиксированный вес синонимам (замещающим терминам) при ранжировании. Вес синонима динамически корректируется для каждого документа в зависимости от того, насколько релевантен исходный термин запроса этому документу. Эта релевантность определяется на основе поведенческих данных (клики, время просмотра), что позволяет точнее интерпретировать значение синонимов в контексте конкретной страницы.

US9116957B1
2015-08-25

Поведенческие сигналы
Семантика и интент
SERP