Google использует систему для объяснения, почему две сущности (например, компании) похожи. Вместо очевидных связей (например, «оба являются ресторанами»), система анализирует все общие черты, отфильтровывает слишком частые и слишком редкие, и выбирает «умеренно уникальные» характеристики (например, «дровяная печь» или «живая музыка»), чтобы предоставить более содержательное описание связи.
Описание
Какую задачу решает
Патент решает проблему неинформативного описания связей между сущностями (entities). Когда поисковая система предлагает похожие объекты, связь часто основана на тривиальных общих чертах (например, широкие категории или местоположение). Это не помогает пользователю понять, в чем именно заключается сходство. Цель изобретения — автоматически генерировать «интересные» (interesting) общие черты (commonalities), которые лучше характеризуют отношения между сущностями и улучшают пользовательский опыт исследования.
Что запатентовано
Запатентована система для выявления и описания «интересных» общих черт между связанными сущностями. «Интересность» определяется как умеренная уникальность: общая черта не должна быть слишком распространенной или слишком редкой. Система использует двухуровневый подход: сначала определяет, какие типы источников информации (Signal Types) наиболее важны для связи, а затем анализирует уникальность общих черт в рамках этого типа, чтобы выбрать наиболее показательные дескрипторы.
Как это работает
Система работает в несколько этапов:
- Определение Связанности: Рассчитывается оценка схожести (Overall Similarity Score) между сущностями на основе множества сигналов из разных источников (карты, отзывы, веб-страницы, история поиска). Разные типы сигналов имеют разный вес (Signal Weights).
- Выбор Важного Типа Сигнала: Система определяет, какой тип сигнала (например, отзывы) вносит наибольший вклад в схожесть конкретной пары сущностей.
- Анализ Уникальности: Общие черты в рамках выбранного типа сортируются по мере уникальности (measure of uniqueness) — например, как часто эта черта встречается у других сущностей.
- Фильтрация «Интересного»: Система вычисляет среднее значение уникальности и отбирает общие черты, которые близки к среднему (например, в пределах одного стандартного отклонения), отбрасывая слишком частые и слишком редкие.
- Генерация Описания: Выбранные умеренно уникальные черты используются для описания связи между сущностями.
Актуальность для SEO
Высокая. Понимание связей между сущностями и их атрибутов является фундаментом работы Knowledge Graph, локального поиска (Local Search) и рекомендательных систем. Способность Google предоставлять не просто список похожих мест, но и описательные характеристики (например, в функциях типа «Explore» или «Похожие места») напрямую связана с механизмами, описанными в этом патенте.
Важность для SEO
Патент имеет высокое стратегическое значение (8.5/10), особенно для Entity SEO и локального поиска. Он раскрывает механизм, с помощью которого Google выбирает ключевые дескрипторы для описания сущности и ее связей. Это подчеркивает необходимость для SEO-специалистов фокусироваться на культивировании и обеспечении видимости умеренно уникальных атрибутов бизнеса в разнообразных источниках данных (отзывы, СМИ, структурированные данные), чтобы влиять на то, как сущность представлена в поиске.
Детальный разбор
Термины и определения
- Commonality (Общая черта)
- Общий признак, характеристика, атрибут или ассоциация, разделяемая двумя или более сущностями. Примеры: общая категория, упоминание одним автором, наличие атрибута («открыто допоздна»), общая фраза в отзывах (sentiment phrase).
- Entity (Сущность)
- Представление объекта реального мира или концепции (например, бизнес, локация, организация, персона) в базе знаний.
- Interesting Commonality (Интересная общая черта)
- Общая черта, которая прошла фильтрацию по уникальности (умеренно уникальная) и выбрана для описания связи между сущностями.
- Measure of Uniqueness (Мера уникальности)
- Метрика, оценивающая редкость общей черты. Может рассчитываться как количество сущностей, разделяющих эту черту, или через частоту упоминания в корпусе документов (например, Inverse Document Frequency — IDF).
- Overall Similarity Score (Общая оценка схожести)
- Итоговая метрика, определяющая степень связанности двух сущностей. Рассчитывается путем комбинирования взвешенных оценок схожести по разным типам сигналов.
- Signal (Сигнал)
- Данные, из которых можно сделать вывод о характеристиках сущности или ее связи с другими сущностями.
- Signal Type / Category of potential commonalities (Тип сигнала / Категория общих черт)
- Группировка сигналов по источнику или природе. Примеры: данные карт (Map Data), отзывы (Reviews), категории сущностей (Entity Categories), истории поиска (Search Histories).
- Signal Weights (Веса сигналов)
- Коэффициенты, определяющие важность различных типов сигналов для оценки связанности. Рассчитываются с помощью линейной регрессии (linear regression analysis) на основе ручных оценок.
Ключевые утверждения (Анализ Claims)
Claim 1 (Независимый пункт): Описывает основной метод выявления интересных общих черт, который включает двухуровневый выбор.
- Идентификация связанных сущностей для целевой сущности на основе множества общих черт и их категорий (типов сигналов).
- Уровень 1: Выбор Категории (Типа сигнала):
- Ранжирование категорий общих черт в соответствии с их вкладом в общую связанность сущностей.
- Выбор конкретной категории (например, «Отзывы») на основе этого ранжирования.
- Уровень 2: Выбор Общей Черты:
- Сортировка общих черт (в рамках выбранной категории) по их мере уникальности.
- Идентификация подмножества общих черт, чья мера уникальности превышает нижний порог (т.е. они достаточно уникальны).
- Выбор одной или нескольких общих черт из этого подмножества.
- Идентификация описания связи на основе выбранных общих черт.
Claim 2 и 3 (Зависимые): Детализируют механизм определения Весов Сигналов (Signal Weights).
Ранжирование категорий (Шаг 2 в Claim 1) использует предопределенные веса. Эти веса определяются офлайн путем:
- Получения ручных оценок (ratings) связанности для выборки сущностей.
- Расчета оценок схожести (Similarity Scores) по каждой категории.
- Выполнения линейной регрессии (linear regression analysis) для вычисления весов, которые лучше всего коррелируют с ручными оценками.
Claim 5 (Зависимый): Определяет математический механизм фильтрации по «интересности».
Идентификация подмножества общих черт (Шаг 3 в Claim 1) включает:
- Расчет средней меры уникальности (average measure of uniqueness).
- Идентификацию общих черт, чья мера уникальности находится в пределах примерно одного стандартного отклонения (standard deviation) от среднего значения. Это определяет «умеренную уникальность».
Claim 7 (Зависимый): Описывает дополнительные критерии финального выбора.
Выбор может учитывать: (i) интересы пользователя (персонализация); (ii) доверенные источники информации (trusted information sources); (iii) необходимость разнообразия (выбор черт из разных категорий).
Где и как применяется
Изобретение затрагивает этапы индексирования, офлайн-анализа и представления результатов.
INDEXING – Индексирование и извлечение признаков
На этом этапе происходит сбор и обработка данных из различных источников (Signal Sources) — веб-страниц, отзывов, пользовательских карт (user-defined maps), историй поиска. Система извлекает потенциальные общие черты (commonalities), сентимент-фразы и ассоциирует их с сущностями.
Офлайн-процессы (Предварительные вычисления)
Система выполняет ресурсоемкие вычисления:
- Инициализация Весов: Используя ML (линейную регрессию) и ручные оценки, система рассчитывает Signal Weights для каждого Signal Type.
- Расчет Схожести: Система может предварительно рассчитывать Overall Similarity Scores между парами сущностей для построения графа связей.
METASEARCH / RANKING (Системы Рекомендаций)
Основное применение патента. Когда системе необходимо предоставить пользователю связанные сущности (например, при генерации блока «Похожие места», Local Pack или Knowledge Panel):
- Система идентифицирует наиболее связанные сущности.
- Активируется механизм выбора «интересных» общих черт: определяется наиболее важный Signal Type и выбираются умеренно уникальные дескрипторы для описания связи.
Входные данные:
- Целевая сущность и кандидаты в связанные сущности.
- Сигналы (общие черты), сгруппированные по типам.
- Предварительно рассчитанные Signal Weights.
- Метрики уникальности (например, IDF или количество сущностей) для каждой общей черты.
Выходные данные:
- Текстовое описание (description of the relationship) связи, основанное на «интересных» общих чертах.
На что влияет
- Типы сущностей: Наибольшее влияние на сущности с богатым набором атрибутов и упоминаний: локальный бизнес (рестораны, отели, магазины), организации, медиа (книги, фильмы), публичные персоны.
- Форматы выдачи: Влияет на блоки рекомендаций, Knowledge Panels, Local Packs и функции типа «Explore» на Картах.
- Типы запросов: Запросы, подразумевающие исследование, сравнение или поиск альтернатив.
Когда применяется
- Условия применения: Алгоритм применяется, когда система идентифицировала связанные сущности (Overall Similarity Score выше порога) и требуется предоставить пользователю контекст или объяснение этой связи.
- Триггеры активации: Запрос информации о сущности, активация рекомендательных функций в поиске или на картах.
Пошаговый алгоритм
Процесс разделен на Инициализацию и Обработку.
Процесс А: Инициализация Весов (Офлайн)
- Сбор обучающих данных: Получение пар сущностей с ручными оценками их связанности.
- Расчет схожести по типам: Для каждой пары рассчитываются Similarity Scores отдельно для каждого Signal Type (например, с использованием модифицированного Индекса Жаккара).
- Расчет весов (ML): Выполнение линейной регрессии для определения Signal Weight каждого типа сигнала, который наилучшим образом коррелирует с ручными оценками.
Процесс Б: Идентификация и Описание Связи
- Расчет связанности: Для целевой сущности и кандидатов рассчитывается Overall Similarity Score с использованием весов из Процесса А. Идентифицируются связанные сущности.
- Выбор Категории (Типа Сигнала): Определяется, какой Signal Type вносит наибольший вклад в связанность между конкретной парой сущностей. Этот тип выбирается для анализа.
- Сбор и Оценка Уникальности: Собираются все общие черты (commonalities) в рамках выбранного типа. Для каждой рассчитывается Measure of Uniqueness.
- Анализ Распределения: Вычисляется средняя уникальность (Average) и стандартное отклонение (Standard Deviation) для собранных общих черт.
- Фильтрация «Интересного»: Отбираются общие черты, чья уникальность находится в пределах заданного диапазона (например, ±1 стандартное отклонение от среднего).
- Финальный Выбор: Из отфильтрованного подмножества выбираются финальные дескрипторы. Может учитываться персонализация (Claim 7), доверие к источнику (Claim 7) или разнообразие.
- Генерация Описания: Формируется текстовое описание связи.
Какие данные и как использует
Данные на входе
Система агрегирует данные из множества источников (Signal Sources):
- Контентные факторы (Неструктурированные): Текст веб-страниц, блогов, статей. Текст отзывов (Reviews). Из них извлекаются термины и sentiment phrases (фразы, выражающие мнение).
- Структурные факторы: Категории сущностей (Entity Categories), атрибуты из баз данных, иерархические связи.
- Пользовательские факторы (UGC): Пользовательские карты (User-defined maps). Используются названия карт, описания и факты совместного расположения сущностей как путевых точек (waypoints).
- Поведенческие факторы: Анонимизированные истории поиска (Search Histories) и данные веб-сессий (web browsing session), где пользователи просматривали несколько сущностей подряд.
- Данные об источниках/Авторитетность: Авторство контента (например, отзыв известного критика). Учитывается надежность источника (trusted information sources).
Какие метрики используются и как они считаются
- Similarity Score (по типу сигнала): Оценка схожести для конкретного Signal Type. В патенте упоминается использование Модифицированного Индекса Жаккара (Modified Jaccard Index), который учитывает пересечение и объединение наборов сигналов.
- Signal Weight: Вес типа сигнала. Рассчитывается офлайн с помощью Linear Regression Analysis.
- Overall Similarity Score: Сумма взвешенных Similarity Scores по всем типам сигналов.
- Measure of Uniqueness: Метрика уникальности общей черты. Варианты расчета:
- Количество сущностей, разделяющих эту черту.
- Inverse Document Frequency (IDF) термина в корпусе документов.
- Статистические метрики (Average, Standard Deviation): Используются для анализа распределения уникальности и определения порогов «интересности».
Выводы
- «Интересность» определяется как умеренная уникальность: Ключевой механизм патента — это статистическая фильтрация общих черт. Google целенаправленно избегает слишком общих (тривиальных) и слишком редких (нерепрезентативных) характеристик, предпочитая те, что находятся в «золотой середине» (в пределах стандартного отклонения от среднего).
- Взвешивание и Приоритезация Типов Сигналов: Система использует двухуровневый подход. Сначала с помощью ML (линейной регрессии) определяются общие веса для разных источников данных (Signal Weights). Затем, для конкретной пары сущностей, система определяет, какой тип сигнала внес наибольший вклад в их схожесть, и фокусируется на нем для генерации описания.
- Критичность Разнообразия Источников: Патент подчеркивает важность агрегации данных из множества источников: структурированных (категории), неструктурированных (отзывы, веб-страницы) и поведенческих (карты, история поиска).
- Роль Авторитетности и Персонализации: Помимо уникальности, при финальном выборе описания система может учитывать авторитетность источника (trusted information sources) и интересы конкретного пользователя.
- Фокус на Атрибутах, а не Категориях: Патент демонстрирует стремление Google к более глубокому пониманию атрибутов сущностей для предоставления информативных сравнений, выходящих за рамки базовой категоризации.
Практика
Best practices (это мы делаем)
- Фокус на «умеренно уникальных» атрибутах (УТП): Необходимо выявлять и продвигать атрибуты сущности, которые являются отличительными, но не абсолютно уникальными. Вместо акцента на «Кафе», следует выделять «Свежая обжарка на месте» или «Подходит для работы с ноутбуком». Обеспечьте видимость этих атрибутов на сайте, в GBP и микроразметке.
- Стимулирование генерации разнообразных сигналов (UGC): Активно работайте с отзывами, мотивируя пользователей упоминать конкретные детали, услуги или атмосферу. Эти sentiment phrases являются ключевым источником для выявления интересных общих черт. Также полезно стимулировать включение вашей сущности в тематические подборки и пользовательские карты.
- Работа с авторитетными источниками (Digital PR и E-E-A-T): Обеспечьте упоминание вашей сущности и ее ключевых атрибутов в доверенных источниках (trusted information sources), таких как СМИ, блоги экспертов, авторитетные обзорные сайты. Упоминания из источников с высоким весом имеют приоритет.
- Использование семантической разметки (Schema.org): Подробно описывайте атрибуты сущности с помощью микроразметки (например, amenityFeature, servesCuisine, hasMenu), предоставляя системе четкие структурированные сигналы об «интересных» признаках.
Worst practices (это делать не надо)
- Фокус только на общих категориях: Опираться только на базовую категоризацию неэффективно. Система отфильтрует эти общие черты как «неинтересные» (слишком частые) при описании связей.
- Игнорирование неструктурированных данных и UGC: Недооценка важности отзывов, блогов и пользовательских карт. Эти данные являются ключевым источником для извлечения описательных общих черт.
- Продвижение слишком редких или искусственных атрибутов: Атрибуты, которые почти нигде больше не встречаются, могут быть отфильтрованы как статистические выбросы (слишком высокая уникальность) и не будут использоваться для описания связей с другими сущностями.
Стратегическое значение
Патент подтверждает стратегическую важность Entity-based SEO и дифференциации бренда. Google стремится моделировать реальный мир, понимая атрибуты объектов и связи между ними. Стратегия должна фокусироваться на построении четкого, последовательного и богатого атрибутами представления сущности во всех точках контакта. Это напрямую влияет на то, как сущность представлена в рекомендательных блоках, локальном поиске и Панелях Знаний, смещая фокус с ключевых слов на атрибуты сущности.
Практические примеры
Сценарий: Оптимизация профиля ресторана тайской кухни (на основе FIG. 10 патента)
- Ситуация: Пользователь ищет ресторан «Thainy». Google анализирует похожий ресторан «Bangkok Inn».
- Анализ общих черт: Общие черты включают: «Тайская кухня», «Ресторан», «Карри с арахисом» (Peanut curry), «Спринг-роллы» (Spring rolls), «Подходит для вегетарианцев» (Veggie friendly), «Доставка» (Delivery).
- Фильтрация по уникальности (Google):
- «Тайская кухня», «Ресторан» — слишком общие (низкая уникальность). Отклонены.
- «Карри с арахисом», «Спринг-роллы», «Подходит для вегетарианцев», «Доставка» — умеренная уникальность (близко к среднему значению). Приняты как «интересные».
- Результат в выдаче: Google отображает блок «Nearby Places Like Thainy» с возможностью исследования по этим интересным атрибутам (Explore: peanut curry, spring rolls, veggie friendly, delivery).
- Действие SEO-специалиста: Убедиться, что эти ключевые, умеренно уникальные блюда и услуги («Карри с арахисом», «Доставка») регулярно упоминаются в меню на сайте (с разметкой), в отзывах клиентов и отмечены в атрибутах Google Business Profile.
Вопросы и ответы
Что Google считает «интересной» общей чертой согласно патенту?
«Интересной» считается общая черта с умеренной уникальностью. Это не слишком распространенная характеристика (как общая категория) и не слишком редкая. Система ищет «золотую середину», используя статистический подход: выбираются черты, чья уникальность находится в пределах одного стандартного отклонения от среднего значения уникальности всех общих черт.
Как система определяет, какие источники данных (Signal Types) важнее других?
Система использует машинное обучение (линейную регрессию) и ручные оценки для определения весов (Signal Weights) для каждого типа источника (например, отзывы, карты, веб-страницы). Источники, которые лучше коррелируют с ручными оценками связанности, получают больший вес. При анализе конкретной пары сущностей система отдает приоритет тем типам сигналов, которые вносят наибольший вклад в их общую схожесть.
Как рассчитывается «Мера уникальности» (Measure of Uniqueness)?
Патент предлагает несколько методов. Для структурированных данных это может быть подсчет количества сущностей, разделяющих данный признак. Для текстовых данных (отзывы, описания) часто используется метод, похожий на Inverse Document Frequency (IDF), который оценивает, насколько редко термин встречается в общем корпусе документов.
Как SEO-специалист может повлиять на то, какие общие черты Google выберет для описания моей сущности?
Необходимо сфокусироваться на продвижении атрибутов средней уникальности. Это достигается через последовательное упоминание этих атрибутов на вашем сайте, в структурированных данных (Schema.org), в отзывах клиентов и, что очень важно, в авторитетных внешних источниках (СМИ, блоги экспертов). Консистентность и качество источников играют ключевую роль.
Если мой бизнес предлагает абсолютно уникальную услугу, будет ли она считаться «интересной»?
В контексте данного патента — скорее всего, нет. Система фильтрует слишком редкие (чрезмерно уникальные) черты, так как они не помогают пользователю понять *сходство* с другими сущностями. Ваша уникальная услуга важна для общего ранжирования, но для механизма описания связей лучше подходят умеренно уникальные характеристики.
Какое значение этот патент имеет для локального SEO?
Критическое. Этот механизм лежит в основе функций типа «Explore» на Картах и генерации описательных ярлыков в Local Packs (например, «Уютная атмосфера» или «Отличные коктейли»). Понимание этого механизма позволяет оптимизировать профиль компании так, чтобы выделиться среди конкурентов и привлечь целевой трафик через рекомендации Google.
Учитывает ли система авторитетность источника сигнала (E-E-A-T)?
Да. В патенте (Claim 7) явно упоминается, что при финальном выборе интересной общей черты система может отдавать предпочтение тем, которые связаны с доверенными источниками информации (trusted information sources). Это напрямую связано с концепциями Авторитетности и Доверия в E-E-A-T.
Применяется ли персонализация при выборе интересных общих черт?
Да. Патент (Claim 7) указывает, что выбор может основываться на потенциальном интересе пользователя, определяемом по его предыдущим взаимодействиям. Например, если пользователь часто читает определенное издание, система может выделить общую черту, основанную на отзыве из этого издания.
Что такое Модифицированный индекс Жаккара (Modified Jaccard Index), упоминаемый в патенте?
Это метрика для расчета степени схожести между двумя сущностями на основе пересечения и объединения их сигналов. В отличие от стандартного индекса, модифицированная версия может включать дополнительные факторы, такие как логарифм размера объединения сигналов, чтобы лучше отразить значимость связи при большом объеме данных.
Насколько важны отзывы пользователей в этой системе?
Очень важны. Отзывы являются богатым источником описательных сигналов и фраз (sentiment phrases). Система анализирует текст отзывов для извлечения потенциальных общих черт. Детальные и содержательные отзывы помогают системе идентифицировать умеренно уникальные атрибуты вашего бизнеса.