Google анализирует неструктурированный контент (веб-страницы, статьи), чтобы найти людей, которые часто упоминаются вместе (co-occurrence). На основе частоты и контекста этих упоминаний система вычисляет метрику связи (relationship metric) и предлагает пользователям подтвердить эту связь в социальной сети, тем самым обогащая социальный граф и улучшая понимание связей между сущностями.
Описание
Какую задачу решает
Патент решает проблему ограниченности традиционных методов построения социального графа, которые полагаются преимущественно на явный ввод пользователя (запросы на дружбу) или анализ существующих структурированных связей (друзья друзей). Эти методы упускают связи, существующие в реальном мире (например, между соавторами, коллегами, людьми, упомянутыми в новостях), но еще не отраженные в структурированных данных социальной сети. Изобретение направлено на обнаружение этих скрытых связей путем анализа неструктурированного контента (веба).
Что запатентовано
Запатентована система для автоматического выявления потенциальных социальных связей между сущностями (в частности, людьми) путем анализа их совместных упоминаний (co-occurrence) в неструктурированных электронных документах. Система вычисляет Relationship Metric (метрику отношений) на основе этих упоминаний и использует ее для рекомендации новых связей и обогащения социального графа.
Как это работает
Система функционирует следующим образом:
- Сбор контента: Система сканирует и собирает неструктурированные документы (веб-страницы, статьи).
- Идентификация сущностей: В контенте идентифицируются и дисамбигуируются упоминания (references) людей.
- Расчет метрики отношений: Вычисляется Relationship Metric, основанная на том, как часто и насколько близко эти упоминания появляются вместе (co-occurrence). Также учитывается качество источника.
- Определение потенциальной связи: Если метрика превышает заданный порог, система определяет Potential Connection.
- Подтверждение и обогащение: Связь предлагается пользователям для подтверждения, после чего данные о социальных связях (Social Connection Data) обновляются.
Актуальность для SEO
Высокая. Понимание сущностей и взаимосвязей между ними (Knowledge Graph, E-E-A-T) является фундаментом современного поиска. Этот патент описывает базовый механизм извлечения сигналов о взаимоотношениях из веба, что критически важно для оценки авторитетности и экспертности авторов и организаций.
Важность для SEO
Патент имеет высокое значение (8/10) для SEO-стратегий, ориентированных на E-E-A-T и построение сущностей (Entity Building). Он детально описывает, как Google математически оценивает взаимоотношения на основе стороннего контента. Это подтверждает, что стратегическое размещение упоминаний и создание совместных упоминаний (co-occurrences) с известными экспертами на качественных ресурсах может напрямую влиять на то, как Google воспринимает социальные связи и авторитетность сущности.
Детальный разбор
Термины и определения
- Co-occurrence (Совместное упоминание)
- Появление двух или более ссылок на людей (сущностей) в рамках одного документа. На основе этого показателя рассчитывается сила связи.
- Entity (Сущность)
- Уникальный, хорошо определенный и различимый объект (например, человек, место, идея, концепция). В контексте патента часто используется синонимично с «Person».
- Person (Человек/Персона)
- Субъект социальной связи. В патенте определяется широко и может включать отдельных лиц, группы лиц или компании.
- Potential Connection (Потенциальная связь)
- Связь между двумя сущностями, идентифицированная системой на основе Relationship Metric, но еще не подтвержденная пользователями как фактическая связь.
- Reference (Ссылка/Упоминание)
- Текст в документе (имя, часть имени или другое идентифицирующее описание), который указывает на конкретную сущность (Person).
- Relationship Metric (Метрика отношений)
- Численное значение, оценивающее силу связи между двумя сущностями. Основано на co-occurrence и других факторах, таких как дистанция между упоминаниями, их расположение и качество документа.
- Social Connection Data (Данные о социальных связях)
- Структурированные данные (например, социальный граф или список друзей), хранящие информацию о подтвержденных связях между людьми в социальной сети.
- Unstructured Content/Data (Неструктурированный контент/данные)
- Контент (текст, видео, аудио), который не имеет предопределенной модели данных или не организован заранее определенным образом. Пример: текст веб-страницы в отличие от структурированных полей базы данных.
Ключевые утверждения (Анализ Claims)
Claim 1 (Независимый пункт): Описывает основной метод работы системы.
- Идентификация в неструктурированной коллекции электронных документов упоминания первого человека (Person A) и второго человека (Person B).
- Вычисление Relationship Metric между этими упоминаниями, основанной как минимум на их совместном появлении (co-occurrence).
- Определение существования Potential Connection на основе этой метрики.
- Предоставление рекомендации Person A и/или Person B подтвердить эту потенциальную связь как фактическую.
- Получение ввода (подтверждения) от одного из них.
Claim 2 (Зависимый): Уточняет процесс идентификации упоминаний. Он включает сопоставление текста в документе с записью в списке (т.е. с известной сущностью). Это шаг дисамбигуации (Entity Resolution).
Claim 3 (Зависимый): Определение потенциальной связи включает сравнение Relationship Metric с неким пороговым значением.
Claims 4-7 (Зависимые): Детализируют факторы, которые используются при расчете Relationship Metric. Это ядро изобретения с точки зрения SEO:
- Claim 4: Метрика определяется на основе расположения (Location) упоминаний в документе (например, заголовок против футера).
- Claim 5: Метрика определяется на основе дистанции (Distance) между упоминаниями в документе (близость/proximity).
- Claim 6: Метрика определяется на основе количества (Number/Frequency) упоминаний в документе.
- Claim 7: Метрика определяется на основе метрики качества (quality metric), связанной с документом, в котором найдено упоминание.
Claim 8 (Зависимый): После подтверждения связи система дополняет (augmenting) Social Connection Data, связанные с этими людьми (т.е. обновляет социальный граф).
Где и как применяется
Изобретение описывает процесс извлечения структурированных данных (социальных связей) из неструктурированного контента.
CRAWLING – Сканирование и Сбор данных
На этом этапе система собирает «сырье» — неструктурированные электронные документы (веб-страницы, PDF, статьи).
INDEXING – Индексирование и извлечение признаков
Это основной этап применения патента. В процессе индексации происходит:
- NLP и Извлечение Сущностей: Анализ текста для идентификации упоминаний (References) людей.
- Дисамбигуация (Entity Resolution): Сопоставление этих упоминаний с уникальными сущностями (Entities). Система должна понять, какой именно человек имеется в виду.
- Расчет метрик: Вычисление co-occurrence и общей Relationship Metric с учетом контекстных факторов (близость, частота, расположение) и качества документа (quality metric).
- Построение Графа: Идентифицированные потенциальные связи используются для построения или предложения обновлений для графовых структур (Knowledge Graph / Социальный Граф).
RANKING – Ранжирование
Патент напрямую не описывает алгоритмы ранжирования. Однако результат его работы — обогащенные Social Connection Data — является важным входным сигналом для ранжирования. Это критически важно для оценки E-E-A-T (понимание сети экспертов) и для персонализации поисковой выдачи (например, приоритизация контента от известных социальных связей).
Входные данные:
- Неструктурированные электронные документы.
- Существующий список известных сущностей (Persons).
- Метрики качества документов (например, PageRank или аналогичные оценки авторитетности).
Выходные данные:
- Потенциальные связи (Potential Connections).
- Метрики отношений (Relationship Metrics).
- (В конечном итоге) Дополненные данные о социальных связях (Augmented Social Connection Data).
На что влияет
- Конкретные типы контента: Наибольшее влияние оказывается на контент, где обсуждаются взаимоотношения или перечисляются участники: новостные статьи, академические публикации (явно упомянуты в патенте), блог-посты, страницы «О нас»/»Команда», пресс-релизы, сводки событий.
- Конкретные ниши или тематики: Особенно актуально в нишах, где важна авторитетность и сеть контактов: академическая среда, журналистика, бизнес, финансы и YMYL-тематики, где идентификация сетей экспертов критична для оценки достоверности информации.
- Сущности: Фокус на сущностях типа Person (индивидуумы), но патент также упоминает возможность применения к группам и компаниям.
Когда применяется
- Условия работы: Алгоритм постоянно обрабатывает новые и обновленные документы в процессе их индексации.
- Триггеры активации: Potential Connection фиксируется только тогда, когда рассчитанная Relationship Metric между двумя сущностями превышает заданный пороговый уровень (threshold).
Пошаговый алгоритм
- Сбор данных: Получение коллекции неструктурированных электронных документов.
- Идентификация упоминаний (Reference Identification): Обнаружение в тексте документов упоминаний (References), которые могут указывать на людей (Persons).
- Дисамбигуация (Entity Resolution): Сопоставление найденных упоминаний с уникальными сущностями в существующей базе данных. Этот шаг включает анализ контекста документа для разрешения неоднозначностей (например, различение людей с одинаковыми именами).
- Расчет метрики отношений (Relationship Metric Calculation): Для пар совместно упомянутых сущностей вычисляется сила связи. При расчете учитываются следующие факторы:
- Дистанция (Distance) между упоминаниями в тексте (близость).
- Частота совместных упоминаний (Co-occurrence) как в рамках одного документа, так и по всей коллекции.
- Расположение (Location) упоминаний (заголовки, начало текста, списки авторов).
- Метрика качества (Quality Metric) документа-источника.
- Идентификация потенциальной связи (Potential Connection Determination): Сравнение рассчитанной Relationship Metric с пороговым значением. Если порог превышен, фиксируется потенциальная связь.
- Рекомендация и Подтверждение: (Этап взаимодействия с социальной сетью) Предложение пользователям, соответствующим этим сущностям, подтвердить найденную связь.
- Обогащение данных (Data Augmentation): Добавление подтвержденной связи в Social Connection Data (обновление социального графа).
Какие данные и как использует
Данные на входе
- Контентные факторы: Основные данные — это текст документа, заголовки, метаданные, подписи к изображениям, анкорный текст. Критически важны расположение текста (Location) и близость (Distance) упоминаний сущностей друг к другу.
- Факторы качества документа (Document Quality Factors): В патенте явно упоминается использование quality metric документа (например, авторитетность источника, PageRank). Эта метрика используется для взвешивания значимости обнаруженного совместного упоминания.
- Системные данные: Существующая база данных сущностей (необходима для дисамбигуации) и текущие структурированные Social Connection Data (которые система стремится обогатить).
Какие метрики используются и как они считаются
- Relationship Metric: Агрегированная оценка силы связи, учитывающая все факторы из Claims 4-7.
- Co-occurrence (C): Метрика совместного упоминания. Патент предлагает две возможные формулы для расчета (Eq. 1 и Eq. 2):
- Условная вероятность: C(FR, SR) = P(FR, SR) / P(FR). Вероятность найти обе сущности (FR и SR), деленная на вероятность найти первую сущность (FR).
- Коэффициент Жаккара (Jaccard Index): C(FR, SR) = N(FR, SR) / (N(FR) + N(SR) — N(FR, SR)). Количество совместных упоминаний, деленное на общее количество уникальных упоминаний обеих сущностей.
- Весовые коэффициенты и Нормализация: Рассчитанные метрики могут масштабироваться, нормализоваться или взвешиваться на основе внешних факторов, таких как качество страницы (page quality), свежесть (freshness) или популярность (popularity) документа.
- Пороговые значения (Thresholds): Используются для финального определения того, достаточно ли сильна Relationship Metric, чтобы считаться Potential Connection.
Выводы
- Извлечение связей из неструктурированного контента: Google активно и систематически анализирует неструктурированный веб-контент для извлечения сигналов о взаимоотношениях между людьми с целью построения и обогащения структурированного социального графа.
- Co-occurrence как прямой сигнал связи: Совместное упоминание (Co-occurrence) является прямым и математически оцениваемым сигналом потенциальной связи между сущностями.
- Критическая важность качества источника: Не все упоминания имеют одинаковый вес. Relationship Metric напрямую зависит от метрики качества (quality metric) сайта, на котором происходит упоминание. Упоминания на авторитетных сайтах дают значительно больший вклад в силу связи.
- Контекст упоминания имеет значение: Сила сигнала зависит от контекста внутри документа: близость имен в тексте (Distance) и их расположение (Location) — например, в заголовках или списках авторов — играют важную роль.
- Дисамбигуация как необходимый этап: Система уделяет внимание точному определению сущностей (Entity Resolution), прежде чем устанавливать связи, что подчеркивает важность четкого и однозначного представления сущностей в вебе.
- Механизм поддержки E-E-A-T: Этот патент описывает один из ключевых механизмов, поддерживающих оценку Авторитетности и Экспертизы. Он позволяет Google понять сети экспертов: кто с кем работает, кто кого цитирует и в каком контексте они упоминаются вместе.
Практика
Best practices (это мы делаем)
- Стратегическое создание Co-occurrence (Digital PR и Outreach): Необходимо активно работать над тем, чтобы авторы и ключевые лица компании упоминались вместе с другими признанными экспертами и авторитетами в нише. Это включает совместные публикации, интервью, участие в отраслевых мероприятиях и обеспечение освещения этих активностей на авторитетных сторонних ресурсах.
- Фокус на качестве источников упоминаний: Сосредоточьте усилия на получении упоминаний на сайтах с высокой quality metric. Связь, обнаруженная в авторитетном отраслевом издании или крупном СМИ, будет значительно весомее для расчета Relationship Metric, чем упоминание на неизвестном блоге (Claim 7).
- Оптимизация контекста упоминаний: При взаимодействии с партнерами, авторами и СМИ обращайте внимание на то, как именно упоминаются имена. Они должны располагаться близко друг к другу (Distance, Claim 5) и на видных местах страницы (Location, Claim 4), например, в списке авторов, в заголовке или в первом абзаце статьи.
- Четкое и полное представление сущностей: Убедитесь, что контент на вашем сайте четко атрибутирован авторам, и эти авторы имеют полные, информативные профили. Предоставление достаточного контекста помогает Google в процессе дисамбигуации (Claim 2) и корректном установлении связей.
Worst practices (это делать не надо)
- Спам совместными упоминаниями: Искусственное создание страниц низкого качества или массовое размещение списков имен экспертов в надежде манипулировать связями. Это неэффективно, так как quality metric документа учитывается при расчете Relationship Metric.
- Игнорирование авторитетности источников: Трата ресурсов на размещение контента и упоминаний на неавторитетных, спамных или низкокачественных доменах.
- Неоднозначные упоминания: Использование только фамилий, инициалов или общих названий без достаточного контекста. Это затрудняет процесс дисамбигуации и снижает вероятность того, что система корректно идентифицирует сущность и установит связь.
Стратегическое значение
Патент подтверждает, что построение авторитетности (E-E-A-T) — это не только оценка качества контента, но и анализ сетевого эффекта. Google оценивает сущность по ее связям в профессиональном или социальном контексте. Долгосрочная SEO-стратегия должна включать построение реального, видимого для поисковых систем социального графа через PR, коллаборации и отраслевую активность, обеспечивая фиксацию этих связей на качественных ресурсах.
Практические примеры
Сценарий: Повышение авторитетности нового медицинского эксперта
- Задача: Улучшить восприятие Google нового врача (Доктор А) как эксперта в области кардиологии.
- Действие (Коллаборация): Организовать совместное клиническое исследование или публикацию обзорной статьи с уже признанным и авторитетным кардиологом (Доктор Б).
- Размещение (Качество и Контекст): Опубликовать результаты в известном медицинском журнале (высокий quality metric). Убедиться, что оба имени указаны в блоке авторов сразу под заголовком (оптимальные Location и Distance).
- Распространение (Digital PR): Опубликовать пресс-релиз об исследовании на сайте клиники и в новостных агрегаторах, где также упоминаются оба доктора вместе.
- Ожидаемый результат: Google индексирует журнал и пресс-релизы. Система обнаруживает co-occurrence Доктора А и Доктора Б. Благодаря высокому качеству источников и оптимальному контексту упоминаний, рассчитывается высокая Relationship Metric. Google обновляет данные о связях Доктора А, повышая его авторитетность через ассоциацию с Доктором Б.
Вопросы и ответы
Как этот патент связан с E-E-A-T?
Патент напрямую связан с оценкой Авторитетности (Authoritativeness) и Экспертизы (Expertise). Он описывает механизм, с помощью которого Google выявляет связи между экспертами на основе сторонних источников. Понимание того, кто с кем работает, публикуется или упоминается в профессиональном контексте, позволяет Google лучше оценить реальную авторитетность человека в его нише.
Влияет ли качество сайта, на котором упомянуты два человека, на силу их связи?
Да, критически влияет. В Claim 7 прямо указано, что Relationship Metric определяется на основе метрики качества (quality metric), связанной с документом. Совместное упоминание на очень авторитетном сайте даст гораздо больший вес связи, чем упоминание на низкокачественном ресурсе.
Насколько близко должны располагаться имена в тексте, чтобы связь была сильной?
Чем ближе, тем лучше. Claim 5 указывает, что дистанция (Distance) между упоминаниями используется при расчете Relationship Metric. Близкое расположение (например, в одном предложении или списке авторов) указывает на более сильную связь, чем упоминание в разных концах длинного документа.
Может ли Google установить связь, если используются псевдонимы или только фамилии?
Это возможно, но сложнее. Патент определяет «упоминание» (Reference) как имя, часть имени или другое идентифицирующее описание. Однако для установления связи система должна выполнить дисамбигуацию (Claim 2) — сопоставить упоминание с конкретной сущностью. Неполные имена или псевдонимы без достаточного контекста затрудняют этот процесс.
Как Google отличает одного «Ивана Иванова» от другого при установлении связей?
Система использует процесс дисамбигуации. Для этого анализируется контекст документа, другие упомянутые в нем сущности, тематика сайта, метаданные и ссылки на документ. Система пытается сопоставить упоминание с уже известной уникальной сущностью в своей базе данных (например, Knowledge Graph).
Является ли этот механизм подтверждением важности Digital PR для SEO?
Абсолютно. Этот патент является прямым доказательством того, что Digital PR, направленный на получение качественных упоминаний и создание ассоциаций (co-occurrence) на авторитетных сторонних сайтах, напрямую влияет на то, как Google воспринимает сущности и их авторитетность.
Что важнее: количество совместных упоминаний или качество источников?
Оба фактора важны, так как частота (Claim 6) и качество источника (Claim 7) используются при расчете Relationship Metric. Однако, учитывая вес факторов качества в алгоритмах Google, несколько упоминаний на высококачественных ресурсах, скорее всего, будут весомее, чем множество упоминаний на низкокачественных сайтах.
Как использовать этот механизм для построения Topical Authority сайта?
Хотя патент фокусируется на связях между людьми, он применим и шире. Можно использовать его для построения авторитетности сайта, обеспечивая совместное упоминание бренда или сайта вместе с ключевыми темами или авторитетными организациями в этой нише на качественных сторонних ресурсах.
Работает ли это только для людей или для компаний тоже?
Патент в основном описывает связи между «Persons», но определяет этот термин широко, включая индивидуумов, группы и компании. Механизм анализа co-occurrence для выявления связей универсален и может применяться для любых типов сущностей (Entities), включая организации и бренды.
Нужно ли пользователям подтверждать связь, чтобы она учитывалась в поиске?
Патент описывает полный цикл, включающий подтверждение пользователем для обновления Social Connection Data (например, списка друзей в соцсети). Однако само выявление Potential Connection и расчет Relationship Metric происходит до подтверждения. Вероятно, что даже неподтвержденные, но сильные потенциальные связи могут использоваться Google для целей ранжирования и обогащения Knowledge Graph.