Google использует многоэтапный процесс для определения связей между компаниями (сущностями). Система анализирует совместные упоминания (co-occurrence) в новостях и на веб-страницах, оценивая авторитетность источников (включая Pagerank) и контекст. Затем эти связи верифицируются с помощью независимых данных (бизнес-каталоги, SEC filings, поведение пользователей), а сила связи определяется глубиной совпадения в иерархических бизнес-категориях.
Описание
Какую задачу решает
Патент решает задачу точной идентификации и валидации отношений между компаниями (например, конкуренты, партнеры) для отображения в специализированных информационных системах (таких как Google Finance). Он направлен на улучшение качества данных о связанных сущностях, переходя от простого совместного упоминания (co-occurrence) к верифицированным отношениям, организованным по иерархическим категориям, и избегая ложных связей, основанных на случайных упоминаниях.
Что запатентовано
Запатентована система для автоматического вычисления группы связанных компаний. Она основана на многоэтапном процессе, включающем анализ совместных упоминаний (co-occurrence) в одном наборе источников (веб, новости) и обязательную последующую верификацию этих отношений с помощью независимого второго набора источников (структурированные данные, поведенческие сигналы). Сила связи рассчитывается на основе контекста, авторитетности источников (включая Pagerank) и глубины совпадения в иерархических бизнес-категориях.
Как это работает
Система работает в несколько этапов:
- Майнинг упоминаний: Поиск совместных упоминаний целевой компании и других компаний в первом наборе источников (First Set of Sources) с использованием распознавания сущностей (Entity Recognition).
- Идентификация отношений: Оценка значимости упоминаний на основе индикаторов (Relationship Indicators), таких как контекст, расположение в документе, Pagerank и репутация источника. Расчет первичной оценки (overall score).
- Верификация отношений: Подтверждение связей с использованием второго набора источников (Second Set of Sources), таких как бизнес-каталоги, SEC filings, корреляция цен акций и агрегированные данные о поведении пользователей.
- Анализ категорий: Определение общих иерархических бизнес-категорий.
- Расчет силы связи: Вычисление итогового значения силы связи (Relationship Strength Value), которое увеличивается с глубиной (специфичностью) общих категорий.
Актуальность для SEO
Высокая. Хотя патент описывает систему для финансового сервиса (подан в 2006 г.), описанные в нем методы извлечения и верификации отношений между сущностями (Entity Relationship Extraction) лежат в основе работы Google с сущностями и построения Графа Знаний (Knowledge Graph). Понимание того, как Google устанавливает и верифицирует связи на основе анализа веба, структурированных данных и поведения пользователей, критически важно для современного SEO и оптимизации под E-E-A-T.
Важность для SEO
Патент имеет высокое стратегическое значение (7.5/10). Он не описывает алгоритмы ранжирования веб-страниц в органическом поиске, но детально раскрывает механизмы идентификации сущностей и установления связей между ними. Это напрямую влияет на формирование Knowledge Graph, отображение Панелей Знаний (Knowledge Panels) и понимание поисковой системой тематического авторитета, конкурентного ландшафта и взаимосвязей в нише.
Детальный разбор
Термины и определения
- Co-occurrence (Совместное упоминание)
- Появление названий двух или более компаний в одном контексте (предложение, параграф, статья, веб-страница).
- Entity Recognition (Распознавание сущностей)
- Процесс идентификации именованных сущностей (названий компаний) в тексте. Включает обработку вариаций имен, псевдонимов (aliases) и разрешение неоднозначностей (disambiguation).
- First Set of Sources (Первый набор источников)
- Источники данных, используемые для первичного выявления совместных упоминаний (например, веб-страницы, новости, блоги).
- Hierarchical Business Categories (Иерархические бизнес-категории)
- Онтология бизнеса; структура категорий от общих к частным (например, Технологии -> Интернет-сервисы -> Поисковые системы).
- Overall Score (Общий балл)
- Промежуточная оценка значимости совместного упоминания, рассчитанная на основе Relationship Indicators и корректируемая на этапе верификации.
- Pagerank
- Метрика авторитетности веб-страницы. Явно упоминается в патенте как фактор для оценки значимости совместного упоминания, найденного на этой странице.
- Relationship Indicators (Индикаторы отношений)
- Метрики, используемые для первичной оценки значимости совместного упоминания. Включают контекст, расположение в документе, авторитетность источника, Pagerank, наличие ключевых слов (например, «конкурент», «партнер»).
- Relationship Strength Value (Значение силы связи)
- Итоговая оценка, определяющая насколько тесно связаны компании. Зависит от Overall Score и глубины совпадения иерархических категорий.
- Second Set of Sources / Supplemental Information Sources (Второй набор / Дополнительные источники)
- Независимые источники данных, используемые для верификации отношений. Включают структурированные данные (бизнес-каталоги, SEC filings), данные о корреляции цен акций, агрегированные данные о поведении пользователей.
Ключевые утверждения (Анализ Claims)
Claim 1 (Независимый пункт): Описывает основной метод определения связи между целевой компанией и второй компанией. Это многоэтапный процесс:
- Нахождение совместного упоминания (co-occurrence) названий компаний в First Set of Sources.
- Идентификация деловых отношений на основе Relationship Indicator, появляющегося вместе с упоминанием.
- Верификация деловых отношений с использованием Second Set of Sources. Верификация требует наличия у обеих компаний как минимум двух общих признаков из списка: тип отрасли, географическое положение, тип продукта, тип услуги.
- Определение одной или нескольких общих иерархических бизнес-категорий.
- Определение значения силы связи (Relationship Strength Value). Это значение базируется на индикаторе отношений, втором наборе источников И иерархической категории. Ключевой момент: значение силы связи увеличивается или уменьшается в зависимости от глубины (depth) общей бизнес-категории в иерархии.
- Идентификация второй компании как связанной, если Relationship Strength Value превышает пороговое значение.
Claim 5 и 6 (Зависимые от 1): Детализируют расчет первичной оценки (overall score) на этапе идентификации.
Overall score базируется на нескольких факторах, включая: количество компаний в контексте (много компаний снижает оценку); местоположение упоминания в документе (заголовки важнее); источник документа; и Pagerank, связанный с документом.
Claim 8 и 9 (Зависимые): Детализируют факторы, используемые на этапе верификации с помощью Second Set of Sources.
Факторы верификации включают: конкурирующие продукты/услуги; пересечение отраслей/секторов/географии; корреляцию между движениями цен акций; частоту совместных упоминаний; совместные упоминания в агрегированных историях навигации пользователей (aggregated user website navigation histories); совместные упоминания в агрегированных данных пользовательских портфелей (aggregated user stock portfolio data).
Где и как применяется
Изобретение применяется преимущественно на этапе обработки данных для построения связей между сущностями (Knowledge Graph).
CRAWLING – Сканирование и Сбор данных
Система собирает данные из разнообразных источников: как из First Set of Sources (веб, новости), так и из Second Set of Sources (каталоги, базы данных, логи поведения).
INDEXING – Индексирование и извлечение признаков
Это основной этап применения патента. Процессы выполняются в офлайн-режиме или в процессе индексирования:
- Применяется Entity Recognition для идентификации упоминаний компаний.
- Происходит майнинг co-occurrence и расчет первичных Relationship Indicators.
- Система оценивает авторитетность источников (используя Pagerank) и проводит верификацию с помощью Second Set of Sources.
- Вычисляются связи и Relationship Strength Value, которые сохраняются в базе знаний (например, Knowledge Graph).
RANKING / METASEARCH (для вертикального поиска и SERP Features)
Результаты этого процесса используются при ответе на запросы для наполнения специализированных вертикалей (например, Google Finance) или для формирования SERP Features, таких как Панели Знаний (Knowledge Panels), блоки связанных сущностей или для оценки E-E-A-T.
Входные данные:
- Текстовый контент из First Set of Sources (Веб, новости).
- Данные из Second Set of Sources (Структурированные каталоги, SEC filings, поведенческие данные, финансовые данные).
- Метрики авторитетности источников (Pagerank, репутация).
Выходные данные:
- Верифицированные связи между компаниями.
- Иерархические категории компаний.
- Рассчитанное значение Relationship Strength Value для каждой связи.
На что влияет
- Идентификация сущностей (Entities) и Knowledge Graph: Напрямую влияет на то, как Google распознает организации и строит связи в Knowledge Graph.
- SERP Features: Влияет на контент в Панелях Знаний (Knowledge Panels), где отображаются связанные сущности, конкуренты или партнеры.
- E-E-A-T: Механизм помогает Google определить авторитетность и репутацию компании в контексте ее рыночной ниши и связей с другими авторитетными игроками.
- Тематики: Наиболее актуально для бизнес-ниш, e-commerce, финансов и любых тематик, где критически важны отношения между организациями.
Когда применяется
- Условия работы: Алгоритм применяется в офлайн-режиме или в процессе индексирования при обработке контента.
- Триггеры активации: Обнаружение совместного упоминания (co-occurrence) двух или более компаний в обрабатываемом контексте.
- Пороговые значения: Связь устанавливается только если оценки на этапах идентификации, верификации и финальный Relationship Strength Value превышают установленные пороги.
Пошаговый алгоритм
Процесс вычисления группы связанных компаний:
- Майнинг совместных упоминаний (Co-occurrence Mining): Анализ First Set of Sources. Применение Entity Recognition для идентификации названий компаний, обработки вариаций и разрешения неоднозначностей. Фиксация совместных упоминаний.
- Идентификация отношений (Relationship Identification): Расчет первичного общего балла (overall score) на основе Relationship Indicators:
- Анализ контекста (наличие ключевых слов типа «конкурент», «слияние» повышает балл; много компаний в списке – снижает).
- Анализ расположения (упоминание в заголовке или начале документа повышает балл).
- Оценка источника (репутация источника, Pagerank страницы – выше авторитет, выше балл).
- Первичная фильтрация: Если первичный overall score ниже порога идентификации, связь отклоняется.
- Верификация отношений (Relationship Verification): Использование Second Set of Sources для корректировки overall score. Балл повышается при наличии подтверждающих факторов:
- Совпадение в структурированных данных (бизнес-каталоги, списки конкурентов в SEC filings).
- Пересечение по индустрии, географии, продуктам или услугам (требуется минимум два общих признака по Claim 1).
- Корреляция движения цен акций.
- Высокая частота совместных упоминаний.
- Совместное присутствие в агрегированных поведенческих данных (история навигации, портфели пользователей).
- Вторичная фильтрация: Если скорректированный overall score ниже порога верификации, связь отклоняется.
- Идентификация иерархических категорий: Определение общих Hierarchical Business Categories для обеих компаний.
- Расчет силы связи (Relationship Strength Calculation): Финальный расчет Relationship Strength Value. Сила связи увеличивается с глубиной (специфичностью) совпадения категорий и уменьшается с увеличением «расстояния» между категориями в онтологии.
- Отбор и сохранение: Компании, чье Relationship Strength Value превышает финальный порог, помечаются как связанные и сохраняются в базе знаний (Knowledge Graph).
Какие данные и как использует
Данные на входе
Система использует два раздельных набора данных для идентификации и верификации.
Первый набор источников (для идентификации):
- Контентные факторы: Текст документов (веб-страницы, новости, блоги). Контекст вокруг упоминания (co-occurrence context). Ключевые слова-индикаторы отношений. Расположение текста в документе (заголовки, начало текста).
- Ссылочные/Авторитетные факторы: Pagerank страницы, на которой обнаружено упоминание (явно указано в патенте). Репутация источника.
Второй набор источников (для верификации):
- Структурированные данные: Бизнес-каталоги, отраслевые справочники, SEC filings (документы Комиссии по ценным бумагам и биржам).
- Поведенческие факторы: Агрегированные истории навигации пользователей (aggregated user navigation histories). Агрегированные данные пользовательских портфелей (aggregated user portfolio data).
- Финансовые/Рыночные данные: Данные о ценах акций для поиска корреляций.
- Географические и Продуктовые факторы: География операций, типы продуктов и услуг компаний.
Какие метрики используются и как они считаются
- Overall Score: Агрегированная оценка значимости связи, рассчитываемая на этапе идентификации и корректируемая на этапе верификации. Взвешивает различные Relationship Indicators.
- Relationship Strength Value: Финальная оценка силы связи. Является функцией от Overall Score и анализа иерархических категорий (зависит от глубины категории).
- Pagerank: Используется для взвешивания значимости упоминания в зависимости от авторитетности источника.
- Глубина категории (Depth): Метрика, показывающая, насколько специфична общая категория в иерархии. Чем глубже (специфичнее), тем сильнее связь (Claim 1).
- Частота совместных упоминаний (Frequency of co-occurrence): Статистическая метрика, используемая при верификации.
Выводы
- Многоэтапная верификация связей между сущностями: Google не полагается только на совместное упоминание в тексте для установления связей в Knowledge Graph. Процесс требует обязательной верификации с использованием независимых и разнообразных источников данных (Second Set of Sources), включая структурированные данные и поведение пользователей.
- Критическая важность авторитетных источников (Pagerank): Pagerank и репутация источника, где компании упоминаются вместе, напрямую влияют на первичный overall score. Упоминания на авторитетных сайтах имеют значительно больший вес для идентификации связей.
- Иерархическая структура знаний и онтологии: Система использует бизнес-онтологии (Hierarchical Business Categories) для определения силы связи. Relationship Strength Value напрямую зависит от глубины (специфичности) общей категории.
- Использование поведенческих сигналов как источника истины: Патент явно указывает на использование агрегированных данных о поведении пользователей (история посещений сайтов, составление портфелей) как валидного источника для подтверждения связей между сущностями.
- Комплексный подход к Entity SEO: Для эффективного построения связей сущности необходимо сочетание PR (упоминания в авторитетных источниках), контекстной оптимизации и присутствия в структурированных базах данных (каталогах).
Практика
Best practices (это мы делаем)
Патент дает важные инсайты для стратегии оптимизации под Knowledge Graph и укрепления E-E-A-T.
- Стратегический Digital PR и Link Earning: Стимулировать упоминания вашей компании рядом с ключевыми игроками рынка (конкурентами, партнерами) в авторитетных источниках (с высоким Pagerank или репутацией). Контекст упоминания должен быть значимым (отраслевые обзоры, сравнения, новости о партнерстве), а не просто списком. Это формирует данные для Первого набора источников.
- Обеспечение присутствия в структурированных данных: Гарантировать корректное и полное присутствие компании в качественных бизнес-каталогах, отраслевых ассоциациях, базах данных (например, Crunchbase, Wikidata, отраслевые рейтинги). Это критически важно для этапа верификации (Второй набор источников).
- Четкое позиционирование и категоризация: Использовать контент на сайте и микроразметку (Schema.org), чтобы помочь Google правильно определить специфические иерархические категории вашего бизнеса. Чем точнее и глубже (специфичнее) позиционирование, тем сильнее будут связи с релевантными сущностями в нише.
- Построение бренда и ассоциаций: Развивать сильный бренд, который пользователи естественным образом ассоциируют с тематикой и другими лидерами ниши (ищут информацию, посещают сайты в рамках одной сессии). Это может способствовать верификации связей через поведенческие сигналы.
Worst practices (это делать не надо)
- Спам совместными упоминаниями (Co-occurrence Spam): Искусственное создание совместных упоминаний на низкокачественных сайтах неэффективно. Система учитывает Pagerank источника при расчете overall score и требует независимой верификации.
- Игнорирование контекста упоминаний: Упоминания в нерелевантном контексте или в случайных длинных списках компаний будут иметь низкий вес, так как система анализирует окружающий текст и количество упомянутых сущностей.
- Отсутствие в независимых источниках (Каталогах): Если информацию о компании невозможно найти в независимых структурированных источниках, система не сможет верифицировать отношения, даже при наличии множества упоминаний в вебе.
Стратегическое значение
Патент подтверждает стратегическую важность перехода от оптимизации под ключевые слова к оптимизации под сущности (Entity SEO). Он демонстрирует, что для Google важно не только ЧТО написано о компании, но ГДЕ это написано (авторитетность источника) и КАК это подтверждается независимыми данными (верификация). Управление репутацией и видимостью сущности должно быть комплексным и включать работу с различными типами источников данных для формирования точных ассоциаций в Knowledge Graph.
Практические примеры
Сценарий: Установление связи компании с нишей и конкурентами через Digital PR и Каталоги.
- Задача: Новая компания «FinTech-Startup» хочет, чтобы Google ассоциировал ее с лидерами рынка (например, Stripe, PayPal) в категории «Платежные системы».
- Действия (Source 1 — Идентификация): Подготовка и публикация аналитического отчета, сравнивающего FinTech-Startup с Stripe и PayPal. Обеспечение публикации этого отчета в авторитетных СМИ (например, Bloomberg, TechCrunch). В материалах должны быть фразы вроде: «FinTech-Startup напрямую конкурирует с Stripe» (Co-occurrence + Relationship Indicator).
- Действия (Source 2 — Верификация): Регистрация компании в ключевых бизнес-каталогах (например, Crunchbase, G2) в максимально специфичной категории «Платежные системы», где уже присутствуют лидеры рынка.
- Механизм работы (по патенту): Система обнаружит co-occurrence в авторитетном источнике (Bloomberg) и присвоит высокий первичный overall score. Затем Relationship Verifier подтвердит связь, найдя все компании в бизнес-каталогах (Second Set of Sources).
- Результат: Система установит сильную связь (высокий Relationship Strength Value) из-за глубокой общей категории. FinTech-Startup будет идентифицирована как связанная сущность и может начать появляться в Панелях Знаний при поиске конкурентов.
Вопросы и ответы
Насколько важно, чтобы моя компания упоминалась вместе с конкурентами?
Это очень важно для установления связей в Knowledge Graph. Патент описывает механизм, который использует совместные упоминания (co-occurrence) как отправную точку (Первый набор источников) для анализа отношений. Если вашу компанию не упоминают в контексте вашей отрасли и рядом с другими игроками рынка, Google сложнее понять ваше позиционирование.
Влияет ли авторитетность сайта (PageRank), где упоминается моя компания, на установление связей?
Да, критически влияет. Патент явно указывает (Claim 6), что Pagerank и репутация источника используются как ключевые индикаторы отношений (Relationship Indicators) при расчете первичного балла (overall score). Упоминания на авторитетных ресурсах значительно повышают вероятность того, что связь будет признана значимой.
Что такое «Первый набор источников» и «Второй набор источников» и зачем их разделять?
Первый набор — это веб-контент (новости, блоги), используемый для обнаружения потенциальных связей. Второй набор — это источники для верификации (бизнес-каталоги, SEC filings, поведенческие данные). Разделение необходимо для надежности: связь, найденная в вебе, должна быть подтверждена независимыми, часто структурированными или агрегированными данными, чтобы избежать ошибок и манипуляций.
Достаточно ли просто упоминаться вместе с другой компанией, чтобы Google признал связь?
Нет, недостаточно. Совместное упоминание — это только триггер. Система анализирует контекст (упоминание вскользь или детальное сравнение), авторитетность источника, а затем обязательно проводит верификацию с помощью Второго набора данных. Если верификация не пройдена, связь не будет установлена.
Как Google использует иерархические категории для определения силы связи?
Система определяет, насколько глубоко (специфично) в онтологии бизнеса находятся общие категории компаний. Чем более специфична общая категория, тем сильнее связь (Relationship Strength Value). Например, связь между двумя компаниями в категории «Поисковые системы» сильнее, чем связь между компаниями в общей категории «Технологии».
Патент упоминает использование поведенческих данных. Что это значит для SEO?
Это значит, что Google использует агрегированные данные о том, как пользователи взаимодействуют с разными компаниями, для подтверждения связей. Например, если пользователи часто посещают ваш сайт и сайт конкурента в течение короткого времени (aggregated user navigation histories), это служит сигналом для верификации наличия связи между вашими компаниями.
Влияет ли этот патент на ранжирование моего сайта в органическом поиске?
Напрямую нет. Патент не описывает алгоритмы ранжирования веб-страниц. Однако он влияет косвенно: точное определение вашей компании как сущности и установление сильных связей с другими релевантными сущностями в Knowledge Graph способствует росту тематического авторитета и E-E-A-T, что может положительно влиять на ранжирование.
Что важнее для этого алгоритма: упоминания в новостях или присутствие в каталогах?
Важны оба элемента, так как они используются на разных этапах. Упоминания в новостях (Первый набор) инициируют процесс и влияют на первичную оценку, особенно если источник авторитетен. Присутствие в каталогах (Второй набор) необходимо для верификации связи. Без успешной верификации связь не будет установлена.
Как использовать этот патент в стратегии линкбилдинга и PR?
Этот патент подчеркивает важность получения ссылок и упоминаний с авторитетных ресурсов (с высоким Pagerank). Стратегия должна фокусироваться не просто на получении ссылки, а на получении упоминания в правильном контексте — рядом с другими значимыми сущностями вашей отрасли (конкурентами, партнерами) на страницах, которые Google считает авторитетными.
Применяются ли эти методы только к компаниям?
Патент сфокусирован на компаниях, но также упоминает применение аналогичных методов для идентификации конкурирующих продуктов (например, Google Talk и Yahoo Messenger). Описанная методология извлечения связей является универсальной и, вероятно, применяется Google и к другим типам сущностей в Knowledge Graph.