Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Google

    Как Google извлекает, агрегирует и валидирует контактную информацию сущностей с помощью анализа совместного упоминания

    PROCESSING CONTACT INFORMATION (Обработка контактной информации)
    • US8812515B1
    • Google LLC
    • 2014-08-19
    • 2004-03-31
    2004 EEAT и качество Knowledge Graph Патенты Google Семантика и интент

    Патент Google, описывающий методы автоматического создания и проверки контактных данных (телефон, адрес, email) для сущностей (людей, организаций). Система анализирует различные источники, агрегирует разрозненные данные и использует частоту совместного упоминания (co-occurrence) для расчета оценки достоверности (confidence score) этой информации.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает проблему неполноты, разрозненности и неоднозначности контактной информации, встречающейся в неструктурированных и полуструктурированных данных (таких как электронные письма, документы и веб-страницы). Он автоматизирует процесс создания комплексного и достоверного профиля контактов для сущностей без необходимости полагаться на единый структурированный источник данных.

    Что запатентовано

    Запатентована система для автоматического извлечения сущностей (Entity Name) и связанной с ними контактной информации (Contact Information) из различных источников (articles). Ключевым механизмом является агрегация разрозненных данных из множества источников и использование статистики совместного упоминания (co-occurrence) для расчета оценки достоверности (confidence score) связи между сущностью и ее контактными данными.

    Как это работает

    Система работает путем анализа контента (articles) и связанных с ним событий (events):

    • Извлечение: Система идентифицирует имена сущностей и потенциальную контактную информацию (адреса, телефоны, email) в тексте.
    • Агрегация и Связывание: Система объединяет информацию из разных источников, используя общие идентификаторы (Common Identifiers). Например, если один документ содержит email и телефон, а другой – тот же email и физический адрес, система свяжет все три элемента вместе.
    • Валидация и Оценка Достоверности: Рассчитывается confidence score, основанный на частоте и близости совместного упоминания сущности и контактных данных в различных документах. Это позволяет разрешать конфликты и определять наиболее вероятную контактную информацию.

    Актуальность для SEO

    Высокая. Хотя патент в деталях описывает реализацию на стороне клиента (например, для desktop search, актуального на момент приоритета заявки в 2004 г.), описанные методы — Разрешение Сущностей (Entity Resolution) и Анализ Совместного Упоминания (Co-occurrence Analysis) — являются фундаментальными для современных поисковых систем. Эти техники критически важны для построения и валидации Графа Знаний (Knowledge Graph) и понимания связей между сущностями в вебе.

    Важность для SEO

    Патент имеет высокое стратегическое значение для SEO (8.5/10). Он описывает базовые механизмы того, как поисковая система может идентифицировать и, что более важно, валидировать контактную информацию организаций и авторов. Способность системы уверенно идентифицировать сущность и ее атрибуты напрямую влияет на оценку достоверности и авторитетности (E-E-A-T). Консистентность данных (например, NAP в Local SEO) в вебе становится критически важной для достижения высокого confidence score.

    Детальный разбор

    Термины и определения

    Article (Документ/Источник)
    Любой элемент контента, с которым взаимодействует система. Включает электронные письма, веб-страницы, документы (Word, PDF, Spreadsheets), сообщения мессенджеров и т.д.
    Common Identifier (Общий идентификатор)
    Фрагмент контактной информации (например, email или номер телефона), который встречается в нескольких разных articles и используется для связывания других фрагментов данных с одной и той же сущностью.
    Confidence Score (Оценка достоверности)
    Метрика (в патенте также упоминается как probability of correct contact information), указывающая на вероятность того, что конкретная контактная информация корректно связана с сущностью. Рассчитывается на основе совместного упоминания (co-occurrence).
    Contact Information (Контактная информация)
    Атрибуты сущности, такие как имя, физический адрес, номер телефона, факс, email, URL.
    Entity ID (Идентификатор сущности)
    Уникальный идентификатор, присваиваемый системой для отслеживания конкретной сущности (человека, организации, бизнеса) после ее распознавания.
    Entity Name (Имя сущности)
    Текстовое представление сущности, распознанное в документе.
    Event (Событие)
    Любое взаимодействие с Article, которое фиксируется системой. Например, просмотр веб-страницы, получение email, сохранение документа. В контексте веб-поиска это можно интерпретировать как обнаружение информации в проиндексированном документе.
    Indexer (Индексатор)
    Компонент, который обрабатывает события/документы, извлекает сущности и контактную информацию, рассчитывает оценки и сохраняет данные в индекс.

    Ключевые утверждения (Анализ Claims)

    Claim 1 (Независимый пункт): Описывает основной метод обработки и валидации контактной информации.

    1. Система идентифицирует имя сущности (Entity Name).
    2. Идентифицируется множество контактных данных (plurality of contact information), связанных с этим именем.
    3. Для каждого элемента контактных данных определяется оценка достоверности (confidence score). Эта оценка указывает на вероятность того, что информация корректно связана с сущностью.
    4. Ключевой механизм расчета: оценка определяется на основе совместного упоминания (co-occurrence) имени сущности и контактной информации во множестве событий/источников (plurality of events).
    5. Система отображает по крайней мере часть контактной информации на основе этих оценок достоверности.

    Ядро изобретения заключается в использовании статистического анализа (частоты совместных упоминаний в разных источниках) для определения достоверности связи между сущностью и ее атрибутами.

    Claim 7 (Зависимый): Уточняет типы контактной информации: имена, адреса, номера телефонов, факсы, email-адреса и адреса веб-сайтов.

    Claim 8 и 16 (Зависимые): Указывают, что система может предоставлять альтернативную контактную информацию (alternative contact information) вместе с соответствующими оценками достоверности. Это механизм для обработки конфликтующих данных.

    Где и как применяется

    Патент описывает реализацию на стороне клиента (например, в рамках локального поиска). Однако, с точки зрения SEO, мы анализируем, как эти фундаментальные методы применяются в архитектуре веб-поиска Google.

    INDEXING – Индексирование и извлечение признаков
    Это основной этап применения патента. Во время сканирования и индексирования веб-страниц (выступающих в роли articles) система применяет описанные механизмы:

    1. Entity Recognition: Идентификация имен сущностей (организаций, людей) на страницах.
    2. Attribute Extraction: Извлечение контактной информации (Contact Information), расположенной рядом с сущностями.
    3. Entity Resolution и Aggregation: Сопоставление сущностей и агрегация их атрибутов из разных источников по всему интернету. Используются Common Identifiers (например, канонический URL, email или телефон) для связывания данных.
    4. Fact Validation: Расчет Confidence Score для каждого атрибута. Если множество авторитетных сайтов указывают один телефон для компании А, этот телефон получит высокий Confidence Score за счет массового совместного упоминания (co-occurrence).

    RANKING / RERANKING – Ранжирование и Переранжирование
    Валидированные данные о сущностях могут использоваться как сигналы ранжирования (например, сигналы достоверности и E-E-A-T). Наличие высокого Confidence Score для контактной информации сущности может повышать доверие к сайту этой сущности.

    METASEARCH – Метапоиск и Смешивание
    Результаты извлечения и валидации используются для наполнения Графа Знаний (Knowledge Graph), Панелей Знаний и Google Business Profiles.

    На что влияет

    • Конкретные типы контента: Страницы контактов, «О нас», биографии авторов, футеры сайтов, профили в социальных сетях, бизнес-каталоги (цитаты). Любой контент, содержащий упоминания сущностей и их атрибутов.
    • Конкретные ниши или тематики: Критически важно для локального SEO (Local SEO), где точность NAP (Name, Address, Phone) имеет первостепенное значение. Также важно для YMYL-тематик, где необходимо четко идентифицировать организацию или автора, ответственного за контент (E-E-A-T).

    Когда применяется

    • При каких условиях работает алгоритм: Активируется при обнаружении потенциальных имен сущностей и контактной информации в индексируемом контенте.
    • Частота применения: Постоянно в процессе индексирования и переиндексирования веб-контента. Валидация фактов происходит по мере обновления корпуса документов.

    Пошаговый алгоритм

    Процесс извлечения и валидации контактной информации (адаптировано для веб-индекса):

    1. Получение данных (Crawling/Indexing): Система получает документ (Article) для анализа.
    2. Идентификация Сущности: Индексатор анализирует текст для распознавания имен сущностей (Entity Name). Используются различные сигналы: NLP, форматирование, капитализация, контекст.
    3. Извлечение Контактной Информации: Система ищет потенциальные контактные данные (телефонные номера, адреса, email) в документе.
    4. Связывание (Association): Система пытается связать извлеченные данные с сущностью, анализируя близость расположения в тексте (proximity) и структуру документа (например, блок подписи или контактный блок).
    5. Агрегация (Entity Resolution): Система использует Common Identifiers (например, совпадающий email или телефон) для объединения информации об этой сущности, найденной в других документах в индексе. Патент описывает возможность цепочечного связывания (А связано с Б, Б связано с В).
    6. Расчет Достоверности (Fact Validation): Система рассчитывает Confidence Score для каждой связи между сущностью и атрибутом. Расчет основан на анализе co-occurrence: как часто и в каких источниках эта сущность упоминается вместе с этим атрибутом.
    7. Индексирование и Хранение: Валидированная контактная информация и соответствующие Confidence Scores сохраняются в базе данных сущностей (например, Knowledge Graph).

    Какие данные и как использует

    Данные на входе

    • Контентные факторы: Текст документа, заголовки. Система анализирует контекст, в котором появляются данные (например, слова «shipping address»).
    • Структурные факторы: Расположение данных на странице (близость Entity Name к Contact Information), использование HTML-тегов, наличие специфических полей, парсинг закодированной информации (например, vCard, хотя Schema.org более актуальна сегодня).
    • Внешние данные (в контексте веба): Данные из других проиндексированных документов, используемые для агрегации и валидации (co-occurrence). Патент также упоминает возможность использования внешних поисковых запросов для валидации.

    Какие метрики используются и как они считаются

    • Confidence Score (Probability of correct contact information): Ключевая метрика патента. Вероятность того, что контактная информация корректно связана с сущностью.
      Метод расчета: Основан на анализе совместного упоминания (co-occurrence) и избыточности (redundant identifiers). Учитывается частота совместного упоминания сущности и атрибута во множестве документов (plurality of events) и близость (proximity) их расположения в тексте.
    • Common Identifier Match: Метрика, определяющая совпадение ключевых атрибутов (например, email) в разных источниках для выполнения Entity Resolution.

    Выводы

    1. Валидация фактов через консенсус (Co-occurrence): Ключевой вывод – Google проверяет достоверность фактов, в том числе, через консенсус. Confidence Score рассчитывается на основе того, как часто определенный факт (например, номер телефона) упоминается совместно с сущностью в различных источниках.
    2. Критичность консистентности данных (NAP): Для того чтобы система могла уверенно связать контактные данные с сущностью, эти данные должны быть консистентными во всем цифровом пространстве. Расхождения в NAP (Name, Address, Phone) напрямую снижают Confidence Score.
    3. Автоматическое построение профилей сущностей: Патент описывает механизм, позволяющий Google автоматически строить детальные профили сущностей, агрегируя разрозненную информацию из множества неструктурированных источников.
    4. Entity Resolution через общие идентификаторы: Система активно ищет Common Identifiers (email, основной телефон, URL) для связывания информации. Это позволяет строить профиль из фрагментов, даже используя цепочечное связывание.
    5. Основа для E-E-A-T и Knowledge Graph: Описанные методы являются технической основой для наполнения Графа Знаний и оценки достоверности (Trust) в рамках E-E-A-T. Невозможность уверенно идентифицировать сущность и ее данные негативно сказывается на доверии к ней.

    Практика

    Best practices (это мы делаем)

    • Обеспечение абсолютной консистентности NAP: Критически важно использовать идентичное написание Названия, Адреса и Телефона (NAP), а также email и URL компании на всех страницах сайта и во всех внешних источниках (GBP, каталоги, соцсети). Это максимизирует Confidence Score за счет повышения частоты co-occurrence идентичных данных.
    • Использование микроразметки (Schema.org): Активно используйте разметку Organization, LocalBusiness, Person. Это помогает системам, описанным в патенте, однозначно интерпретировать данные, ускоряя процесс извлечения и повышая достоверность.
    • Четкое структурирование и близость (Proximity): Размещайте контактную информацию в непосредственной близости от названия сущности. Используйте стандартные форматы и верстку (футер, страница Контакты), которые облегчают извлечение данных на основе анализа структуры страницы.
    • Управление цифровым следом сущностей (Entity Management): Для авторов контента и ключевых лиц компании необходимо обеспечить консистентное представление их имени, биографии и аффилиации на всех платформах. Это помогает Google агрегировать их профиль и подтвердить экспертизу (E-E-A-T).

    Worst practices (это делать не надо)

    • Несоответствие контактных данных: Использование разных номеров телефонов, форматов адреса или названий компании на разных платформах. Это затрудняет агрегацию данных и снижает Confidence Score.
    • Размещение NAP в изображениях или скриптах: Сокрытие контактной информации в графических файлах или сложном JavaScript делает невозможным ее извлечение и валидацию описанными методами.
    • Отсутствие четкой связи между сущностью и контактами: Размещение контактной информации в отрыве от названия организации или имени автора, что усложняет системе задачу установления связи (association).
    • Игнорирование внешних цитат: Нельзя игнорировать некорректные данные в каталогах и на сторонних сайтах. Система учитывает все упоминания, и некорректные данные снижают общий Confidence Score.

    Стратегическое значение

    Этот патент подтверждает фундаментальную важность Entity-Based SEO. Стратегия должна фокусироваться на управлении тем, как Google воспринимает вашу организацию и авторов как сущности реального мира. Ключевое значение имеет не просто наличие информации, а ее консистентность и распространенность в сети. Это позволяет Google валидировать факты о вашем бизнесе через механизм консенсуса (co-occurrence) и повышать Confidence Score, что является основой доверия и авторитетности (E-E-A-T).

    Практические примеры

    Сценарий: Валидация контактных данных локального бизнеса (Local SEO)

    1. Цель: Добиться максимального Confidence Score для NAP кофейни «Aroma».
    2. Действия: SEO-специалист проводит аудит присутствия кофейни в интернете (сайт, Yelp, TripAdvisor, Google Maps, локальные блоги).
    3. Анализ (как работает Google): Система Google индексирует эти источники. Она идентифицирует сущность «Aroma» и извлекает NAP из каждого источника.
    4. Проблема: В Yelp и двух блогах указан старый номер телефона.
    5. Последствия: Система видит два разных номера телефона, ассоциированных с «Aroma». Confidence Score для обоих номеров снижается, так как нет четкого консенсуса (co-occurrence не 100%). Это может снизить позиции в локальной выдаче.
    6. Решение: SEO-специалист обновляет информацию в Yelp и связывается с блогерами. После переиндексации все источники показывают единый номер. Confidence Score для этого номера максимизируется.

    Вопросы и ответы

    Как Google определяет, какой факт является верным, если в разных источниках указаны разные данные?

    Патент описывает механизм расчета Confidence Score (Оценки достоверности). Эта оценка основана на совместном упоминании (co-occurrence) сущности и ее атрибута во множестве источников. Факт, который чаще всего упоминается вместе с сущностью, получает более высокую оценку. На практике это означает, что Google полагается на консенсус в вебе для валидации информации.

    Что такое «Common Identifier» и почему он важен?

    Common Identifier – это фрагмент данных (например, email, телефон или URL), который встречается в нескольких разных источниках и позволяет системе понять, что речь идет об одной и той же сущности. Это критически важно для агрегации данных. Например, если система видит один и тот же email в профиле автора на разных сайтах, она использует его для объединения информации об этом авторе.

    Влияет ли этот патент на E-E-A-T?

    Да, напрямую. Патент описывает технические методы, с помощью которых Google идентифицирует сущности (авторов, организации) и проверяет достоверность их атрибутов. Достоверность (Trust) является центральной частью E-E-A-T. Если Google не может с высокой степенью уверенности (Confidence Score) определить, кто вы и как с вами связаться, доверие к вашей сущности будет низким.

    Как этот патент связан с локальным SEO и NAP?

    Он имеет прямое отношение к локальному SEO. Консистентность NAP (Name, Address, Phone) критически важна именно потому, что Google использует механизмы, подобные описанным в патенте. Чтобы максимизировать Confidence Score для вашего адреса и телефона, они должны быть абсолютно одинаковыми во всех источниках (цитатах), обеспечивая максимальную частоту co-occurrence.

    Нужно ли использовать микроразметку для контактной информации?

    Да, настоятельно рекомендуется. Хотя патент не упоминает Schema.org (она появилась позже), он упоминает парсинг структурированных форматов (vCard). Использование микроразметки помогает системам быстрее и точнее извлекать контактную информацию и связывать ее с сущностью, снижая вероятность ошибок и повышая достоверность данных.

    Что делать, если Google показывает неправильную контактную информацию о моей компании?

    Это означает, что неправильная информация получила более высокий Confidence Score. Необходимо провести детальный аудит присутствия компании в интернете, найти все источники с неправильными данными (старые каталоги, профили, упоминания в СМИ) и исправить их. Также убедитесь, что на вашем официальном сайте и в GBP указана корректная и размеченная информация.

    Патент описывает работу на стороне клиента (Google Desktop). Применимо ли это к веб-поиску?

    Да. Хотя примеры в патенте сосредоточены на локальных данных пользователя, описанные алгоритмы (извлечение сущностей, разрешение неоднозначности, валидация через совместное упоминание) являются стандартными методами Information Retrieval. Google применяет эти фундаментальные методы в масштабах всего интернета для построения Графа Знаний.

    Что важнее для валидации факта: авторитетность источника или количество упоминаний?

    Патент фокусируется на количестве и частоте упоминаний (co-occurrence) для расчета Confidence Score. В реальных системах Google комбинирует этот подход с взвешиванием по авторитетности источников. Тем не менее, патент подчеркивает, что массовый консенсус является сильным сигналом достоверности.

    Может ли система связывать информацию, если нет ни одного общего идентификатора между всеми источниками?

    Да, патент описывает возможность цепочечного связывания. Например, Источник А содержит Email и Телефон. Источник Б содержит тот же Телефон и Факс. Источник В содержит тот же Факс и Адрес. Система может связать Email из А с Адресом из В через промежуточные звенья (Телефон и Факс), даже если А и В напрямую не пересекаются по данным.

    Как система определяет, что номер телефона принадлежит именно этой компании, а не соседней, упомянутой в тексте?

    Система анализирует близость (proximity) расположения данных в тексте или структуре документа. Если номер телефона постоянно находится в контактном блоке компании или сразу после ее названия, система устанавливает связь и затем проверяет ее с помощью co-occurrence в других источниках.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.