Патент Google, описывающий систему извлечения информации о бизнесе (название, телефон) из неструктурированного текста веб-страниц. Система находит адрес в документе, определяет кандидатов на роль названия и телефона поблизости и использует статистическую модель для оценки вероятности их связи с адресом. Это основа для построения локального индекса и верификации данных (Citations).
Описание
Какую задачу решает
Патент решает проблему сбора и верификации точной информации о локальном бизнесе (Name, Address, Phone – NAP) для построения локального поискового индекса. Полагаться исключительно на данные из Желтых Страниц (Yellow Pages data) или структурированные базы данных недостаточно, так как эта информация может отсутствовать, быть устаревшей или неверной. Изобретение позволяет автоматически извлекать business information из неструктурированного контента веб-страниц, когда на них упоминается адрес.
Что запатентовано
Запатентована система для извлечения атрибутов локального бизнеса (business information), таких как название (title) и номер телефона (telephone number), связанных с географическим адресом, найденным в документе. Система использует обученную statistical model для анализа терминов вокруг адреса. Она оценивает различные признаки (features) – форматирование, близость к адресу, контекст – и присваивает кандидатам confidence score, отражающий вероятность того, что данный текст действительно является названием или телефоном бизнеса по этому адресу.
Как это работает
Система работает в два этапа: Обучение и Извлечение.
- Обучение (Training): Система анализирует обучающий набор документов, где адрес и связанная с ним бизнес-информация уже известны (например, из YP data). На основе этого анализа создается statistical model, которая изучает паттерны (features), указывающие на расположение бизнес-информации относительно адреса (например, название часто предшествует адресу, телефон сопровождается словом «позвонить»).
- Извлечение (Extraction): При анализе нового документа система сначала идентифицирует адрес. Затем она находит потенциальных кандидатов на роль названия и телефона в окрестностях адреса. Classifier применяет statistical model для оценки признаков каждого кандидата и вычисляет confidence score. Кандидат с наивысшей оценкой связывается с адресом.
Актуальность для SEO
Высокая. Извлечение, верификация и агрегация данных о локальном бизнесе (Citations) остаются фундаментальными задачами для Google Maps и локального поиска. Этот патент описывает базовый механизм того, как Google интерпретирует неструктурированные упоминания бизнеса в интернете для построения и обогащения своего индекса. Точность NAP критична для Local SEO.
Важность для SEO
Патент имеет критическое значение для Local SEO (9/10). Он описывает фундаментальный механизм, с помощью которого Google распознает и верифицирует упоминания бизнеса (Citations) на сайте компании и на внешних ресурсах. Понимание описанных признаков (features) – таких как форматирование, структура HTML и близость элементов NAP друг к другу – позволяет оптимизировать представление этой информации для повышения confidence score системы при ее извлечении.
Детальный разбор
Термины и определения
- Address (Адрес)
- Географический адрес (например, почтовый), идентифицированный в документе. Выступает в роли ориентира (landmark) для поиска связанной информации.
- Attribute (Атрибут)
- Информация, связанная с ориентиром (landmark). В контексте патента – это business information, связанная с address.
- Business Information (Бизнес-информация)
- Информация, связанная с адресом. В патенте фокусируется на названии (title) и номере телефона (telephone number), но также упоминаются часы работы или ссылки на веб-сайт/карту.
- Classifier (Классификатор)
- Компонент системы, который применяет statistical model к новым документам для извлечения business information и расчета confidence score.
- Confidence Score (Оценка уверенности)
- Числовое значение, присваиваемое кандидату на роль business information. Отражает вероятность того, что кандидат действительно связан с данным адресом.
- Features (Признаки)
- Характеристики кандидата и его контекста, используемые statistical model для принятия решения. Включают:
- Characteristics: Характеристики самого термина (капитализация, длина, форматирование, является ли числом и т.д.).
- Boundary Information: Информация о границах между терминами (HTML-теги, разрывы абзацев, элементы списков/таблиц).
- Punctuation Information: Знаки препинания между терминами.
- Distance: Расстояние (в терминах) от кандидата до адреса.
- Landmark (Ориентир)
- Идентифицируемый элемент в документе, для которого система ищет атрибуты. В основном контексте патента это address.
- Statistical Model (Статистическая модель)
- Модель, созданная на этапе обучения, которая инкапсулирует знания о том, как features коррелируют с расположением business information относительно адреса.
- Title (Название)
- Название бизнеса, связанное с адресом.
- Trainer (Обучающий модуль)
- Компонент, который генерирует statistical model на основе обучающего набора данных (training set).
- Yellow Pages (YP) Data (Данные Желтых Страниц)
- Существующие структурированные данные о бизнесе, используемые для создания обучающего набора (training set).
Ключевые утверждения (Анализ Claims)
Claim 1 (Независимый пункт): Описывает основной метод извлечения и ассоциации данных.
- Идентификация географического адреса в электронном документе.
- Генерация набора кандидатов на роль business information из терминов, находящихся на определенном расстоянии от адреса.
- Определение вероятности (расчет confidence score) для каждого кандидата, что он связан с адресом. Оценка основана на характеристиках терминов кандидата И характеристиках окружающих слов.
- Ассоциация кандидата с наивысшей вероятностью с географическим адресом в репозитории данных.
Claim 2 (Зависимый): Уточняет процесс для извлечения названия бизнеса (candidate business name).
Определение вероятности включает идентификацию признаков (features) кандидата и использование корпуса документов, где названия уже сопоставлены с адресами (т.е. использование statistical model, обученной на этом корпусе).
Claims 3-6 (Зависимые): Детализируют конкретные признаки (features), используемые для оценки названий:
- Claim 3: Расстояние между термином в названии и адресом.
- Claim 4: Характеристики термина: является ли числом, капитализация, курсив, жирность, подчеркивание, является ли частью анкорного текста (anchor text) в HTML, длина термина, центрирование.
- Claim 5: Информация о границах (boundary information) между терминами: наличие HTML-тегов, разрыва абзаца (paragraph break), маркера элемента списка или маркера таблицы.
- Claim 6: Информация о пунктуации (punctuation information) между терминами: наличие запятой, точки, восклицательного/вопросительного знака, двоеточия, точки с запятой, тире, кавычек или скобок.
Claim 7 (Зависимый): Уточняет процесс для извлечения номера телефона (candidate business telephone number). Аналогично Claim 2, использует признаки и модель, обученную на корпусе сопоставленных данных.
Claims 8-11 (Зависимые): Детализируют конкретные признаки (features), используемые для оценки телефонных номеров:
- Claim 8: Расстояние между номером телефона и адресом.
- Claim 9: Характеристики номера: длина, включает ли код города (area code), соответствующий географическому адресу.
- Claim 10: Информация о границах (аналогично Claim 5).
- Claim 11: Контекстуальные признаки: наличие общих терминов, связанных с телефоном (например, «call», «phone», «(T)») или факсом (например, «fax», «(F)») вблизи номера; наличие другого номера телефона между кандидатом и адресом.
Где и как применяется
Изобретение применяется преимущественно на этапе индексирования для структурирования данных, извлеченных из веба.
CRAWLING – Сканирование и Сбор данных
Система собирает веб-документы, которые являются сырьем для анализа.
INDEXING – Индексирование и извлечение признаков
Это основной этап применения патента. Во время обработки контента система выполняет следующие действия:
- Распознавание адресов: Идентификация географических адресов в тексте документа.
- Извлечение локальных элементов (Local Item Extraction): Применение Classifier и Statistical Model для идентификации названий и телефонных номеров, связанных с найденными адресами.
- Извлечение признаков (Feature Extraction): Анализ HTML-структуры, форматирования, контекста и близости элементов NAP друг к другу для расчета confidence score.
- Структурирование данных: Преобразование неструктурированного текста в структурированные данные (Entity: Name, Address, Phone), которые затем могут использоваться для построения локального индекса (Local Index) и графа знаний (Knowledge Graph).
Входные данные:
- Неструктурированные веб-документы (HTML, текст).
- Данные Yellow Pages (YP) (используются офлайн для обучения модели).
- Statistical Model.
Выходные данные:
- Структурированные записи о бизнесе (ассоциации Адрес + Название + Телефон).
- Confidence Scores для каждой ассоциации.
На что влияет
- Конкретные типы контента: Влияет на любые страницы, содержащие упоминания локального бизнеса (Citations) – контактные страницы сайтов, каталоги (директории), сайты отзывов, новостные статьи, блоги.
- Специфические запросы: Критически влияет на локальные запросы (например, «ресторан рядом со мной», «сантехник Москва»), где требуется точное понимание местоположения и контактных данных бизнеса.
- Конкретные ниши или тематики: Влияет на все ниши, связанные с локальным бизнесом (ритейл, услуги, общепит, медицина и т.д.).
Когда применяется
- При каких условиях работает алгоритм: Активируется каждый раз, когда система индексирует или переиндексирует документ и распознает в нем географический адрес (landmark).
- Триггеры активации: Патент указывает, что система особенно полезна, когда yellow pages data отсутствует или предположительно неверна, что подразумевает ее использование для верификации и дополнения существующих данных.
Пошаговый алгоритм
Алгоритм состоит из двух основных фаз: Обучение (A) и Извлечение (B).
Фаза А: Обучение Статистической Модели (Офлайн)
- Сбор обучающих данных: Идентификация документов, содержащих адреса, для которых существуют данные в Yellow Pages.
- Идентификация информации: Поиск известной бизнес-информации (название, телефон из YP) в этих документах.
- Фильтрация и Разметка: Отбор документов, где информация найдена (часто вблизи адреса), и разметка этой информации в документе.
- Генерация модели: Анализ размеченных документов для сбора признаков (features) – как форматирование, пунктуация, HTML-структура и расстояние коррелируют с расположением бизнес-информации. Генерация Statistical Model.
Фаза Б: Извлечение информации (Индексирование)
Процесс Б1: Извлечение Названия (Title)
- Идентификация адреса: Распознавание адреса в документе.
- Анализ терминов: Анализ терминов вблизи адреса. Патент предполагает, что название почти всегда предшествует адресу, поэтому анализ часто идет «назад» от адреса.
- Расчет вероятностей: Определение вероятности того, что каждый термин является частью названия, используя Statistical Model. Учитываются признаки термина и контекстное окно (несколько терминов слева и справа). Патент упоминает использование Markov-like assumption (локальный контекст имеет значение) для расчета вероятности цепочки терминов.
- Выбор кандидата: Идентификация последовательности терминов, которая максимизирует общую вероятность (при условии, что все части названия идут подряд).
- Присвоение Confidence Score: Присвоение оценки уверенности кандидату.
- Определение лучшего названия: Выбор названия с наивысшей оценкой (возможно, с учетом агрегации данных из нескольких документов).
Процесс Б2: Извлечение Номера Телефона (Telephone Number)
- Идентификация адреса: Распознавание адреса в документе.
- Идентификация кандидатов: Поиск всех телефонных номеров в документе (или в окрестности адреса) с использованием сопоставления с шаблонами.
- Расчет вероятностей: Определение вероятности того, что каждый кандидат связан с адресом, используя Statistical Model. Учитываются специфические признаки для телефонов (контекстные слова «тел/факс», расстояние, код города).
- Присвоение Confidence Score: Присвоение оценок уверенности кандидатам.
- Определение лучшего номера: Выбор номера с наивысшей оценкой.
Какие данные и как использует
Данные на входе
Система использует следующие типы данных, извлеченные непосредственно из документа:
- Контентные факторы: Текст документа, используемые слова (особенно контекстные, такие как «call», «phone», «tel», «fax»).
- Структурные факторы (HTML): Наличие HTML-тегов, разрывов абзацев (paragraph break), маркеров элементов списка (list item marker), маркеров таблиц (table marker). Также учитывается, является ли текст частью анкорного текста (anchor text).
- Факторы форматирования: Капитализация (Capitalized), Верхний регистр (Uppercase), Жирность (Bolded), Курсив (Italicized), Подчеркивание (Underlined), Центрирование (Centered).
- Географические факторы: Распознанный адрес; код города (area code) в телефонном номере и его соответствие географии адреса.
- Внешние данные (для обучения): Yellow Pages (YP) data используются для создания Statistical Model.
Какие метрики используются и как они считаются
Ключевая метрика – Confidence Score, которая рассчитывается на основе вероятностной модели.
- Алгоритмы машинного обучения: Используется статистическая модель, обученная на размеченных данных. Для расчета вероятности цепочки терминов (например, названия) используется подход, основанный на условных вероятностях и Markov-like assumption (Марковское предположение), где вероятность термина зависит только от его локального контекста и предсказания для предыдущего термина.
- Признаки (Features): Модель оценивает вес следующих признаков для каждого кандидата:
- Расстояние (Distance): Близость кандидата к адресу.
- Характеристики термина (Term Characteristics): Включая форматирование, длину, тип (слово/число).
- Информация о границах и пунктуации (Boundary/Punctuation Information): Структурные разделители и знаки препинания вокруг термина.
- Контекстуальные подсказки: Наличие ключевых слов, связанных с типом информации (например, «Tel:» для телефона).
- Методы вычислений: Для нахождения лучшего названия (последовательности терминов с максимальной вероятностью) упоминается использование алгоритмов поиска кратчайшего пути (single-source shortest path algorithm) или алгоритмов поиска j-лучших вариантов (j-best algorithm).
Выводы
- Автоматическое структурирование локальных данных: Патент описывает, как Google систематически извлекает структурированные данные (NAP) из неструктурированного веба. Это механизм, лежащий в основе сбора и анализа цитирований (Citations) в Local SEO.
- Важность контекста и структуры (Features): Система не просто ищет текст, похожий на название или телефон. Она использует Statistical Model для анализа множества признаков: форматирование (капитализация, жирность), структура HTML (теги, разрывы), пунктуация и контекстные слова. Эти признаки определяют Confidence Score.
- Близость элементов NAP критична: Расстояние (Distance) между названием, адресом и телефоном является ключевым признаком. Чем ближе элементы друг к другу и чем меньше между ними структурных разделителей, тем выше вероятность правильной ассоциации.
- Специфические паттерны для Названий и Телефонов: Система использует разные наборы признаков для разных типов данных. Для названий критично форматирование и расположение (обычно перед адресом). Для телефонов важны контекстные слова («тел», «факс») и географическое соответствие кода города.
- Обучение на основе известных данных: Эффективность системы зависит от качества Statistical Model, которая обучается на основе проверенных данных (YP data). Это означает, что Google ищет паттерны, соответствующие общепринятым способам оформления бизнес-информации.
Практика
Best practices (это мы делаем)
- Обеспечение консистентности NAP: Убедитесь, что название бизнеса, адрес и телефон представлены единообразно на вашем сайте и во всех внешних источниках (каталоги, соцсети). Это повышает вероятность того, что Statistical Model распознает повторяющийся паттерн.
- Оптимизация расположения NAP: Размещайте элементы NAP близко друг к другу. Идеальный паттерн, описанный в патенте для извлечения названия, предполагает, что название непосредственно предшествует адресу.
- Использование четкой HTML-структуры: Используйте чистый HTML для представления NAP. Избегайте излишних разделителей (например, множества <br>, таблиц или разрывов абзацев) между названием и адресом, так как Boundary Information является важным признаком.
- Использование контекстных подсказок для телефонов: Используйте явные указатели перед номерами телефонов (например, «Тел:», «Телефон:», «Факс:»). Патент явно указывает, что наличие таких слов (common telephone/facsimile number terms) является признаком для идентификации и классификации номера.
- Проверка кода города: Убедитесь, что код города указан корректно и соответствует физическому адресу, так как патент упоминает проверку соответствия area code.
- Форматирование названия: Используйте правильную капитализацию и, при необходимости, выделение (например, жирным шрифтом) для названия бизнеса, так как это явные признаки (Characteristics), используемые моделью.
Worst practices (это делать не надо)
- Размещение NAP в изображениях: Система работает с текстом и HTML. Информация в изображениях не может быть извлечена этим методом.
- Неконсистентное или сложное форматирование: Использование разных вариантов написания названия или сложной верстки, которая визуально и структурно отделяет название от адреса, снижает Confidence Score.
- Большое расстояние между элементами NAP: Размещение названия в шапке сайта, а адреса только в футере затрудняет их ассоциацию, если они не повторяются вместе на странице контактов. Distance является негативным фактором.
- Наличие множества адресов и телефонов без четкой связи: Если на странице указано много телефонов и адресов (например, для разных филиалов), необходимо четко структурировать данные, чтобы система могла однозначно связать каждый телефон с соответствующим адресом и названием филиала.
Стратегическое значение
Этот патент подтверждает фундаментальную важность Citations (упоминаний NAP) для Local SEO. Он показывает, что Google не просто учитывает факт упоминания, но и анализирует как именно оно оформлено. Чем больше упоминаний в интернете соответствует паттернам, которые Statistical Model считает надежными (высокий Confidence Score), тем выше уверенность Google в существовании и точности данных о бизнесе. Стратегия должна быть направлена на обеспечение максимальной читаемости и консистентности NAP как на собственном сайте, так и на внешних площадках.
Практические примеры
Сценарий: Оптимизация страницы контактов для максимального Confidence Score
Плохая реализация (Низкий Confidence Score):
Название «Ромашка» указано только в логотипе. На странице контактов текст:
Приходите к нам!
Мы находимся по адресу: ул. Ленина, д. 1.
Если заблудитесь, вот наш номер: 8-800-555-35-35.
Проблемы: Название не связано с адресом. Телефон отдален от адреса. Нет явных контекстных подсказок.
Оптимизированная реализация (Высокий Confidence Score):
Использование структурированного блока:
ООО «Ромашка» (Название выделено, предшествует адресу)
ул. Ленина, д. 1 (Адрес сразу после названия)
Тел: 8-800-555-35-35 (Телефон рядом, с контекстной подсказкой «Тел:»)
Ожидаемый результат: Система с высокой степенью уверенности извлечет и свяжет все три элемента NAP, так как эта структура соответствует признакам (Features), описанным в патенте: минимальное расстояние, явное форматирование названия, минимальные структурные границы и наличие контекстных слов.
Вопросы и ответы
Имеет ли значение форматирование (жирность, капитализация) названия компании при его размещении на сайте?
Да, это имеет прямое значение. В патенте явно перечислены признаки (Features), которые анализирует Statistical Model для идентификации названия: капитализация, жирность, курсив, подчеркивание и даже центрирование. Использование общепринятого форматирования для выделения названия бизнеса повышает вероятность его корректного извлечения и ассоциации с адресом.
Насколько близко название компании и телефон должны находиться к адресу?
Чем ближе, тем лучше. Расстояние (Distance) является одним из ключевых признаков как для названий, так и для телефонов. В патенте указано, что система ищет кандидатов в пределах определенного расстояния. Для названий система ожидает, что они обычно предшествуют адресу. Сокращение расстояния и удаление структурных барьеров между элементами NAP повышает Confidence Score.
Заменяет ли этот механизм необходимость использования микроразметки Schema.org (LocalBusiness)?
Нет, не заменяет. Этот патент описывает механизм извлечения данных из неструктурированного контента, когда явная разметка отсутствует или ей нельзя доверять. Микроразметка предоставляет структурированные данные напрямую. Использование Schema.org является лучшей практикой, а механизм из патента служит дополнительным способом сбора и верификации данных, особенно с внешних сайтов (Citations), где вы не контролируете разметку.
Как этот патент связан с понятием «Citations» (Цитирование) в Local SEO?
Этот патент описывает технический механизм, с помощью которого Google обрабатывает Citations. Когда SEO-специалисты говорят о важности наличия и консистентности NAP в каталогах и на других сайтах, они подразумевают, что система Google (описанная в этом патенте) будет сканировать эти сайты, извлекать NAP и использовать их для верификации данных о бизнесе. Качество оформления этих Citations напрямую влияет на Confidence Score извлечения.
Влияет ли HTML-структура (теги, разрывы строк) на извлечение NAP?
Да, очень сильно. Патент явно указывает на анализ Boundary Information – наличие HTML-тегов, разрывов абзацев, элементов списков или таблиц между терминами. Чистая и логичная HTML-структура, которая группирует элементы NAP без лишних разделителей, способствует более точному извлечению данных.
Что делать, если у компании несколько филиалов на одной странице?
Необходимо четко разделять информацию о каждом филиале. Для каждого филиала блок NAP (Название филиала, Адрес, Телефон) должен быть сгруппирован и структурно отделен от блоков других филиалов. Если смешать все адреса и все телефоны в кучу, система не сможет установить надежные связи и Confidence Score будет низким.
Нужно ли писать «Телефон:» или «Тел:» перед номером?
Да, это рекомендуется. В патенте указано, что система ищет «общие термины, связанные с телефоном» (например, call, phone, tel, (T)) или факсом вблизи номера телефона. Эти контекстные подсказки являются положительным признаком (Feature) для идентификации и классификации номера.
Как система определяет, какой из нескольких телефонов на странице является основным, а какой – факсом?
Система анализирует контекстные подсказки. Если перед одним номером стоит слово «Телефон», а перед другим – «Факс», система использует это для классификации. Если подсказок нет, система может полагаться на другие признаки, такие как близость к адресу или порядок следования, но точность распознавания снижается.
Как Google убеждается, что извлеченные данные верны?
Система использует Confidence Score, основанный на Statistical Model, обученной на заведомо верных данных (YP data). Кроме того, Google, вероятно, агрегирует информацию из множества источников. Если один и тот же NAP извлекается с высоким Confidence Score из десятков разных документов, общая уверенность в правильности данных возрастает.
Может ли этот алгоритм ошибочно связать название одной компании с адресом другой, если они упоминаются рядом?
Да, это возможно, если структура документа неоднозначна. Например, в статье, обозревающей несколько ресторанов, текст может быть построен так, что название одного ресторана окажется ближе к адресу другого. Именно для минимизации таких ошибок система анализирует множество признаков (форматирование, границы), а не только близость. Четкое структурирование контента помогает избежать таких ошибок.