Google автоматически изучает альтернативные названия и синонимы для сущностей (например, узнает, что «Big Blue» это IBM), анализируя анкорный текст ссылок, ведущих на авторитетные источники фактов об этой сущности. Система фильтрует и обрабатывает эти тексты, учитывая частоту их использования и качество ссылающихся сайтов (например, PageRank), чтобы обогатить базу знаний (Knowledge Graph) и улучшить понимание запросов.
Описание
Какую задачу решает
Патент решает проблему масштабируемого и автоматического определения различных названий (синонимов, псевдонимов, аббревиатур), которые люди используют для обозначения одной и той же сущности (например, «IBM», «Big Blue» и «International Business Machines Corporation»). Для эффективной работы базы знаний (Fact Repository, аналог Knowledge Graph) критически важно знать все синонимы, чтобы корректно сопоставлять запросы пользователей с хранимыми фактами, независимо от того, какое имя используется в запросе. Ручное определение синонимов неэффективно и дорого.
Что запатентовано
Запатентована система для автоматического изучения синонимичных названий сущностей путем анализа анкорного текста ссылок. Метод основан на предположении, что анкорный текст, указывающий на авторитетный источник информации о сущности, часто содержит ее название или синоним. Система идентифицирует документы, из которых были извлечены факты о сущности (Source Documents), анализирует входящие ссылки на них, фильтрует и обрабатывает анкорный текст для генерации и выбора надежных синонимов.
Как это работает
Система функционирует следующим образом:
- Идентификация источников фактов: Определяется сущность (Object) в Fact Repository и находятся Source Documents, из которых были извлечены факты о ней.
- Анализ входящих ссылок: Система находит документы (Linking Documents), которые ссылаются на эти Source Documents.
- Обработка анкорного текста (NLP): Анкорный текст этих ссылок извлекается и обрабатывается. Применяется нормализация, извлечение именных групп (noun phrases), а также фильтрация с использованием черных списков (Black List) для удаления общих фраз (например, «click here»).
- Выбор синонимов: Генерируется коллекция кандидатов (Anchor Synset). Система выбирает наиболее вероятные синонимы, основываясь на частоте их использования (не слишком редко и не слишком часто) и качестве (например, PageRank, упомянутом в описании) ссылающихся документов.
- Обогащение базы знаний: Выбранные синонимы добавляются в Fact Repository как альтернативные названия (Name Facts) для данной сущности.
Актуальность для SEO
Высокая. Понимание сущностей и их взаимосвязей (Knowledge Graph) является фундаментом современного поиска Google. Способность точно идентифицировать сущности по различным названиям критически важна для понимания запросов (Query Understanding) и обеспечения релевантности, особенно в контексте E-E-A-T и работы современных NLP-моделей. Описанный механизм использования анкорного текста для семантического анализа остается ключевым методом обогащения данных.
Важность для SEO
Патент имеет критическое значение (9/10) для SEO. Он детально описывает, как Google использует анкорный текст не только как сигнал ранжирования, но и как ключевой источник данных для понимания семантики и идентификации сущностей (Entity Understanding). Это подтверждает стратегическую важность качества, релевантности и естественности ссылочного профиля и анкор-листа для корректного распознавания связанных с сайтом сущностей (брендов, авторов, продуктов).
Детальный разбор
Термины и определения
- Anchor Synset (Коллекция кандидатов в синонимы)
- Набор потенциальных синонимов для сущности, сгенерированный путем обработки анкорных текстов.
- Anchor Text (Анкорный текст)
- Текст гиперссылки в Linking Document, указывающей на Source Document. Основной источник данных для поиска синонимов.
- Black List (Черный список)
- Коллекция текстов, которые часто используются в анкорах, но не связаны с темой целевого документа (например, «click here»). Также может включать стандартные префиксы/суффиксы.
- Fact Repository (Репозиторий фактов)
- База данных, хранящая фактическую информацию о сущностях. Аналог Google Knowledge Graph.
- Importer (Импортер)
- Компонент системы, который извлекает факты из документов.
- Janitor (Санитар)
- Компонент системы, выполняющий обработку извлеченных фактов: очистку данных, нормализацию, удаление дубликатов и, вероятно, генерацию синонимов.
- Linking Document (Ссылающийся документ)
- Документ, содержащий гиперссылку на Source Document.
- Name Fact (Факт имени)
- Факт в репозитории, который содержит название или синоним сущности.
- Noun Phrase Extraction (Извлечение именных групп)
- Процесс NLP для выделения из анкорного текста основной фразы, описывающей объект, и удаления вспомогательных слов.
- Object (Объект)
- Представление сущности (Entity) в Fact Repository. Логически объединяет все факты, связанные с этой сущностью.
- Source Document (Исходный документ)
- Документ, из которого был извлечен один или несколько фактов о конкретной сущности. Авторитетный источник.
- White List (Белый список)
- Коллекция текстов, которые с высокой вероятностью являются валидными названиями сущностей. Используется для подтверждения кандидатов.
Ключевые утверждения (Анализ Claims)
Claim 1 (Независимый пункт): Описывает основной метод определения синонима для сущности.
- Система идентифицирует Source Document, из которого были извлечены факты о сущности.
- Идентифицируются Linking Documents, ссылающиеся на этот Source Document гиперссылками с анкорным текстом.
- Генерируется коллекция кандидатов в синонимы на основе этих анкорных текстов.
- Из коллекции выбирается синонимичное название.
- Это название сохраняется в ассоциации с сущностью.
Ядро изобретения — использование анкорного текста, указывающего на документ, который уже верифицирован как источник фактов о сущности, для изучения новых названий этой же сущности.
Claim 2 (Зависимый от 1): Детализирует процесс выбора Source Document для повышения точности.
Система фильтрует список исходных документов, удаляя те, из которых также были извлечены факты о *других* сущностях. Это критически важный шаг: если документ посвящен множеству сущностей, входящий анкорный текст менее надежен. Система предпочитает документы, сфокусированные на одной сущности.
Claim 5 (Зависимый от 1): Описывает метод обработки анкорного текста с помощью NLP.
Процесс включает извлечение именной группы (noun phrase) из анкорного текста. Это позволяет удалить из анкора части, не являющиеся именем (например, из «Узнайте больше о Google Inc.» извлекается «Google Inc.»).
Claim 6 (Зависимый от 1): Описывает метод очистки.
Процесс включает удаление префиксов или суффиксов из анкорного текста (например, удаление «статья о…» или «Wikipedia article about»).
Claim 7 и 8 (Зависимые от 1): Описывают использование списков для фильтрации.
Используются Black List для удаления общих фраз (Claim 7) и White List для подтверждения надежных имен (Claim 8).
Claim 9 и 11 (Зависимые от 1): Описывают использование частотных порогов для выбора финального синонима.
Кандидаты должны быть не слишком редкими (Claim 9, минимальный порог, отсеивает опечатки и шум) и не слишком частыми (Claim 11, максимальный порог, отсеивает общие фразы типа «home page»).
Claim 13 (Зависимый от 1): Описывает использование качества ссылающихся документов.
Выбор синонима основывается на качестве (Quality) Linking Document. Анкорный текст с авторитетных сайтов (в описании патента упоминается PageRank как пример метрики качества) имеет больший вес.
Где и как применяется
Изобретение направлено на обогащение базы знаний (Fact Repository) и улучшение понимания языка.
CRAWLING – Сканирование и Сбор данных
На этом этапе собираются данные о Source Documents, Linking Documents, гиперссылках и анкорных текстах.
INDEXING – Индексирование и извлечение признаков
Основное применение патента происходит на этом этапе, в виде постобработки (batch processing).
- Importers извлекают факты и связывают их с сущностями и источниками.
- Рассчитываются метрики качества документов (например, PageRank).
- Описанный в патенте механизм (вероятно, реализованный через Janitors) анализирует индекс (факты, источники, граф ссылок, анкоры) для генерации новых синонимов.
- Новые синонимы сохраняются как Name Facts обратно в Fact Repository.
QUNDERSTANDING – Понимание Запросов
Результаты работы этого патента напрямую используются здесь. Зная, что запрос [IBM] и запрос [Big Blue] относятся к одной и той же сущности, система может корректно интерпретировать интент пользователя и активировать релевантные результаты поиска и блоки Knowledge Graph.
Входные данные:
- Существующие факты об объекте и их Source Documents.
- Граф ссылок: Linking Documents, их анкорный текст и целевые URL.
- Метрики качества (авторитетности, например, PageRank) для Linking Documents.
- Black Lists и White Lists.
Выходные данные:
- Новые Name Facts (синонимы) для объекта, сохраненные в Fact Repository.
На что влияет
- Сущности (Entities): Влияет на все типы сущностей, для которых существуют факты в репозитории и на источники которых ссылаются другие сайты (бренды, люди, места, продукты).
- Понимание Контента и Запросов: Улучшает способность системы распознавать упоминания сущностей, даже если используются разные названия, аббревиатуры или псевдонимы.
- Ссылочный профиль: Повышает важность качества и естественности анкорного текста входящих ссылок как семантического сигнала.
- Языковые ограничения: Патент указывает, что процесс нейтрален к языку (language-neutral) и может использовать языкозависимые правила нормализации (Claim 4).
Когда применяется
- Условия применения: Алгоритм применяется для сущностей, у которых есть идентифицированные Source Documents, на которые, в свою очередь, есть входящие ссылки.
- Триггеры активации и частота: Процесс выполняется периодически в рамках обновления и очистки Fact Repository (постобработка индекса, выполняемая модулями Janitors), а не в реальном времени при запросе пользователя.
Пошаговый алгоритм
Процесс определения синонимов для сущности.
- Идентификация объекта: Выбирается объект (сущность) из Fact Repository.
- Идентификация и фильтрация источников:
- Определяется список всех Source Documents для этого объекта.
- (Фильтрация, Claim 2): Удаляются документы, которые связаны с множеством разных сущностей, чтобы оставить только специализированные (сфокусированные) источники.
- Идентификация входящих ссылок: Для каждого оставшегося Source Document определяются все Linking Documents.
- Извлечение и обработка анкоров (Генерация Кандидатов):
- Извлекается анкорный текст.
- Нормализация (Claim 3, 4): Приведение к стандартному виду (регистр, пунктуация, стоп-слова), с учетом языка.
- Фильтрация по Black List (Claim 7): Удаление общих фраз (например, «click here»).
- Очистка (Claim 6): Удаление стандартных префиксов/суффиксов.
- Извлечение именных групп (Claim 5): Выделение основного объекта в анкоре (Noun Phrase Extraction).
- Результат: Формирование коллекции кандидатов (Anchor Synset).
- Выбор синонимов (Фильтрация Кандидатов):
- Расчет частоты встречаемости каждого кандидата.
- Применение минимального порога частоты (Claim 9) (отсев редких вариантов).
- Применение максимального порога частоты (Claim 11) (отсев слишком общих вариантов).
- Оценка качества (Claim 13): Учет авторитетности (например, PageRank) Linking Documents.
- Финальный выбор наиболее надежных синонимов на основе комбинации частоты и качества (возможно использование Score Function).
- Сохранение результата: Создание новых Name Facts для выбранных синонимов и их ассоциация с исходным объектом в Fact Repository.
Какие данные и как использует
Данные на входе
Патент фокусируется на использовании ссылочных и структурных данных для извлечения семантической информации.
- Ссылочные факторы: Критически важные данные. Используются входящие ссылки на Source Documents и их Anchor Text. Также используется качество/авторитетность (Quality) ссылающихся документов (Linking Documents). В описании патента PageRank упоминается как пример метрики качества.
- Структурные факторы (Данные из Fact Repository): Используются существующие связи между сущностями (Objects), фактами (Facts) и документами-источниками (Source Documents).
- Контентные факторы (NLP): Применяются методы анализа текста к анкорному тексту: нормализация, Noun Phrase Extraction, удаление стоп-слов, префиксов и суффиксов.
Какие метрики используются и как они считаются
- Частота встречаемости (Frequency of Occurrence): Подсчет количества раз, когда определенный (нормализованный) анкорный текст используется для ссылки на Source Documents сущности.
- Минимальный порог частоты (Minimum Threshold): Пороговое значение для отсева редких или ошибочных анкоров (Claim 9).
- Максимальный порог частоты (Maximum Threshold): Пороговое значение для отсева слишком общих фраз (Claim 11).
- Качество ссылающегося документа (Quality of Linking Document): Метрика авторитетности ссылающегося документа (например, PageRank). Используется для взвешивания кандидатов (Claim 13).
- Оценка кандидата (Score): В описании упоминается возможность использования функции оценки (Score Function), которая агрегирует различные факторы: частоту, качество ссылок, совпадение с White/Black List и корректность капитализации.
Выводы
- Анкорный текст как источник семантических данных: Патент подтверждает, что Google использует анкорный текст не только для ранжирования, но и как прямой источник для изучения языка и обогащения Knowledge Graph (Fact Repository). Анкоры помогают понять, как люди называют сущности.
- Важность авторитетности источников ссылок: Качество (Quality, например, PageRank) ссылающегося документа напрямую влияет на то, будет ли его анкорный текст принят в качестве синонима (Claim 13). Ссылки с авторитетных сайтов имеют больший вес в семантическом анализе.
- Сложная фильтрация и NLP-обработка анкоров: Google активно очищает анкорный текст. Используются NLP (извлечение именных групп), черные списки и частотные пороги (минимальный и максимальный). Манипуляции с анкорами или использование общих фраз фильтруются.
- Предпочтение специализированным источникам (Claim 2): Для изучения синонимов система предпочитает анализировать ссылки, ведущие на документы, сфокусированные только на одной сущности. Если страница охватывает много тем, входящие ссылки на нее считаются менее надежными для этого анализа.
- Связь между E-E-A-T и Ссылками: Чтобы механизм сработал для вашего сайта/бренда, ваш контент должен быть признан источником фактов (высокий E-E-A-T, становление Source Document), и на него должны ссылаться качественные ресурсы с релевантными анкорами.
Практика
Best practices (это мы делаем)
- Стимулирование качественных и описательных анкоров: Работайте над получением ссылок с авторитетных ресурсов (высокое Quality of Linking Document), используя естественный, описательный анкорный текст, который точно отражает название сущности (бренда, продукта, автора) и ее синонимы.
- Фокусировка контента (Одна страница = Одна основная сущность): Создавайте страницы, которые четко сфокусированы на одной основной сущности. Согласно Claim 2, ссылки на такие специализированные страницы имеют больший вес при анализе синонимов, чем ссылки на общие страницы, охватывающие много разных сущностей.
- Построение авторитетности для становления источником фактов: Развивайте E-E-A-T сайта, чтобы Google начал использовать его как Source Document для извлечения фактов. Только после этого входящие ссылки будут эффективно анализироваться для изучения синонимов, связанных с вашим брендом.
- Фокус на Noun Phrases в анкорах: Убедитесь, что анкорный текст представляет собой именную группу (noun phrase), так как система использует их извлечение (Claim 5) для идентификации имен, отбрасывая окружающий текст.
Worst practices (это делать не надо)
- Использование общих анкоров: Массовое использование анкоров типа «читать далее», «здесь», «сайт». Они будут отфильтрованы с помощью Black Lists (Claim 7) и не несут семантической ценности для этого механизма.
- Спам точными вхождениями с низкокачественных сайтов: Попытки манипулировать системой путем создания множества ссылок с некачественных ресурсов неэффективны. Качество Linking Document является важным фактором при выборе синонимов (Claim 13).
- Создание размытого контента: Создание страниц, которые охватывают слишком много разных сущностей без четкого фокуса. Такие страницы могут быть исключены из анализа синонимов (Claim 2).
- Игнорирование естественного разнообразия анкоров: Использование только одного варианта названия. Отсутствие естественных синонимов и вариаций в анкор-листе может затруднить для системы изучение всех релевантных имен сущности.
Стратегическое значение
Этот патент подчеркивает глубокую интеграцию между анализом ссылочного графа и построением семантической базы знаний (Knowledge Graph). Для Senior SEO-специалистов это означает, что стратегия линкбилдинга должна рассматриваться не только с точки зрения передачи веса (PageRank), но и как способ обучения алгоритмов Google семантике вашего бренда (Entity SEO). Качественный ссылочный профиль с релевантными анкорами напрямую способствует лучшему распознаванию сущностей.
Практические примеры
Сценарий: Улучшение распознавания бренда и его аббревиатуры
Компания «Московский Кредитный Банк» хочет, чтобы Google четко ассоциировал аббревиатуру «МКБ» с их брендом.
- Создание авторитетного источника (E-E-A-T): Компания публикует на своем сайте официальную информацию. Google использует сайт как Source Document для фактов о сущности «Московский Кредитный Банк». Страница «О нас» сфокусирована на этой сущности (Claim 2).
- Стимулирование качественных ссылок: Проводятся PR-кампании, авторитетные финансовые издания (High Quality Linking Documents) ссылаются на них.
- Анализ анкоров:
- Издание РБК ссылается с анкором: «Отчет Московского Кредитного Банка».
- Издание Коммерсант ссылается с анкором: «Новые ставки МКБ».
- Блог ссылается с анкором: «Читайте обзор услуг МКБ».
- Обработка Google: Система анализирует анкоры. После нормализации и извлечения именных групп (Claim 5) из анкоров генерируются кандидаты: «Московский Кредитный Банк» и «МКБ».
- Результат: Поскольку эти кандидаты встречаются часто (Claim 9) и приходят с авторитетных источников (Claim 13), Google добавляет «МКБ» как синоним (Name Fact) для сущности «Московский Кредитный Банк» в Knowledge Graph.
Вопросы и ответы
Как этот патент связан с Google Knowledge Graph?
Патент напрямую описывает механизм обогащения Fact Repository, который является функциональным аналогом Knowledge Graph. Система изучает новые факты (в данном случае, синонимы или Name Facts) о сущностях, хранящихся в этой базе. Это позволяет Knowledge Graph содержать актуальную и полную информацию о том, как называются различные сущности.
Означает ли это, что анкорный текст важнее для SEO, чем считалось ранее?
Да, это подтверждает его критическую важность, но в новом свете. Он используется не только как сигнал ранжирования, но и как семантический сигнал для обучения алгоритмов (Information Retrieval). Анкорный текст помогает Google установить связь между различными названиями и конкретными сущностями, что фундаментально для понимания контента и запросов.
Как Google отличает хороший анкорный текст от плохого (например, «кликните здесь»)?
Патент описывает несколько уровней фильтрации. Используются Black Lists для удаления общих фраз (Claim 7). Применяются частотные пороги: слишком частые анкоры игнорируются (Claim 11). Используется NLP (Noun Phrase Extraction) для извлечения именных групп и удаления «воды» (Claim 5). Наконец, критически важен авторитет (Quality) ссылающегося сайта (Claim 13).
Влияет ли PageRank ссылающегося сайта на этот процесс?
Да, напрямую. В описании патента PageRank упоминается как пример метрики качества (Quality) для Linking Document. Claim 13 также защищает идею выбора синонима на основе качества ссылающегося документа. Анкоры с сайтов с высоким авторитетом имеют значительно больший вес при определении синонимов.
Что такое «Source Document» и как сделать свой сайт таким документом?
Source Document — это документ, из которого Google извлек факты о сущности. Чтобы ваш сайт стал таким источником, он должен содержать точную, структурированную (например, с помощью Schema.org) и авторитетную информацию о сущности (высокий E-E-A-T). Также важно, чтобы страница была сфокусирована преимущественно на этой сущности (Claim 2).
Почему Google может игнорировать анкоры, ведущие на главную страницу или страницу категории?
Это связано с Claim 2. Главные страницы или категории часто являются источниками фактов о множестве различных сущностей (бренд, разные продукты). Патент указывает, что система предпочитает Source Documents, сфокусированные на одной сущности. Если страница слишком общая, входящие анкоры могут быть сочтены ненадежными для идентификации конкретных синонимов.
Как бороться с негативным SEO, если конкуренты спамят нерелевантными или ошибочными анкорами?
Механизмы, описанные в патенте, помогают защититься от этого. Ошибочные или редкие анкоры не пройдут минимальный частотный порог (Claim 9). Если такие ссылки идут с низкокачественных сайтов, их вес будет минимальным из-за низкого Quality of Linking Document (Claim 13). Фокусируйтесь на построении качественного ссылочного профиля.
Что такое извлечение именных групп (Noun Phrase Extraction) в контексте анкоров (Claim 5)?
Это процесс NLP, при котором система анализирует грамматическую структуру анкорного текста, чтобы выделить основную именную группу, описывающую объект. Например, в анкоре «почитайте эту отличную статью про IBM», система извлечет «IBM» как именную группу, отбросив остальной текст. Это позволяет выделить суть анкора.
Стоит ли использовать разнообразные анкоры при построении ссылок?
Да, это хорошая стратегия. Использование естественного разнообразия релевантных синонимов и названий помогает системе лучше понять вашу сущность. Пока каждый вариант используется достаточно часто (чтобы пройти минимальный порог) и приходит с качественных источников, система сможет идентифицировать их как действительные имена.
Учитывает ли система язык документа при анализе анкоров?
Да. Патент утверждает, что метод является языконезависимым (language-neutral), и упоминает применение правил нормализации, зависящих от языка (Claim 4). Это означает, что система определяет язык ссылающегося документа и применяет соответствующие правила (например, списки стоп-слов) для этого языка.