Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Google

    Как Google извлекает, каноникализирует и выбирает цитаты для показа в результатах поиска

    QUOTATION IDENTIFICATION (Идентификация цитат)
    • US9323721B1
    • Google LLC
    • 2016-04-26
    • 2013-02-27
    2013 Knowledge Graph Патенты Google Ссылки

    Google использует систему для идентификации и обработки цитат, приписываемых сущностям. Система применяет разные критерии в зависимости от источника: для общих цитат важна частота упоминаний и консенсус, а для новостных — свежесть и качество ресурса. Это позволяет выбрать каноническую версию (representative quotation) и отобразить ее в поисковой выдаче (например, в Панелях знаний).

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает задачу автоматического извлечения, верификации и канонизации цитат, найденных в интернете, для их последующего использования в поиске. Основные проблемы, которые решает система:

    • Вариативность: Одна и та же цитата часто приводится в разных формулировках. Система должна определить каноническую версию.
    • Верификация и Фильтрация: Необходимо отсеять неточные, малоизвестные или «личные» высказывания, которые не представляют широкого интереса.
    • Атрибуция: Корректное связывание цитаты с сущностью (автором).
    • Актуальность: Необходимость различать «вечнозеленые» (популярные) цитаты и актуальные новостные комментарии.

    Что запатентовано

    Запатентована система для создания и поддержания базы данных цитат (Quotations Data Store). Она включает механизмы офлайн-извлечения цитат из классифицированных ресурсов (новостных или посвященных цитатам). Система применяет различную логику оценки: частотность и консенсус для популярных цитат, либо свежесть и качество источника для новостных. Семантически близкие варианты группируются, и выбирается репрезентативная цитата (representative quotation), которая сохраняется в привязке к сущности.

    Как это работает

    Система работает в офлайн (Offline Process) и онлайн (Online Process) режимах, используя два основных пути обработки:

    Офлайн-процесс:

    • Путь А (Известные цитаты): Анализируются ресурсы, классифицированные как quotation-related. Цитаты фильтруются по порогам частоты упоминаний и количества уникальных источников. Семантически похожие варианты кластеризуются. Выбирается наиболее часто встречающаяся версия как representative quotation.
    • Путь Б (Новостные цитаты): Идентифицируются трендовые сущности (по логам запросов). Анализируются ресурсы, классифицированные как news-related. Цитаты оцениваются на основе свежести (recency) и качества источника (quality measure). Выбираются наиболее актуальные.

    Онлайн-процесс:

    • При получении запроса о сущности система может использовать сохраненные данные и их статистику для принятия решения о показе цитат в SERP (например, в Панели Знаний).

    Актуальность для SEO

    Высокая. Извлечение структурированных данных (Information Extraction) для наполнения Knowledge Graph и обогащения SERP является ключевым направлением развития поиска. Механизмы каноникализации фактов и контекстно-зависимой обработки данных (новости против вечнозеленого контента), описанные в патенте, остаются фундаментально актуальными.

    Важность для SEO

    Влияние на SEO среднее (6.5/10). Патент не описывает ранжирование органических «синих ссылок». Однако он критически важен для Entity SEO и управления репутацией (ORM). Он раскрывает механизмы, определяющие, какая информация будет показана о сущности (бренде, персоне) в Панелях знаний и других SERP-фичах. Понимание процесса каноникализации позволяет стратегически влиять на представление сущности в поиске.

    Детальный разбор

    Термины и определения

    Edit distance (Редакционное расстояние)
    Метрика схожести между двумя строками (цитатами), определяющая минимальное количество правок для преобразования одной строки в другую (например, расстояние Левенштейна). Используется для идентификации вариантов одной цитаты.
    Expression template (Шаблон выражения)
    Паттерн или регулярное выражение для идентификации цитат в тексте. Например, <sentence or phrase> said <entity>.
    News-related resource (Новостной ресурс)
    Ресурс, классифицированный как посвященный новостям. Цитаты из них обрабатываются с фокусом на свежесть.
    Offline Process / Online Process
    Офлайн-процесс отвечает за сбор, анализ и сохранение цитат. Онлайн-процесс отвечает за доступ к этим данным и их отображение в ответ на запрос.
    Quality measure (Показатель качества)
    Метрика авторитетности или надежности ресурса. Используется при оценке новостных цитат.
    Quotation-related resource (Ресурс, связанный с цитатами)
    Ресурс, классифицированный как фокусирующийся на цитатах (например, сайт-цитатник). Используется для сбора популярных цитат.
    Quotations Data Store (Хранилище данных цитат)
    База данных обработанных и канонизированных цитат, связанных с сущностями.
    Recency (Свежесть)
    Показатель того, насколько недавно цитата была опубликована. Ключевой фактор для новостных цитат.
    Representative quotation (Репрезентативная цитата)
    Каноническая версия цитаты, выбранная из группы семантически схожих вариантов. Обычно это наиболее часто встречающаяся версия.

    Ключевые утверждения (Анализ Claims)

    Патент описывает два основных процесса (для известных и новостных цитат), но Claims 1-20 фокусируются преимущественно на каноникализации известных цитат.

    Claim 1 (Независимый пункт): Описывает полный цикл от идентификации до отображения в поиске для цитат из quotation-related resources.

    Часть A (Офлайн-обработка):

    1. Идентификация двух цитат (Q1 и Q2) в ресурсах, классифицированных как quotation-related.
    2. Определение статистики для Q1 и Q2: общее число упоминаний (number of occurrences) и число уникальных источников (number of different resources).
    3. Определение, что Q1 и Q2 семантически связаны, но не идентичны (варианты).
    4. Выбор representative quotation (например, Q1).
    5. Сохранение репрезентативной цитаты, ее статистики и связи с сущностью (Entity).

    Часть B (Онлайн-отображение):

    1. Получение поискового запроса.
    2. Определение, что запрос относится к этой сущности (Entity).
    3. Принятие решения о включении информационного блока о сущности в SERP. Критически важно: это решение основывается на сохраненной статистике (количестве упоминаний и уникальных ресурсов) репрезентативной цитаты.
    4. Выбор репрезентативной цитаты для показа.
    5. Предоставление SERP, включающей эту цитату в блоке о сущности.

    Claim 2 (Зависимый от 1): Уточняет механизм выбора representative quotation.

    Выбор основан на сравнении количества упоминаний Q1 и Q2. (Выбирается наиболее частотная версия).

    Claim 4 и 5 (Зависимые от 1): Описывают фильтрацию контента.

    Система может отбрасывать цитаты, не соответствующие ограничениям: наличие цифр, начало со строчной буквы, наличие определенных символов, количество заглавных букв.

    Claim 7 (Зависимый от 1): Вводит пороги качества.

    Цитаты обрабатываются, только если они превышают минимальные пороги по общему числу упоминаний и числу уникальных источников.

    Где и как применяется

    Изобретение затрагивает несколько этапов поисковой архитектуры.

    INDEXING – Индексирование и извлечение признаков
    Основная офлайн-обработка (Offline Process) происходит здесь:

    • Классификация ресурсов: Определение quotation-related и news-related ресурсов.
    • Извлечение признаков (Information Extraction): Извлечение цитат и их атрибуция к сущностям с помощью expression templates или NLP.
    • Расчет метрик: Вычисление частотности, Recency и оценка Quality measure источников.
    • Каноникализация: Фильтрация, кластеризация вариантов и выбор representative quotation. Сохранение в Quotations Data Store.

    QUNDERSTANDING – Понимание Запросов
    Анализ логов запросов используется для:

    • (Офлайн) Идентификации трендовых сущностей для активации сбора новостных цитат (Путь Б).
    • (Онлайн) Определения связи входящего запроса с конкретной сущностью и интента пользователя.

    METASEARCH – Метапоиск и Смешивание / RERANKING – Переранжирование
    Онлайн-процесс (Online Process) применяется на финальных этапах:

    • Принимается решение о триггере показа информационного блока о сущности (на основе статистики цитат, как указано в Claim 1).
    • Из Quotations Data Store извлекаются подходящие цитаты.
    • Формируется SERP Feature (например, Панель знаний) с отобранными цитатами.

    На что влияет

    • Представление сущностей (Entity Visibility): Напрямую влияет на то, как сущности (люди, бренды) представлены в Панелях Знаний и других информационных блоках SERP.
    • Типы контента: Влияет на извлечение данных из новостных статей, биографий, интервью и сайтов-агрегаторов цитат.
    • Ниши: Наибольшее влияние в нишах, связанных с публичными фигурами, политикой, медиа и литературой.

    Когда применяется

    • Офлайн-процесс: Выполняется периодически при индексировании. Сбор новостных цитат активируется, когда сущность становится трендовой (частота запросов превышает порог).
    • Онлайн-процесс: Активируется при обработке запроса, связанного с сущностью, для которой есть данные в базе. Показ цитат зависит от интента запроса и от того, достаточно ли высока статистика сохраненных цитат для активации информационного блока.

    Пошаговый алгоритм

    Система использует два разных алгоритма офлайн-обработки в зависимости от типа источника.

    Процесс А: Обработка известных цитат (Фокус на частотность и канонизацию)

    1. Идентификация источников: Отбор ресурсов, классифицированных как quotation-related.
    2. Извлечение цитат: Идентификация цитат и авторов.
    3. Сбор статистики: Подсчет общего числа упоминаний и числа уникальных источников для каждой цитаты (по всему корпусу).
    4. Фильтрация по порогам: Отбрасывание цитат, не удовлетворяющих минимальным порогам частотности и разнообразия источников.
    5. Фильтрация по контенту: Отбрасывание цитат, нарушающих правила форматирования (числа, регистр и т.д.).
    6. Кластеризация вариантов: Группировка семантически схожих цитат (например, на основе Edit distance).
    7. Выбор репрезентативной цитаты: В каждой группе выбор версии с наибольшим общим числом упоминаний. Остальные варианты отбрасываются.
    8. Сохранение: Запись representative quotation, ее статистики и связи с сущностью в Quotations Data Store.

    Процесс Б: Обработка новостных цитат (Фокус на свежесть и качество)

    1. Идентификация актуальных сущностей: Анализ логов запросов для выявления трендовых сущностей.
    2. Идентификация источников: Отбор ресурсов, классифицированных как news-related.
    3. Извлечение цитат: Идентификация цитат, приписываемых актуальным сущностям.
    4. Определение свежести: Определение Recency (время первой публикации).
    5. Оценка качества источника: Определение Quality measure ресурса.
    6. Расчет оценки (Scoring): Вычисление оценки как функции от Recency и Quality measure.
    7. Отбор и сохранение: Выбор цитат с наивысшими оценками для сохранения в Quotations Data Store.

    Какие данные и как использует

    Данные на входе

    • Контентные факторы: Текст ресурсов для извлечения цитат (с помощью expression templates или NLP) и анализа семантической схожести.
    • Временные факторы: Даты публикации или первого сканирования контента для определения Recency.
    • Факторы качества (Site Quality Factors): Предварительно рассчитанные метрики Quality measure для ресурсов (особенно новостных).
    • Пользовательские факторы (Агрегированные): Логи поисковых запросов для определения популярности сущностей и выявления трендов.
    • Системные данные: Предварительно рассчитанная классификация ресурсов (quotation-related, news-related).

    Какие метрики используются и как они считаются

    • Number of occurrences (Общее число упоминаний): Прямой подсчет появлений цитаты. Ключевой фактор для выбора representative quotation.
    • Number of different resources (Число уникальных источников): Прямой подсчет уникальных ресурсов с цитатой. Фактор верификации.
    • Minimum thresholds: Пороги для частотности и разнообразия, используемые для фильтрации малоизвестных цитат.
    • Edit distance (Редакционное расстояние): Метрика схожести строк (например, Левенштейн). Используется для кластеризации вариантов.
    • Recency (Свежесть): Метрика, основанная на времени первой публикации.
    • Quotation Score (для новостей): Оценка, рассчитываемая на основе Recency и Quality measure источника.

    Выводы

    1. Контекстно-зависимая обработка данных: Google применяет принципиально разную логику к «вечнозеленым» и новостным цитатам. Для первых важен консенсус и популярность, для вторых — свежесть и авторитетность источника.
    2. Агрессивная каноникализация и приоритет частотности: Система активно устраняет вариативность. Механизм выбора representative quotation основывается преимущественно на частоте использования формулировки в интернете. Менее популярные варианты отбрасываются.
    3. Многоуровневая фильтрация качества: Для включения в базу данных цитата должна пройти фильтры: пороговые (минимальная частота и разнообразие источников), контентные (форматирование, символы) и качественные (Quality measure для новостей).
    4. Статистика цитат как триггер для SERP Features: Claim 1 явно указывает, что наличие достаточного количества качественных цитат (высокие показатели частоты и разнообразия) может служить триггером для отображения информационного блока о сущности в поисковой выдаче.
    5. Ориентация на Сущности (Entity-Oriented Extraction): Весь процесс направлен на извлечение фактов для обогащения данных о сущности (Knowledge Graph), а не на ранжирование веб-страниц.

    Практика

    Best practices (это мы делаем)

    • Оптимизация Сущностей (Entity SEO) и PR: Для формирования образа сущности (персоны или бренда) в Google необходимо обеспечивать цитирование на авторитетных внешних ресурсах. Для «вечных» цитат важна представленность на quotation-related resources (например, Викицитатник). Для актуальных комментариев критически важно быстрое распространение через качественные СМИ (высокий Quality measure).
    • Консистентность формулировок (для PR и ORM): Если вы продвигаете определенное высказывание или слоган, убедитесь, что оно публикуется в единой форме на разных ресурсах. Система выберет наиболее частотную версию как каноническую (representative quotation).
    • Использование четкой атрибуции в тексте: При цитировании используйте понятные для парсинга конструкции (например, «[Цитата], — сказал [Имя]»). Это повышает вероятность корректного извлечения цитаты с помощью expression templates и NLP.
    • Повышение качества ресурса (для издателей): Для новостных ресурсов работа над общей авторитетностью (E-E-A-T) критически важна, так как Quality measure напрямую влияет на вероятность выбора цитаты системой.

    Worst practices (это делать не надо)

    • Распространение цитат через низкокачественные сети: Попытки искусственно увеличить частотность цитаты на низкокачественных сайтах будут неэффективны из-за учета разнообразия источников и Quality measure (для новостей).
    • Неконсистентное цитирование: Публикация множества разных вариаций ключевого высказывания «размывает» частотность, и система может выбрать не ту версию в качестве канонической.
    • Игнорирование правил форматирования: Использование нестандартных символов, излишней капитализации или некорректного регистра может привести к отбрасыванию цитаты контентными фильтрами (Claims 4, 5).
    • Публикация только на собственном сайте: Цитаты, которые встречаются только на одном или нескольких ресурсах, скорее всего, будут отфильтрованы как малоизвестные (не пройдут minimum different resources threshold).

    Стратегическое значение

    Патент подтверждает стратегическую важность Entity SEO и влияние внешних сигналов (Off-Page SEO, PR) на представление сущности в Google. Он демонстрирует механизмы, с помощью которых Google стремится быть источником проверенной и канонической информации. Для SEO-специалистов это означает, что работа над репутацией и цитируемостью на качественных внешних площадках напрямую влияет на видимость и восприятие бренда или персоны в SERP, особенно в Панелях знаний.

    Практические примеры

    Сценарий: Управление репутацией и канонизация (ORM)

    Задача: Убедиться, что Google отображает желаемую цитату в Панели знаний персоны, а не старое спорное высказывание.

    1. Анализ: SEO-специалист определяет, что Google выбрал спорное высказывание как representative quotation, так как оно имеет наибольшую частотность в сети.
    2. Стратегия: Необходимо увеличить частотность желаемой цитаты, чтобы она превысила частотность спорной.
    3. Действия:
      1. Согласовать точную каноническую формулировку желаемой цитаты.
      2. Организовать публикации (интервью, статьи, профили) на авторитетных quotation-related и качественных справочных сайтах, используя именно эту формулировку.
      3. Включить эту цитату в новые пресс-релизы и материалы для СМИ.
    4. Ожидаемый результат: В ходе офлайн-обработки система пересчитает частотность. Если частотность желаемой цитаты станет выше, она будет выбрана как новая representative quotation и заменит спорную цитату в Quotations Data Store и, впоследствии, в Панели знаний.

    Вопросы и ответы

    Как Google определяет, является ли сайт «новостным» (news-related) или «сайтом с цитатами» (quotation-related)?

    Патент предполагает наличие системы классификации, которая категоризирует ресурсы до начала процесса извлечения цитат. Эта классификация может основываться на контенте ресурса (например, quotation-related, если превышено пороговое количество цитат), HTML-тегах, ссылочном профиле или других сигналах. Ресурс может принадлежать к обеим категориям.

    Что такое «Representative Quotation» и как она выбирается?

    Это каноническая версия цитаты. Система группирует семантически близкие варианты (используя метрики типа Edit distance). Затем внутри группы она сравнивает общее количество упоминаний (number of occurrences) для каждого варианта. Вариант с наибольшим количеством упоминаний выбирается как репрезентативный.

    Что важнее для новостных цитат: свежесть или качество источника?

    Важны оба фактора. Система рассчитывает оценку (Score) как функцию от свежести (Recency) и качества источника (Quality measure). Очень свежая цитата из низкокачественного источника может проиграть чуть менее свежей цитате из очень авторитетного СМИ. Необходимо сочетание обоих параметров.

    Может ли цитата с моего личного блога попасть в выдачу Google?

    Это маловероятно для популярных цитат, так как система применяет фильтры, требующие наличия цитаты в минимальном количестве уникальных источников (minimum different resources threshold). Это отсеивает малоизвестные или личные высказывания. Однако, если это новостная цитата от трендовой сущности и ваш блог классифицирован как авторитетный новостной источник, она может быть выбрана на основе свежести.

    Влияет ли этот патент на ранжирование моего сайта в органическом поиске?

    Напрямую на ранжирование «синих ссылок» этот патент не влияет. Он описывает механизм сбора данных для обогащения информации о сущностях (например, для Knowledge Graph). Он влияет на то, как сущности представлены в SERP-фичах.

    Как система определяет автора цитаты?

    Патент описывает использование шаблонов выражений (expression templates), например, поиск конструкций вида «[Цитата], — сказал [Сущность]». Также упоминается использование методов обработки естественного языка (NLP) для анализа контекста и синтаксиса предложений, окружающих цитату.

    Какие цитаты система гарантированно отфильтрует?

    Система отфильтрует цитаты, которые не преодолели пороги частотности (встречаются редко или на малом количестве сайтов). Также будут отброшены цитаты, нарушающие контентные правила (Claims 4, 5): содержащие числа, начинающиеся со строчной буквы (без контекста), содержащие запрещенные символы или слишком много заглавных букв.

    Как система решает, показывать ли цитату в ответ на конкретный запрос?

    Это происходит в онлайн-режиме. Система определяет, что запрос относится к сущности. Затем, согласно Claim 1, она принимает решение о показе информационного блока о сущности, основываясь на статистике цитат этой сущности (насколько они популярны и широко распространены). Если метрики достаточно высоки, блок с цитатой будет показан.

    Как этот патент связан с Entity SEO и E-E-A-T?

    Он напрямую связан с построением профиля сущности в Knowledge Graph. Корректное извлечение и атрибуция высказываний эксперта или бренда укрепляет связь между контентом и сущностью. Это способствует лучшему представлению сущности в поиске и подтверждает ее авторитетность, что является важной частью E-E-A-T.

    Что делать, если Google показывает неточную версию цитаты моего бренда?

    Это означает, что неточная версия стала более распространенной в интернете и была выбрана как representative quotation. Для исправления ситуации необходимо увеличить количество публикаций правильной версии на авторитетных ресурсах, чтобы она превысила частотность неточной версии и стала новым каноном.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.