Google обучает свои языковые модели (Трансформеры), интегрируя внешние сигналы, такие как PageRank, авторство, свежесть и вовлеченность, непосредственно в Механизм Внимания (Attention Mechanism). Во время обучения, если контент поступает из авторитетного источника, модель учится придавать ему больший вес. Это создает предубеждение LLM в пользу контента с высоким авторитетом, повышая точность и обоснованность (grounding) в поиске и генеративном ИИ.
Описание
Какую задачу решает
Патент решает фундаментальную проблему обучения больших языковых моделей (LLM) на базе архитектуры Трансформеров. Традиционно эти модели оценивают контент, основываясь только на самом тексте (токенах), игнорируя авторитет, качество или важность исходного документа (например, веб-страницы). Это может привести к тому, что модель обучается на низкокачественных или недостоверных данных, что, в свою очередь, вызывает неточности, галлюцинации и снижает обоснованность (grounding) ответов генеративного ИИ.
Что запатентовано
Запатентован метод обучения моделей Трансформеров, который модифицирует основной Механизм Внимания (Attention Mechanism) с использованием внешних Сигналов Документа (Document Signals). Суть изобретения заключается в том, чтобы учитывать не только сами токены, но и важность содержащего их документа, используя такие сигналы, как ранжирование на основе ссылок (например, PageRank), авторство, свежесть и вовлеченность.
Как это работает
Механизм работает на этапе обучения модели:
- Получение данных: Система получает обучающие токены и идентифицирует исходный документ.
- Извлечение сигналов: Для документа извлекаются Сигналы Документа (например, PageRank, данные об авторе, статистика трафика).
- Оценка авторитетности: Сигналы сравниваются с порогом релевантности (relevancy threshold).
- Корректировка Внимания: Если документ признан авторитетным, Веса Внимания (Attention Weights) в Матрице Внимания (Attention Matrix), рассчитанные для этих токенов, искусственно повышаются (boosted). Если нет — понижаются или остаются прежними.
- Результат: Модель принудительно обучается тому, что информация из авторитетных источников более важна и релевантна, чем информация из низкокачественных источников.
Актуальность для SEO
Критически высокая. Патент опубликован в марте 2025 года и затрагивает центральные проблемы современных LLM — обоснованность (grounding) и интеграцию авторитетности (E-E-A-T). Это изобретение описывает конкретный технический метод для внедрения доверия к источникам непосредственно в архитектуру ИИ, что крайне важно для качества Поиска и Генеративных Ответов (SGE).
Важность для SEO
Патент имеет фундаментальное значение для SEO (95/100). Он технически объясняет, как именно Google интегрирует классические сигналы авторитетности (ссылки, авторы, вовлеченность) в свои современные системы ИИ (Трансформеры). Это означает, что E-E-A-T — это не просто слой ранжирования, а фактор, встроенный в базовое понимание языка и фактов самими моделями Google. Если сайт не является авторитетным, ИИ Google по своей сути меньше доверяет его контенту.
Детальный разбор
Термины и определения
- Attention Matrix (Матрица Внимания)
- Ключевой компонент Трансформера. Содержит Веса Внимания (Attention Weights), которые определяют, насколько сильно модель должна фокусироваться на различных частях входной последовательности при обработке данных.
- Attention Mechanism (Механизм Внимания)
- Метод, позволяющий нейронной сети взвешивать важность различных входных данных. В контексте патента он модифицируется для учета авторитетности источника.
- Document Signals / Web Page Signals (Сигналы Документа / Сигналы Веб-страницы)
- Внешние метрики, относящиеся ко всему документу в целом, а не к отдельным токенам. Примеры включают автора, рейтинг страницы (PageRank), статистику трафика, даты создания/изменения и метрики взаимодействия. Они же называются Static Ranking Signals.
- Grounding (Обоснованность)
- Способность ИИ базировать свои ответы на достоверной и проверяемой информации. Патент направлен на улучшение этого показателя.
- Inference Sequence (Последовательность Вывода)
- Входные данные (токены), предоставляемые уже обученной модели для генерации предсказания или ответа в реальном времени.
- Relevancy Threshold (Порог Релевантности/Авторитетности)
- Пороговое значение, с которым сравниваются Сигналы Документа. Если порог превышен, активируется корректировка Матрицы Внимания.
- Tokens (Токены)
- Единицы информации, на которые разбивается входной текст (слова, части слов) для обработки моделью.
- Training Sequence (Обучающая Последовательность)
- Токены, используемые на этапе обучения модели.
- Transformer (Трансформер)
- Архитектура нейронной сети, лежащая в основе большинства современных LLM (BERT, GPT, MUM), использующая механизмы внимания.
Ключевые утверждения (Анализ Claims)
Claim 1 (Независимый пункт): Описывает основной метод обучения модели.
- Система получает обучающую последовательность токенов с веб-страницы.
- Эта веб-страница связана с одним или несколькими Сигналами Веб-страницы, которые релевантны всей последовательности.
- Система определяет Матрицу Внимания (стандартный шаг Трансформера).
- Ядро изобретения: Система корректирует (adjusting) Матрицу Внимания, используя эти Сигналы Веб-страницы.
- После обучения модели предоставляется последовательность вывода.
- Модель генерирует предсказание, используя скорректированную Матрицу Внимания.
Claim 2 (Зависимый): Уточняет, что такое Сигналы Веб-страницы.
Сигналы включают одно или несколько из: автор страницы, рейтинг страницы (PageRank), статистика трафика, дата создания, дата изменения, метрика взаимодействия.
Claim 5 (Зависимый): Описывает механизм повышения весов.
- Система определяет, используя Сигналы Веб-страницы, что страница удовлетворяет Порогу Релевантности.
- В ответ на это система увеличивает веса в Матрице Внимания, связанные с этой страницей.
Claim 6 (Зависимый): Описывает механизм понижения весов.
- Система определяет, что страница не удовлетворяет Порогу Релевантности.
- В ответ на это система уменьшает веса в Матрице Внимания, связанные с этой страницей.
Claim 7 (Зависимый): Уточняет, что Сигналы Веб-страницы являются статическими сигналами ранжирования (Static Ranking Signals).
Claim 10 (Зависимый): Определяет время применения механизма.
Корректировка Матрицы Внимания происходит во время обучения (training) модели машинного обучения.
Где и как применяется
Это изобретение описывает процесс Обучения Моделей (Model Training), который не является частью обработки запроса в реальном времени, но фундаментально влияет на все этапы, где используются обученные Трансформеры.
Влияние на архитектуру поиска:
INDEXING – Индексирование и извлечение признаков
На этом этапе рассчитываются Сигналы Документа (PageRank, авторство, свежесть, вовлеченность), которые затем используются для обучения моделей. Сами обученные модели используются на этом этапе для глубокого понимания контента (NLP), извлечения сущностей и оценки качества (E-E-A-T). Благодаря этому патенту, модели лучше распознают качественный контент, так как они обучены доверять авторитетным источникам.
QUNDERSTANDING – Понимание Запросов
Обученные Трансформеры (BERT, MUM) используются для интерпретации интента пользователя. Модели, обученные с учетом авторитетности, могут лучше интерпретировать запросы, опираясь на факты, извлеченные из доверенных источников.
RANKING – Ранжирование (L3)
Сложные системы глубокого ранжирования (например, RankBrain) используют эти Трансформеры для оценки релевантности и качества. Влияние авторитетности источника теперь встроено непосредственно в эти модели.
Generative AI (SGE / AI Overviews)
Патент напрямую упоминает, что этот метод увеличивает обоснованность (grounding) и снижает галлюцинации. Модели, генерирующие ответы, будут предпочитать информацию, извлеченную из источников с сильными Сигналами Документа.
Входные данные (во время обучения):
- Обучающие последовательности токенов.
- Идентификаторы исходных документов (URL).
- Сигналы Документа (Static Ranking Signals) для каждого документа.
Выходные данные:
- Обученная модель Трансформера со скорректированной Матрицей Внимания, которая имеет встроенное предпочтение авторитетных источников.
На что влияет
- Конкретные ниши или тематики: Наибольшее влияние в YMYL-тематиках и областях, где фактическая точность и авторитетность источника критически важны (медицина, финансы, новости).
- Типы контента: Влияет на обработку всех типов текстового контента. Патент также упоминает возможность применения к другим модальностям (изображения, видео), если для них существуют соответствующие сигналы авторитетности.
- Generative AI (SGE): Это один из ключевых механизмов, обеспечивающих качество и достоверность ответов в AI Overviews.
Когда применяется
- Временные рамки: Алгоритм применяется исключительно на этапе обучения (training) языковой модели (Claim 10).
- Триггеры активации (во время обучения): Для каждого обучающего примера система проверяет Сигналы Документа.
- Пороговые значения: Корректировка (повышение или понижение весов) активируется, когда Сигналы Документа превышают или не достигают установленного Порога Релевантности.
- Примечание: Во время обработки запроса пользователя (inference) этот алгоритм не активируется, но его результаты используются постоянно, так как они встроены в саму модель.
Пошаговый алгоритм
Процесс обучения модели Трансформера:
- Получение обучающих данных: Система получает документ (например, веб-страницу) и разбивает его на обучающие последовательности токенов.
- Извлечение Сигналов Документа: Для исходного документа извлекаются предварительно рассчитанные Static Ranking Signals (PageRank, авторство, трафик, свежесть и т.д.).
- Расчет Исходной Матрицы Внимания: Модель вычисляет стандартные Веса Внимания между токенами, используя матрицы Запроса (Query), Ключа (Key) и Значения (Value).
- Оценка Авторитетности Источника: Система сравнивает агрегированные Сигналы Документа с Порогом Релевантности.
- Корректировка Матрицы Внимания:
- Если порог превышен (Высокий авторитет): Веса Внимания в матрице увеличиваются (Claim 5). Это усиливает взаимосвязи между токенами из этого источника.
- Если порог не достигнут (Низкий авторитет): Веса Внимания уменьшаются (Claim 6) или остаются без изменений.
- Обучение Модели: Модель продолжает процесс обучения (например, обратное распространение ошибки), используя скорректированную Матрицу Внимания. Это закрепляет в модели предпочтение авторитетного контента.
- Генерация Предсказаний (Inference): Обученная модель используется для обработки новых данных (например, запросов пользователей или анализа новых страниц), применяя усвоенные предпочтения.
Какие данные и как использует
Данные на входе
Патент явно указывает на использование широкого спектра классических сигналов ранжирования в качестве Сигналов Документа:
- Контентные факторы: Текст документа, разбитый на токены (Training sequence of tokens).
- Ссылочные факторы: Упоминается «ranking of the web page» (Claim 2) и «Link Based Ranking» в названии. Это напрямую указывает на использование метрик типа PageRank или аналогичных оценок ссылочной авторитетности.
- Поведенческие факторы: Явно указаны «traffic statistics of the web page» и «interaction metric of the web page» (Claim 2). Это включает данные о посещаемости и взаимодействии пользователей с документом.
- Временные факторы: Явно указаны «creation date of the web page» и «modification date of the web page» (Claim 2). Сигналы свежести и актуальности контента.
- Факторы авторства: Явно указан «author of the web page» (Claim 2). Использование данных об авторе контента как сигнала авторитетности.
Какие метрики используются и как они считаются
- Сигналы Документа (Document Signals): Агрегированная оценка авторитетности документа, основанная на вышеперечисленных факторах. Патент не уточняет формулу агрегации.
- Порог Релевантности (Relevancy Threshold): Конфигурируемое пороговое значение, определяющее, является ли документ достаточно авторитетным для активации корректировки.
- Веса Внимания (Attention Weights): Числовые значения в Матрице Внимания, которые подвергаются корректировке (повышению или понижению).
- Методы корректировки: Патент упоминает возможность использования линейных комбинаций или экспонент на основе параметров Сигналов Документа для корректировки весов.
Выводы
- Авторитетность встроена в ядро ИИ: Это ключевой вывод. E-E-A-T и авторитетность источника — это не просто факторы ранжирования, применяемые на поздних этапах. Они встраиваются непосредственно в базовое понимание языка, фактов и взаимосвязей внутри LLM во время их обучения.
- Системное предпочтение авторитетных источников: Модели Google Трансформеры целенаправленно обучаются с предубеждением (bias) в пользу контента с высоким авторитетом. Информация из источника с сильными сигналами (PageRank, Авторство) считается более релевантной по определению.
- Конвергенция классического и современного SEO: Патент демонстрирует прямую интеграцию классических сигналов (PageRank, свежесть, авторство, поведенческие факторы) в самые современные архитектуры ИИ (Трансформеры). Это подтверждает их сохраняющуюся критическую важность.
- Механизм Grounding для SGE: Изобретение напрямую направлено на улучшение обоснованности (grounding) и снижение галлюцинаций в генеративном ИИ. Это достигается за счет того, что модель предпочитает опираться на данные, усвоенные из авторитетных источников.
- Качество источника важнее содержания (для обучения ИИ): Если один и тот же текст размещен на авторитетном и неавторитетном сайте, ИИ будет обучен придавать больший вес первому варианту, усиливая его влияние на модель.
Практика
Best practices (это мы делаем)
- Комплексное развитие E-E-A-T: Это становится фундаментальной необходимостью. Необходимо работать над всеми аспектами авторитетности, так как они напрямую влияют на то, как ИИ Google воспринимает и использует ваш контент.
- Приоритет качественных ссылок (PageRank): Название патента («Link Based Ranking») и упоминание «ranking of the web page» подтверждают критическую важность ссылочной авторитетности. Качественные ссылки напрямую влияют на обучение LLM.
- Развитие и продвижение авторов: «Author of the web page» явно указан как сигнал. Необходимо создавать узнаваемых, авторитетных авторов и технически связывать их с контентом (разметка, профили).
- Поддержание свежести контента: Даты создания и модификации используются как сигналы. Регулярное обновление и актуализация контента повышают вероятность его использования для обучения ИИ.
- Улучшение поведенческих метрик: «Traffic statistics» и «interaction metrics» используются для оценки важности документа. Работа над вовлеченностью и удержанием пользователей напрямую влияет на восприятие авторитетности.
Worst practices (это делать не надо)
- Публикация контента без атрибуции и авторитета: Размещение не подписанного контента, особенно в YMYL-тематиках, снижает вероятность того, что ИИ будет ему доверять.
- Игнорирование ссылочного профиля: Стратегии, основанные только на качестве контента без учета ссылочной авторитетности домена/страницы, неэффективны, так как Link Based Ranking является ключевым компонентом оценки источника.
- Массовая генерация низкокачественного контента: Создание большого количества страниц с низкими поведенческими метриками и слабым ссылочным профилем приведет к тому, что Веса Внимания для такого контента будут понижены при обучении ИИ.
- Заброшенный контент: Отсутствие обновлений (старая дата модификации) снижает авторитетность документа в глазах системы обучения.
Стратегическое значение
Этот патент имеет огромное стратегическое значение. Он подтверждает, что для Google авторитетность источника является основой доверия к информации. В эпоху генеративного ИИ и SGE, долгосрочная стратегия должна быть направлена на то, чтобы стать тем самым авторитетным источником, которому LLM будут отдавать предпочтение. Это достигается только комплексной работой над брендом, экспертностью, качественными ссылками и вовлеченностью пользователей. Классические факторы SEO не устарели; они стали входными данными для обучения ИИ.
Практические примеры
Сценарий: Обучение LLM на медицинском контенте
- Исходные данные: Модель обрабатывает два документа с предложением: «Симптом X является признаком заболевания Y».
- Документ А: Страница на сайте Всемирной Организации Здравоохранения (WHO).
- Сигналы Документа: Очень высокий PageRank, максимальная авторитетность автора (организации), высокие метрики взаимодействия.
- Действие системы: Сигналы превышают Порог Релевантности. Веса Внимания между токенами «Симптом X» и «заболевание Y» значительно увеличиваются.
- Документ Б: Пост на неизвестном личном блоге.
- Сигналы Документа: Низкий PageRank, неизвестный автор, низкий трафик.
- Действие системы: Сигналы не достигают порога. Веса Внимания уменьшаются или остаются базовыми.
- Результат обучения: Модель усваивает связь между X и Y, но придает ей высокий уровень достоверности, так как она была усилена данными из источника WHO.
- Результат в Поиске/SGE: При запросе о симптоме X, модель с большей вероятностью сгенерирует ответ, основанный на данных WHO, так как эта информация имеет больший вес в ее внутренней структуре.
Вопросы и ответы
Является ли описанный механизм алгоритмом ранжирования?
Нет, это не алгоритм ранжирования в реальном времени. Это метод обучения языковых моделей (Трансформеров). Он применяется на этапе создания модели, а не во время обработки запроса пользователя. Однако обученные таким образом модели затем используются в системах ранжирования (L3) и генерации ответов (SGE), что оказывает огромное влияние на финальную выдачу.
Означает ли это, что PageRank снова является главным фактором?
Это подтверждает, что PageRank (или его современные аналоги) остается критически важным компонентом экосистемы Google. В данном патенте ссылочное ранжирование («Link Based Ranking») используется как основной индикатор авторитетности документа для обучения ИИ. Если у страницы низкий PageRank, ИИ будет меньше доверять ее содержимому.
Как этот патент связан с E-E-A-T?
Этот патент предоставляет техническую реализацию того, как сигналы E-E-A-T интегрируются в LLM. Упомянутые в патенте сигналы напрямую соответствуют компонентам E-E-A-T: Авторство (Expertise/Authoritativeness), Ссылочный рейтинг (Authoritativeness/Trustworthiness), Поведенческие факторы и Свежесть (Trustworthiness). Патент показывает, что E-E-A-T закладывается в фундамент ИИ.
Как это влияет на Генеративный Поиск (SGE) и AI Overviews?
Влияние прямое и критическое. Патент утверждает, что этот метод улучшает обоснованность (grounding) и уменьшает галлюцинации. Чтобы гарантировать достоверность ответов в SGE, модель будет опираться на информацию, извлеченную из источников, которые она научилась считать авторитетными благодаря этому механизму.
Какие именно «Сигналы Документа» используются?
Патент явно перечисляет: автор веб-страницы, рейтинг веб-страницы (PageRank), статистика трафика, дата создания, дата изменения и метрики взаимодействия. Это комплексный набор статических сигналов ранжирования, охватывающий авторитетность, свежесть и вовлеченность.
Как система определяет «Порог Релевантности» (Relevancy Threshold)?
Патент не детализирует, как устанавливается этот порог. Указано, что он может быть конфигурируемым или определяться на основе различных параметров. Вероятно, этот порог может различаться для разных тематик (например, более строгий для YMYL) и типов моделей.
Что произойдет, если авторитетный сайт опубликует неверную информацию?
Это потенциальная уязвимость метода. Если источник имеет сильные Сигналы Документа, модель будет склонна доверять его контенту и повышать Веса Внимания. Однако Google использует множество других систем для проверки фактов. Тем не менее, этот механизм подчеркивает высокую степень доверия к авторитетным источникам по умолчанию.
Влияет ли этот механизм только на текстовый контент?
Основной фокус патента — текст и веб-страницы. Однако в описании упоминается, что метод может применяться и к другим модальностям, таким как изображения, аудио, видео, если для них существуют соответствующие статические сигналы авторитетности. Например, авторитетность источника изображения также может влиять на обучение моделей компьютерного зрения.
Как я могу улучшить свои «Сигналы Документа» с точки зрения SEO?
Необходим комплексный подход: наращивание качественной ссылочной массы (для повышения PageRank), развитие и четкая атрибуция экспертных авторов, регулярное обновление контента (для поддержания свежести), а также оптимизация страниц для улучшения вовлеченности и привлечения трафика. Все эти действия повышают авторитетность в глазах системы.
Может ли новый сайт быстро завоевать доверие у этих моделей?
Это становится сложнее. Поскольку модели обучаются на основе исторических данных и устоявшихся сигналов авторитетности (таких как PageRank и история автора), новым сайтам требуется время для накопления этих сигналов. Для быстрого роста необходимо активно работать над получением сильных внешних сигналов доверия с самого начала.