Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Google

    Как Google использует векторные представления для классификации качества и авторитетности сайтов в конкретных тематиках

    WEBSITE REPRESENTATION VECTOR (Векторное представление веб-сайта)
    • US20200050707A1
    • Google LLC
    • 2020-02-13
    • 2018-08-10
    2018 EEAT и качество Индексация Патенты Google Семантика и интент

    Google использует систему для классификации сайтов по уровню качества и авторитетности в рамках конкретных тематик (Knowledge Domains). Система создает векторные представления (эмбеддинги) сайтов и сравнивает их с эталонными векторами высококачественных и низкокачественных ресурсов. Это позволяет автоматически определять авторитетность новых сайтов и фильтровать выдачу, иногда полностью исключая низкокачественные сайты из поиска по релевантным запросам.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает задачу автоматизированной и масштабируемой классификации веб-сайтов по уровню качества и авторитетности в рамках специфических тематических областей (Knowledge Domains). Цель — улучшить качество поисковой выдачи и повысить вычислительную эффективность поиска за счет приоритезации авторитетных источников и возможности исключения (skip searching) низкокачественных сайтов из процесса поиска по определенным запросам.

    Что запатентовано

    Запатентована система классификации веб-сайтов, основанная на сравнении их векторных представлений (Website Representations или Feature Vectors). Система генерирует эталонные композитные векторы (Composite-Representations), которые представляют собой усредненные характеристики групп сайтов с известным уровнем качества (высоким и низким) в определенной тематике. Новые сайты классифицируются путем определения, к какому эталону они ближе в векторном пространстве.

    Как это работает

    Система работает в несколько этапов:

    • Определение тематики: Процесс фокусируется на конкретном Knowledge Domain (например, Медицина или ИИ).
    • Сбор данных и Векторизация: Для набора сайтов в этой тематике генерируются векторные представления (например, с помощью нейронной сети) и используются существующие оценки качества (Quality Scores).
    • Группировка: Сайты делятся на группы на основе порогов Quality Score: низкое качество (First Websites) и высокое качество/авторитетные (Second Websites).
    • Создание эталонов: Для каждой группы вычисляется Composite-Representation — усредненный вектор (central tendency), отражающий общие характеристики группы.
    • Классификация нового сайта: Вектор нового сайта сравнивается с эталонными векторами. Сайт классифицируется на основе того, к какому эталону он ближе (измеряется через measure of difference).
    • Применение в поиске: При получении запроса в данной тематике система может искать только среди Second Websites, игнорируя First Websites.

    Актуальность для SEO

    Высокая. Патент напрямую связан с современными тенденциями в поиске: использованием векторных представлений (эмбеддингов), машинного обучения (нейронных сетей) для оценки качества (E-E-A-T) и фокусом на тематической авторитетности (Topical Authority). Описанный механизм предоставляет конкретный способ масштабирования оценки авторитетности и ее применения в фильтрации результатов на 2025 год.

    Важность для SEO

    Патент имеет критическое значение (90/100). Он описывает конкретный механизм, с помощью которого Google оценивает авторитетность сайта в рамках конкретной тематики. Если сайт классифицирован как низкокачественный в определенном Knowledge Domain, он может быть не просто понижен в ранжировании, а полностью исключен из процесса поиска (skip searching) по запросам в этой тематике (Claim 3). Это подчеркивает важность соответствия характеристикам авторитетных сайтов в своей нише.

    Детальный разбор

    Термины и определения

    Website Representation / Feature Vector (Векторное представление веб-сайта / Вектор признаков)
    Численное представление (эмбеддинг) веб-сайта. Генерируется на основе контента сайта (текст, изображения, ссылки), часто с использованием нейронной сети. Отражает семантические и структурные характеристики сайта.
    Knowledge Domain (Тематическая область / Домен знаний)
    Конкретная область знаний или тематика (например, искусственный интеллект, образование, здоровье). Классификация в патенте применяется специфично к домену.
    Quality Score (Оценка качества)
    Предварительно рассчитанная метрика, представляющая меру качества веб-сайта относительно других. Используется как основа (ground truth) для первичной классификации сайтов на обучающие группы.
    Composite-Representation (Композитное представление)
    Эталонный вектор, агрегирующий характеристики группы сайтов с одинаковой классификацией. Вычисляется как central tendency (центральная тенденция, например, среднее арифметическое или медиана) векторов признаков сайтов в этой группе.
    First Websites (Первые веб-сайты)
    Группа сайтов в Knowledge Domain, чьи Quality Scores ниже первого порога (условно, низкокачественные сайты).
    Second Websites (Вторые веб-сайты)
    Группа сайтов в Knowledge Domain, чьи Quality Scores выше второго (более высокого) порога. Определяются как collection of authoritative data sources (коллекция авторитетных источников данных).
    Third Websites (Третьи веб-сайты)
    Сайты, которые не классифицированы ни как First, ни как Second (например, если их вектор недостаточно близок ни к одному из эталонов).
    Measure of Difference (Мера различия)
    Метрика, определяющая расстояние или разницу между двумя векторными представлениями (например, скалярная разница (scalar difference) или результат вычисления dot product).

    Ключевые утверждения (Анализ Claims)

    Claim 1 (Независимый пункт): Описывает основной метод классификации сайтов в конкретной тематике.

    1. Система работает в рамках определенного particular knowledge domain.
    2. Для множества сайтов в этом домене система получает их representations (векторы) и quality scores.
    3. Сайты классифицируются по порогам: first websites (низкое качество, ниже порога 1) и second websites (высокое качество, выше порога 2).
    4. Генерируются эталоны: first composite-representation и second composite-representation.
    5. Система получает векторное представление нового сайта (another website).
    6. Вычисляются меры различия (measure of difference) между вектором нового сайта и обоими эталонами.
    7. На основе этих различий новый сайт классифицируется как принадлежащий к первой, второй или третьей группе.

    Claim 3 (Зависимый от 2): Описывает критически важную оптимизацию процесса поиска.

    Определив, что запрос относится к данному knowledge domain, система принимает решение искать результаты только среди second websites (авторитетных) и skip searching the first websites (пропустить поиск по низкокачественным сайтам).

    Claim 4 (Зависимый от 1): Уточняет использование высококачественных сайтов.

    Second websites определяются как collection of authoritative data sources и могут использоваться для генерации preprocessed responses (заранее обработанных ответов, например, Featured Snippets) на будущие запросы.

    Claim 7 (Зависимый от 5): Указывает способ генерации векторов.

    Векторы признаков генерируются с использованием neural network, которая получает на вход контент веб-сайта.

    Claim 9 (Зависимый от 1): Уточняет гранулярность анализа.

    Представления могут быть сгенерированы с использованием только подмножества ресурсов (only proper subsets of a set of resources), принадлежащих сайту (например, раздела или поддомена).

    Где и как применяется

    Изобретение затрагивает несколько ключевых этапов поисковой архитектуры, связывая процессы индексирования, оценки качества и ранжирования.

    INDEXING – Индексирование и извлечение признаков

    • Извлечение признаков и Генерация векторов: На этом этапе контент сайта обрабатывается (с помощью нейронной сети, Claim 7) для генерации Website Representation Vector. Это может происходить для всего сайта или его части (Claim 9).
    • Оценка качества: Система использует предварительно рассчитанные Quality Scores.
    • Офлайн-классификация и расчет эталонов: Основная работа по расчету Composite-Representations (усредненных векторов качества) и классификации новых сайтов происходит офлайн и сохраняется в Website Representation Database.

    QUNDERSTANDING – Понимание Запросов

    • Система определяет, к какому Knowledge Domain относится входящий запрос, чтобы активировать соответствующие фильтры качества.

    RANKING – Ранжирование (Этап отбора кандидатов/Retrieval)

    • Это ключевой этап применения. Механизм используется как фильтр. Если запрос относится к определенному Knowledge Domain, система может решить искать только среди second websites (авторитетных) и пропустить поиск (skip searching) среди first websites (низкокачественных) (Claim 3).

    METASEARCH – Метапоиск и Смешивание

    • Система использует Second websites как authoritative data sources для генерации preprocessed responses (Claim 4).

    Входные данные:

    • Контент веб-сайтов (текст, изображения, структура).
    • Предварительно рассчитанные Quality Scores сайтов (для обучения).
    • Поисковый запрос.

    Выходные данные:

    • Website Representation Vectors для сайтов.
    • Composite-Representations (эталонные векторы качества) для тематик.
    • Классификация сайтов (авторитетный/низкокачественный/неопределенный) в рамках конкретных тематик.

    На что влияет

    • Конкретные ниши или тематики (YMYL): Наибольшее влияние в чувствительных тематиках (YMYL), где авторитетность критична. Патент упоминает примеры: здоровье (доктора vs обыватели), искусственный интеллект, образование.
    • Авторитетность контента: Механизм напрямую влияет на то, как воспринимается авторитетность сайта или его раздела (Claim 9) в конкретной теме.
    • Специфические запросы: Влияет на запросы, для которых система может четко определить Knowledge Domain и для которых требуются экспертные ответы.

    Когда применяется

    • Триггеры активации (в поиске): Активируется, когда входящий запрос идентифицирован как принадлежащий к определенному Knowledge Domain, для которого существуют рассчитанные Composite-Representations.
    • Условия применения (при классификации): Применяется при индексировании новых или обновленных сайтов, релевантных данному Knowledge Domain.
    • Пороговые значения: Система использует пороги Quality Score для обучения и пороги Measure of Difference (сходства) для классификации новых сайтов. Если новый сайт недостаточно близок ни к одному из эталонов, он классифицируется как third websites.

    Пошаговый алгоритм

    Процесс А: Офлайн-генерация композитных представлений (Тренировка)

    1. Определение тематики: Выбор конкретного Knowledge Domain.
    2. Сбор данных: Получение Website Representation Vectors и Quality Scores для множества сайтов в этой тематике.
    3. Определение порогов качества: Установка первого порога (T1) и второго порога (T2, T2 > T1).
    4. Классификация обучающей выборки:
      • Идентификация First Websites (Оценка < T1).
      • Идентификация Second Websites (Оценка > T2).
    5. Генерация эталонов:
      • Расчет First Composite-Representation (усреднение векторов First Websites).
      • Расчет Second Composite-Representation (усреднение векторов Second Websites).
    6. Сохранение: Сохранение эталонов в базе данных.

    Процесс Б: Классификация нового сайта (Исполнение/Индексирование)

    1. Генерация вектора: Система генерирует Website Representation Vector для нового сайта (например, с помощью нейронной сети).
    2. Извлечение эталонов: Загрузка First и Second Composite-Representations для релевантной тематики.
    3. Расчет различий:
      • Вычисление Measure of Difference с Эталоном 1.
      • Вычисление Measure of Difference с Эталоном 2.
    4. Сравнение и классификация: Определение, к какому эталону новый сайт ближе. Классификация сайта как First, Second или Third.

    Процесс В: Применение в поиске (Ранжирование/Retrieval)

    1. Получение запроса и определение тематики: Система определяет, что запрос относится к Knowledge Domain.
    2. Применение фильтра авторитетности: Система принимает решение использовать классификацию сайтов.
    3. Отбор кандидатов (Selective Searching): Система ищет релевантные результаты только среди Second Websites (авторитетных) и пропускает поиск (skip searching) по First Websites (низкокачественным).
    4. Ранжирование и ответ: Отобранные авторитетные результаты ранжируются и предоставляются пользователю.

    Какие данные и как использует

    Данные на входе

    • Контентные факторы: Текст, изображения, мультимедиа. Эти данные подаются на вход нейронной сети для генерации Website Representation Vector. Упоминается анализ слов, их позиций и фраз.
    • Структурные факторы: Ссылки (links) упоминаются как часть контента. Также учитывается структура сайта, так как система может анализировать подмножества ресурсов (proper subsets of a set of resources), например, поддомены или разделы (Claim 9).
    • Факторы качества сайта (Site Quality Factors): Предварительно рассчитанные Quality Scores. Являются критически важным входом для этапа обучения системы.

    Какие метрики используются и как они считаются

    • Website Representation Vector (Feature Vector): Генерируется путем обработки контента сайта моделью (нейронной сетью, Claim 7).
    • Composite-Representation (Central Tendency): Рассчитывается как среднее (averages) или медиана (median) векторов признаков сайтов, принадлежащих к одной классификационной группе (Claim 5, 8).
    • Measure of Difference / Similarity Measure: Метрика для сравнения двух векторов. Упоминаются скалярная разница (scalar difference) и вычисление скалярного произведения (dot product).
    • Пороги качества (Thresholds T1, T2): Пороговые значения Quality Score для разделения сайтов на группы. Могут определяться на основе кластеризации (clusters) векторов.
    • Порог сходства (Threshold measure): Порог для Similarity Measure, необходимый для отнесения сайта к определенной классификации.

    Выводы

    1. Автоматизированная оценка E-E-A-T через векторное сходство: Патент описывает механизм, позволяющий Google понять, как «выглядит» авторитетный сайт в конкретной нише в векторном пространстве. Система учится на примерах сайтов с известным Quality Score и затем классифицирует новые сайты по их сходству с этими эталонами (Composite-Representations).
    2. Тематическая специфика авторитетности (Knowledge Domains): Ключевым аспектом является то, что классификация происходит в рамках конкретной тематики. Сайт может иметь разные классификации качества в разных областях знаний.
    3. Авторитетность как фильтр на этапе Retrieval (Критично): Одно из самых сильных утверждений патента (Claim 3) — возможность полностью исключать низкокачественные сайты (First Websites) из поиска (skip searching) по релевантным запросам. Это переносит фактор качества на самый ранний этап отбора кандидатов.
    4. Гранулярная оценка (Анализ частей сайта): Система может оценивать авторитетность не всего сайта, а его отдельных разделов или поддоменов (Claim 9), что важно для крупных мульти-тематических порталов.
    5. Использование нейронных сетей для эмбеддингов сайтов: Подтверждается использование ML (neural network) для создания глубоких векторных представлений (эмбеддингов) всего сайта на основе его контента (Claim 7).
    6. Авторитетность для прямых ответов: Сайты, классифицированные как Second Websites (authoritative data sources), используются для генерации preprocessed responses (Claim 4).

    Практика

    Best practices (это мы делаем)

    • Построение Тематической Авторитетности (Topical Authority): Необходимо фокусироваться на достижении статуса авторитетного источника в четко определенном Knowledge Domain. Система оценивает качество тематически.
    • Соответствие паттернам лидеров ниши (Benchmarking): Анализируйте сайты, которые Google считает авторитетными (Second Websites) в вашей тематике. Стремитесь к тому, чтобы ваш сайт был похож на них с точки зрения глубины проработки тем, используемой лексики, структуры контента и общей семантики. Это повысит вероятность того, что ваш Website Representation Vector будет ближе к эталону высокого качества.
    • Четкая структура и тематическое разделение: Если сайт охватывает несколько тем, используйте четкую архитектуру (разделы или поддомены). Поскольку система может оценивать подмножества ресурсов (Claim 9), качественная организация поможет корректно оценить авторитетность каждого раздела независимо.
    • Улучшение базовых сигналов качества (E-E-A-T): Работайте над всеми аспектами E-E-A-T, чтобы повысить базовые Quality Scores сайта, так как они используются для обучения классификатора.

    Worst practices (это делать не надо)

    • Смешивание несвязанных тематик: Создание сайтов «обо всем» усложняет классификацию и может привести к тому, что вектор сайта не будет соответствовать ни одному авторитетному эталону.
    • Поверхностный контент в YMYL-нишах: Попытки ранжироваться в чувствительных тематиках с контентом, который не соответствует уровню экспертных ресурсов, крайне рискованны. Система может классифицировать такой сайт как First Website и полностью исключить его из поиска (skip searching).
    • Игнорирование качества сайта в угоду постраничной оптимизации: Оптимизация отдельных страниц неэффективна, если сайт в целом классифицирован как низкокачественный. Алгоритм оценивает паттерны на уровне сайта или раздела.

    Стратегическое значение

    Этот патент подтверждает переход Google к целостному пониманию сайтов через векторные представления (эмбеддинги) для оценки качества и авторитетности. Стратегически это означает, что SEO должно фокусироваться на создании ресурсов, которые семантически и структурно соответствуют лучшим образцам в своей нише. Авторитетность становится не просто фактором ранжирования, а входным билетом (фильтром на этапе Retrieval) для участия в поиске по определенным тематикам. Долгосрочная стратегия должна делать ставку на глубокую экспертизу и построение Topical Authority.

    Практические примеры

    Сценарий: Классификация нового медицинского блога

    1. Контекст: Запускается новый блог о диабете (Knowledge Domain: Здоровье).
    2. Эталоны Google: У Google есть Эталон 1 (низкое качество, например, форумы обывателей) и Эталон 2 (высокое качество, например, сайты клиник и научных журналов).
    3. Анализ нового блога: Google генерирует Website Representation Vector для блога.
    4. Вариант А (Негативный): Блог наполнен статьями от копирайтеров без медицинской экспертизы. Вектор блога ближе к Эталону 1. Результат: Блог классифицируется как First Website. При запросах о лечении диабета Google может полностью игнорировать этот блог (skip searching).
    5. Вариант Б (Позитивный): Блог ведется эндокринологами, контент глубоко проработан, используется профессиональная терминология. Вектор блога ближе к Эталону 2. Результат: Блог классифицируется как Second Website (авторитетный источник) и активно участвует в ранжировании.

    Вопросы и ответы

    Что такое Website Representation Vector и как он создается?

    Это численное представление (эмбеддинг) всего веб-сайта или его раздела, которое фиксирует его семантические и структурные характеристики. Согласно патенту (Claim 7), он генерируется с помощью нейронной сети, которая анализирует контент сайта (текст, изображения, ссылки). Этот вектор позволяет системе математически сравнивать сайты между собой.

    Что такое Composite-Representation и зачем он нужен?

    Это усредненный вектор, который служит эталоном (бенчмарком) для определенного класса качества сайтов в конкретной тематике (Knowledge Domain). Например, это средний вектор всех авторитетных медицинских сайтов. Он нужен для того, чтобы быстро классифицировать новые сайты, сравнивая их индивидуальные векторы с этим эталоном.

    Патент упоминает, что система может «пропустить поиск» (skip searching) низкокачественных сайтов. Что это значит для SEO?

    Это критически важно (Claim 3). Если сайт классифицирован как низкокачественный (First Website) в определенной тематике, он может быть полностью исключен из процесса поиска по соответствующим запросам еще на этапе отбора кандидатов (Retrieval). Это не просто понижение позиций, а полное отсутствие видимости.

    Оценивается ли качество сайта глобально или по тематикам?

    Качество оценивается строго в рамках конкретной Knowledge Domain. Патент подчеркивает, что весь процесс классификации привязан к определенной тематике. Сайт может быть авторитетным в одной области и низкокачественным в другой.

    Как этот патент связан с E-E-A-T?

    Патент предоставляет технический механизм для масштабируемой алгоритмической оценки E-E-A-T. Классификация сайтов на авторитетные (Second Websites) и неавторитетные (First Websites) в рамках тематики является прямой реализацией принципов авторитетности и экспертизы в поиске.

    Может ли система оценивать отдельные разделы или субдомены сайта?

    Да. В Claim 9 указано, что представления могут быть сгенерированы с использованием только подмножества ресурсов (proper subsets of resources) сайта. Это позволяет системе, например, оценить субдомен health.site.com для тематики «Здоровье» независимо от основного домена site.com.

    Как система определяет исходные Quality Scores для обучения?

    Патент не детализирует методику расчета исходных Quality Scores, но использует их как основу для создания обучающих групп. На практике это могут быть данные от асессоров, результаты работы других алгоритмов качества или агрегированные сигналы (ссылочные, поведенческие).

    Как SEO-специалисту повлиять на векторное представление своего сайта?

    Необходимо добиться того, чтобы характеристики вашего сайта соответствовали характеристикам лидеров ниши. Это включает глубину проработки тем, использование экспертной лексики, структуру контента. Ваш сайт должен быть семантически и структурно похож на эталоны качества, чтобы его вектор был ближе к Composite-Representation авторитетных сайтов.

    Что происходит, если сайт не похож ни на высококачественный, ни на низкокачественный эталон?

    В этом случае сайт классифицируется как Third website. Это может произойти, если сайт имеет среднее качество (между порогами T1 и T2) или если его векторное представление значительно отличается от обоих эталонов, например, из-за уникального формата или смешанной тематики.

    Что такое «preprocessed responses»?

    Это предварительно сгенерированные ответы на будущие запросы, созданные на основе авторитетных источников (Second Websites) (Claim 4). На практике это соответствует механизмам генерации Featured Snippets, Knowledge Panels или других форм прямых ответов в выдаче.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.