Google запатентовал систему, которая агрегирует данные о том, какие фрагменты документа пользователи выделяют или копируют. На основе частоты этих действий фрагментам присваиваются весовые значения. Эти данные используются для определения наиболее важных частей контента, генерации релевантных сниппетов и, что критически важно, для корректировки позиций документа в результатах поиска.
Описание
Какую задачу решает
Патент решает задачу идентификации наиболее ценных и релевантных фрагментов (элементов) внутри документа, опираясь на прямые поведенческие данные. Он позволяет поисковой системе понять, на что именно пользователи обращают внимание (что выделяют или копируют) при чтении контента. Это улучшает качество поиска за счет предоставления более точных сигналов для ранжирования и позволяет генерировать более информативные сниппеты, основанные на коллективном интересе пользователей.
Что запатентовано
Запатентована система сбора, агрегации и использования данных о выделении пользователями фрагментов документов (User Highlighting). Система собирает информацию о том, какие элементы выделяют разные пользователи, и вычисляет Weight Values для каждого элемента на основе частоты его выделения. Ядром изобретения является использование этих агрегированных данных для корректировки ранжирования результатов поиска (Adjusting Search Result Rankings) и генерации сниппетов/сводок.
Как это работает
Система работает следующим образом:
- Сбор данных: Специальный инструмент или функциональность браузера фиксирует, когда пользователь выделяет (highlighting) элемент в документе. Это может быть как явное действие, так и неявное (например, выделение для копирования).
- Агрегация: Сервер собирает эти данные от множества пользователей для одного и того же документа.
- Вычисление весов: Система определяет Weight Values для каждого элемента. Чем больше пользователей выделили/скопировали фрагмент, тем выше его вес.
- Применение: Полученные веса используются для нескольких целей: (1) Корректировки ранжирования документа поисковой системой. (2) Генерации сниппетов и сводок (Snippet/Summary), включающих элементы с наибольшим весом. (3) Генерации статистики по документу (тепловые карты внимания).
Актуальность для SEO
Высокая. Хотя конкретные инструменты для явного выделения (например, тулбары), описанные в патенте, устарели, сам принцип использования гранулярных данных о взаимодействии пользователей с контентом критически важен. Патент описывает возможность интерпретировать любое выделение текста (Marking), например, для копирования, как сигнал важности. Учитывая доминирование Chrome и Android, Google обладает инфраструктурой для сбора таких сигналов в глобальном масштабе.
Важность для SEO
Патент имеет высокое значение для SEO (85/100). Он подтверждает, что Google стремится понять не только релевантность страницы в целом, но и то, какие именно ее части представляют наибольшую ценность для пользователей. Это напрямую влияет на контент-стратегию: необходимо создавать контент, содержащий четкие и полезные фрагменты, которые пользователи захотят скопировать. Кроме того, механизм напрямую описывает, как формируются сниппеты, что критично для оптимизации CTR.
Детальный разбор
Термины и определения
- Aggregate Database (Агрегированная база данных)
- Хранилище, содержащее информацию о выделениях фрагментов для конкретного документа, собранную от группы пользователей, и рассчитанные Weight Values.
- Document (Документ)
- Любой машиночитаемый продукт: веб-страница, email, файл, блог и т.д.
- Element (Элемент)
- Любая часть документа. Может включать текст любой длины (слово, фраза, предложение, абзац) или нетекстовые объекты (например, изображение).
- Highlighting (Выделение)
- Акт выбора элемента пользователем как сигнал о его важности. Может быть явным (через специальную функцию) или неявным.
- Marking (Отметка/Выделение текста)
- Стандартная операция браузера (например, выделение текста для копирования). Патент предполагает, что Marking может автоматически интерпретироваться как Highlighting (неявное выделение).
- Summary (Сводка/Резюме)
- Имеет два значения: (1) Краткое изложение контента для пользователя. (2) Структура данных, содержащая Weight Values выделенных фрагментов, которая предоставляется поисковой системе для ранжирования (согласно Claims).
- Weight Value (Весовое значение)
- Метрика, присваиваемая элементу документа. Является функцией от того, сколько уникальных пользователей выделили этот элемент.
Ключевые утверждения (Анализ Claims)
Патент US9244891B2 сфокусирован именно на аспекте корректировки ранжирования на основе данных о выделении.
Claim 1 (Независимый пункт): Описывает основной метод работы системы для влияния на ранжирование.
- Система получает данные, идентифицирующие фрагменты документа, выделенные как минимум двумя разными пользователями (первым и вторым).
- В ответ на получение этих данных генерируются веса (weights) для выделенных фрагментов. Веса указывают на количество пользователей, выделивших эти фрагменты.
- Генерируется сводка (summary), которая указывает эти веса.
- Сводка предоставляется поисковой системе (search engine).
- Поисковая система настроена на корректировку ранжирования результатов поиска (adjust search result rankings) на основе этих весов, указанных в сводке.
Ядро изобретения заключается в использовании агрегированных поведенческих данных (выделение текста) для расчета весов фрагментов и явном указании, что эти веса используются поисковой системой для изменения позиций в выдаче. Система количественно определяет популярность конкретных фрагментов контента и использует эту информацию для переоценки релевантности или качества документа.
Claims 4, 5 (Зависимые): Уточняют природу данных.
Система учитывает, что выделенные разными пользователями фрагменты могут как перекрываться (частично или полностью), так и не перекрываться. Это важно для точного расчета весов.
Где и как применяется
Изобретение затрагивает несколько этапов поиска, используя данные, собираемые во время взаимодействия пользователя с контентом.
Сбор пользовательских данных (User Data Acquisition)
Система собирает данные о поведении пользователей на клиентской стороне (через браузер или специальные инструменты). Фиксируются действия Highlighting или Marking (например, копирование текста).
INDEXING – Индексирование и извлечение признаков
На этом этапе происходит обработка собранных данных. Highlighting Information агрегируется, вычисляются Weight Values для элементов документа. Генерируется Summary (сводка с весами). Эти данные сохраняются как признаки (features), привязанные к документу в индексе.
RANKING – Ранжирование
Это основное применение, заявленное в патенте (Claim 1). Сводка с весами предоставляется поисковой системе. Поисковая система использует эти Weight Values как один из сигналов для корректировки Ranking Score документа. Документы с более высокими весами ключевых элементов могут быть повышены.
METASEARCH – Метапоиск и Смешивание (Генерация сниппетов)
Механизм генерации сниппетов применяется на этапе формирования SERP. Система выбирает для сниппета не просто фрагменты с ключевыми словами, а элементы с наибольшими Weight Values, то есть те, которые пользователи чаще всего выделяли или копировали.
Входные данные:
- Идентификатор документа (URL).
- Данные о выделении элементов пользователями (идентификаторы элементов, информация о пользователях).
Выходные данные:
- Weight Values для элементов документа.
- Сводка (Summary) документа, содержащая веса (для ранжирования).
- Сгенерированные сниппеты на основе весов (для SERP).
На что влияет
- Типы контента: Наибольшее влияние на информационный контент, лонгриды, инструкции, исследования – документы, где пользователи склонны выделять ключевые тезисы, копировать данные или команды.
- Специфические запросы: Влияет на информационные запросы, где важность конкретных фрагментов может быть определяющей для ответа на вопрос пользователя.
Когда применяется
- Условия работы алгоритма: Алгоритм применяется при наличии достаточного объема агрегированных данных о выделениях для данного документа от разных пользователей (Claim 1 требует минимум двух).
- Пороговые значения: В патенте упоминается порог (threshold) для включения элемента в сниппет/сводку. Также может существовать порог по минимальному количеству пользователей для учета веса в ранжировании (для статистической значимости и конфиденциальности).
Пошаговый алгоритм
Процесс А: Сбор и агрегация данных
- Детектирование выделения: Клиентское ПО обнаруживает выбор элемента пользователем. Это может быть явное выделение или неявное (Marking, например, для копирования).
- Отправка данных: Информация о выделенном элементе, документе и пользователе отправляется на сервер.
- Хранение данных: Сервер сохраняет данные в Per-User Database и обновляет Aggregate Database.
- Агрегация и расчет весов: Система агрегирует данные от множества пользователей и вычисляет Weight Values для каждого элемента на основе количества пользователей, выделивших его.
Процесс Б: Использование данных для Ранжирования (Claim 1)
- Генерация сводки: На основе вычисленных Weight Values генерируется Summary документа.
- Предоставление данных поисковой системе: Summary предоставляется компонентам ранжирования.
- Корректировка ранжирования: Поисковая система использует веса из Summary для корректировки Ranking Scores документа.
Процесс В: Использование данных для генерации Сниппетов
- Получение весов: При формировании SERP система запрашивает Weight Values для документа.
- Определение порога: Устанавливается пороговое значение (threshold) для весов.
- Выбор элементов: Элементы, чей вес превышает порог, выбираются как кандидаты.
- Генерация сниппета: Сниппет формируется из выбранных элементов с учетом ограничений на размер.
Какие данные и как использует
Данные на входе
Патент фокусируется исключительно на одном типе данных:
- Поведенческие факторы: Основные данные – это информация о том, какие именно элементы (Elements) документа были выделены (Highlighting или Marking) пользователями. В патенте рассматриваются два варианта сбора:
- Явное выделение: Пользователь использует специальную функцию.
- Неявное выделение: Система автоматически рассматривает любое выделение текста (например, для копирования) как сигнал о важности.
- Пользовательские факторы: Идентификаторы пользователей необходимы для агрегации данных и расчета весов на основе количества уникальных пользователей.
Какие метрики используются и как они считаются
- Weight Value (Весовое значение): Ключевая метрика. Рассчитывается для каждого элемента документа. Является функцией от количества уникальных пользователей, которые выделили этот элемент. Вес может быть нормализован (например, 0-100).
- Threshold (Порог): Значение, используемое для фильтрации элементов при генерации сниппетов. Может настраиваться пользователем для изменения длины сниппета (описано в патенте).
- Summary (Сводка): Структура данных, содержащая Weight Values, которая передается в поисковую систему для ранжирования.
Выводы
- Гранулярные поведенческие сигналы для ранжирования: Патент явно утверждает (Claim 1), что агрегированные данные о выделении контента используются для корректировки результатов поиска (Adjusting Search Result Rankings). Это подтверждает важность поведенческих факторов на уровне взаимодействия с конкретными фрагментами контента.
- Неявное выделение (Копирование) как сигнал: В описании патента указано, что система может интерпретировать стандартное выделение текста (Marking), например, для копирования, как сигнал важности. Это критически важно, так как позволяет собирать данные в глобальном масштабе через браузеры.
- Коллективное внимание определяет важность: Система полагается на «мудрость толпы». Если много независимых пользователей выделяют или копируют один и тот же фрагмент, он признается важным (получает высокий Weight Value).
- Прямое влияние на генерацию сниппетов: Сниппет будет состоять из наиболее часто выделяемых пользователями фрагментов, а не только из фрагментов, содержащих ключевые слова из запроса.
- Важность салиентности контента: Контент должен содержать элементы, которые пользователи захотят скопировать или поделиться. Это подчеркивает важность четкости, ясности и практической ценности информации.
Практика
Best practices (это мы делаем)
- Создание контента, достойного копирования (Copy-Worthy Content): Фокусируйтесь на создании контента, который содержит четкие ответы, ценные данные, ключевые выводы, инструкции или команды, которые пользователи захотят скопировать. Это повышает вероятность того, что эти фрагменты получат высокий Weight Value.
- Оптимизация под копирование (Copy-Paste Optimization): Убедитесь, что важная информация (артикулы, спецификации, команды терминала, списки ингредиентов) легко доступна и удобна для копирования. Такое поведение (Marking) может быть интерпретировано как сигнал важности.
- Улучшение салиентности (Salience) и форматирования: Используйте форматирование (списки, таблицы, блоки внимания), чтобы помочь пользователям быстро находить ключевую информацию. Это увеличивает вероятность взаимодействия (выделения/копирования) с этими элементами.
- Анализ поведения пользователей на странице: Используйте аналитику для отслеживания событий копирования текста (через JavaScript события), чтобы понять, какие части контента наиболее востребованы. Эти данные служат прокси для Weight Values, описанных в патенте.
Worst practices (это делать не надо)
- Запрет на выделение и копирование текста: Использование скриптов, блокирующих выделение текста или функцию копирования, является крайне негативной практикой. Это ухудшает UX и блокирует возможность получения сигналов Marking, которые могут положительно влиять на ранжирование согласно этому патенту.
- «Вода» и размытый контент: Создание длинных текстов без четких акцентов и явной ценности. В таком контенте пользователям нечего копировать, что приведет к низким Weight Values элементов.
- Игнорирование структуры документа: Сплошной текст затрудняет пользователям поиск и выделение ключевой информации, что негативно сказывается на сигналах взаимодействия.
Стратегическое значение
Этот патент подчеркивает стратегическую важность глубокого понимания того, как пользователи потребляют контент на микроуровне. Для Google важно не только то, что пользователь кликнул на результат, но и то, с какими именно фрагментами он взаимодействовал. Если механизмы неявного сбора данных (копирование текста) реализованы в Chrome или Android, это означает, что практически каждое взаимодействие пользователя с текстом может быть интерпретировано как сигнал ранжирования.
Практические примеры
Сценарий: Оптимизация статьи с технической инструкцией
- Задача: Улучшить ранжирование и вид сниппета для статьи «Как настроить Nginx на Ubuntu».
- Действие: Разместить ключевые команды для терминала в отдельных блоках кода, удобных для копирования одним кликом.
- Механизм работы: Пользователи, выполняющие инструкцию, будут систематически выделять и копировать эти команды (действие Marking). Система интерпретирует это как неявное Highlighting.
- Ожидаемый результат: Блоки с командами получают высокий Weight Value. Google использует эти фрагменты для генерации сниппета (повышая CTR) и может расценить страницу как более полезную, повысив ее в ранжировании.
Вопросы и ответы
Говорит ли этот патент о том, что Google использует данные о том, какой текст пользователи копируют на сайте?
Да, это прямо указано в детальном описании патента (раздел, описывающий FIG. 6D). Система может быть настроена так, чтобы автоматически интерпретировать любое выделение текста (Marking), например, для копирования в буфер обмена, как сигнал выделения (Highlighting). Это означает, что фрагменты, которые пользователи часто копируют, могут получать больший вес.
Как именно агрегированные данные о выделении влияют на ранжирование?
В Claim 1 четко сказано, что система генерирует веса (weights) на основе частоты выделения фрагментов и предоставляет эти веса поисковой системе, которая использует их для корректировки ранжирования (adjust search result rankings). Документы с ярко выраженными высоковесовыми фрагментами (т.е. часто копируемыми) получают преимущество.
Откуда Google берет эти данные? Ведь специальные тулбары для выделения не популярны.
Патент упоминает тулбары как пример. Однако, учитывая возможность отслеживания неявных выделений (копирования текста) и доминирование браузера Google Chrome, именно он может быть основным источником таких данных. Сбор статистики использования может включать анонимизированные данные о взаимодействии пользователя с контентом.
Влияет ли этот патент на генерацию сниппетов в выдаче?
Да, и очень значительно. Патент детально описывает механизм, при котором для сниппета выбираются элементы документа, имеющие наибольший Weight Value (т.е. наиболее часто выделяемые/копируемые пользователями). Система может предпочесть эти фрагменты стандартному Meta Description.
Что такое «Сводка» (Summary) в контексте этого патента?
Summary имеет два значения. Первое — это краткое изложение контента для пользователя. Второе (ключевое для Claims 1) — это структура данных, которая содержит веса выделенных фрагментов и передается поисковой системе для использования в ранжировании.
Стоит ли блокировать копирование контента на сайте?
Категорически нет. Блокировка копирования значительно ухудшает UX. Более того, согласно этому патенту, возможность копирования полезного контента может служить позитивным сигналом ранжирования. Если пользователи активно копируют ваши полезные фрагменты, это может помочь сайту ранжироваться выше.
Как этот патент связан с ранжированием фрагментов (Passage Ranking)?
Существует прямая связь. Ранжирование фрагментов направлено на определение наиболее релевантных пассажей внутри документа. Патент описывает метод определения важности этих пассажей на основе прямых поведенческих сигналов (выделения/копирования). Эти Weight Values могут служить важным сигналом для систем Passage Ranking.
Что важнее: чтобы пользователи выделяли много разных фрагментов или один и тот же?
Для системы важнее консенсус. Если множество разных пользователей выделяют один и тот же конкретный фрагмент (например, ключевое определение или ответ на вопрос), этот фрагмент получит максимальный Weight Value. Это будет более сильным сигналом, чем разнообразные выделения, распределенные по всему документу.
Применяется ли этот алгоритм ко всем сайтам?
Система может применяться к любому документу, но ее эффективность зависит от наличия достаточного объема данных о выделениях. Для популярных документов или сайтов в нишах, где пользователи активно работают с контентом (например, IT, образование, рецепты), влияние будет более заметным.
Может ли пользователь влиять на то, какой сниппет он видит?
Да, в описании патента (не в Claims) упоминается механизм (например, слайдер), который позволяет пользователю регулировать пороговое значение (threshold value) для весов. Изменяя порог, пользователь может динамически изменять длину и содержание сниппета или сводки, но этот функционал не реализован в публичном поиске Google.