Как Google может верифицировать авторство контента, перехватывая момент его публикации через браузер пользователя

SYSTEMS AND METHODS RELATED TO IDENTIFYING AUTHORSHIP OF INTERNET CONTENT (Системы и методы, связанные с идентификацией авторства интернет-контента)

US9521182B1
Google LLC
2013-02-08
2016-12-13

EEAT и качество

Google описывает механизм для точной идентификации авторов контента. Система (например, плагин браузера) отслеживает отправку контента через веб-формы (CMS, комментарии), фиксирует личность пользователя и отправленный текст. Затем Google проверяет, появился ли этот текст по указанному адресу, и связывает контент с верифицированным автором.

Какую проблему решает

Патент решает проблему недостоверной, отсутствующей или легко подделываемой информации об авторстве в интернете. Существующие методы, такие как анализ подписей на странице или структурированных данных (structured data), являются декларативными и могут быть неточными. Изобретение предлагает механизм для верификации авторства в момент создания контента, перехватывая акт публикации непосредственно на устройстве автора, что значительно усложняет ложное присвоение авторства.

Что запатентовано

Запатентована система верификации авторства путем мониторинга и перехвата акта публикации контента через веб-интерфейсы. Ключевым элементом является агент (например, плагин или встроенная функция браузера), который обнаруживает отправку контента через форму (Content Submission Form). Этот агент фиксирует идентификационные данные пользователя (User Identification Data), сам контент и адрес публикации, после чего отправляет эти данные на отдельный сервер верификации (Verification Address).

Как это работает

Система работает на двух уровнях: клиентском (браузер пользователя) и серверном (Google).

Клиентская сторона: Агент в браузере (например, плагин) устанавливает обработчик событий (Form Submission Handler) на веб-страницах для обнаружения форм отправки контента. При отправке формы агент перехватывает событие.
Сбор данных: Фиксируются User ID (например, из активной сессии в сервисе), Content Data (отправляемый текст или его токен) и Publication Address Data (где контент будет опубликован).
Передача: Эти данные отправляются на Verification Address (сервер Google), при этом исходная отправка контента на сайт публикации (Destination Address) не блокируется.
Серверная сторона: Authorship Identification Engine получает данные и планирует сканирование указанного URL.
Верификация: После сканирования система сравнивает опубликованный контент с полученными Content Data. При совпадении контент в индексе связывается с верифицированным автором.

Актуальность для SEO

Средняя/Низкая. Идентификация авторов и оценка их авторитетности (E-E-A-T) остаются критически важными задачами для Google в 2025 году. Однако данный конкретный механизм, предполагающий активное участие пользователя (установка плагина) или глубокую интеграцию с браузером для перехвата форм, не получил широкого публичного распространения. Патент тесно связан с программой Google Authorship (закрыта в 2014 году). Google сегодня больше полагается на пассивный анализ сущностей, NLP и Knowledge Graph.

Важность для SEO

Влияние на SEO является косвенным, но стратегически важным (6/10). Патент описывает не алгоритм ранжирования, а инфраструктурный механизм для генерации надежного сигнала — верифицированного авторства. Наличие такого сигнала является фундаментальным для работы систем, оценивающих E-E-A-T. Для SEO-специалистов это подтверждает критическую важность работы над авторством, хотя сам патент не дает прямых рекомендаций по оптимизации сайта.

Термины и определения

Authorship Identification Engine (Механизм идентификации авторства): Серверная система, которая получает данные верификации, управляет сканированием и сравнивает отправленный контент с опубликованным для подтверждения авторства.
Content Data (Данные контента): Информация, представляющая контент, отправленный пользователем. Может включать полный текст, его часть или Content Token.
Content Submission Form (Форма отправки контента): Веб-форма на странице (например, редактор CMS, поле комментария, интерфейс вики), позволяющая пользователю отправить контент для публикации.
Content Token (Токен контента): Уникальный идентификатор контента (например, хэш или случайное число), который может быть внедрен в отправляемый контент и использован позже для верификации вместо сравнения полного текста.
Destination Address (Адрес назначения): URL, на который веб-форма отправляет данные для обработки и публикации (например, скрипт обработки формы на сервере).
Form Submission Handler (Обработчик отправки формы): Скрипт (например, JavaScript, часто внедряемый через плагин браузера), который перехватывает событие отправки формы для сбора и передачи данных верификации.
Publication Address (Адрес публикации): URL, по которому будет доступен опубликованный контент после его обработки сервером.
User Identification Data (Идентификационные данные пользователя): Данные, идентифицирующие автора в момент отправки контента (например, ID пользователя в сервисе, логин, cookie, IP-адрес).
Verification Address (Адрес верификации): URL сервера (например, принадлежащего Google), на который Form Submission Handler отправляет данные для подтверждения авторства. Он отличается от Destination Address.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод идентификации и передачи данных об авторстве путем перехвата на стороне клиента.

Система идентифицирует Content Submission Form на веб-странице, предназначенную для отправки контента на Destination Address для последующей публикации на Publication Address.
Идентифицируются Publication Address Data (где контент появится) и User Identification Data пользователя.
Form Submission Handler распознает отправку контента пользователем.
В ответ на отправку система передает данные верификации (Publication Address Data, User Identification Data и Content Data) на Verification Address (отличный от адреса публикации).
При этом Form Submission Handler (тот же или второй) также обеспечивает отправку контента на Publication Address (т.е. нормальная публикация не блокируется).

Ядром изобретения является механизм перехвата события публикации с помощью обработчика в браузере, который одновременно позволяет контенту быть опубликованным на целевом сайте и отправляет доказательство авторства на отдельный сервер верификации.

Claim 2 (Зависимый от 1): Уточняет реализацию.

Form Submission Handler может быть инициализирован через плагин браузера (browser plug-in). Это указывает, что система требует установки агента на стороне клиента или интеграции в сам браузер.

Claim 5 (Зависимый от 1): Добавляет временной аспект.

Система также может передавать временную метку (time stamp data), указывающую время отправки контента. Это важно для разрешения споров об авторстве.

Claim 6 (Зависимый от 1): Описывает следующий этап.

Система верифицирует пользователя как автора контента на основе полученных данных.

Claim 10, 11, 12 (Зависимые): Описывают использование токенов как альтернативу передаче полного контента.

Content Data могут включать Content Token (Claim 10).
Система внедряет этот Content Token в контент, отправляемый на Publication Address (Claim 11).
Верификация авторства происходит путем проверки наличия этого Content Token в опубликованном контенте (Claim 12).

Где и как применяется

Этот патент описывает инфраструктуру сбора и верификации данных, которая затрагивает несколько этапов поиска.

Действия пользователя (Вне стандартных фаз поиска)
Основной механизм активируется на клиентском устройстве пользователя в момент создания контента. Form Submission Handler перехватывает данные и отправляет их в Google.

CRAWLING – Сканирование и Сбор данных
Механизм использует краулер для проверки публикации. После получения данных верификации система планирует сканирование указанного Publication Address. Патент упоминает, что сканирование может быть инициировано в ответ на передачу данных для верификации авторства.

INDEXING – Индексирование и извлечение признаков
На этом этапе происходит сравнение Content Data (присланных из браузера) с контентом, полученным краулером. В случае успеха система сохраняет в индексе ассоциацию между документом и верифицированным автором.

RANKING – Ранжирование
Сгенерированный сигнал (верифицированное авторство) используется на этом этапе. Патент прямо указывает, что идентификация авторства может использоваться для влияния на релевантность и ranking score документа (например, повышать ранг, если автор является экспертом).

Входные данные (для агента в браузере):

Событие отправки веб-формы.
Контент, введенный пользователем.
User Identification Data (из сессии браузера/логина).

Выходные данные (от агента к Google):

Пакет верификационных данных (User ID, Content Data/Token, Publication Address, Time Stamp).

На что влияет

Типы контента: Наибольшее влияние оказывается на контент, создаваемый через веб-интерфейсы: статьи в CMS, посты в блогах, комментарии на форумах, правки в вики-системах.
Конкретные ниши: Критически важно для YMYL-тематик (здоровье, финансы), где идентификация экспертности автора имеет первостепенное значение для оценки достоверности контента.

Когда применяется

Условия работы алгоритма: Алгоритм требует наличия активного агента (плагина, расширения) в браузере пользователя или интеграции этой функциональности в сам браузер (например, Chrome).
Триггеры активации: Активируется в момент, когда пользователь отправляет контент через распознанную Content Submission Form на веб-странице.

Пошаговый алгоритм

Процесс разделен на две фазы: клиентскую (в момент публикации) и серверную (верификация).

Фаза 1: Клиентская сторона (Браузер пользователя)

Идентификация формы: Агент (плагин) анализирует веб-страницу на наличие Content Submission Form (например, ищет теги <form>, <textarea>, ключевые слова типа "Post", "Edit").
Идентификация адреса публикации: Определяется Publication Address Data – где контент будет опубликован (на основе текущего URL, адреса назначения формы или URL перенаправления после отправки).
Идентификация пользователя: Определяются User Identification Data (например, на основе логина в связанный сервис).
Установка обработчика: Агент устанавливает Form Submission Handler (например, обработчик onsubmit()) на форму.
Перехват отправки: При попытке пользователя отправить форму обработчик активируется.
Сбор данных контента: Фиксируется отправляемый контент. Опционально генерируется и внедряется Content Token.
Передача данных верификации: Обработчик отправляет пакет данных на Verification Address (сервер Google). Это может происходить через AJAX, iframe или img tag.
Публикация контента: Обработчик (или стандартный механизм браузера) отправляет контент на Destination Address для публикации на сайте.

Фаза 2: Серверная сторона (Google)

Прием данных: Authorship Identification Engine получает пакет верификационных данных.
Планирование сканирования: Система планирует сканирование Publication Address (это может быть немедленное сканирование по запросу или добавление в очередь).
Сканирование: Краулер загружает контент по указанному адресу.
Сравнение: Система сравнивает опубликованный контент с Content Data. Сравнение может быть точным, по порогу схожести (например, с использованием расстояния Левенштейна) или путем поиска внедренного Content Token.
Разрешение конфликтов: Анализируется Time Stamp, чтобы убедиться, что контент не был скопирован из ранее существовавшего источника.
Ассоциация: При успешном сравнении система ассоциирует автора (User ID) с опубликованным контентом (или его частью) и сохраняет эту связь в индексе.

Какие данные и как использует

Данные на входе

Патент фокусируется на сборе данных в момент публикации.

Контентные факторы: Основные данные – это сам отправляемый контент (текст, код, файлы), фиксируемый как Content Data.
Технические факторы: Используются URL-адреса: Publication Address (где искать контент) и Destination Address (куда он отправляется формой). Анализируется HTML-код для идентификации форм.
Пользовательские факторы: Критически важные данные – User Identification Data. Патент упоминает использование логина в сервисе (социальная сеть, почта, сервис верификации авторства), а также возможность использования IP-адреса, MAC-адреса или cookies для идентификации автора.
Временные факторы: Time Stamp (время отправки контента) используется для разрешения споров об авторстве и определения первичности контента.

Какие метрики используются и как они считаются

Сравнение контента (Content Matching): Система сравнивает Content Data (присланные из браузера) и опубликованный контент (полученный краулером). Патент упоминает несколько методов:
- Точное совпадение (Exact Match).
- Порог схожести (Similarity Threshold): Используются метрики схожести, такие как расстояние Левенштейна (Levenshtein edit distance), расстояние Яро-Винклера (Jaro-Winkle), индекс Жаккара (Jaccard index).
- Проверка токена (Content Token Verification): Поиск точного совпадения уникального токена (хэша или случайного числа), внедренного в контент. Токен может быть внедрен в отображаемые или скрытые данные (метаданные, image tags).
Анализ времени (Time Stamp Analysis): Сравнение времени отправки контента с временем публикации другого похожего контента для определения первоисточника.

Приоритет верифицированного авторства: Патент демонстрирует стремление Google создать надежный механизм идентификации авторов, который не зависит от декларативных заявлений владельцев сайтов (например, разметки Schema или подписей).
Фокус на моменте создания контента: Ключевая идея – зафиксировать авторство непосредственно в момент отправки контента с устройства автора, что является сильным доказательством подлинности.
Зависимость от клиентских технологий: Реализация описанного механизма требует наличия агента на стороне клиента. Патент прямо указывает на использование плагинов браузера (browser plug-ins) или интеграции в браузер для перехвата событий отправки форм (Form Submission Handler).
Инфраструктурный характер: Это патент на инфраструктуру сбора данных и генерации сигналов, а не на алгоритм ранжирования. Он описывает, как получить сигнал "Верифицированный Автор", который затем используется другими системами (например, для оценки E-E-A-T).
Авторство как фактор ранжирования: Патент явно подтверждает, что верифицированное авторство и свойства автора (например, его экспертиза) предназначены для использования в качестве сигналов ранжирования и могут влиять на ranking score документа.
Ограниченность применения: Эффективность системы зависит от степени ее внедрения (установка плагинов пользователями). Отсутствие широкого принятия, вероятно, стало причиной отказа от этого конкретного механизма в пользу пассивного анализа сущностей.

Best practices (это мы делаем)

Патент носит инфраструктурный характер и описывает технический метод сбора данных Google, а не факторы, на которые SEO-специалист может напрямую влиять через оптимизацию сайта. Однако он подтверждает стратегическую важность авторства.

Построение авторитетности авторов (E-E-A-T): Продолжайте фокусироваться на развитии авторов как признанных сущностей (Entities). Патент подтверждает, что надежная связь между контентом и автором критически важна для Google. Необходимо использовать все доступные пассивные сигналы: четкие подписи, биографии, разметку Schema.org/Person, связи с профилями в Knowledge Graph.
Консистентность представления автора: Убедитесь, что информация об авторе консистентна как на вашем сайте, так и на внешних авторитетных площадках. Это помогает системам Google (даже без механизма из патента) надежно ассоциировать контент с сущностью автора.
Обеспечение чистоты контента при публикации: Убедитесь, что системы публикации (CMS) не вносят значительных изменений в контент автора при публикации (например, не вырезают код или разметку), так как это теоретически может помешать сравнению текста или обнаружению Content Token, если бы подобная система использовалась.

Worst practices (это делать не надо)

Ложное присвоение авторства: Попытки приписать контент авторитетным авторам, которые его не создавали. Описанный механизм направлен на борьбу с такими манипуляциями путем верификации в момент создания.
Анонимный контент в YMYL: Публикация контента на чувствительные темы без указания авторства и квалификации автора. Google стремится идентифицировать авторов для оценки качества такого контента.
Присвоение авторства (Плагиат): Попытки заявить авторство контента, написанного другими. Описанный механизм использует Time Stamp Data для определения реального момента создания контента и борьбы с такими манипуляциями.

Стратегическое значение

Патент подтверждает долгосрочную стратегию Google по переходу от анализа ключевых слов и ссылок к анализу сущностей и их авторитетности (E-E-A-T). Он показывает, насколько важна для Google задача точной идентификации авторов. Также он иллюстрирует готовность Google использовать данные, собираемые через свои продукты (браузеры, плагины), для улучшения качества поиска. Для SEO это означает, что построение реальной авторитетности и узнаваемости авторов является фундаментальной частью долгосрочной стратегии.

Практические примеры

Поскольку механизм работает на стороне клиента (в браузере автора), SEO-специалист не может напрямую инициировать его работу.

Сценарий: Верификация авторства экспертной статьи (Гипотетическое применение патента)

Ситуация: Эксперт пишет статью для своего блога на WordPress.
Действие (Гипотетическое): Эксперт использует браузер (например, Chrome) с активированной функцией верификации авторства (или установленным плагином, описанным в патенте) и залогинен в свой аккаунт Google.
Публикация: Эксперт вставляет текст в CMS и нажимает "Опубликовать".
Перехват: Form Submission Handler перехватывает отправку, фиксирует текст, User ID эксперта и URL будущей статьи. Эти данные отправляются в Google (Verification Address).
Верификация: Google сканирует блог, находит статью и подтверждает совпадение текста с перехваченными данными.
Результат: Google надежно связывает эту статью с сущностью эксперта, усиливая его E-E-A-T и потенциально улучшая ранжирование статьи.

Означает ли этот патент, что Google отслеживает все, что я пишу в веб-формах?

Патент описывает механизм, который *может* это делать, но только при определенных условиях. Для его работы требуется активация специального агента – например, пользователь должен установить соответствующий плагин браузера, или эта функция должна быть встроена в сам браузер (например, Chrome) и активирована (часто требуя входа в аккаунт). Система фокусируется только на формах, предназначенных для публикации контента, игнорируя формы регистрации или оплаты.

Связан ли этот патент со старой программой Google Authorship (rel="author")?

Да, концептуально связан. Google Authorship (закрыта в 2014 году) также пыталась связать контент с авторами, но полагалась на разметку rel="author", которую должны были внедрять владельцы сайтов. Этот патент (подан в 2013 году, одним из авторов является Matt Cutts) описывает более надежный и устойчивый к манипуляциям метод верификации непосредственно в момент создания контента, не зависящий от действий владельца сайта.

Как система узнает, кто является автором?

Система полагается на User Identification Data, доступные в браузере в момент отправки контента. Чаще всего это идентификатор пользователя, который вошел в определенный сервис (например, аккаунт Google, социальная сеть или специальный сервис верификации авторства). Также могут использоваться cookies или, в крайнем случае, технические идентификаторы вроде IP-адреса.

Что такое "Content Token" и зачем он нужен?

Content Token – это уникальный идентификатор (например, хэш от текста или случайное число), который генерируется в момент отправки. Агент в браузере может незаметно внедрить этот токен в отправляемый контент (например, в метаданные или скрытый HTML-комментарий). Вместо сравнения всего текста, Google может просто проверить наличие этого токена на опубликованной странице, что технически проще и надежнее.

Что произойдет, если опубликованный контент будет немного отредактирован владельцем сайта?

Патент предусматривает такую возможность. Если используется сравнение текста, система может применять пороги схожести (например, расстояние Левенштейна), чтобы определить, что контент в основном совпадает, несмотря на небольшие правки. Если используется Content Token, верификация пройдет успешно, пока токен остается в коде страницы.

Применяется ли это только к статьям или также к комментариям и постам на форумах?

Механизм универсален и применяется к любой Content Submission Form. Патент не делает различий между статьями, комментариями, постами на форумах или правками в вики. Любой контент, отправленный через веб-интерфейс для публикации, может быть верифицирован таким образом.

Как SEO-специалисты могут использовать этот патент в своей работе?

Напрямую использовать этот механизм сложно, так как он зависит от инфраструктуры Google и клиентских приложений. Однако этот патент служит мощным напоминанием о том, что авторство является ключевым элементом E-E-A-T. SEO-специалисты должны сосредоточиться на построении четких и последовательных сигналов авторства на сайте и за его пределами, чтобы помочь пассивным системам Google правильно идентифицировать авторов.

Что, если несколько человек редактируют одну и ту же страницу (например, Википедию)?

Патент позволяет ассоциировать авторство не только с документом целиком, но и с его частями. Система может идентифицировать, какой именно контент был добавлен или изменен конкретным пользователем во время сессии редактирования, и связать этот фрагмент с ним. Таким образом, у документа может быть несколько верифицированных авторов для разных разделов.

Используется ли эта система Google активно сегодня (в 2025 году)?

Нет публичных подтверждений, что Google использует именно этот механизм перехвата форм в широком масштабе через плагины. Однако вполне вероятно, что подобные технологии верификации авторства могут быть интегрированы в собственные продукты Google, такие как Chrome (при входе в аккаунт). Независимо от этого, цель патента – верификация авторства – остается высокоактуальной для E-E-A-T.

Если я использую этот механизм (плагин), улучшит ли это ранжирование моего контента?

Сам по себе механизм не улучшает ранжирование. Он лишь гарантирует, что Google точно знает, что именно вы являетесь автором контента. Ранжирование будет зависеть от того, насколько авторитетным Google считает вас как автора в данной тематике (ваш E-E-A-T), а также от качества самого контента и других факторов ранжирования.

Как Google использует данные аналитики в реальном времени и контролируемый трафик для установления оригинального авторства контента

Google патентует метод для точной идентификации автора контента до того, как его обнаружит веб-краулер. Система использует уникальные идентификаторы (например, код веб-аналитики) и отслеживает первую активность автора с неопубликованным контентом (например, переходы по скрытым ссылкам между черновиками). Это позволяет зафиксировать временную метку в реальном времени, защищая от плагиата и обеспечивая корректную атрибуцию в поиске.

US9372927B1
2016-06-21

EEAT и качество
Индексация
Краулинг

Как Google определяет оригинальность контента для расчета Авторского Ранга (Author Rank) и влияния на ранжирование

Google использует систему для идентификации оригинального контента и повышения авторитета его создателей. Система разбивает документы на фрагменты (content pieces) и отслеживает их первое появление. Авторы (включая домены) ранжируются на основе количества созданного ими оригинального контента и частоты его копирования другими. Ранг автора затем используется для повышения в выдаче документов этого автора, особенно свежих публикаций.

US8983970B1
2015-03-17

EEAT и качество
Свежесть контента
SERP

Как Google планировал использовать цифровые подписи для расчета репутации авторов (Agent Rank) независимо от сайта публикации

Патент Google, описывающий концепцию "Agent Rank". Система предлагает авторам (агентам) использовать цифровые подписи для подтверждения авторства контента. Это позволяет рассчитывать репутационный рейтинг агента, используя алгоритмы, подобные PageRank, на основе того, кто ссылается на их подписанный контент. Этот рейтинг затем используется для влияния на ранжирование, независимо от того, где контент опубликован.

US7565358B2
2009-07-21

EEAT и качество
Ссылки

Как Google обнаруживает неавторизованное использование контента (текст, изображения, видео, аудио), сохраняя конфиденциальность

Система позволяет владельцам контента загружать образцы (текст, изображения, видео, аудио) и проверять, существуют ли совпадения в индексах Google, включая веб-индекс и пользовательские базы данных. Система сообщает о факте наличия совпадения, не раскрывая источник напрямую, и может предоставить зашифрованный идентификатор для дальнейшего расследования.

US20080288509A1
2008-11-20

Индексация
Мультимедиа

Как Google автоматически распознает и связывает отсканированные книги с их библиографическими данными (ISBN, автор, название)

Патент описывает инфраструктурный процесс Google для оцифровки печатных изданий (например, Google Books). Система сканирует документ, ищет идентификаторы (ISBN, ISSN) на странице авторских прав или в штрихкоде, сверяет их с базами данных метаданных и автоматически связывает текст документа с его библиографическим описанием для последующего поиска.

US8495061B1
2013-07-23

Индексация

Как Google использует историю браузера, закладки и поведение пользователей для персонализации результатов поиска в e-commerce

Система отслеживает поведение пользователей (клики, время на сайте, покупки) и их сохраненные закладки (content pointers) в сетевой среде. На основе этих данных создается персональная модель релевантности и иерархия предпочтений. Эта модель используется для дополнения запросов, переранжирования результатов поиска и предоставления рекомендаций, обеспечивая персонализированный опыт в e-commerce.

US7089237B2
2006-08-08

Поведенческие сигналы
Персонализация
SERP

Как Google определяет географическую зону релевантности бизнеса на основе реального поведения пользователей (Catchment Areas)

Google определяет уникальную "зону охвата" (Catchment Area) для локального бизнеса, анализируя, из каких географических точек пользователи кликали на его результаты в поиске. Эта динамическая зона заменяет фиксированный радиус и используется для фильтрации кандидатов при локальном поиске, учитывая известность бренда, категорию бизнеса и физические препятствия.

US8775434B1
2014-07-08

Local SEO
Поведенческие сигналы

Как Google использует модель предвзятости представления (Presentation Bias), чтобы отделить клики по релевантности от кликов по позиции

Google использует механизм для интерпретации поведения пользователей (CTR), который учитывает, как именно представлены результаты поиска. Система рассчитывает ожидаемый CTR для конкретной позиции и визуального оформления (сниппет, выделение). Чтобы получить буст от поведенческих факторов, реальный CTR документа должен значительно превышать этот ожидаемый уровень. Это позволяет отфильтровать клики, обусловленные высокой позицией или привлекательным сниппетом, и выделить сигналы истинной релевантности.

US8938463B1
2015-01-20

Поведенческие сигналы
SERP

Как Google использует "ложные пропуски" (Fake Skips) для точной оценки качества своих правил синонимов

Google анализирует поведение пользователей для оценки качества синонимов, используемых при переписывании запросов. Патент вводит метрику "Fake Skip" (Ложный пропуск). Она фиксируется, если пользователь пропустил результат с синонимом, но кликнул на результат ниже, который также содержит этот синоним и исходный термин. Это позволяет точнее калибровать систему синонимов и не пессимизировать хорошие правила из-за неоднозначного поведения пользователей.

US8909627B1
2014-12-09

Поведенческие сигналы
Семантика и интент
SERP

Как Google использует нормализованные сигналы удовлетворенности пользователей для переранжирования выдачи и управления краулингом/индексацией

Google анализирует вовлеченность пользователей (полезность), сравнивая фактическую удовлетворенность (Good Utilization Events) с ожидаемой вовлеченностью для данной позиции ранжирования. На основе этого рассчитывается Correction Factor для повышения документов, превосходящих ожидания, и понижения тех, которые им не соответствуют. Эта система также влияет на приоритеты сканирования и решения об индексации.

US9223897B1
2015-12-29

Поведенческие сигналы
Индексация
Техническое SEO

Как Google определяет и ранжирует вертикали поиска (Web, Images, News, Local) на основе интента запроса и профиля пользователя

Патент описывает фундаментальный механизм Универсального Поиска (Universal Search). Система генерирует результаты из разных индексов (Web, Картинки, Новости, Карты) и вычисляет «Оценку Вероятности» (Likelihood Value) для каждой категории. Эта оценка определяет, какая вертикаль наиболее релевантна интенту запроса. Для расчета используются как агрегированные данные о поведении всех пользователей по схожим запросам, так и индивидуальный профиль пользователя.

US7966309B2
2011-06-21

Семантика и интент
Персонализация
SERP

Как Google использует позиционный CTR (Selection Rate) для ранжирования и группировки вертикалей в Универсальном поиске

Google использует механизм для структурирования поисковой выдачи путем группировки результатов по категориям (вертикалям), таким как Новости, Видео или Веб. Система определяет порядок этих категорий, основываясь на ожидаемой частоте кликов (Selection Rate/CTR) тех позиций, которые занимают результаты категории в исходном смешанном ранжировании. Это определяет структуру Универсального поиска (Universal Search).

US8498984B1
2013-07-30

SERP
Поведенческие сигналы

Как Google использовал специальные токены в запросе (например, «+») для прямой навигации на верифицированные социальные страницы в обход SERP

Google может интерпретировать специальные токены в поисковом запросе (например, «+») как намерение пользователя найти официальную социальную страницу сущности. Если система идентифицирует верифицированный профиль, соответствующий запросу с высокой степенью уверенности, она может перенаправить пользователя прямо на эту страницу, минуя стандартную поисковую выдачу.

US9275421B2
2016-03-01

Семантика и интент
SERP
Ссылки

Как Google использует «Локальный авторитет» для переранжирования документов на основе их взаимосвязей внутри конкретной выдачи

Google может улучшить ранжирование, анализируя структуру ссылок внутри начального набора результатов поиска. Документы, на которые часто ссылаются другие высокорелевантные документы по этому же запросу («локальные эксперты»), получают повышение. Этот процесс включает строгие фильтры для обеспечения независимости этих ссылок-голосов.

US6526440B1
2003-02-25

Ссылки
Антиспам
SERP

Как Google использует контекст пользователя для предложения запросов до начала ввода текста (Zero-Input Queries)

Google анализирует историю поисковых запросов, группируя их в «контекстные кластеры» на основе схожести темы и обстоятельств ввода (время, местоположение, интересы). Когда пользователь открывает строку поиска, система оценивает его текущий контекст и мгновенно предлагает релевантные категории запросов (например, «Кино» или «Рестораны»), предсказывая намерение еще до ввода символов.

US10146829B2
2018-12-04

Семантика и интент
Персонализация
Поведенческие сигналы