SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google использует данные аналитики в реальном времени и контролируемый трафик для установления оригинального авторства контента

ORIGINAL AUTHORSHIP IDENTIFICATION OF ELECTRONIC PUBLICATIONS (Идентификация оригинального авторства электронных публикаций)
  • US9372927B1
  • Google LLC
  • 2013-03-15
  • 2016-06-21
  • EEAT и качество
  • Индексация
  • Краулинг
  • Техническое SEO
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Google патентует метод для точной идентификации автора контента до того, как его обнаружит веб-краулер. Система использует уникальные идентификаторы (например, код веб-аналитики) и отслеживает первую активность автора с неопубликованным контентом (например, переходы по скрытым ссылкам между черновиками). Это позволяет зафиксировать временную метку в реальном времени, защищая от плагиата и обеспечивая корректную атрибуцию в поиске.

Описание

Какую проблему решает

Патент решает проблему точного определения первоисточника и автора контента в условиях быстрого электронного распространения, копирования и плагиата. Он направлен на преодоление ограничений стандартного веб-краулинга, который работает с задержкой. Цель — установить авторство до того, как контент будет обнаружен краулерами или скопирован третьими лицами, и обеспечить корректную атрибуцию.

Что запатентовано

Запатентована система для установления и верификации оригинального авторства электронного контента. Суть изобретения заключается в использовании уникального идентификатора контента (Unique Content ID), связанного с профилем автора (Author Profile), и фиксации самой ранней временной метки (Timestamp) существования контента. Эта фиксация происходит путем анализа трафика в реальном времени через систему агрегации контента (Content Aggregation System), опережая стандартные веб-краулеры.

Как это работает

Система работает следующим образом:

  • Идентификация: Автор вставляет Unique Content ID (например, код сервиса веб-аналитики) в свой контент и связывает контент со своим Author Profile (например, через rel=author).
  • Генерация контролируемого трафика: До публикации автор совершает действия, доступные только ему — например, переходит по скрытым гиперссылкам (Hidden Links) между неопубликованными черновиками.
  • Обнаружение в реальном времени: Content Aggregation System (например, Google Analytics) обнаруживает этот трафик в реальном времени.
  • Временная метка и Верификация: Система ставит Timestamp. Эта ранняя временная метка служит доказательством авторства.
  • Индексация: Данные о верифицированном авторстве отправляются в Web Index быстрее, чем туда попадет информация от веб-краулера.

Актуальность для SEO

Средняя. Концепции идентификации автора (связанные с E-E-A-T) и определения первоисточника остаются критически важными для Google. Однако данный патент тесно связан с исторической программой Google Authorship (закрыта в 2014 г.). Конкретные технические методы, такие как верификация через скрытые ссылки, вероятно, эволюционировали или были заменены. Тем не менее, инфраструктурный аспект — использование данных из систем аналитики для быстрого понимания нового контента в реальном времени — остается актуальным.

Важность для SEO

Патент имеет умеренное стратегическое значение (6/10). Он подтверждает долгосрочное стремление Google идентифицировать авторов контента и первоисточники. Хотя описанная техническая реализация может быть устаревшей, патент подчеркивает важность первенства индексации (скорости) и необходимость четкой связи между контентом и его создателем для стратегий E-E-A-T.

Детальный разбор

Термины и определения

Author Profile (Профиль автора)
Электронный профиль (например, аккаунт в социальной сети), содержащий информацию об авторе. Контент связывается с этим профилем для идентификации авторства (упоминается rel=author).
Content Aggregation System (CAS) (Система агрегации контента)
Система, которая получает, хранит и анализирует контент и связанную с ним активность. В контексте патента функционирует как сервис веб-аналитики (например, Google Analytics), отслеживающий активность в реальном времени через Unique Content ID.
Fingerprint Generator (Генератор отпечатков)
Компонент, создающий уникальный отпечаток контента (например, хэш текста). Используется для идентификации контента и обнаружения копий.
Hidden Link (Скрытая ссылка)
Гиперссылка между неопубликованными документами (черновиками), видимая только автору. Используется для генерации контролируемого трафика с целью верификации авторства.
Referring Chain (Цепочка рефереров)
Структура данных, построенная путем группировки всех экземпляров одного и того же контента. Позволяет отследить оригинального автора и источники републикаций.
Referrer and Traffic Clustering Engine (Механизм кластеризации рефереров и трафика)
Компонент системы, который анализирует трафик и рефереры, группирует экземпляры контента и строит Referring Chain.
Timestamp (Временная метка)
Метка времени, применяемая к контенту при обнаружении первой активности системой CAS. Используется для доказательства оригинальности авторства.
Unique Content ID (Уникальный идентификатор контента)
Идентификатор, вставляемый в контент (часто как метаданные или код HTML), который остается неизменным при републикации. Пример: код отслеживания аккаунта веб-аналитики.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает комплексный метод, включающий как установление авторства, так и отслеживание републикаций.

  1. Предоставление оригинального контента и вставка Unique Content ID, который сохраняется на протяжении всего жизненного цикла.
  2. Ассоциация контента с Author Profile.
  3. Генерация первой гиперссылки, видимой только автору (данные о которой отправляются в Traffic Clustering Engine). (Механизм верификации оригинала).
  4. Отправка контента рефереру через вторую гиперссылку (связанную с републикацией) и определение метаданных для вторичного контента. (Механизм отслеживания копий).
  5. Обнаружение перехода по второй гиперссылке (факт републикации).
  6. Применение Timestamp к оригинальному контенту и отправка его в веб-индекс.
  7. Построение Referring Chain с помощью Traffic Clustering Engine путем группировки всех экземпляров контента.
  8. Отправка цепочки в веб-индекс для сопоставления и сортировки по дате.
  9. Предоставление отчета о републикации автору.

Claim 2 (Зависимый от 1): Уточняет критически важный аспект тайминга. Обнаружение активности (перехода по гиперссылке) системой агрегации происходит до того, как оригинальный контент будет обнаружен веб-краулером. Это обеспечивает первенство в установлении авторства.

Claim 4 (Зависимый от 3): Уточняет реализацию Unique Content ID. Он вставляется в HTML веб-сайта для сбора веб-статистики и обеспечения обновлений в реальном времени. Это прямо указывает на использование систем типа Google Analytics.

Claim 6 (Зависимый от 1): Описывает результат для пользователя. Индикация авторства (например, имя или иконка) предоставляется вместе с результатами поиска и связана с Author Profile.

Где и как применяется

Изобретение применяется на ранних этапах жизненного цикла контента, затрагивая процессы агрегации и индексирования.

CRAWLING – Сканирование и Сбор данных
Система специально разработана для работы быстрее, чем стандартный Web Crawler. Content Aggregation System (CAS) выступает альтернативным источником сбора данных в реальном времени, получая информацию о контенте через Unique Content ID (код аналитики) сразу после генерации трафика автором.

INDEXING – Индексирование и извлечение признаков
Основной этап применения.

  1. Обработка трафика: CAS и Traffic Clustering Engine обрабатывают контролируемый трафик, применяют Timestamp и устанавливают связь между Author Profile и контентом.
  2. Передача данных: Верифицированные данные об авторстве и временная метка передаются в Web Index.
  3. Сопоставление: Когда Web Crawler позже находит контент, система сопоставляет его с уже имеющимися данными от CAS, используя Content Matching и Date Sorting.
  4. Построение цепочек: Строится Referring Chain для отслеживания републикаций.

METASEARCH – Метапоиск и Смешивание
Патент указывает (Claim 6), что верифицированное авторство отображается в результатах поиска. Это влияет на представление SERP (например, показ фото автора в сниппете).

Входные данные:

  • Оригинальный контент (включая черновики).
  • Unique Content ID (код веб-аналитики).
  • Данные Author Profile (например, через rel=author).
  • Данные о трафике (переходы по скрытым гиперссылкам).

Выходные данные:

  • Контент с временной меткой (Timestamped Content).
  • Верифицированное авторство (Verified Authorship) в Web Index.
  • Referring Chain (цепочка републикаций).

На что влияет

  • Конкретные типы контента: Наибольшее влияние на текстовый контент, такой как статьи в блогах, электронные публикации, новости (упоминаются стандарты NewsML и NITF).
  • Конкретные ниши или тематики: Все тематики, особенно подверженные копированию контента, а также YMYL-тематики, где идентификация эксперта имеет значение для E-E-A-T.

Когда применяется

  • Предварительные условия: Наличие у автора верифицированного Author Profile и установленного соединения с Content Aggregation System (например, установлен код аналитики).
  • Триггер активации: Генерация автором контролируемого трафика (например, переход по скрытым ссылкам между черновиками контента, содержащего Unique Content ID).
  • Временные рамки: Процесс происходит в реальном времени и, что критически важно, до того, как контент будет обнаружен стандартным Web Crawler.

Пошаговый алгоритм

Процесс верификации авторства (на основе FIGS. 7A-7B):

  1. Подготовка Системы: Автор устанавливает двунаправленную верифицированную связь с Content Aggregation System (CAS). (Например, устанавливает код аналитики на сайт).
  2. Создание Контента: Автор создает оригинальный контент (Черновик А), внедряя в него Unique Content ID и метаданные Author Profile.
  3. Создание Скрытых Связей: Автор создает второй документ (Черновик Б) и устанавливает скрытые гиперссылки (Hidden Links) между Черновиком А и Черновиком Б.
  4. Генерация Контролируемого Трафика: Автор активирует скрытые ссылки, переходя из Черновика А в Б и обратно.
  5. Обнаружение Трафика: CAS обнаруживает этот трафик в реальном времени.
  6. Применение Временной Метки: CAS фиксирует время этой активности (Timestamp). Поскольку доступ к черновикам был только у автора, это фиксирует самое раннее время существования контента.
  7. Кластеризация: Контент с временной меткой, ID и профилем отправляется в Traffic Clustering Engine.
  8. Передача в Индекс: Кластеризованный контент с верифицированным авторством отправляется в Web Index.
  9. Публикация и Сканирование: Автор публикует Черновик А. Web Crawler позже обнаруживает его, но временная метка уже установлена.
  10. Отслеживание: Система отслеживает републикации и строит Referring Chain.

Какие данные и как использует

Данные на входе

  • Технические факторы:
    • Unique Content ID: Встроенный в HTML код страницы (например, код счетчика Google Analytics). Ключевой элемент для отслеживания трафика.
    • Данные о трафике: Информация о переходах по гиперссылкам, рефереры (Referrer), исходящий трафик (outlink traffic).
  • Структурные факторы и Метаданные:
    • Author Profile данные: Связь с профилем автора (упоминается rel=author).
    • Метаданные новостных стандартов: Упоминаются XML-стандарты NewsML и NITF, включая теги ProviderId, DateId, AuthorId.
  • Контентные факторы: Текст контента может использоваться для генерации Content Fingerprint (цифрового отпечатка) или хэша для последующего сопоставления копий.
  • Поведенческие факторы: Это ключевые данные для верификации. Фиксация факта перехода по гиперссылкам (трафик), особенно контролируемого автором.

Какие метрики используются и как они считаются

  • Timestamp (Временная метка): Основная метрика для определения первенства авторства. Присваивается в момент первой фиксации трафика системой CAS.
  • Верификация Контроля: Подтверждение того, что трафик был сгенерирован лицом, контролирующим Unique Content ID и связанным с Author Profile (через доступ к скрытым ссылкам).
  • Метрики для отчетов автору: Патент также описывает использование CAS для анализа распространения контента:
    • Скорость републикации (Rate of growth).
    • Количество просмотров (Viewership) по источникам и географии.
    • Влияние внешних событий на популярность.
  • Методы анализа: Хеширование/Фингерпринтинг текста для идентификации копий. Кластеризация трафика и рефереров для построения Referring Chain.

Выводы

  1. Приоритет скорости над стандартным краулингом: Патент демонстрирует, что Google разработал механизмы для обнаружения контента и верификации авторства быстрее, чем работает стандартный Web Crawler. Использование систем реального времени (веб-аналитики) критично для установления первенства.
  2. Доказательство авторства через контроль (Proof of Control): Ключевая идея патента — доказательство авторства путем демонстрации контроля над контентом до его публикации. Генерация уникального, контролируемого трафика (переходы по скрытым ссылкам) служит таким доказательством.
  3. Веб-аналитика как инструмент индексации: Патент показывает использование инфраструктуры Content Aggregation System (например, Google Analytics) не только для сбора статистики, но и как активного компонента системы обнаружения, верификации и индексации контента.
  4. Инфраструктура для E-E-A-T: Этот патент описывает техническую реализацию для точного связывания контента с конкретным Author Profile, что является фундаментом для оценки Авторитетности в рамках E-E-A-T.
  5. Детальное отслеживание распространения: Система предназначена не только для верификации оригинала, но и для построения Referring Chain, что позволяет детально отслеживать, кто и когда копирует контент.

Практика

Практическое применение в SEO

ВАЖНОЕ ЗАМЕЧАНИЕ: Этот патент (подан в 2013 г.) тесно связан с программой Google Authorship (использование rel=author), которая была прекращена. Поэтому прямые технические рекомендации по реализации описанного механизма (например, создание скрытых ссылок) не актуальны. Однако стратегические выводы остаются важными.

Best practices (это мы делаем)

  • Обеспечение первенства индексации: Патент подчеркивает критическую важность получения самой ранней Timestamp. Необходимо использовать все методы для ускорения индексации нового контента: XML Sitemaps, Indexing API, запросы на индексацию в GSC.
  • Четкая атрибуция авторства (E-E-A-T): Необходимо последовательно связывать контент с его авторами. Хотя rel=author устарел, следует использовать современные методы: разметку schema.org/author (тип Person), ссылки sameAs на авторитетные профили и детальные страницы "Об авторе".
  • Использование Google Analytics: Патент демонстрирует, что Google может рассматривать данные из систем веб-аналитики как сигналы для обнаружения контента и активности на сайте в реальном времени.
  • Корректная синдикация контента: При распространении контента на других площадках необходимо следить за корректной атрибуцией (rel=canonical) и ссылками на оригинал, чтобы помочь поисковым системам правильно построить Referring Chain.

Worst practices (это делать не надо)

  • Плагиат и автоматическое копирование контента: Система направлена на точное определение первоисточника и построение Referring Chain для идентификации копий.
  • Игнорирование скорости индексации: Допущение ситуаций, когда агрегаторы или плагиаторы индексируют контент раньше первоисточника, создает риск потери статуса оригинала.
  • Публикация контента без указания автора: Анонимный контент сложнее верифицировать и связать с сигналами экспертности, что противоречит принципам E-E-A-T.
  • (Неактуально) Создание скрытых ссылок для верификации: Не следует пытаться реализовать технический трюк со скрытыми ссылками, описанный в патенте, так как эта конкретная система, скорее всего, не используется в таком виде.

Стратегическое значение

Патент является важным документом, иллюстрирующим подход Google к решению проблемы идентификации авторов. Он подтверждает, что установление оригинальности контента и его создателя — это долгосрочные приоритеты поисковой системы. Хотя конкретные технологии изменились (отказ от rel=author в пользу сущностей и Knowledge Graph), стратегическое направление осталось прежним. Современные SEO-стратегии должны фокусироваться на E-E-A-T и помощи Google в точной идентификации авторов и первоисточников контента.

Практические примеры

Сценарий: Защита новостного контента от быстрого копирования

Хотя конкретный метод верификации через скрытые ссылки не актуален, стратегия обеспечения первенства (получение ранней Timestamp) остается ключевой.

  1. Ситуация: Новостное издание публикует эксклюзивную статью. Конкуренты часто копируют такие материалы в течение нескольких минут.
  2. Действия (на основе принципов патента):
    • Издание использует систему веб-аналитики (например, GA), код которой (Unique Content ID) установлен на сайте.
    • Статья публикуется с четкой атрибуцией автора (Schema.org).
    • Сразу после публикации инициируется индексация (например, через Indexing API). Даже если API не используется, первое взаимодействие (трафик редакторов, первые читатели) фиксируется системой аналитики.
  3. Работа системы Google (Принцип):
    • Content Aggregation System (GA) фиксирует первый трафик и присваивает ранний Timestamp статье в реальном времени.
    • Когда конкуренты публикуют копии, система обнаруживает их.
    • Traffic Clustering Engine использует Content Matching, чтобы определить, что это один и тот же контент.
  4. Ожидаемый результат: Сравнивая Timestamps, Google идентифицирует оригинальное издание как первоисточник. Оригинал получает приоритет в ранжировании.

Вопросы и ответы

Нужно ли SEO-специалистам рекомендовать авторам создавать скрытые ссылки и переходить по ним, как описано в патенте?

Нет. Описанный механизм верификации через скрытые ссылки выглядит как техническое доказательство концепции (proof of concept), но он слишком сложен и не стал стандартом. В реальной практике этот механизм не используется. Фокусируйтесь на стандартных методах усиления авторства (E-E-A-T) и быстрой индексации.

Как этот патент связан с E-E-A-T?

Он напрямую связан с аспектом Авторитетности (Authoritativeness). Патент описывает техническую инфраструктуру для точной идентификации того, кто создал контент (связь с Author Profile) и когда он это сделал (Timestamp). Верифицированное авторство является сильным сигналом доверия и экспертности, что критично для оценки E-E-A-T.

Означает ли этот патент, что использование Google Analytics улучшает индексацию или ранжирование?

Патент явно описывает использование Unique Content ID (кода системы веб-аналитики) для отслеживания трафика в реальном времени и ускорения попадания информации в Web Index. Это подтверждает, что Google технически способен использовать данные из GA для обнаружения нового контента. Это не гарантирует прямого влияния на ранжирование, но может способствовать более быстрой и точной индексации.

Что важнее для определения первоисточника: данные краулера или временная метка из системы аналитики?

Согласно патенту, временная метка (Timestamp), полученная через Content Aggregation System (аналитику), имеет приоритет, так как она фиксируется в реальном времени и опережает Web Crawler. Цель изобретения – установить самую раннюю дату существования контента, независимо от скорости сканирования.

Как система отличает оригинальный контент от копии, если Unique Content ID сохраняется при републикации?

Патент предлагает два механизма. Во-первых, сравнение временных меток (Timestamp) – у оригинала она будет самой ранней. Во-вторых, использование Referrer and Traffic Clustering Engine, который анализирует трафик и строит Referring Chain, показывающую направление распространения контента от источника к копиям.

Актуален ли этот патент, учитывая, что Google отказался от отображения авторства в выдаче (Google Authorship)?

Да, патент актуален стратегически. Google отказался от визуального отображения авторства на базе rel=author, но не отказался от идеи идентификации авторов. Механизмы, описанные в патенте, направлены на внутренние процессы верификации авторства и первоисточника, которые сейчас используются в рамках E-E-A-T и Knowledge Graph.

Какова роль rel=author в этом патенте?

rel=author упоминается в описании как способ реализации связи между контентом и профилем автора (Author Profile). Эта связь является необходимым компонентом для работы всей системы идентификации, описанной в патенте, хотя сам тег сейчас устарел для отображения в SERP.

Что такое "Content Aggregation System" (CAS) в контексте этого патента?

Судя по описанию функций — отслеживание трафика в реальном времени через уникальный идентификатор, вставленный в HTML страницы, и сбор веб-статистики — это сервис веб-аналитики, такой как Google Analytics.

Что пришло на смену механизмам этого патента в современном поиске?

На смену rel=author и верификации через Google+ пришло использование структурированных данных (Schema.org/Person, author), идентификация сущностей в Knowledge Graph и комплексный анализ сигналов качества. Для быстрой фиксации времени публикации используется Indexing API.

Какой главный практический вывод для SEO-специалиста из этого патента?

Главный вывод — первенство индексации критически важно для защиты контента и подтверждения статуса оригинала. Необходимо использовать все доступные инструменты (Sitemaps, Indexing API, GSC), чтобы Google зафиксировал ваш контент как можно раньше, а также системно работать над связыванием контента с реальными авторами.

Похожие патенты

Как Google может верифицировать авторство контента, перехватывая момент его публикации через браузер пользователя
Google описывает механизм для точной идентификации авторов контента. Система (например, плагин браузера) отслеживает отправку контента через веб-формы (CMS, комментарии), фиксирует личность пользователя и отправленный текст. Затем Google проверяет, появился ли этот текст по указанному адресу, и связывает контент с верифицированным автором.
  • US9521182B1
  • 2016-12-13
  • EEAT и качество

Как Google определяет оригинальность контента для расчета Авторского Ранга (Author Rank) и влияния на ранжирование
Google использует систему для идентификации оригинального контента и повышения авторитета его создателей. Система разбивает документы на фрагменты (content pieces) и отслеживает их первое появление. Авторы (включая домены) ранжируются на основе количества созданного ими оригинального контента и частоты его копирования другими. Ранг автора затем используется для повышения в выдаче документов этого автора, особенно свежих публикаций.
  • US8983970B1
  • 2015-03-17
  • EEAT и качество

  • Свежесть контента

  • SERP

Как Google вычисляет Оценку Оригинальности Сайта (Site Originality Score) для борьбы со скопированным контентом
Google использует систему для количественной оценки оригинальности контента на уровне сайта. Система анализирует, какая доля контента (n-граммы) на сайте впервые появилась именно на нем, основываясь на дате первого сканирования (Crawl Time Stamp). На основе этого соотношения вычисляется Оценка Оригинальности Сайта (Site Originality Score), которая затем используется как фактор ранжирования для продвижения первоисточников и понижения сайтов-копипастеров.
  • US8909628B1
  • 2014-12-09
  • Краулинг

  • EEAT и качество

  • SERP

Как Google обнаруживает неавторизованное использование контента (текст, изображения, видео, аудио), сохраняя конфиденциальность
Система позволяет владельцам контента загружать образцы (текст, изображения, видео, аудио) и проверять, существуют ли совпадения в индексах Google, включая веб-индекс и пользовательские базы данных. Система сообщает о факте наличия совпадения, не раскрывая источник напрямую, и может предоставить зашифрованный идентификатор для дальнейшего расследования.
  • US20080288509A1
  • 2008-11-20
  • Индексация

  • Мультимедиа

Как Google автоматически обнаруживает и удаляет идентификаторы сессий из URL для оптимизации сканирования и предотвращения дублирования
Google использует механизм для автоматического обнаружения идентификаторов сессий в URL-адресах во время сканирования. Система анализирует подстроки, которые выглядят случайными и повторяются в нескольких URL с одного сайта. Эти идентификаторы удаляются для создания «чистых» версий URL. Это позволяет поисковой системе распознавать дублирующийся контент и избегать повторного сканирования одних и тех же страниц, оптимизируя краулинговый бюджет.
  • US7886032B1
  • 2011-02-08
  • Краулинг

  • Техническое SEO

  • Индексация

Популярные патенты

Как Google выбирает Sitelinks, анализируя визуальное расположение и структуру DOM навигационных меню
Google использует механизм для генерации Sitelinks путем рендеринга страницы и анализа DOM-структуры. Система определяет визуальное расположение (координаты X, Y) гиперссылок и группирует их на основе визуальной близости и общих родительских элементов. Sitelinks выбираются исключительно из доминирующей группы (например, главного меню), а ссылки из других групп игнорируются.
  • US9053177B1
  • 2015-06-09
  • SERP

  • Ссылки

  • Структура сайта

Как Google динамически переоценивает значимость факторов ранжирования, основываясь на их надежности в контексте конкретной выдачи
Google использует механизм для повышения качества ранжирования путем анализа надежности (Trustworthiness) различных факторов, влияющих на позицию документа. Если система обнаруживает значительную разницу в надежности сигналов среди результатов поиска, она снижает влияние менее достоверных факторов. Это гарантирует, что документы, получившие высокие оценки за счет ненадежных или легко манипулируемых сигналов, не будут ранжироваться выше документов с более достоверными показателями качества и релевантности.
  • US9623119B1
  • 2017-04-18
  • EEAT и качество

  • Поведенческие сигналы

  • SERP

Как Google использует структурированные данные для отображения прямых ссылок на песни в результатах поиска (Rich Snippets)
Google улучшает результаты поиска музыки, извлекая детали песен (названия, альбомы, продолжительность) из структурированной разметки (например, HTML5 microdata) на веб-страницах. Это позволяет Google отображать прямые ссылки на конкретные песни (вторичные ссылки) внутри основного блока результатов поиска, при условии соблюдения определенных порогов качества и популярности.
  • US9128993B2
  • 2015-09-08
  • Ссылки

  • SERP

  • Индексация

Как Google персонализирует подсказки Autocomplete, анализируя запросы похожих пользователей и обновляя локальный кэш устройства
Google персонализирует подсказки Autocomplete (Search Suggest), анализируя поведение пользователей со схожими профилями (местоположение, интересы, история поиска). Система генерирует кастомизированное обновление для локального кэша устройства на основе запросов, введенных этими похожими пользователями. Это означает, что разные пользователи видят разные подсказки для одного и того же ввода.
  • US8868592B1
  • 2014-10-21
  • Персонализация

  • Поведенческие сигналы

  • Local SEO

Как Google использует механизм «Pull-Push» для валидации ссылок через трафик и время вовлечения (Dwell Time)
Google использует механизм «Pull-Push» для борьбы с искусственными ссылками, анализируя соотношение между количеством ссылок и реальными кликами по ним. Если ссылки не генерируют пропорциональный трафик (с учетом времени вовлечения), они обесцениваются. Сайты, которые систематически ставят такие ссылки, классифицируются как «неквалифицированные источники», и их исходящие ссылки дисконтируются при ранжировании.
  • US9558233B1
  • 2017-01-31
  • Ссылки

  • Поведенческие сигналы

  • Антиспам

Как Google запоминает вопросы без авторитетного ответа и автономно сообщает его позже через Ассистента
Патент Google описывает механизм для обработки запросов, на которые в момент поиска нет качественного или авторитетного ответа. Система запоминает информационную потребность и продолжает мониторинг. Когда появляется информация, удовлетворяющая критериям качества (например, в Knowledge Graph), Google автономно доставляет ответ пользователю, часто встраивая его в следующий диалог с Google Assistant, даже если этот диалог не связан с исходным вопросом.
  • US11238116B2
  • 2022-02-01
  • Knowledge Graph

  • Семантика и интент

  • EEAT и качество

Как Google проактивно уведомляет пользователей об изменении цен или доступности товаров на основе их предполагаемого намерения покупки
Google анализирует действия пользователя (поисковые запросы, посещения сайтов), чтобы выявить намерение в отношении сущностей (например, продуктов или авиабилетов). Если намерение сильное и происходит значительное изменение (падение цены или изменение доступности), Google проактивно отправляет уведомление со ссылками для завершения действия (например, покупки).
  • US20180357238A1
  • 2018-12-13
  • Семантика и интент

  • Поведенческие сигналы

  • Персонализация

Как Google классифицирует запросы как навигационные или исследовательские, чтобы регулировать количество показываемых результатов
Google использует систему для динамического определения количества отображаемых результатов поиска. Система классифицирует запрос как навигационный (поиск конкретного места/ресурса) или исследовательский (поиск вариантов). Классификация основана на анализе компонентов оценки релевантности (совпадение по названию vs. категории) и энтропии исторических кликов. При навигационном интенте количество результатов сокращается.
  • US9015152B1
  • 2015-04-21
  • Семантика и интент

  • Поведенческие сигналы

  • Local SEO

Как Google определяет структурно похожие запросы (sibling queries) для автоматического обучения NLP-моделей
Google использует метод для идентификации "родственных запросов" (sibling queries) — запросов с одинаковой структурой интента, но разными переменными (например, "погода в Москве" и "погода в Париже"). Система сравнивает шаблоны использования этих запросов в логах, основываясь на поведении пользователей, чтобы понять их взаимосвязь без традиционного NLP. Это позволяет автоматически генерировать масштабные наборы данных для обучения ИИ.
  • US11379527B2
  • 2022-07-05
  • Семантика и интент

  • Поведенческие сигналы

Как Google анализирует распределение качества входящих ссылок для классификации и понижения сайтов в выдаче
Google использует систему для оценки качества ссылочного профиля сайта. Система фильтрует входящие ссылки (удаляя шаблонные и дублирующиеся с одного домена), группирует оставшиеся по качеству источника (например, Vital, Good, Bad) и вычисляет взвешенный «Link Quality Score». Если доля низкокачественных ссылок слишком велика, сайт классифицируется как низкокачественный и понижается в результатах поиска.
  • US9002832B1
  • 2015-04-07
  • Ссылки

  • Антиспам

  • SERP

seohardcore