SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google индексирует контент, который не может прочитать, получая метаданные напрямую от сторонних приложений и серверов

THIRD-PARTY INDEXABLE TEXT (Индексируемый текст от третьих сторон)
  • US9262420B1
  • Google LLC
  • 2012-04-23
  • 2016-02-16
  • Индексация
  • Техническое SEO
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Google использует механизм для индексации данных, хранящихся на сторонних серверах или в проприетарных форматах, которые поисковая система не может обработать напрямую. Вместо сканирования исходных данных система получает от третьей стороны готовый для индексации текст или HTML-метаданные, представляющие этот контент. Это позволяет сделать данные доступными для поиска через систему Google, соблюдая при этом контроль доступа и ограничения на размер метаданных.

Описание

Какую проблему решает

Патент решает проблему невозможности индексации данных, которые поисковая система (network system или online storage system) не может получить или обработать напрямую. Это касается данных, хранящихся на сторонних серверах (third-party servers), к которым у системы нет доступа, или данных, сохраненных в проприетарных, бинарных или сложных мультимедийных форматах (упоминаются MPEG, SHOCKWAVE, ZIP), которые стандартные краулеры не могут распарсить. Цель — сделать этот контент доступным для поиска через основную систему.

Что запатентовано

Запатентована система, позволяющая сторонним приложениям предоставлять индексируемое представление своих данных поисковой системе. Если исходные данные недоступны или нечитаемы, третья сторона генерирует indexable metadata (индексируемые метаданные) в виде простого текста или HTML. Эти метаданные передаются в поисковую систему (например, через API), которая индексирует их вместо исходных данных, обеспечивая возможность поиска по контенту третьей стороны.

Как это работает

Механизм работает по принципу push-модели, а не pull (сканирования):

  • Генерация метаданных: Стороннее приложение использует Metadata Converter для преобразования своей сложной или проприетарной модели данных в упрощенное представление (текст или HTML).
  • Передача данных: Эти метаданные отправляются в поисковую систему, например, через API, вместе с информацией о контроле доступа (Access Control Information).
  • Валидация и ограничения: Поисковая система проверяет права доступа и применяет строгое ограничение (threshold amount) на размер принимаемых метаданных (например, 128 КБ или 2 МБ) для предотвращения злоупотреблений.
  • Индексация: Если метаданные приняты, Indexing Utility обрабатывает их и добавляет в индекс системы, делая исходный ресурс доступным для поиска.

Актуальность для SEO

Высокая. Проблема индексации сложного контента, динамических приложений (SPA) и данных внутри закрытых экосистем (например, Google Workspace, Drive, App Indexing) остается крайне актуальной. Патент описывает инфраструктурный механизм, позволяющий Google получать данные, которые невозможно собрать краулерами. Существование таких инструментов, как Indexing API или механизмов пререндеринга, подтверждает актуальность этого подхода.

Важность для SEO

Влияние на SEO умеренное (55/100). Это инфраструктурный патент, который в первую очередь важен для разработчиков приложений, интегрированных в экосистемы Google (Platform SEO и App SEO). Для общего веб-поиска патент ценен тем, что демонстрирует механизм индексации "несканируемого" контента (сложные SPA, проприетарные форматы) через активное предоставление индексируемого представления со стороны владельца контента.

Детальный разбор

Термины и определения

Access Control Information (Информация о контроле доступа)
Данные, определяющие права доступа к ресурсу. Используются для обеспечения того, чтобы только авторизованные пользователи могли найти индексированные метаданные. Часто реализуется через Access Control List (ACL).
Application Programming Interface (API)
Интерфейс, через который стороннее приложение взаимодействует с сетевой системой для передачи индексируемых метаданных.
Indexable Metadata (Индексируемые метаданные)
Данные, предоставляемые третьей стороной, которые представляют собой исходный контент. Могут быть в формате indexable text (простой текст) или indexable html.
Indexing Utility (Утилита индексации)
Компонент сетевой системы, который обрабатывает полученные метаданные и организует их для поиска.
Metadata Converter (Конвертер метаданных)
Компонент на стороне третьего сервера, который преобразует проприетарную модель данных в индексируемый текст или HTML.
Network System / Online Storage System (Сетевая система / Онлайн-хранилище)
Основная платформа (например, Google Search, Google Drive), которая выполняет индексацию и поиск.
Raw Data (Исходные данные)
Контент, хранящийся на стороннем сервере или в проприетарном формате, который сетевая система не может прочитать или получить напрямую.
Third-Party Server/Application (Сторонний сервер/Приложение)
Внешняя система или программа, которая создает и хранит исходные данные и генерирует индексируемые метаданные.
Threshold Amount (Пороговое значение)
Жесткое ограничение на максимальный размер индексируемых метаданных, которые сетевая система примет от третьей стороны для одного ресурса.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной процесс индексации ресурса, хранящегося на стороннем сервере.

  1. Система определяет информацию о контроле доступа (access control information) для ресурса на стороннем сервере.
  2. Система получает от стороннего сервера indexable metadata, описывающие контент ресурса. Уточняется, что сам контент не может быть обработан поисковой функциональностью системы (not searchable).
  3. Ключевой механизм защиты: Система устанавливает пороговое значение (threshold amount) для размера принимаемых метаданных.
  4. Система сравнивает размер полученных метаданных с порогом.
  5. Если размер превышает порог, метаданные отклоняются (reject).
  6. Если метаданные приняты, система обрабатывает их и организует на устройстве хранения так, чтобы они стали доступны для поиска.

Claim 3 (Зависимый от 1): Детализирует требования к контролю доступа в экосистеме приложений.

Система проверяет, что: (i) пользователь находится в списке контроля доступа (ACL) для ресурса, (ii) стороннее приложение находится в ACL для ресурса, и (iii) пользователь установил это стороннее приложение. Это подтверждает фокус патента на платформенных интеграциях.

Claim 9 (Зависимый от 1): Уточняет сценарий применения.

Уточняется, что сторонний сервер управляется стороной, отличной от оператора сетевой системы. Контент ресурса не может быть обработан поисковой системой, потому что он находится в формате, проприетарном (proprietary format) для оператора стороннего сервера.

Claim 13 (Зависимый от 11): Приводит конкретный пример порогового значения.

Объем метаданных, принимаемых от стороннего сервера, ограничен 128 килобайтами данных.

Где и как применяется

Изобретение изменяет стандартный процесс сбора данных и фокусируется на этапе индексации.

CRAWLING – Сканирование и Сбор данных
Этот механизм обходит традиционное сканирование (crawling). Вместо того чтобы краулер пытался получить и распарсить контент (PULL), система использует PUSH-модель сбора данных. Стороннее приложение активно отправляет данные через API.

INDEXING – Индексирование и извлечение признаков
Основное применение патента. Indexing Utility получает indexable metadata. Система не обрабатывает исходные данные (Raw Data). Вместо этого она парсит предоставленный текст или HTML. Если предоставлен HTML, система обращает особое внимание на HTML-теги и индексирует их на основе этих тегов. Метаданные сохраняются и ассоциируются с исходным ресурсом и его Access Control Information (ACLs).

RANKING / RERANKING – Ранжирование / Переранжирование
Индексированные метаданные используются на этих этапах для определения релевантности ресурса поисковым запросам (внутри платформы).

Входные данные:

  • Indexable Metadata (текст или HTML), полученные от третьей стороны через API.
  • Access Control Information (ACLs) для ресурса.

Выходные данные:

  • Индексированное представление стороннего ресурса в базе данных поисковой системы, доступное для поиска авторизованным пользователям.

На что влияет

  • Конкретные типы контента и форматы: Наибольшее влияние оказывается на контент, который традиционно сложно индексировать. Патент явно упоминает мультимедийные форматы (MPEG, SHOCKWAVE), архивы (ZIP), изображения, видео, PDF, документы Word, а также динамический контент, доступный через запросы к базам данных (CGI, Java programs, Active Server pages).
  • Специфические ниши: Экосистемы, где интегрировано множество сторонних приложений (например, Google Workspace/Drive, App Indexing). Также это может касаться индексации сложных веб-приложений (SPA) или контента, который находится за формами авторизации или файрволами.

Когда применяется

Алгоритм применяется при соблюдении следующих условий:

  • Условие необходимости: Когда исходные данные ресурса недоступны для сканирования или не могут быть распарсены поисковой системой (например, из-за проприетарного формата).
  • Триггер активации: Когда сторонняя сторона активно решает сгенерировать и отправить (push) indexable metadata через предоставленный API. Обычно это происходит в момент, когда пользователь сохраняет или обновляет данные в стороннем приложении.
  • Пороговые значения: Применяется строгое ограничение на размер метаданных (Threshold Amount). Если размер превышен, механизм не сработает (данные будут отклонены).

Пошаговый алгоритм

Процесс инициируется третьей стороной и завершается сетевой системой.

  1. Обновление данных (На стороне третьей стороны): Пользователь создает или обновляет данные с помощью стороннего приложения. Данные сохраняются в недоступном формате.
  2. Генерация метаданных (На стороне третьей стороны): Стороннее приложение активирует Metadata Converter для преобразования своей модели данных в упрощенное представление (indexable text или indexable html).
  3. Передача данных (API Call): Стороннее приложение делает вызов API сетевой системы, передавая сгенерированные метаданные и информацию о контроле доступа (ACL).
  4. Валидация доступа (На стороне сетевой системы): Система проверяет права доступа и авторизацию приложения и пользователя для данного ресурса (включая проверку установки приложения пользователем, согласно Claim 3).
  5. Проверка ограничений (На стороне сетевой системы): Система определяет размер полученных метаданных и сравнивает его с установленным пороговым значением (Threshold Amount).
  6. Принятие или Отклонение:
    • Если размер превышен или доступ запрещен: Метаданные отклоняются.
    • Если валидация пройдена: Метаданные принимаются к обработке.
  7. Индексация: Indexing Utility обрабатывает метаданные. Простой текст парсится по словам; HTML парсится с учетом тегов. Старые метаданные могут быть очищены или перезаписаны. Данные добавляются в поисковый индекс.
  8. Поиск (Пользователь): Пользователь выполняет поиск в сетевой системе. Система использует индексированные метаданные для нахождения релевантных сторонних ресурсов, проверяя при этом ACL пользователя.

Какие данные и как использует

Данные на входе

Патент фокусируется на механизме приема и обработки данных, предоставленных извне.

  • Контентные и Мультимедиа факторы: Основным входом являются Indexable Metadata. Это текст или HTML, который представляет собой исходный контент (документы, презентации, изображения, видео и т.д.). Система не получает исходные файлы.
  • Технические факторы: Неявно учитывается формат исходных данных (бинарный, проприетарный, мультимедиа) как причина использования этого механизма.
  • Пользовательские факторы (Безопасность): Критически важными являются Access Control Information (ACLs). Они используются для определения того, кто имеет право видеть этот контент в результатах поиска и какое приложение имеет право обновлять метаданные.

Какие метрики используются и как они считаются

  • Threshold Amount (Пороговый размер): Ключевая метрика патента. Это жесткий лимит на объем данных, принимаемых для индексации от третьей стороны. Патент приводит примеры: 128 килобайт (в Claims), а также 2 МБ, 10 МБ и различные диапазоны (в Description).
    Расчет: Размер полученных метаданных ≤\leq≤ Threshold Amount.
  • Методы анализа текста: Система использует разные парсеры в зависимости от типа метаданных:
    • Простой текст (Plain text): Парсится по словам для индексации.
    • HTML: Парсится как HTML, при этом особое внимание уделяется HTML-тегам, и индексация происходит на основе этих тегов.

Выводы

  1. Механизм индексации "Несканируемого" контента: Патент описывает способ, позволяющий Google индексировать контент, который стандартные краулеры не могут получить (например, данные на внешних серверах) или понять (проприетарные форматы, сложные мультимедиа).
  2. Переход от Pull к Push модели: Вместо сканирования (pull), система полагается на то, что третья сторона активно предоставит (push) индексируемое представление своих данных через API.
  3. Ответственность третьей стороны за качество индекса: Качество, полнота и точность индексации полностью зависят от того, насколько хорошо стороннее приложение генерирует indexable metadata. Google индексирует только то, что ему предоставили.
  4. Жесткие ограничения по размеру (Anti-Abuse): Google вводит строгие лимиты (Threshold Amount, например, 128 КБ - 2 МБ) на размер принимаемых метаданных. Это необходимо для управления хранилищем и предотвращения злоупотреблений (например, спама ключевыми словами).
  5. Интеграция контроля доступа: Безопасность и приватность являются неотъемлемой частью системы. Индексированные данные наследуют права доступа (ACL) исходного ресурса, гарантируя, что приватные данные не станут публичными.
  6. Фокус на экосистемы: Хотя механизм может применяться к веб-поиску концептуально, его описание и требования к доступу (Claim 3) наиболее точно соответствуют работе внутренних экосистем, таких как Google Drive, Workspace или App Indexing.

Практика

Best practices (это мы делаем)

Примечание: Практики разделены на прямое применение (App/Platform SEO) и концептуальное применение для Web SEO.

Для App/Platform SEO (Google Drive, App Indexing):

  • Активно использовать API индексации: Необходимо передавать Indexable Metadata для обеспечения видимости контента приложения в поиске платформы.
  • Использовать HTML для структурирования: Следует использовать HTML вместо простого текста, применяя семантические теги. Патент указывает, что HTML-теги учитываются при индексации.
  • Оптимизировать метаданные под лимиты: Генерировать краткое и емкое представление контента, укладываясь в Threshold Amount (например, 128 КБ - 2 МБ).

Для Web SEO (Концептуальное применение):

  • Обеспечение индексируемого представления для сложного контента: Если контент сайта скрыт в сложных JavaScript-приложениях (SPA), видео или интерактивных элементах, необходимо предоставлять поисковой системе четкое, индексируемое текстовое или HTML-представление. Это подтверждает важность таких техник, как пререндеринг, динамический рендеринг или использование Indexing API.
  • Управление метаданными для медиаконтента: Для видео и аудио необходимо активно управлять метаданными (схемы разметки, субтитры, транскрипции), которые служат тем самым indexable text, описанным в патенте.

Worst practices (это делать не надо)

  • Изоляция контента в несканируемых форматах (Web SEO): Полагаться на то, что Google сможет проиндексировать контент внутри проприетарных форматов или плохо реализованных SPA без предоставления альтернативного представления.
  • Превышение лимитов объема (App/Platform SEO): Попытка передать слишком большой объем данных через API. Система имеет жесткие пороги (Threshold Amount) и отклонит данные.
  • Игнорирование обновлений (App/Platform SEO): Сохранение устаревших метаданных после изменения исходного файла. Необходимо своевременно обновлять данные в индексе через API.

Стратегическое значение

Патент подтверждает стремление Google индексировать контент за пределами стандартного HTML и подчеркивает ограничения стандартного краулинга. Для SEO-специалистов это сигнал о том, что индексация современных сложных веб-приложений и контента внутри платформ требует активного участия разработчиков. Стратегия индексации смещается от пассивного ожидания краулера к активному управлению тем, как контент представляется поисковой системе (через рендеринг или API).

Практические примеры

Сценарий 1: Индексация приложения в Google Workspace (Прямое применение, Platform SEO)

  1. Приложение: Сторонний инструмент для создания диаграмм (например, Miro, Lucidchart), интегрированный с Google Drive.
  2. Проблема: Диаграммы хранятся в проприетарном векторном формате, который Google Drive не может прочитать.
  3. Применение патента: Когда пользователь сохраняет диаграмму, инструмент генерирует текстовое резюме (названия блоков, текст внутри диаграммы, заголовок).
  4. Передача: Инструмент отправляет этот текст как indexable metadata в Google Drive через API. Размер резюме 5 КБ (ниже порога).
  5. Результат: Google Drive индексирует текст. Пользователь может найти эту диаграмму в поиске Drive, введя слова, которые использовались внутри диаграммы.

Сценарий 2: Индексация сложного SPA (Косвенное применение принципов, Web SEO)

  1. Сайт: Сложное E-commerce приложение, построенное как Single Page Application (SPA).
  2. Проблема: Googlebot испытывает трудности с рендерингом и индексацией контента, генерируемого JavaScript.
  3. Применение принципов: Разработчики настраивают динамический рендеринг.
  4. Генерация представления: Когда Googlebot запрашивает страницу, сервер генерирует статический HTML-снапшот страницы (выступает в роли indexable html).
  5. Результат: Googlebot получает и индексирует HTML-снапшот, что позволяет сайту ранжироваться в поиске, даже если исходное JS-приложение сложно для прямого анализа.

Вопросы и ответы

Означает ли этот патент, что Google больше не сканирует сайты, а ждет, пока они отправят ему данные?

Нет. Стандартное сканирование (crawling) остается основным методом для веб-поиска. Этот патент описывает альтернативный механизм (PUSH-модель), предназначенный специально для контента, который невозможно просканировать — например, данные внутри интегрированных приложений (как в Google Drive) или контент в проприетарных форматах.

Насколько важны ограничения по размеру (Threshold Amount) и какие они?

Ограничения критически важны для предотвращения злоупотреблений и перегрузки системы. Если предоставляемые метаданные превышают порог, они будут полностью отклонены. Патент упоминает различные лимиты: 128 килобайт (указано в Claims), а также 2 МБ, 10 МБ и различные диапазоны (указано в Description).

Как этот патент связан с индексацией Single Page Applications (SPA)?

Патент напрямую связан с проблемой индексации сложного контента. SPA часто представляют собой сложную модель данных, которую краулеру трудно интерпретировать. Техники вроде пререндеринга или динамического рендеринга по сути реализуют идею патента: они создают indexable html (статический снапшот) из сложного приложения и предоставляют его поисковой системе для индексации.

Кто отвечает за генерацию этого индексируемого текста?

Ответственность полностью лежит на третьей стороне (Third-Party Application). Именно стороннее приложение должно преобразовать свои данные в текст или HTML. Качество этой генерации напрямую влияет на то, как контент будет находиться в поиске.

Может ли этот механизм использоваться для спама или клоакинга?

Теоретически, третья сторона может попытаться включить в indexable metadata нерелевантный контент. Однако патент предусматривает защиту: жесткие ограничения на размер (Threshold Amount) значительно усложняют массовый спам ключевыми словами. Также Google может применять стандартные антиспам-алгоритмы к индексированному тексту.

Что лучше предоставлять: простой текст или HTML?

HTML предпочтительнее. Патент четко указывает, что простой текст парсится "по словам", а HTML парсится с "особым вниманием к HTML-тегам" и индексируется на основе этих тегов. Это подчеркивает важность использования семантической разметки для лучшего понимания структуры контента.

Применяется ли этот патент к стандартному веб-поиску (google.com) или только к системам вроде Google Drive?

Текст патента и требования к доступу (например, необходимость установки приложения пользователем) в основном описывают сценарии использования в рамках Online Storage System (Google Drive/Workspace) или App Indexing. Однако описанные принципы применимы концептуально к любой ситуации, где Google нужно проиндексировать нечитаемый контент.

Что происходит с метаданными, если исходный контент обновляется?

Патент описывает механизм обновления. Когда данные изменяются, третья сторона должна сгенерировать и отправить новые indexable metadata. В некоторых реализациях система может автоматически очищать старые метаданные при изменении контента, чтобы предотвратить хранение устаревшего текста (stale indexable text).

Как обеспечивается приватность данных, если они индексируются Google?

Приватность обеспечивается за счет интеграции информации о контроле доступа (Access Control Information или ACL). Метаданные наследуют права доступа исходного ресурса. Даже если данные проиндексированы, они появятся в результатах поиска только у тех пользователей, которые авторизованы для доступа к исходному ресурсу.

Как SEO-специалисту использовать этот патент при работе с медиаконтентом (видео, аудио)?

Медиаконтент является примером данных, которые сложно индексировать напрямую. Этот патент подтверждает, что для успешной индексации необходимо предоставить текстовое представление. На практике это означает необходимость использования транскрипций, субтитров, структурированных данных (Schema.org), которые выступают в роли indexable metadata для медиафайлов.

Похожие патенты

Как Google использует контекст внешних страниц для понимания и идентификации видео и аудио контента
Google анализирует внешние веб-страницы, которые ссылаются на медиафайлы или встраивают их (например, видео YouTube). Система извлекает метаданные из контекста этих страниц — заголовков, окружающего текста, URL. Надежность данных проверяется частотой их повторения на разных сайтах. Эта информация используется для улучшения понимания содержания медиафайла и повышения эффективности систем идентификации контента (Content ID).
  • US10318543B1
  • 2019-06-11
  • Ссылки

  • Индексация

  • Мультимедиа

Как Google позволяет использовать приватные структурированные данные для управления ранжированием в кастомном поиске
Патент описывает механизм, позволяющий владельцам сайтов загружать приватные структурированные данные, недоступные при обычном сканировании. Доступ к этим данным защищен ключом (API key). Авторизованные системы (например, Google Custom Search Engine или вертикальные поиски) могут использовать эти данные для фильтрации, сортировки и изменения ранжирования результатов поиска, не раскрывая их публично.
  • US20150113019A1
  • 2015-04-23
  • SERP

Как Google использует HTTP-заголовки для извлечения и индексации метаданных из не-HTML документов (PDF, DOC и т.д.)
Google использует механизм для индексации метаданных файлов, не являющихся HTML (например, PDF, Word, Excel). Во время сканирования метаданные (автор, тема, заголовок) могут передаваться от веб-сервера через специальный HTTP-заголовок. Поисковая система извлекает эти данные, преобразует их в виртуальные META-теги и использует для индексации, улучшая понимание этих форматов.
  • US9582588B2
  • 2017-02-28
  • Индексация

  • Краулинг

  • Техническое SEO

Как Google использует пользовательские аннотации, метаданные и социальные сигналы для переранжирования результатов поиска
Система перехватывает результаты поиска и проверяет их по реестру, содержащему пользовательские аннотации, метаданные и социальные связи. Затем результаты переупорядочиваются на основе релевантности, которая частично определяется этими аннотациями и метаданными. Пользователям предоставляются инструменты для добавления новых аннотаций, которые влияют на будущие результаты поиска.
  • US20110153599A1
  • 2011-06-23
  • SERP

  • EEAT и качество

Как Google обнаруживает неавторизованное использование контента (текст, изображения, видео, аудио), сохраняя конфиденциальность
Система позволяет владельцам контента загружать образцы (текст, изображения, видео, аудио) и проверять, существуют ли совпадения в индексах Google, включая веб-индекс и пользовательские базы данных. Система сообщает о факте наличия совпадения, не раскрывая источник напрямую, и может предоставить зашифрованный идентификатор для дальнейшего расследования.
  • US20080288509A1
  • 2008-11-20
  • Индексация

  • Мультимедиа

Популярные патенты

Как Google использует механизм «Pull-Push» для валидации ссылок через трафик и время вовлечения (Dwell Time)
Google использует механизм «Pull-Push» для борьбы с искусственными ссылками, анализируя соотношение между количеством ссылок и реальными кликами по ним. Если ссылки не генерируют пропорциональный трафик (с учетом времени вовлечения), они обесцениваются. Сайты, которые систематически ставят такие ссылки, классифицируются как «неквалифицированные источники», и их исходящие ссылки дисконтируются при ранжировании.
  • US9558233B1
  • 2017-01-31
  • Ссылки

  • Поведенческие сигналы

  • Антиспам

Как Google снижает влияние ссылок с аффилированных сайтов и PBN для борьбы с манипуляциями в ранжировании
Патент Google описывает систему ранжирования, которая идентифицирует группы сайтов под общим контролем (аффилированные узлы или PBN). Система резко снижает вес ссылок внутри такой группы и ограничивает общее влияние группы на другие сайты, учитывая только одну, самую сильную ссылку от всей группы. Также описывается механизм "Доверенных авторитетов", чьи ссылки передают максимальный вес независимо от количества исходящих ссылок.
  • US8719276B1
  • 2014-05-06
  • Антиспам

  • Ссылки

  • Техническое SEO

Как Google использует свой индекс для автоматического обновления устаревших ссылок в закладках, истории поиска и на веб-страницах
Система Google поддерживает актуальность различных коллекций URL (закладки пользователей, история поиска, электронные письма), используя основной поисковый индекс как эталон канонических адресов. Если сохраненный URL устарел, система автоматически заменяет его на актуальную версию. Также описан механизм уведомления владельцев сайтов о неработающих исходящих ссылках.
  • US20130144836A1
  • 2013-06-06
  • Ссылки

  • Индексация

  • Техническое SEO

Как Google использует структуру сайта и анкорные тексты для извлечения Сущностей из шумных заголовков (Title)
Google использует метод для точного определения основного объекта (Сущности) веб-страницы, когда заголовок (Title) содержит лишнюю информацию (брендинг, рубрики). Система анализирует заголовки похожих страниц на том же сайте (Peer Documents) и анкорные тексты, ссылающиеся на них. Выявляя повторяющиеся шаблоны (префиксы и суффиксы) в заголовках, Google отделяет название Сущности от шума.
  • US7590628B2
  • 2009-09-15
  • Семантика и интент

  • Структура сайта

  • Ссылки

Как Google генерирует блок "Похожие вопросы" (People Also Ask) на основе анализа кликов и поведения пользователей
Google анализирует топовые результаты по исходному запросу и определяет "Тематические запросы" (Topic Sets) — прошлые запросы, по которым пользователи кликали на эти результаты. Затем система ищет популярные вопросы, соответствующие этим темам, фильтрует дубликаты на основе общности кликов и показывает их в блоке PAA для дальнейшего исследования темы.
  • US9213748B1
  • 2015-12-15
  • SERP

  • Семантика и интент

  • Поведенческие сигналы

Как Google использует данные о поведении пользователей по похожим запросам для ранжирования новых или редких запросов
Google использует механизм для улучшения ранжирования запросов, по которым недостаточно данных о поведении пользователей (например, кликов). Система находит исторические запросы, семантически похожие на исходный, и «заимствует» их поведенческие данные. Степень сходства рассчитывается с учетом важности терминов, синонимов и порядка слов. Эти заимствованные данные используются для корректировки рейтинга документов по исходному запросу.
  • US9009146B1
  • 2015-04-14
  • Поведенческие сигналы

  • Семантика и интент

  • SERP

Как Google использует историю поиска и браузинга для персонализации выдачи и определения предпочтений пользователя
Google записывает и анализирует историю действий пользователя: запросы, клики по результатам и рекламе, посещенные страницы. Система группирует связанные действия в сессии, определяет "Предпочитаемые локации" на основе частоты и времени визитов (stay-time), и использует эту историю для изменения порядка ранжирования, повышая позиции ранее посещенных сайтов в персональной выдаче.
  • US20060224583A1
  • 2006-10-05
  • Персонализация

  • Поведенческие сигналы

Как Google использует вовлеченность пользователей на связанных страницах (Reachability Score) для ранжирования основного документа
Google рассчитывает «Оценку Достижимости» (Reachability Score), анализируя, как пользователи взаимодействуют со страницами, на которые ссылается основной документ (внутренние и исходящие ссылки). Если пользователи активно переходят по этим ссылкам (высокий CTR) и проводят время на целевых страницах (высокое время доступа), основной документ получает повышение в ранжировании. Этот механизм измеряет потенциальную глубину и качество пользовательской сессии.
  • US8307005B1
  • 2012-11-06
  • Поведенческие сигналы

  • Ссылки

  • SERP

Как Google генерирует «синтетический анкорный текст», анализируя структуру и контекст ссылающихся страниц
Google анализирует структурно похожие страницы, ссылающиеся на различные ресурсы. Определяя, где известные поисковые запросы (Seed Queries) появляются в структуре этих ссылающихся страниц (например, в заголовках или Title), Google создает шаблоны. Эти шаблоны затем используются для извлечения текста из аналогичных мест на других страницах, создавая «синтетический описательный текст» (аналог анкорного текста) для целевых ресурсов. Это улучшает ранжирование, даже если фактический анкорный текст низкого качества.
  • US9208232B1
  • 2015-12-08
  • Ссылки

  • Структура сайта

  • Семантика и интент

Как Google определяет ключевую тематику зданий и адресов, используя клики пользователей для показа релевантной рекламы
Google использует этот механизм для понимания основного назначения физического местоположения (адреса или здания). Система анализирует все бизнесы в этой локации и определяет, какие поисковые запросы чаще всего приводят к кликам по их листингам. Самый популярный запрос используется как доминирующее ключевое слово для выбора релевантной рекламы, когда пользователи ищут этот адрес или взаимодействуют с ним на Картах или в Street View.
  • US20120278171A1
  • 2012-11-01
  • Local SEO

  • Семантика и интент

  • Поведенческие сигналы

seohardcore