SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google использует спецификации от издателей для обработки, индексирования и показа цифровых книг (Google Books)

PROCESSING DIGITALLY HOSTED VOLUMES (Обработка цифрово размещенных томов)
  • US8447748B2
  • Google LLC
  • 2008-07-11
  • 2013-05-21
  • Индексация
  • Техническое SEO
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Этот патент описывает инфраструктуру Google для приема оцифрованных книг и журналов. Он определяет «Спецификацию контента» (XML-файл), предоставляемую издателями, которая содержит метаданные, структуру тома и явные инструкции по индексированию (например, гранулярность на уровне страниц или глав). Это позволяет Google точно обрабатывать контент, не полагаясь на эвристический анализ.

Описание

Какую проблему решает

Патент решает проблему сложности и низкой точности автоматического определения семантической структуры и метаданных оцифрованных томов (книг, журналов). Использование эвристик или машинного обучения для определения того, является ли отсканированная страница оглавлением, индексом, началом главы или рекламой, часто приводит к ошибкам. Это ухудшает качество индексации, поиска и отображения контента пользователю.

Что запатентовано

Запатентована система и метод обработки цифровых томов с использованием Content Specification (Спецификации контента), предоставляемой владельцем контента (издателем). Эта спецификация (например, XML-файл) явно определяет структуру тома, его метаданные (ISBN, автор), расположение файлов контента и содержит инструкции по индексированию и отображению. Это позволяет поисковой системе получать достоверную информацию напрямую от источника, минуя эвристический анализ.

Как это работает

Система (Volume Server) получает или сканирует Content Specification от поставщика контента. На основе этой спецификации система определяет, где находятся файлы тома (например, по URL в Structural Tags), и загружает их. Затем она собирает том в правильной последовательности, извлекает метаданные (из Metadata Tags или внешних ONIX-фидов) и выполняет оптическое распознавание текста (OCR). Наконец, контент индексируется в соответствии с инструкциями в Indexing Tags, в частности, с указанной гранулярностью (на уровне страницы, главы или тома).

Актуальность для SEO

Высокая для систем агрегации контента, таких как Google Books или Google Scholar. Принципы приема структурированных фидов данных (XML, ONIX) от поставщиков контента остаются фундаментальными для управления большими цифровыми библиотеками и обеспечения точности метаданных и структуры.

Важность для SEO

Влияние на общие стратегии веб-SEO низкое (3/10). Патент описывает инфраструктуру приема и обработки данных для специализированных цифровых библиотек, а не алгоритмы ранжирования веб-страниц. Однако он критически важен для издателей и авторов, размещающих контент на платформах типа Google Books, подчеркивая необходимость предоставления точных структурированных данных для корректной индексации и отображения их произведений.

Детальный разбор

Термины и определения

Content Provider (Поставщик контента)
Организация (например, издатель или библиотека), которая предоставляет цифровой контент и спецификации для включения в цифровую библиотеку.
Content Specification (Спецификация контента)
Структурированный файл (например, XML), предоставляемый поставщиком контента. Описывает один или несколько цифровых томов, включая их структуру, метаданные, расположение файлов и инструкции по обработке.
Display Tags (Теги отображения)
Теги в спецификации, определяющие параметры отображения тома пользователям, например, макет или ограничения на просмотр страниц.
Granularity Level (Уровень гранулярности)
Уровень детализации индексации. Определяется в Indexing Tags. Может быть на уровне страницы (page level), главы (chapter level) или всего тома (volume level).
Indexing Tags (Теги индексирования)
Теги в спецификации, предоставляющие инструкции для индексации контента, в частности, определяющие Granularity Level.
Metadata Tags (Теги метаданных)
Теги в спецификации, определяющие описательную информацию о томе (ISBN, название, автор, синопсис) или ссылающиеся на внешние источники метаданных (например, ONIX).
ONIX (Online Information Exchange)
Стандарт в книгоиздательской индустрии для обмена информацией о книгах. Спецификация может ссылаться на ONIX-фид.
Partner Tags (Партнерские теги)
Теги для поставщиков контента, участвующих в партнерской программе. Определяют кастомизацию отображения, настройки рекламы, права доступа (permissions), географические ограничения и видимость в различных типах поиска.
Structural Tags (Структурные теги)
Теги в спецификации, определяющие структуру тома. Включают расположение (URL) файлов контента, порядковые номера (sequence number) для сборки тома и семантическую информацию о частях контента (например, «обложка», «оглавление», «глава 1»).
Volume (Том)
Цифровое представление человекочитаемого контента, например, оцифрованная книга или журнал.
Volume Server (Сервер томов)
Система, которая принимает, обрабатывает, индексирует и хранит цифровые тома, а также предоставляет к ним доступ пользователям.

Ключевые утверждения (Анализ Claims)

Патент содержит несколько независимых пунктов (1, 8, 13, 18), описывающих изобретение как метод, систему, программный продукт и структуру данных. Ядро изобретения сосредоточено на использовании спецификации контента с явными инструкциями по индексированию.

Claim 1, 8, 13 (Система, Метод, Продукт): Описывают процесс включения цифрового тома в библиотеку.

  1. Система получает Content Specification для цифрового тома, содержащего текстовые данные.
  2. Спецификация включает элементы языка разметки и теги:
    • Structural tag, указывающий расположение (location) хотя бы части контента тома.
    • Metadata tag, описывающий том.
    • Indexing tag, определяющий уровень гранулярности (granularity level) для индексации контента.
  3. Модуль контента получает контент тома, используя расположение, указанное в Structural tag.
  4. Модуль индексирования индексирует текстовые данные полученного контента на уровне гранулярности, указанном в Indexing tag.

Ключевым элементом здесь является не просто использование метаданных или структуры, а явное указание инструкций по индексированию (гранулярности) в самой спецификации.

Claim 18 (Структура данных): Описывает саму Content Specification как структуру данных на носителе.

  1. Структура содержит элементы языка разметки и теги.
  2. Теги включают:
    • Structural tag с расположением контента, используемым для его получения.
    • Metadata tag, описывающий том.
    • Indexing tag, содержащий инструкции по индексированию текстовых данных, включая указание granularity level.

Зависимые пункты (например, 3, 15, 20): Добавляют детали, такие как использование информации о последовательности (sequencing information или sequence number) для сборки тома из отдельных частей контента.

Зависимые пункты (например, 4, 16): Уточняют, что индексирование включает извлечение текста из контента (например, через OCR).

Где и как применяется

Изобретение описывает инфраструктуру для приема и обработки контента в специализированных цифровых библиотеках, таких как Google Books. Оно не применяется к стандартному веб-поиску.

CRAWLING – Сканирование и Сбор данных
Crawling Module (Модуль сканирования) обнаруживает и извлекает Content Specification у поставщика контента. Затем Content Module (Модуль контента) использует Structural Tags из спецификации для извлечения фактических файлов контента (изображений, PDF) по указанным ссылкам (URL).

INDEXING – Индексирование и извлечение признаков
Это основной этап применения патента. Система обрабатывает спецификацию для извлечения данных:

  • Metadata Module извлекает метаданные из Metadata Tags и внешних источников (ONIX).
  • Partner Module обрабатывает Partner Tags для определения правил доступа и отображения.
  • Content Module и Processing Module собирают том на основе информации о последовательности в Structural Tags, выполняют OCR и конвертируют форматы.
  • Indexing Module индексирует извлеченный текст и метаданные, строго следуя инструкциям в Indexing Tags, в частности, применяя указанную гранулярность (страница, глава, том).

RANKING / (Presentation)
Presentation Module (Модуль представления) использует созданный индекс для поиска релевантного контента в ответ на запросы пользователей. При отображении результатов модуль применяет правила, извлеченные из Partner Tags и Display Tags (например, ограничения просмотра).

Входные данные:

  • Content Specification (XML-файл).
  • Файлы контента тома (TIFF, JPEG, PDF, HTML, Text), расположенные по URL из спецификации.
  • Внешние фиды метаданных (например, ONIX).

Выходные данные:

  • Собранный и обработанный цифровой том.
  • Извлеченные метаданные и правила доступа.
  • Поисковый индекс с заданной гранулярностью.

На что влияет

  • Конкретные типы контента: Влияет исключительно на оцифрованные тома (книги, журналы, научные работы), предоставляемые через специализированные системы агрегации. Не влияет на обычные веб-страницы, товары или локальные листинги.
  • Специфические запросы: Влияет на результаты поиска внутри цифровой библиотеки (например, Google Books). Partner Tags могут также определять, будет ли том доступен через общий веб-поиск.

Когда применяется

  • Условия работы: Алгоритм применяется, когда поставщик контента (издатель) предоставляет Content Specification для одного или нескольких цифровых томов для включения в цифровую библиотеку.
  • Триггеры активации: Обнаружение новой или обновленной Content Specification модулем сканирования или ее прямая загрузка поставщиком контента.

Пошаговый алгоритм

Процесс обработки цифрового тома на Volume Server:

  1. Получение спецификации: Система получает Content Specification от поставщика контента.
  2. Парсинг и извлечение данных: Система анализирует спецификацию.
    • Partner Module определяет идентификатор партнера и извлекает партнерские правила из Partner Tags.
    • Metadata Module извлекает метаданные из Metadata Tags и может запрашивать дополнительные данные из внешних ONIX-фидов или баз данных по ISBN.
    • Извлекаются инструкции по индексированию из Indexing Tags (гранулярность).
  3. Определение структуры и получение контента: Content Module использует Structural Tags для определения структуры тома и извлечения файлов контента по указанным URL.
  4. Обработка и анализ контента: Processing Module собирает файлы контента в единый том на основе информации о последовательности (sequence number). Выполняется OCR для извлечения текста и, при необходимости, конвертация форматов.
  5. Индексирование тома: Indexing Module индексирует обработанный контент (текст) и метаданные. Индексация выполняется с учетом заданного Granularity Level (страница, глава, том).
  6. Хранение: Обработанный контент, структура, метаданные, партнерские правила и индекс сохраняются в Volume Storage (Хранилище томов) для последующего доступа через Presentation Module.

Какие данные и как использует

Данные на входе

Система использует данные, явно указанные в Content Specification или извлеченные из файлов, на которые она ссылается.

  • Контентные факторы: Текст, извлеченный посредством OCR из файлов контента тома (изображения, PDF) или полученный из текстовых файлов.
  • Технические факторы: URL файлов контента, форматы файлов (TIFF, JPEG, PDF, HTML, Text), дата последней модификации файлов (упоминается в примере XML).
  • Структурные факторы: Порядковые номера (sequence number) для сборки тома, имена страниц, семантические типы ресурсов (например, frontcover, page, table of contents), указанные в Structural Tags.
  • Метаданные (внешние и внутренние): ISBN, ссылки на ONIX-фиды, название, автор, издатель, синопсис, указанные в Metadata Tags.
  • Факторы доступа и отображения: Разрешения на просмотр, максимальный процент просмотра, географические ограничения, настройки рекламы, исключение страниц из поиска (например, тег <bm:excludeFromSearch> в примере XML) – все это извлекается из Partner Tags и Display Tags.

Какие метрики используются и как они считаются

Патент не описывает метрики ранжирования. Он фокусируется на параметрах обработки и индексирования.

  • Granularity Level (Уровень гранулярности): Ключевая инструкция из Indexing Tags. Определяет единицу индексации: страница, глава или том.
  • Semantic Type (Семантический тип): Классификация частей контента (оглавление, индекс и т.д.), указанная в Structural Tags. Может использоваться для придания разного веса при индексировании.
  • Permissions (Разрешения): Бинарные или числовые правила из Partner Tags, определяющие доступность контента для пользователей.

Выводы

  1. Инфраструктура для специализированного контента: Патент описывает инфраструктурное решение для управления цифровыми библиотеками (например, Google Books), а не алгоритм ранжирования для веб-поиска. Он определяет протокол взаимодействия между издателями и платформой.
  2. Предпочтение структурированных данных: Для сложного контента, такого как книги, Google предпочитает получать точные структурные и семантические данные напрямую от поставщика контента, а не пытаться определить их алгоритмически (эвристически). Это минимизирует ошибки обработки.
  3. Точный контроль над индексацией (Гранулярность): Ключевой особенностью является возможность издателя указывать гранулярность индексации через Indexing Tags. Это позволяет оптимизировать поиск для разных типов изданий (например, индексировать кулинарные книги на уровне страниц/рецептов, а учебники — на уровне глав).
  4. Управление отображением и доступом: Partner Tags предоставляют издателям детальный контроль над тем, как, где и кому показывается их контент, включая монетизацию (рекламу) и защиту авторских прав (ограничения просмотра).
  5. Минимальная релевантность для стандартного SEO: Для специалистов, занимающихся продвижением обычных веб-сайтов, этот патент не дает прямых практических рекомендаций по ранжированию. Он важен для понимания процессов агрегации контента в специализированных вертикалях Google.

Практика

Best practices (это мы делаем)

Эти рекомендации применимы в первую очередь к издателям и авторам, которые предоставляют контент для цифровых библиотек, использующих описанную систему (например, Google Books).

  • Предоставлять полные и точные спецификации: Обеспечить, чтобы Content Specification была валидной, содержала корректные ссылки на файлы контента и точную структурную информацию (последовательность страниц, обозначение оглавления и т.д.).
  • Использовать стандартные метаданные: Максимально использовать Metadata Tags, предоставляя ISBN и ссылки на полные ONIX-фиды. Это обеспечивает корректную идентификацию и классификацию тома.
  • Выбирать оптимальную гранулярность индексации: Использовать Indexing Tags для определения правильного Granularity Level. Если важно, чтобы пользователи могли находить отдельные статьи или рецепты, следует выбирать гранулярность на уровне страницы. Если том представляет собой единое повествование, лучше индексировать на уровне главы или тома.
  • Управлять доступом через партнерские теги: Активно использовать Partner Tags для определения бизнес-правил: настройки рекламы, географические ограничения и процент контента, доступный для предварительного просмотра.

Worst practices (это делать не надо)

  • Предоставлять неполные данные: Отсутствие ключевых метаданных (ISBN) или структурной информации затруднит обработку и снизит видимость книги в поиске.
  • Ошибки в структурных тегах: Неправильные URL или неверная последовательность страниц (sequence number) приведут к ошибкам сборки тома или невозможности его отображения.
  • Игнорирование инструкций по индексированию: Неправильный выбор гранулярности может сделать контент неудобным для поиска (например, если целая книга индексируется как один блок текста, или если роман индексируется постранично, теряя контекст главы).

Стратегическое значение

Патент подчеркивает важность стандартизированных протоколов обмена данными для агрегации контента в больших масштабах. Успех контента на специализированных платформах (Google Books, Google Scholar) напрямую зависит от качества и полноты данных, предоставляемых издателем через эти протоколы. Для SEO-стратегии это подтверждает тренд на использование структурированных данных (аналогично Schema.org для веб-поиска или фидам для Google Merchant Center) для обеспечения корректной интерпретации контента поисковыми системами.

Практические примеры

Сценарий 1: Индексирование кулинарной книги

  1. Задача: Издатель хочет, чтобы пользователи могли находить отдельные рецепты в кулинарной книге.
  2. Действие: В Content Specification издатель использует Indexing Tags, чтобы указать Granularity Level на уровне страницы (page level), так как каждый рецепт занимает одну страницу.
  3. Результат: Volume Server индексирует каждую страницу отдельно. Поиск по запросу «рецепт яблочного пирога» точно приведет пользователя на соответствующую страницу книги, а не просто на книгу в целом.

Сценарий 2: Управление доступом к новому роману

  1. Задача: Издатель хочет предоставить предварительный просмотр романа, но ограничить доступ к полному тексту для стимулирования продаж.
  2. Действие: В Content Specification издатель использует Partner Tags, чтобы установить максимальный процент просмотра (например, 15%) и указать ссылку на свой веб-сайт для покупки полной версии. Также могут быть использованы теги для исключения финальной главы из предпросмотра.
  3. Результат: Presentation Module отображает книгу пользователям, но блокирует доступ после достижения лимита в 15% и показывает ссылку для покупки.

Вопросы и ответы

Описывает ли этот патент, как Google ранжирует сайты в обычном поиске?

Нет. Этот патент описывает инфраструктуру и протокол для приема, обработки и индексирования оцифрованных томов (книг, журналов) в специализированных цифровых библиотеках, таких как Google Books. Он не имеет отношения к алгоритмам ранжирования обычных веб-страниц.

Что такое «Content Specification» и зачем она нужна?

Content Specification — это структурированный файл (обычно XML), который издатель предоставляет Google. Он содержит метаданные книги, ссылки на файлы контента, описание структуры (порядок страниц, оглавление) и инструкции по обработке. Она нужна, чтобы Google мог точно собрать и проиндексировать книгу, не полагаясь на алгоритмическое угадывание структуры, которое часто ошибается.

Что такое гранулярность индексирования (Granularity Level), упоминаемая в патенте?

Гранулярность определяет, какие части книги будут индексироваться как отдельные единицы. Издатель может указать индексирование на уровне страницы, главы или всего тома. Например, для кулинарной книги полезна гранулярность на уровне страницы, чтобы можно было найти отдельный рецепт; для учебника — на уровне главы.

Как этот патент помогает бороться с ошибками при обработке книг?

Он устраняет необходимость использования эвристик для определения семантической информации. Вместо того чтобы алгоритм пытался угадать, где находится оглавление или начинается глава, издатель явно указывает это в Structural Tags спецификации. Это значительно повышает точность обработки и индексации.

Что такое «Partner Tags» и кто может их использовать?

Partner Tags используются поставщиками контента (издателями), у которых есть партнерское соглашение с платформой. Эти теги позволяют детально настроить отображение книги: указать правила доступа, ограничения на просмотр (permissions), географические ограничения, настройки рекламы и ссылки на сайт издателя.

Использует ли система внешние данные для обработки книг?

Да. Metadata Tags могут содержать ISBN или ссылки на внешние ONIX-фиды (стандарт книжной индустрии). Система может использовать эти идентификаторы для получения дополнительных метаданных о книге из внешних баз данных или из самого фида.

Что происходит с файлами контента после получения спецификации?

Система использует URL, указанные в Structural Tags, чтобы скачать файлы контента (изображения страниц, PDF). Затем она собирает их в правильной последовательности, выполняет оптическое распознавание текста (OCR), если это необходимо, и конвертирует в формат, пригодный для хранения и индексирования.

Может ли издатель исключить определенные страницы из поиска?

Да. В патенте упоминается возможность использования тегов (например, в примере XML показан тег <bm:excludeFromSearch>, относящийся к Partner Tags или Display Tags) для предотвращения появления определенных страниц в результатах поиска.

Какое значение этот патент имеет для SEO-специалиста, продвигающего интернет-магазин?

Прямое значение минимально, так как патент касается цифровых книг, а не товаров. Однако он демонстрирует общий принцип: предоставление поисковой системе точных, структурированных данных о контенте (аналогично товарным фидам или Schema.org) позволяет лучше контролировать его индексацию и отображение в специализированных сервисах.

Актуален ли этот механизм сегодня?

Да, принципы, заложенные в этом патенте, остаются высоко актуальными. Агрегация больших объемов контента из разных источников (книги, товары, новости) по-прежнему в значительной степени зависит от получения структурированных фидов данных и спецификаций напрямую от поставщиков контента, так как это гарантирует точность данных.

Похожие патенты

Как Google использует статистический анализ текста для автоматического сопоставления отсканированных книг с библиотечными каталогами (Google Books)
Патент описывает инфраструктурный процесс Google для каталогизации оцифрованных документов (Google Books). Система статистически сравнивает текст книги, полученный через OCR (особенно страницу авторских прав), с базой библиотечных метаданных. Используя вероятностный анализ, который придает больший вес редким терминам, система находит наилучшее совпадение и связывает структурированные данные (автор, название, ISBN) с отсканированным контентом.
  • US8510312B1
  • 2013-08-13
  • Индексация

Как Google автоматически распознает и связывает отсканированные книги с их библиографическими данными (ISBN, автор, название)
Патент описывает инфраструктурный процесс Google для оцифровки печатных изданий (например, Google Books). Система сканирует документ, ищет идентификаторы (ISBN, ISSN) на странице авторских прав или в штрихкоде, сверяет их с базами данных метаданных и автоматически связывает текст документа с его библиографическим описанием для последующего поиска.
  • US8495061B1
  • 2013-07-23
  • Индексация

Как Google проектирует интерфейс и навигацию для поиска внутри оцифрованных документов (Google Books)
Патент описывает дизайн пользовательского интерфейса для поиска по оцифрованным печатным материалам (книги, журналы). Он включает механизмы отображения результатов с выдержками (excerpts), навигацию к следующим релевантным фрагментам внутри документа (пропуская нерелевантные страницы), агрегацию связанной веб-информации и отслеживание истории просмотров.
  • US8364668B2
  • 2013-01-29
  • SERP

  • Ссылки

Как Google использует цитирования на веб-страницах для ранжирования книг в основной выдаче
Google использует механизм для определения релевантных книг по общим информационным запросам, даже если пользователь не искал книгу специально. Система анализирует, какие книги цитируются на топовых веб-страницах в выдаче. Книги получают оценку, основанную на авторитетности цитирующих страниц и контексте цитирования, и затем подмешиваются в результаты поиска.
  • US8392429B1
  • 2013-03-05
  • Ссылки

  • SERP

  • EEAT и качество

Как Google использует офлайн-сигналы и авторитетность сущностей для ранжирования контента
Google использует реальные, офлайн-сигналы авторитетности для ранжирования документов, у которых отсутствует естественная ссылочная структура (например, оцифрованные книги). Система оценивает коммерческий успех документа (данные о продажах, списки бестселлеров), репутацию связанных сущностей (автора и издателя) и может переносить ссылочный авторитет с официальных сайтов этих сущностей на сам документ для улучшения его позиций в поиске.
  • US8799107B1
  • 2014-08-05
  • EEAT и качество

  • SERP

  • Поведенческие сигналы

Популярные патенты

Как Google определяет основной контент страницы, анализируя визуальную структуру и характеристики разделов
Google использует систему для идентификации основного контента веб-страницы путем её разделения на логические разделы на основе визуального макета. Система оценивает характеристики каждого раздела (соотношение ссылок к тексту, количество слов, изображения, расположение) относительно характеристик всей страницы, чтобы выделить наиболее значимый контент и отделить его от навигации и шаблонов.
  • US20140372873A1
  • 2014-12-18
  • Структура сайта

  • Техническое SEO

  • Ссылки

Как Google создает и наполняет Панели Знаний (Knowledge Panels), используя шаблоны сущностей и популярность фактов
Google использует систему для отображения Панелей Знаний (Knowledge Panels) рядом с результатами поиска. Когда запрос относится к конкретной сущности (человеку, месту, компании), система выбирает соответствующий шаблон и наполняет его контентом из разных источников. Выбор фактов для отображения основан на том, как часто пользователи искали эту информацию в прошлом.
  • US9268820B2
  • 2016-02-23
  • Knowledge Graph

  • SERP

  • Семантика и интент

Как Google комбинирует визуальное сходство и поведение пользователей для переранжирования поиска по картинкам
Google использует механизм для перекрестной проверки релевантности изображений, объединяя поведенческие сигналы (клики) с визуальным анализом. Если изображение часто кликают и оно визуально похоже на другие релевантные изображения по запросу (совместная релевантность), его рейтинг агрессивно повышается. Если оно редко кликается и визуально отличается (совместная нерелевантность), его рейтинг понижается. Это защищает выдачу от кликбейта.
  • US8209330B1
  • 2012-06-26
  • Поведенческие сигналы

  • SERP

  • Мультимедиа

Как Google использует исторические данные о кликах (CTR) по категориям для определения доминирующего интента неоднозначных запросов
Google анализирует, на какие категории результатов пользователи кликали чаще всего в прошлом (CTR) по неоднозначному запросу (например, "Pool"). Система определяет доминирующие интенты, выявляя резкие перепады в CTR между категориями или используя иерархию категорий, и повышает в ранжировании результаты, соответствующие наиболее популярным интерпретациям.
  • US8738612B1
  • 2014-05-27
  • Семантика и интент

  • Поведенческие сигналы

  • SERP

Как Google определяет связанность документов с использованием Co-citation, анализа текста вокруг ссылок и паттернов пользовательского доступа
Google использует методы для ограничения результатов поиска на основе заданного контекста (например, набора URL-адресов или категории). Патент детализирует, как система определяет «связанность» между документами, используя такие методы, как анализ совместного цитирования (co-citation), анализ текста, окружающего ссылки в цитирующих документах, и анализ корреляции паттернов доступа пользователей.
  • US7305380B1
  • 2007-12-04
  • Ссылки

  • SERP

  • Поведенческие сигналы

Как Google персонализирует поиск, повышая в выдаче объекты, которые пользователь ранее явно отметил как интересные
Google использует механизм персонализации поисковой выдачи. Если пользователь явно отметил определенный объект (например, место, компанию, веб-страницу) как интересующий его, этот объект получит значительное повышение в ранжировании при последующих релевантных запросах этого пользователя. Уровень повышения зависит от степени интереса, указанной пользователем.
  • US20150242512A1
  • 2015-08-27
  • Персонализация

  • Поведенческие сигналы

  • SERP

Как Google улучшает результаты поиска, подбирая похожие "идеальные" запросы из логов и структурированных данных
Google идентифицирует запросы, которые стабильно показывают высокое вовлечение пользователей (CTR, долгие клики), и генерирует синтетические запросы из структурированных данных (например, частотного анкорного текста). Когда пользователь вводит похожий, но потенциально плохо сформулированный запрос, Google использует эти "аугментирующие запросы" для предоставления более качественных и релевантных результатов.
  • US9128945B1
  • 2015-09-08
  • SERP

  • Поведенческие сигналы

  • EEAT и качество

Как Google определяет географическую релевантность веб-страницы, анализируя физическое местоположение её посетителей
Google анализирует физическое местоположение (используя GPS, IP и т.д.) пользователей, которые взаимодействуют с веб-страницей (например, совершают клик и долго её изучают). Агрегируя эти данные, система определяет географическую релевантность страницы («Центр») и область её популярности («Дисперсию»), даже если на самой странице нет адреса. Эта информация используется для повышения позиций страницы в поиске для пользователей, находящихся в этой области.
  • US9552430B1
  • 2017-01-24
  • Local SEO

  • Поведенческие сигналы

Как Google нормализует поведенческие сигналы (Dwell Time), калибруя показатели «короткого» и «длинного» клика для разных категорий сайтов
Google использует механизм для устранения предвзятости в поведенческих сигналах, таких как продолжительность клика (Dwell Time). Поскольку пользователи взаимодействуют с разными типами контента по-разному, система определяет, что считать «коротким кликом» и «длинным кликом» отдельно для каждой категории (например, Новости, Недвижимость, Словари). Это позволяет более точно оценивать качество ресурса, сравнивая его показатели с нормами его конкретной ниши.
  • US8868565B1
  • 2014-10-21
  • Поведенческие сигналы

  • SERP

Как Google автоматически выбирает категории и контент для страниц сущностей, комбинируя данные о поведении пользователей и Knowledge Graph
Google использует механизм для автоматического создания страниц о сущностях (например, о фильмах или персонажах). Система определяет, какие категории (свойства) сущности наиболее интересны пользователям, сравнивая данные из Knowledge Graph с данными о том, что пользователи ищут или смотрят вместе с этой сущностью. Затем она наполняет эти категории популярным контентом.
  • US11036743B2
  • 2021-06-15
  • Knowledge Graph

  • Семантика и интент

  • Поведенческие сигналы

seohardcore