Как Google использует HTTP-заголовки для извлечения и индексации метаданных из не-HTML документов (PDF, DOC и т.д.)

METHODS AND SYSTEMS FOR PROVIDING CUSTOM CRAWL-TIME METADATA (Методы и системы для предоставления пользовательских метаданных во время сканирования)

US9582588B2
Google LLC
2012-12-20
2017-02-28

Google использует механизм для индексации метаданных файлов, не являющихся HTML (например, PDF, Word, Excel). Во время сканирования метаданные (автор, тема, заголовок) могут передаваться от веб-сервера через специальный HTTP-заголовок. Поисковая система извлекает эти данные, преобразует их в виртуальные META-теги и использует для индексации, улучшая понимание этих форматов.

Какую проблему решает

Патент решает проблему доступа поисковых систем к метаданным для документов, которые не используют язык разметки (non-markup language documents), таких как PDF, документы Word, таблицы Excel и т.д. Стандартные HTML-документы предоставляют метаданные через META-теги, но в не-HTML форматах этот механизм отсутствует. Это затрудняет поисковым системам понимание контекста, авторства и тематики таких файлов, ухудшая качество поиска.

Что запатентовано

Запатентован механизм передачи метаданных через HTTP-заголовки во время сканирования (crawl-time) для контента, не являющегося HTML. Система включает компонент на стороне сервера (External Metadata Compiler), который внедряет метаданные в специальный HTTP-заголовок, и компонент на стороне поисковой системы (Interpreter), который извлекает эти данные и преобразует их в формат, понятный индексатору (например, в стандартные META-теги).

Как это работает

Процесс работает следующим образом:

Запрос: Краулер (Interpreter) запрашивает не-HTML документ.
Сбор и Кодирование: External Metadata Compiler на сервере находит метаданные, форматирует их как пары имя-значение (name-value pairs) и кодирует (percent-encoding).
Передача: Закодированные данные вставляются в предопределенный HTTP-заголовок (например, X-EXTERNAL-METADATA, как показано в примерах патента) в ответе сервера.
Извлечение и Преобразование: Краулер извлекает данные из заголовка и создает фрагмент языка разметки (markup language fragment), содержащий виртуальные META-теги и контент документа.
Индексация: Этот фрагмент передается индексатору для обработки.

Актуальность для SEO

Высокая. Оптимизация не-HTML контента (особенно PDF) остается важной задачей в SEO. Механизм использования HTTP-заголовков для передачи инструкций и метаданных является стандартной практикой в Google (например, X-Robots-Tag и Link: rel=canonical работают по схожему принципу). Этот патент описывает фундаментальный способ обогащения индекса данными о не-HTML файлах.

Важность для SEO

Патент имеет значительное влияние на техническое SEO (80/100). Он описывает инфраструктуру, которая позволяет SEO-специалистам напрямую влиять на то, как Google индексирует и интерпретирует PDF-файлы, документы Word и т.д. Это предоставляет путь для оптимизации заголовков, описаний, управления индексацией и добавления пользовательских атрибутов для форматов, где нельзя использовать стандартные HTML-теги.

Термины и определения

External Metadata Compiler (Компилятор внешних метаданных): Компонент на стороне сервера (в репозитории документов или веб-сервере). Отвечает за сбор метаданных, их форматирование в пары имя-значение, кодирование и внедрение в HTTP-заголовок при ответе на запрос сканирования.
HTTP Header (HTTP-заголовок): Часть HTTP/HTTPS ответа от сервера. Используется для передачи закодированных метаданных в предопределенном поле.
Indexer (Индексатор): Компонент поисковой системы, который анализирует содержимое документа и его метаданные для создания поискового индекса.
Interpreter (Интерпретатор): Компонент на стороне поисковой системы (часть краулера). Получает HTTP-ответ, извлекает метаданные из специального HTTP-заголовка и преобразует их во фрагмент языка разметки.
Markup language fragment (Фрагмент языка разметки): Синтезированный документ (например, HTML или XML), созданный Интерпретатором. Он объединяет основное содержимое не-HTML файла и метаданные, преобразованные в стандартные теги (например, <META>).
Name-value pair (Пара имя-значение): Формат представления метаданных (например, Author=O'Connor).
Non-markup language document (Документ без языка разметки): Файлы, не являющиеся HTML, XML и т.п. Примеры: PDF, DOCX, XLSX, PPTX.
Percent-encoding (Процентное кодирование): Стандартный механизм (RFC3986) для кодирования специальных символов для безопасной передачи в HTTP-протоколе.
Pre-determined header name (Предопределенное имя заголовка): Специальное имя (например, X-EXTERNAL-METADATA, как показано на схемах патента), используемое для идентификации пользовательских метаданных в HTTP-ответе.

Ключевые утверждения (Анализ Claims)

Патент фокусируется на процессе обработки данных поисковой системой.

Claim 1 (Независимый пункт): Описывает метод предоставления метаданных для документа без языка разметки в поисковый индекс.

Поисковая система отправляет запрос на получение данных о документе.
Поисковая система получает ответ, содержащий HTTP-заголовок. Этот заголовок включает метаданные о документе в формате пары имя-значение, а также содержимое документа.
Из HTTP-заголовка извлекается пара имя-значение.
В поисковой системе создается тег языка разметки (markup language tag) для этой пары имя-значение.
Этот тег и содержимое документа в формате языка разметки предоставляются компоненту создания поискового индекса.

Claim 2 (Зависимый от 1): Уточняет, что пара имя-значение закодирована с использованием percent-encoding.

Claim 3 (Зависимый от 1): Уточняет механизм активации.

Процессы извлечения и создания тега выполняются в ответ на идентификацию предопределенного имени заголовка (pre-determined header name).

Claim 4 (Зависимый от 1): Указывает, что предоставленные метаданные заменяют предыдущие метаданные, проиндексированные для этого документа (обеспечение актуальности).

Claim 8 (Независимый пункт): Описывает поисковую систему (систему с процессором и памятью), сконфигурированную для выполнения аналогичных шагов в рамках операции сканирования (crawling operation).

Где и как применяется

Изобретение применяется на этапах сканирования и индексирования.

CRAWLING – Сканирование и Сбор данных
Это основной этап применения. Interpreter (как часть краулера) отправляет запрос на получение не-HTML документа. Сервер (используя External Metadata Compiler) отвечает HTTP-ответом. Interpreter анализирует HTTP-заголовки и, если обнаруживает предопределенный заголовок с метаданными, извлекает и декодирует их.

INDEXING – Индексирование и извлечение признаков
Interpreter преобразует извлеченные метаданные и основное содержимое файла в Markup language fragment. Этот фрагмент передается Indexer. Индексатор обрабатывает этот фрагмент, как если бы это был стандартный HTML/XML документ, индексируя содержимое и учитывая синтезированные META-теги.

Входные данные (для поисковой системы):

HTTP-ответ от сервера, содержащий:
- Контент не-HTML документа.
- HTTP-заголовок с pre-determined header name.
- Закодированные (Percent-encoding) пары «имя-значение» в этом заголовке.

Выходные данные (для индексатора):

Markup language fragment (виртуальный HTML или XML), содержащий контент документа и метаданные в виде тегов разметки.

На что влияет

Конкретные типы контента: Влияет исключительно на документы, не являющиеся HTML (PDF, DOCX, XLSX, PPTX и другие форматы, индексируемые поисковой системой).
Специфические запросы: Улучшает индексацию и ранжирование этих документов по всем типам запросов, позволяя им ранжироваться по метаданным (например, по автору или оптимизированному заголовку).
Конкретные ниши или тематики: Имеет критическое значение в нишах, где преобладают не-HTML форматы: академические исследования (PDF), финансы (отчеты, таблицы), B2B (техническая документация).

Когда применяется

Временные рамки: Применяется в реальном времени во время сканирования (crawl-time) или повторного сканирования документа.
Триггеры активации: Механизм на стороне поисковой системы активируется только при обнаружении предопределенного HTTP-заголовка в ответе сервера.

Пошаговый алгоритм

Процесс описывает взаимодействие между Interpreter (Краулер) и External Metadata Compiler (Сервер).

Этап 1: Запрос (Interpreter)

Поисковая система отправляет HTTP-запрос на получение документа, который не находится в формате языка разметки (например, PDF).

Этап 2: Обработка на сервере (External Metadata Compiler)

Система находит запрошенный документ в репозитории.
Система находит метаданные, связанные с документом (из свойств файла, базы данных, CMS или производные данные).
Система создает пары «имя-значение» для этих метаданных (например, Author=O'Connor, Topic=Fishing).
Система применяет Percent-encoding к парам «имя-значение» для безопасной передачи (например, Author%3DO%27Connor).
Система формирует HTTP-ответ, вставляя закодированные данные в pre-determined header name (например, X-EXTERNAL-METADATA) и добавляя контент документа.

Этап 3: Обработка ответа (Interpreter)

Поисковая система получает HTTP-ответ.
Система сканирует HTTP-заголовки, идентифицирует pre-determined header name, извлекает и декодирует пары «имя-значение».
Система создает markup language fragment (например, HTML-сниппет).
Система вставляет извлеченные метаданные в этот фрагмент в виде тегов (например, META-тегов) и добавляет контент документа.

Этап 4: Индексация (Indexer)

Interpreter передает markup language fragment компоненту Indexer для обработки и обновления поискового индекса.

Какие данные и как использует

Данные на входе

Патент описывает механизм передачи данных и упоминает типы и источники метаданных, которые могут быть использованы.

Технические факторы:
- Структура HTTP-ответа и HTTP-заголовков.
- Использование pre-determined header name для идентификации данных.
- Применение протокола Percent-encoding (RFC3986) для кодирования данных.
Контентные факторы (Типы метаданных):
- Заголовки (Titles), Темы (Topic/Subject), Ключевые слова (Keywords), Категории.
Факторы авторства и управления:
- Автор (Author), Отдел организации, Номер проекта.
Временные факторы:
- Дата и время создания/обновления.
Источники метаданных (упомянутые в патенте):
- Свойства файла, созданные приложением (например, свойства Word).
- Данные из системы управления документами (Document Management System).
- Данные, предоставленные пользователем через интерфейс.
- Производные метаданные (например, из структуры директорий, где хранится файл).

Какие метрики используются и как они считаются

Патент не описывает метрики ранжирования. Он описывает форматы данных и протоколы обработки.

Методы кодирования: Percent-encoding.
Трансформация данных: Преобразование формата пар имя-значение в формат тегов разметки (HTML/XML META elements).
Протоколы передачи: HTTP и HTTPS.

Стандартизированный механизм для не-HTML метаданных: Google имеет четко определенный механизм для приема метаданных для PDF, документов Word и других файлов через HTTP-заголовки во время сканирования.
Эквивалентность META-тегам: Метаданные, переданные через HTTP-заголовок, преобразуются в виртуальные теги разметки (markup language fragment) и обрабатываются поисковой системой идентично стандартным HTML META-тегам.
Разделение контента и метаданных: Этот подход позволяет управлять метаданными отдельно от самих файлов. Метаданные могут храниться в CMS и динамически внедряться сервером в момент запроса, что упрощает обновление информации без модификации исходных файлов.
Ответственность на стороне сервера: Реализация этого механизма лежит на владельце сайта (веб-сервере или CMS). Поисковая система только интерпретирует данные, если они предоставлены в правильном формате (включая корректный percent-encoding) и в нужном заголовке.
Унификация индексации: Изобретение устраняет фундаментальное ограничение не-HTML форматов, позволяя им быть полноценно представленными в поисковом индексе с богатым набором метаданных.

Best practices (это мы делаем)

Применение принципов патента через стандартные заголовки: В публичном веб-поиске механизм, описанный в патенте, активно используется через стандартизированные HTTP-заголовки. Необходимо активно применять их для не-HTML контента:
- X-Robots-Tag: Для управления индексацией PDF/DOC файлов (например, noindex для устаревших документов).
- Link: rel=canonical: Для указания канонической версии файлов, доступных по разным URL.
Оптимизация метаданных в источнике: Поскольку External Metadata Compiler может использовать метаданные из самого файла, всегда заполняйте свойства документа (Заголовок, Автор, Тема) в PDF или файлах Office перед публикацией.
Внедрение кастомных метаданных (для Enterprise Search или продвинутого SEO): В корпоративном поиске или при наличии технической возможности можно рассмотреть внедрение пользовательских метаданных через специальный заголовок (как описанный в патенте X-EXTERNAL-METADATA). Это позволяет передавать оптимизированные Titles, Descriptions или сигналы E-E-A-T (авторство). Требует тщательной настройки сервера и корректного percent-encoding.
Централизованное управление метаданными: Используйте возможности CMS для хранения метаданных отдельно от файлов. Это позволяет обновлять SEO-информацию динамически при сканировании без изменения самих файлов.

Worst practices (это делать не надо)

Игнорирование оптимизации PDF/DOC: Оставлять метаданные неоптимизированными и не управлять индексацией через HTTP-заголовки, что приводит к плохим сниппетам и проблемам с дублированием контента.
Перенасыщение ключевыми словами (Keyword Stuffing) или Клоакинг: Попытка манипулировать ранжированием путем добавления нерелевантных или вводящих в заблуждение метаданных через HTTP-заголовки. Это может быть расценено как спам.
Ошибки форматирования и кодирования: Неправильное использование percent-encoding (при кастомной реализации) или ошибки в синтаксисе стандартных заголовков (например, X-Robots-Tag) приведут к игнорированию данных.

Стратегическое значение

Патент подтверждает стратегию Google по унификации обработки всех типов контента. Независимо от исходного формата (HTML, PDF, DOC), контент приводится к общему виду перед индексацией. Для SEO это означает, что техническая оптимизация должна охватывать весь контент на сайте, а конфигурация сервера является критически важным инструментом для передачи сигналов поисковым системам о не-HTML активах.

Практические примеры

Сценарий 1: Управление индексацией PDF с помощью стандартного заголовка

Задача: Исключить из индекса устаревший PDF-отчет (/reports/old-report.pdf).
Решение на основе принципа патента: Передать инструкцию через HTTP-заголовок во время сканирования.

Реализация (например, Apache):

<Files "old-report.pdf"> Header set X-Robots-Tag "noindex" </Files>

Результат: При сканировании Interpreter получит эту инструкцию, преобразует ее в эквивалент META Robots тега, и индексатор удалит файл из индекса.

Сценарий 2: Передача кастомных метаданных (Продвинутый/Enterprise)

Задача: Передать оптимизированный Title и Author для PDF-файла /files/doc1.pdf.
Подготовка данных: Title="SEO Strategy 2025", Author="John Doe". Кодируем: Title%3DSEO%20Strategy%202025,Author%3DJohn%20Doe.

Реализация (например, Apache, используя пример из патента):

<Files "doc1.pdf"> Header set X-EXTERNAL-METADATA "Title%3DSEO%20Strategy%202025,Author%3DJohn%20Doe" </Files>

Результат: Interpreter извлекает данные, преобразует их в META-теги Title и Author, что может повлиять на сниппет и понимание контента. (Примечание: поддержка заголовка X-EXTERNAL-METADATA в публичном поиске не гарантирована).

К каким типам файлов применим этот патент?

Патент применим к любым документам, которые не используют язык разметки (non-markup language documents) и индексируются поисковой системой. Это включает PDF, документы Microsoft Office (Word, Excel, PowerPoint), OpenOffice и другие форматы, не поддерживающие стандартные HTML META-теги.

Какое конкретное имя HTTP-заголовка использует Google для этого механизма?

Патент защищает механизм использования "предопределенного имени заголовка" (pre-determined header name). В примерах используется X-EXTERNAL-METADATA. Для публичного веб-поиска Google документировал использование X-Robots-Tag и Link: rel=canonical в HTTP-заголовках, которые работают по тому же принципу. Поддержка X-EXTERNAL-METADATA для веб-поиска не гарантирована, но часто используется в корпоративном поиске.

Чем этот механизм отличается от X-Robots-Tag?

Это разные применения одного и того же механизма. X-Robots-Tag используется для передачи инструкций краулеру (например, noindex, nofollow). Механизм, описанный в патенте, шире и позволяет передавать контентные метаданные (например, Автор, Тема, Заголовок, Описание). Оба используют HTTP-заголовки для передачи информации о не-HTML файлах.

Обязательно ли метаданные должны храниться внутри самого PDF-файла?

Нет. Ключевое преимущество этого изобретения в том, что метаданные могут храниться отдельно от файла — например, в базе данных или CMS. External Metadata Compiler (ваш сервер или приложение) извлекает их из внешнего источника и внедряет в HTTP-заголовок в момент запроса файла краулером.

Что такое процентное кодирование (percent-encoding) и зачем оно нужно?

Это стандартный механизм (RFC3986) для безопасной передачи специальных символов (пробелы, запятые, знаки равенства) в рамках HTTP-протокола. Символы заменяются на их код (например, пробел становится %20). Это гарантирует, что данные не будут искажены при передаче в заголовке. При использовании кастомных заголовков это критически важно.

Улучшит ли использование этого механизма ранжирование моих PDF-файлов?

Да, косвенно. Предоставляя поисковой системе четкие и оптимизированные сигналы о содержании документа (например, релевантный заголовок и тему), вы позволяете ей лучше понять контент и его контекст. Это может привести к более эффективному ранжированию и улучшению сниппета в SERP.

Что произойдет, если метаданные в самом файле отличаются от метаданных в HTTP-заголовке?

Патент (Claim 4) указывает, что метаданные, предоставленные через этот механизм (в HTTP-заголовке), могут заменять ранее проиндексированные метаданные. Это предполагает, что данные из HTTP-заголовка, как наиболее актуальные на момент сканирования, могут иметь приоритет над данными, извлеченными из свойств файла.

Откуда система берет эти метаданные?

Патент упоминает несколько источников, которые может использовать External Metadata Compiler: свойства самого файла (например, автор в DOC-файле), внешние базы данных, системы управления документами (CMS/DMS) или данные, производные от местоположения файла в структуре директорий.

Означает ли этот патент, что Google конвертирует все PDF и DOC файлы в HTML?

Да, для целей индексации. Патент описывает, как компонент Interpreter преобразует содержимое не-HTML файла и его метаданные (полученные из заголовков) в Markup language fragment (фактически, синтетический HTML-документ). Именно этот унифицированный формат затем анализируется индексатором.

Может ли этот механизм использоваться для передачи сигналов E-E-A-T?

Да, это одно из потенциальных применений. Можно передавать информацию об авторе, его квалификации или организации через HTTP-заголовки для документов, где эта информация критична (например, медицинские или финансовые PDF). Это помогает связать контент с сущностями авторитетных авторов.

Как Google индексирует контент, который не может прочитать, получая метаданные напрямую от сторонних приложений и серверов

Google использует механизм для индексации данных, хранящихся на сторонних серверах или в проприетарных форматах, которые поисковая система не может обработать напрямую. Вместо сканирования исходных данных система получает от третьей стороны готовый для индексации текст или HTML-метаданные, представляющие этот контент. Это позволяет сделать данные доступными для поиска через систему Google, соблюдая при этом контроль доступа и ограничения на размер метаданных.

US9262420B1
2016-02-16

Индексация
Техническое SEO

Как Google использует метаданные XML Sitemap (lastmod, changefreq, priority) для планирования и приоритизации сканирования

Патент Google, описывающий фундаментальные механизмы протокола Sitemaps. Планировщик сканирования использует метаданные, предоставленные веб-сайтами: lastmod для предотвращения сканирования неизмененного контента, changefreq для прогнозирования обновлений и priority в качестве повышающего коэффициента (boost factor) в очереди сканирования, оптимизируя краулинговый бюджет.

US7769742B1
2010-08-03

Краулинг
Техническое SEO
Свежесть контента

Как Google использует контекст внешних страниц для понимания и идентификации видео и аудио контента

Google анализирует внешние веб-страницы, которые ссылаются на медиафайлы или встраивают их (например, видео YouTube). Система извлекает метаданные из контекста этих страниц — заголовков, окружающего текста, URL. Надежность данных проверяется частотой их повторения на разных сайтах. Эта информация используется для улучшения понимания содержания медиафайла и повышения эффективности систем идентификации контента (Content ID).

US10318543B1
2019-06-11

Ссылки
Индексация
Мультимедиа

Как Google использует мобильные Sitemaps для выбора правильного краулера и оптимизации сканирования

Патент Google, описывающий механизм использования специализированных карт сайта (Sitemaps) для мобильного контента. Система позволяет вебмастерам указывать формат мобильных страниц (например, XHTML, WML). На основе этой информации Google выбирает соответствующий краулер (User-Agent) для корректного сканирования и индексирования мобильной версии сайта. Патент также детально описывает инфраструктуру обработки Sitemaps, включая использование метаданных (Priority, ChangeFreq, LastMod) для управления приоритетом и частотой сканирования.

US7653617B2
2010-01-26

Краулинг
Индексация
Техническое SEO

Как Google использует OCR, шаблоны и метаданные для индексации и поиска по личным документам (сканам, PDF)

Патент Google, описывающий систему для преобразования бумажных или графических документов (например, сканов, PDF) в индексируемый текст. Система использует OCR, применяет шаблоны для автоматического извлечения данных и назначения метаданных, а также управляет доступом, сохраняя всё в базе данных для личного поиска.

US20080162603A1
2008-07-03

Индексация

Как Google использует паттерны просмотра пользователей (co-visitation) для определения связанности документов и улучшения поиска

Google использует систему для определения того, насколько тесно связаны два документа, основываясь на агрегированных данных о поведении пользователей. Система рассчитывает вероятность того, что пользователь просмотрит Документ B в течение определенного времени после того, как Документ А был показан ему в результатах поиска. Эти данные используются для персонализации выдачи, предложения рекомендаций и улучшения релевантности на основе контекста сессии пользователя.

US8447760B1
2013-05-21

Поведенческие сигналы
Персонализация
Семантика и интент

Как Google Assistant адаптирует выдачу на лету, позволяя пользователям навигировать по результатам и запоминать предпочтения по источникам и темам

Google использует механизм для диалоговых систем (например, Google Assistant), позволяющий пользователям взаимодействовать с поисковой выдачей через естественный язык. Система предоставляет результаты последовательно и адаптирует порядок выдачи в ответ на команды навигации (например, «Вернись к новости о Кафе»). Кроме того, система фиксирует отношение пользователя к атрибутам контента (например, «Не показывай новости из Источника 1») и использует эти данные для фильтрации или изменения ранжирования в текущих и будущих сессиях.

US10481861B2
2019-11-19

Персонализация
Семантика и интент
Поведенческие сигналы

Как Google динамически фильтрует выдачу, уточняя интент пользователя после клика по результату

Google использует механизм для обработки неоднозначных запросов. Если выдача содержит результаты, относящиеся к разным сущностям (например, «Ягуар» как животное и как автомобиль), клик пользователя по одному из результатов сигнализирует о его интересе к конкретной сущности. При возврате на страницу выдачи система модифицирует SERP, скрывая или понижая результаты, связанные с нерелевантными сущностями, и фокусируя выдачу на выбранном интенте.

US9355158B2
2016-05-31

Семантика и интент
SERP
Поведенческие сигналы

Как Google обучает ИИ-модели для автоматической оценки качества сайтов на основе данных асессоров и предвзятой выборки

Патент Google, описывающий фундаментальную методологию создания систем оценки качества сайтов. Google использует машинное обучение (например, SVM), чтобы найти корреляции между оценками асессоров и измеримыми сигналами сайта (PageRank, клики). Для повышения точности применяется метод «предвзятой выборки» (Biased Sampling): система намеренно собирает больше оценок для сайтов среднего качества («сложных случаев»), чем для очевидно плохих или хороших.

US8442984B1
2013-05-14

SERP
EEAT и качество
Поведенческие сигналы

Как Google использует внешние данные для оценки репутации сущностей и их взаимной привлекательности в вертикальном поиске

Google использует систему для улучшения вертикального поиска (например, вакансий, недвижимости) путем оценки взаимной привлекательности двух разных типов сущностей (например, соискателя и вакансии). Система агрегирует данные из внешних источников для выявления скрытых атрибутов и расчета «Репутационной значимости» каждой сущности. На основе этих данных определяется метрика «Двухстороннего соответствия», которая используется для ранжирования.

US10853432B2
2020-12-01

Семантика и интент
SERP
Поведенческие сигналы

Как Google перенаправляет пользователей на «идеальные» запросы (KHRQ), анализируя поведение и удовлетворенность

Google анализирует логи запросов, чтобы определить «известные высокоранжированные запросы» (KHRQ) — те, которые пользователи вводят часто и которыми остаются довольны (редко переформулируют или долго изучают результаты). Система вычисляет вероятность того, что исходный запрос пользователя лучше заменить на KHRQ, основываясь на сходстве запросов и исторических цепочках переформулировок. Это позволяет направлять пользователей к наиболее эффективным формулировкам.

US7870147B2
2011-01-11

Семантика и интент
Поведенческие сигналы
SERP

Как Google объединяет разные стратегии и поведенческие данные для генерации и выбора лучших альтернативных запросов

Google использует архитектуру, которая одновременно применяет множество стратегий (расширение, уточнение, синтаксис, анализ сессий) для генерации альтернативных запросов. Система оценивает качество этих вариантов с помощью показателей уверенности, основанных на поведении пользователей (например, длительности кликов) и критериях разнообразия. Лучшие альтернативы предлагаются пользователю, часто с превью результатов, чтобы помочь уточнить поиск.

US7565345B2
2009-07-21

Поведенческие сигналы
SERP

Как Google динамически перестраивает выдачу, если пользователь игнорирует результаты, связанные с определенной сущностью

Google использует механизм уточнения интента пользователя в реальном времени при обработке неоднозначных запросов. Система группирует результаты поиска по связанным сущностям. Если пользователь демонстрирует отсутствие интереса к одной из групп (например, прокручивает или смахивает результаты), система динамически модифицирует выдачу, понижая или удаляя все результаты, связанные с этой отклоненной сущностью.

US9348945B2
2016-05-24

Семантика и интент
SERP
Поведенческие сигналы

Как Google предсказывает, какие сайты будут интересны пользователю на основе его контекста (местоположение, время, интересы) без поискового запроса

Google использует агрегированные данные о поведении пользователей для прогнозирования контента. Система анализирует контекст пользователя (местоположение, время, интересы, историю) и определяет, какие сайты посещают похожие пользователи в аналогичном контексте значительно чаще, чем пользователи в целом. Этот механизм позволяет предлагать релевантный контент без явного запроса (например, в Google Discover).

US9195703B1
2015-11-24

Персонализация
Поведенческие сигналы
Семантика и интент

Как Google использует историю запросов, сделанных на Картах, для ранжирования локальных результатов и рекламы

Google анализирует, что пользователи ищут, когда просматривают определенную географическую область на карте (Viewport). Эта агрегированная история запросов используется для определения популярности локальных бизнесов и контента в этом конкретном районе. Результаты, которые часто запрашивались в этой области, особенно недавно, получают значительное повышение в ранжировании.

US9129029B1
2015-09-08

Local SEO
Поведенческие сигналы
Свежесть контента