Как Google позволяет сторонним сайтам загружать свои базы данных и код прямо в поисковую систему для генерации прямых ответов

THIRD PARTY SEARCH APPLICATIONS FOR A SEARCH SYSTEM (Сторонние поисковые приложения для поисковой системы)

US10019484B2
Google LLC
2013-08-06
2018-07-10

Google использует систему, позволяющую владельцам сайтов загружать свои данные (например, таблицы) и логику их обработки (код) непосредственно на серверы Google. Если запрос пользователя соответствует заданному шаблону, Google выполняет этот код в изолированной среде, используя загруженные данные, и генерирует прямой ответ в выдаче. Это позволяет показывать актуальные данные в реальном времени без необходимости сканирования сайта или обращения к внешним API.

Какую проблему решает

Патент решает проблему предоставления поисковой системой доступа к информации, которую сложно или невозможно получить стандартным путем сканирования и индексирования. Это касается динамически генерируемого контента, данных, хранящихся глубоко в базах данных третьих сторон, и часто обновляемой информации (например, погода, статус рейсов, наличие товаров). Традиционный подход лицензирования данных не масштабируется. Изобретение позволяет масштабируемо интегрировать сторонние данные и логику их обработки непосредственно в инфраструктуру поиска.

Что запатентовано

Запатентована система и метод для хостинга и выполнения Third Party Search Applications непосредственно на серверах поисковой системы. Третьи стороны предоставляют свои собственные наборы данных (Data Store), логику их обработки (Instructions) и шаблоны запросов (Query Templates), которые должны активировать приложение. Поисковая система выполняет эти приложения в изолированной среде (Sandbox) в ответ на соответствующие запросы пользователей.

Как это работает

Система работает в двух режимах: настройка и выполнение.

Настройка (Офлайн): Третья сторона через специальный интерфейс загружает свои данные (например, таблицу), определяет шаблоны запросов (например, регулярные выражения вида "погода в $city") и предоставляет код для извлечения ответа из данных на основе параметров запроса ($city).
Выполнение (Рантайм): Когда запрос пользователя соответствует шаблону, система извлекает параметры и выполняет сторонний код в Sandbox. Код обрабатывает данные и генерирует Third-party formatted natural language answer. Важно, что выполнение происходит на инфраструктуре Google без обращения к серверам третьей стороны, что обеспечивает скорость и контроль.

Актуальность для SEO

Высокая. Описанная инфраструктура является фундаментальной для генерации многих типов прямых ответов (Direct Answers), специализированных виджетов и блоков с данными в реальном времени (погода, спорт, финансы, отслеживание посылок). По мере того как Google стремится предоставлять ответы напрямую в SERP, значимость таких механизмов интеграции данных возрастает.

Важность для SEO

Патент имеет высокое значение (8/10) для SEO, особенно для сайтов, обладающих уникальными наборами данных. Он описывает механизм, позволяющий авторитетным источникам предоставлять структурированные ответы напрямую в SERP, потенциально занимая "нулевую позицию". Это открывает возможности для получения видимости, минуя традиционные факторы ранжирования, если сайт может стать поставщиком данных для такой системы. Это также подчеркивает риск потери трафика, если Google использует эти данные для ответа на запрос пользователя без необходимости клика.

Термины и определения

Data Store (Хранилище данных) / Data Table: База данных, таблица (spreadsheet), XML-файл или другой структурированный набор данных, предоставляемый третьей стороной и загружаемый в поисковую систему. Используется для генерации ответов.
Entity (Сущность): Объект или концепция (человек, место, предмет и т.д.), которая может быть распознана в запросе и связана с узлом в графе данных (Data Graph). Параметры запроса могут быть типизированы как сущности.
First Answers (Первые ответы): Стандартные результаты поиска (сниппеты), сгенерированные из инвертированного индекса корпуса документов.
Instructions (Инструкции): Код или логика, предоставляемая третьей стороной (или выбранная из предопределенного набора), которая определяет, как извлекать данные из Data Store, как обрабатывать параметры запроса и как форматировать финальный ответ.
Parameter (Параметр): Переменная часть в Query Template (например, $destination в "how far is $destination"). Значение извлекается из запроса пользователя или контекста запроса (например, местоположение пользователя).
Query Template (Шаблон запроса) / Trigger: Регулярное выражение или другой шаблон, определяющий, какие запросы должны активировать Third Party Search Application.
Sandbox (Песочница): Изолированная среда выполнения на серверах поисковой системы, в которой запускается стороннее приложение. Ограничивает доступные ресурсы и функции для обеспечения безопасности и производительности.
Third Party Search Application (Стороннее поисковое приложение): Набор компонентов (Query Templates, Data Store, Instructions, Parameters), загруженный третьей стороной в поисковую систему для генерации прямых ответов.
Third-party formatted natural language answer (Ответ на естественном языке, отформатированный третьей стороной): Прямой ответ на запрос, сгенерированный сторонним приложением. Формат (например, предложение, список, виджет) контролируется третьей стороной.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает метод обработки запроса в реальном времени.

Генерация стандартных результатов поиска (First Answers) из инвертированного индекса.
Определение соответствия запроса Query Template, который является регулярным выражением с переменной частью (параметром).
Извлечение значения параметра из той части запроса, которая соответствует переменной части шаблона.
Генерация Third-party formatted natural language answer путем выполнения computer-language instructions, полученных от третьей стороны. Инструкции определяют использование параметра и форматирование ответа. Выполнение происходит в sandboxed environment.
Предоставление сгенерированного ответа вместе со стандартными результатами.
Ключевое условие: Шаблон и инструкции хранятся в поисковой системе, и генерация ответа происходит без связи с сайтом третьей стороны в момент запроса.

Claim 11 (Независимый пункт): Описывает систему для настройки и хостинга сторонних приложений.

Получение от третьей стороны Query Template (регулярное выражение) и атрибутов параметров.
Получение Data Store (данные и их атрибуты) от третьей стороны.
Получение от третьей стороны computer-language instructions для доступа к Data Store с использованием параметра и для форматирования ответа.
Хранение всех компонентов в sandboxed memory поисковой системы как Third Party Search Application.
Система выполняет приложение и генерирует ответ в ответ на запрос без связи с сайтом третьей стороны.

Claim 8 (Зависимый от 1): Механизм контроля качества на основе поведения пользователей.

Система отслеживает количество раз, когда пользователи выбирают стандартные результаты (First Answers) вместо стороннего ответа. Если это количество достигает порогового значения, Query Template отключается (приложение перестает активироваться).

Claim 9 (Зависимый от 1): Условие активации на основе авторитетности источника.

Определение того, что запрос соответствует шаблону, включает проверку источника (третьей стороны) шаблона. Запрос активирует приложение только в том случае, если сигналы для этого источника (signals for the source) достигают определенного порога.

Claim 15 (Зависимый от 11): Интеграция с графом знаний.

Если система использует graph-based data store и параметр определен как коллекция сущностей. Генерация ответа включает распознавание части запроса как сущности в графе и передачу атрибута этой сущности (например, ID) в качестве значения параметра стороннему приложению для доступа к его Data Store.

Где и как применяется

Изобретение представляет собой инфраструктурное решение, затрагивающее несколько этапов поиска для интеграции сторонних данных.

INDEXING – Индексирование и извлечение признаков
На этом этапе происходит загрузка и хранение компонентов Third Party Search Applications: Data Stores, Query Templates и Instructions. Также вычисляются и сохраняются сигналы авторитетности (signals for the source) для третьих сторон, которые используются для верификации.

QUNDERSTANDING – Понимание Запросов
На этом этапе система анализирует запрос на соответствие Query Templates (регулярным выражениям). Происходит извлечение параметров из текста запроса. Также может происходить распознавание сущностей (NER) для связывания параметров с Data Graph и разрешение контекста (например, замена местоимений на основе предыдущих запросов).

RANKING / METASEARCH – Ранжирование / Метапоиск и Смешивание
Основное применение патента. Third-Party Trigger Engine определяет необходимость активации приложения. Если триггер срабатывает, приложение выполняется в Sandbox параллельно с генерацией стандартных результатов (First Answers). Сгенерированный Third-party formatted answer затем смешивается со стандартными результатами. Патент указывает, что сторонний ответ может быть предоставлен в позиции преимущества (position of prominence).

RERANKING – Переранжирование
Применяются фильтры качества и авторитетности. Система может использовать signals for the source, чтобы решить, активировать ли приложение или как высоко ранжировать его ответ. Также система отслеживает взаимодействие пользователей с ответом для будущей оценки качества приложения (мониторинг кликов).

Входные данные:

Запрос пользователя.
Контекст запроса (местоположение, время, история запросов).
База данных Query Templates.
Компоненты Third Party Search Applications (Data Stores, Instructions).
Сигналы авторитетности источников.
(Опционально) Data Graph для распознавания сущностей.

Выходные данные:

Third-party formatted natural language answer (если приложение активировано и успешно выполнено).
Объединенный набор результатов поиска (SERP).

На что влияет

Специфические запросы: Наибольшее влияние на фактографические запросы, запросы, требующие актуальных данных (real-time data), и запросы, ответы на которые находятся в структурированных базах данных (например, "статус рейса AA123", "сколько калорий в X", "расписание фильма Y").
Конкретные типы контента: Влияет на представление данных, которые лучше всего структурированы в виде таблиц или баз данных, а не неструктурированного текста.
Конкретные ниши: Ниши с часто обновляемыми данными (финансы, спорт, погода, транспорт, электронная коммерция).

Когда применяется

Алгоритм применяется при выполнении нескольких условий:

Триггер активации: Запрос пользователя должен точно соответствовать Query Template (регулярному выражению), предоставленному третьей стороной.
Пороги авторитетности (Claim 9): Сигналы авторитетности (signals for the source) для третьей стороны должны превышать установленный порог. В патенте также упоминается возможность проверки, появляется ли сайт третьей стороны в стандартных результатах поиска по данному запросу как условие активации.
Успешное выполнение: Приложение должно успешно выполниться в Sandbox в пределах отведенного времени и ресурсов и вернуть непустой ответ.

Пошаговый алгоритм

Процесс А: Настройка приложения (Офлайн)

Регистрация шаблонов запросов: Третья сторона предоставляет один или несколько Query Templates (регулярных выражений).
Регистрация параметров: Определяются атрибуты (имя, тип) для переменных частей шаблонов. Указывается, нужно ли использовать контекст запроса (например, местоположение). Если тип параметра – сущность, указывается коллекция сущностей.
Регистрация данных: Третья сторона загружает Data Store (например, таблицу) и определяет его структуру (ключи доступа).
Регистрация инструкций: Предоставляется код (Instructions) для доступа к данным, обработки параметров и форматирования ответа на естественном языке.
Верификация приложения: Поисковая система проверяет приложение. Это может включать проверку потребления ресурсов в Sandbox и проверку авторитетности связанного сайта (например, появляется ли сайт в результатах поиска по тестовым запросам, соответствующим шаблону).
Хранение: Компоненты приложения сохраняются на серверах поисковой системы.

Процесс Б: Обработка запроса (Рантайм)

Получение запроса: Система получает запрос от пользователя.
Генерация стандартных результатов: Параллельно запускается процесс генерации First Answers из индекса.
Проверка триггеров: Система оценивает запрос на соответствие Query Templates. Может включать обработку естественного языка (например, замену местоимений).
(Условно) Проверка авторитетности: Если шаблон совпал, система может проверить, достигают ли сигналы авторитетности источника порога или присутствует ли сайт в сгенерированных стандартных результатах.
Извлечение параметров: Если триггер активирован, система извлекает значения параметров из запроса и контекста запроса.
(Опционально) Разрешение сущностей: Если параметр является сущностью, система находит соответствующую сущность в Data Graph и извлекает нужный атрибут (например, ID).
Выполнение приложения: Система запускает Instructions приложения в Sandbox, передавая извлеченные параметры. Приложение выполняет логику (расчет или доступ к локальному Data Store).
Генерация ответа: Приложение генерирует Third-party formatted natural language answer.
Проверка ответа: Система проверяет, был ли ответ предоставлен в течение лимита времени и не является ли он пустым.
Смешивание и предоставление: Сгенерированный ответ предоставляется вместе со стандартными результатами, часто на заметной позиции.

Процесс В: Мониторинг и Обновление (Офлайн)

Обновление данных: Система периодически получает обновления для Data Store от третьей стороны.
Мониторинг взаимодействий: Система отслеживает клики пользователей. Если пользователи часто игнорируют сторонний ответ и кликают на стандартные результаты (порог достигнут), приложение может быть отключено.

Какие данные и как использует

Данные на входе

Контентные факторы (Сторонние): Data Store (таблицы, базы данных), загруженные третьей стороной. Instructions (код) для форматирования ответа.
Технические факторы: URL сайта третьей стороны, используемый для оценки авторитетности и атрибуции ответа.
Поведенческие факторы: Журналы поиска (Search Records) используются для мониторинга взаимодействия пользователей с ответами (клики на другие результаты) для контроля качества.
Пользовательские факторы (Контекст): Местоположение пользователя, дата и время запроса, история запросов (для разрешения контекста, например, местоимений), user-id.
Системные данные: Data Graph (граф знаний) для разрешения параметров запроса в сущности. Инвертированный индекс для генерации First Answers и проверки присутствия сайта третьей стороны в выдаче.

Какие метрики используются и как они считаются

Патент не детализирует формулы, но упоминает ключевые метрики и пороги:

Соответствие шаблону: Оценка на основе регулярных выражений (Regex matching) между запросом и Query Template.
Signals for the source (Сигналы для источника): Метрики авторитетности сайта третьей стороны. Используются для определения, достаточно ли авторитетен источник для активации приложения (Claim 9).
Ranking Signal Threshold (Порог ранжирования): Минимальный ранг, который должен иметь сайт третьей стороны в стандартной выдаче по данному запросу, чтобы приложение было активировано (используется для верификации качества).
Порог взаимодействия (Interaction Threshold): Пороговое количество раз, когда пользователи выбирают First Answers вместо стороннего ответа. При достижении порога приложение отключается (Claim 8).
Resource Consumption Thresholds (Пороги потребления ресурсов): Максимальное время выполнения и объем ресурсов (CPU/Memory), доступные приложению в Sandbox.

Хостинг стороннего кода и данных: Ключевая особенность патента — Google готов размещать и выполнять сторонние данные и код (Instructions) непосредственно на своей инфраструктуре. Это позволяет генерировать ответы на запросы, требующие доступа к специфическим базам данных, без задержек на внешние API-вызовы.
Скорость и контроль через Sandbox: Выполнение в Sandbox критично. Это позволяет Google гарантировать скорость ответа (упоминается <20ms) и безопасность, строго контролируя ресурсы и функции, доступные стороннему приложению.
Автоматизированное масштабирование интеграции данных: Система позволяет тысячам третьих сторон интегрировать свои данные без необходимости ручного взаимодействия с инженерами Google, решая проблему масштабирования.
Жесткие требования к активации (Триггеры): Активация приложения зависит от точного соответствия Query Template (регулярному выражению). Это означает, что система нацелена на очень специфические типы запросов.
Авторитетность источника как условие: Google не позволит любому сайту использовать эту систему. Патент явно указывает на использование сигналов авторитетности источника (signals for the source) и проверку присутствия сайта в стандартной выдаче как необходимые условия для активации приложения (Claim 9).
Контроль качества через поведение пользователей: Существует четкий механизм пессимизации. Если пользователи игнорируют ответ, сгенерированный приложением, и предпочитают стандартные результаты, приложение будет отключено (Claim 8).
Интеграция с Графом Знаний: Система может распознавать сущности в запросах и передавать их идентификаторы в сторонние приложения (Claim 15), что позволяет связывать неструктурированные запросы со структурированными данными третьих сторон.

Best practices (это мы делаем)

Идентификация уникальных наборов данных: Определите, какими уникальными структурированными данными обладает ваш сайт (например, каталоги продукции с актуальными ценами, статистические данные, расписания, технические спецификации). Эта система предназначена для вывода таких данных.
Построение авторитетности в нише: Поскольку активация приложений зависит от signals for the source и присутствия сайта в стандартной выдаче, необходимо быть признанным авторитетом по темам, связанным с вашими данными. Без сильного E-E-A-T доступ к этой системе маловероятен.
Использование структурированных данных и API: Хотя патент описывает загрузку данных в Google, на практике это часто реализуется через структурированную разметку (Schema.org) и API (например, Google Merchant Center, Flight data feeds). Убедитесь, что ваши данные легко доступны, структурированы и актуальны. Патент подтверждает стратегическую важность предоставления данных в машиночитаемом формате.
Оптимизация под прямые ответы и Entity Recognition: Убедитесь, что Google корректно распознает сущности, упоминаемые на вашем сайте. Интеграция с Data Graph позволяет системе связывать запросы о сущностях с вашими данными.
Мониторинг качества и полезности данных: Предоставляемые данные должны быть максимально полезными и точными. Система Google будет отслеживать, как пользователи реагируют на ответы, и отключит источники низкокачественных или нерелевантных данных.

Worst practices (это делать не надо)

Предоставление неточных или устаревших данных: Система предполагает высокую частоту обновления данных (high frequency changing content). Предоставление устаревших данных приведет к негативному пользовательскому опыту и отключению приложения.
Попытки спама или манипуляций через Data Store: Попытки внедрить нерелевантный контент или спам через загружаемые данные будут неэффективны, так как система контролирует выполнение в Sandbox и отслеживает качество ответов.
Игнорирование стандартного SEO: Нельзя полагаться только на интеграцию данных. Если сайт теряет авторитетность или перестает ранжироваться по целевым запросам в стандартной выдаче, он может потерять право на активацию Third Party Search Application.

Стратегическое значение

Патент подтверждает стратегическое направление Google на предоставление прямых ответов и переход от роли поисковой системы к роли движка ответов (Answer Engine). Для бизнеса это означает двойную стратегию: с одной стороны, необходимо стремиться стать поставщиком данных для таких систем, чтобы сохранить видимость в SERP и укрепить бренд как авторитетный источник. С другой стороны, необходимо учитывать риск потери трафика, так как пользователи получают ответы непосредственно в выдаче. Долгосрочная стратегия должна фокусироваться на построении авторитета и предоставлении данных в структурированном, машиночитаемом виде.

Практические примеры

Сценарий: Интеграция данных о статусе авиарейсов для авиакомпании

Цель: Предоставить пользователям актуальный статус рейса прямо в Google SERP.
Действия (Настройка): Авиакомпания (третья сторона) определяет Query Template: "статус рейса $flight_number". Она загружает Data Store, содержащий актуальную информацию о рейсах (время вылета, прилета, задержки, гейт). Она предоставляет Instructions: код, который принимает $flight_number, ищет его в Data Store и форматирует ответ: "Рейс $flight_number вылетает из $origin в $time, гейт $gate".
Проверка Google: Google убеждается, что авиакомпания авторитетна для предоставления этих данных.
Действия (Рантайм): Пользователь вводит "статус рейса AA123". Google распознает шаблон, извлекает "AA123".
Выполнение: Google запускает код авиакомпании в Sandbox. Код находит AA123 в локально загруженной базе данных.
Результат: Google показывает прямой ответ: "Рейс AA123 вылетает из JFK в 14:00, гейт B20" на первой позиции, без обращения к сайту авиакомпании в момент запроса.

Означает ли этот патент, что Google хранит копии баз данных моего сайта?

Да, именно это и описывается. Система предназначена для того, чтобы третья сторона загружала свой Data Store (например, таблицу или базу данных) непосредственно в инфраструктуру поисковой системы. Это позволяет Google генерировать ответы мгновенно, используя эти локальные данные, без необходимости обращаться к вашему серверу в момент запроса.

Может ли любой сайт использовать эту систему для генерации прямых ответов?

Нет. Патент явно указывает на механизмы контроля качества и авторитетности. Система проверяет signals for the source (сигналы авторитетности источника) и может требовать, чтобы ваш сайт уже ранжировался в стандартной выдаче по целевым запросам (Claim 9). Доступ к этой системе, вероятно, ограничен доверенными и авторитетными партнерами в конкретных нишах.

Как Google защищается от плохого кода или перегрузки со стороны этих сторонних приложений?

Все сторонние приложения выполняются в строго контролируемой среде — Sandbox (Песочница). Эта среда ограничивает доступные функции, время выполнения и вычислительные ресурсы (CPU, память). Если приложение работает слишком долго или потребляет слишком много ресурсов, оно будет принудительно остановлено.

Что произойдет, если пользователи недовольны ответами, которые генерирует мое приложение?

Патент описывает механизм обратной связи (Claim 8). Система отслеживает, как часто пользователи игнорируют ваш ответ и кликают на стандартные результаты поиска. Если этот показатель достигает определенного порога, ваше приложение (Query Template) будет автоматически отключено. Также упоминается возможность предоставления прямой ссылки для выражения недовольства ответом.

Как обеспечивается актуальность данных, если они загружены в Google?

Патент предусматривает механизм обновления. Третья сторона несет ответственность за предоставление обновленных данных для Data Store. Система поддерживает получение этих обновлений на периодической основе (Claim 4), позволяя третьей стороне контролировать свежесть данных.

Как система определяет, какой именно запрос должен активировать приложение?

Активация основана на Query Templates, которые представляют собой регулярные выражения (Regex), предоставленные третьей стороной. Запрос пользователя должен точно соответствовать этому шаблону (например, "цена акции $ticker" или "перевод $word на $language"). Это очень точный механизм таргетинга запросов.

Какова связь между этой системой и Графом Знаний (Knowledge Graph)?

Система интегрирована с графом знаний (Data Graph) (Claim 15). Она может распознавать сущности в запросе, находить их идентификаторы в графе и передавать эти идентификаторы в стороннее приложение. Это позволяет приложению точно знать, о какой сущности идет речь, и использовать этот идентификатор как ключ для поиска в своем Data Store.

Является ли эта система тем же самым, что и Featured Snippets?

Нет. Featured Snippets обычно извлекаются из текста веб-страниц, которые Google проиндексировал стандартным способом. Описанная система генерирует ответы, используя код и структурированные базы данных, предоставленные третьей стороной специально для этой цели. Результаты этой системы часто выглядят как специализированные виджеты или "OneBox" (например, калькуляторы, спортивные табло, данные о погоде).

Как SEO-специалисту на практике взаимодействовать с этой системой?

Напрямую загрузить код и данные, как описано в патенте, могут только крупные партнеры Google. Однако для большинства сайтов принципы патента реализуются через предоставление данных в структурированном виде: использование разметки Schema.org, загрузка фидов данных (Merchant Center, Manufacturer Center), использование API для обновления контента. Ключевая задача SEO — обеспечить максимальную авторитетность сайта и доступность структурированных данных.

Какое преимущество получает третья сторона, предоставляя свои данные Google?

Основное преимущество — это максимальная видимость в SERP. Ответы, сгенерированные этой системой, часто показываются на заметной позиции (position of prominence), выше стандартных результатов. Это укрепляет бренд как авторитетный источник информации по данной теме и может включать deep link на сайт третьей стороны, хотя пользователь и получает основной ответ сразу.

Как Google позволял сторонним провайдерам внедрять специализированные результаты в выдачу по подписке пользователя (Google Subscribed Links)

Патент описывает систему (известную как "Google Subscribed Links"), позволяющую сторонним поставщикам контента определять шаблоны запросов и предоставлять структурированные данные (DataObjects) через XML-фиды. Если запрос пользователя соответствовал шаблону и пользователь был подписан на этого провайдера, система внедряла специализированный ответ непосредственно на страницу результатов поиска.

US7593939B2
2009-09-22

SERP
Индексация
Персонализация

Как Google синдицирует (передает) свои блоки с ответами (Answer Boxes) другим поисковым системам и приложениям через API

Патент описывает технологию, позволяющую сторонним поисковым системам, не имеющим собственной функциональности блоков с ответами (Answer Boxes), запрашивать и отображать эти блоки от другого провайдера (например, Google). Это достигается путем встраивания специального кода (API/AJAX), который отправляет отфильтрованный запрос провайдеру и интегрирует полученный ответ в стороннюю выдачу.

US8959111B2
2015-02-17

SERP

Как Google выбирает, синтезирует и озвучивает прямые ответы для голосового поиска с учетом контекста пользователя

Google обрабатывает голосовые запросы, идентифицируя стандартный результат (ссылка и сниппет) и одновременно находя или синтезируя прямой ответ в форме законченного предложения. Этот ответ адаптируется под контекст пользователя (например, местоположение), конвертируется в аудиоформат и озвучивается вместе с отображением визуальной выдачи.

US20170235827A1
2017-08-17

Семантика и интент
Мультимедиа
Персонализация

Как Google индексирует контент, который не может прочитать, получая метаданные напрямую от сторонних приложений и серверов

Google использует механизм для индексации данных, хранящихся на сторонних серверах или в проприетарных форматах, которые поисковая система не может обработать напрямую. Вместо сканирования исходных данных система получает от третьей стороны готовый для индексации текст или HTML-метаданные, представляющие этот контент. Это позволяет сделать данные доступными для поиска через систему Google, соблюдая при этом контроль доступа и ограничения на размер метаданных.

US9262420B1
2016-02-16

Индексация
Техническое SEO

Как Google извлекает и ранжирует прямые ответы (Featured Snippets) из веб-страниц

Google использует систему для ответов на вопросы пользователей путем извлечения конкретных предложений из результатов поиска. Система оценивает предложения-кандидаты по трем критериям: насколько часто похожие фразы встречаются в других результатах (консенсус), насколько предложение соответствует запросу (релевантность) и насколько авторитетен источник (ранг документа). Лучшие ответы отображаются над стандартными результатами поиска.

US8682647B1
2014-03-25

SERP
Семантика и интент

Как Google (YouTube) анализирует трафик конкурирующих видео для рекомендации улучшений метаданных

Google использует систему для анализа конкуренции между видео на основе общих поисковых запросов и времени просмотра. Система выявляет поисковые запросы, которые приводят трафик на конкурирующие (например, производные) видео, и сравнивает их с метаданными оригинального видео. Если обнаруживаются релевантные термины, отсутствующие у оригинала, они рекомендуются автору для улучшения видимости.

US10318581B2
2019-06-11

Поведенческие сигналы
Мультимедиа
Семантика и интент

Как Google использует историю навигации и клики по рекламе для генерации ключевых слов, гео-таргетинга и выявления MFA-сайтов

Патент Google, описывающий три механизма, основанных на анализе поведения пользователей (selection data). Система использует путь навигации пользователя для генерации новых ключевых слов для рекламы, улучшает гео-таргетинг объявлений на основе предпочтений пользователей, а также выявляет низкокачественные сайты (MFA/манипулятивные) по аномально высокому CTR рекламных блоков.

US8005716B1
2011-08-23

Поведенческие сигналы
Семантика и интент
Антиспам

Как Google использует контекст пользователя для предоставления информации без явного запроса (Технология предиктивного поиска)

Google использует технологию предиктивного (проактивного) поиска, которая анализирует текущий контекст пользователя (местоположение, время, календарь, скорость движения, привычки) для автоматического предоставления релевантной информации. Система реагирует на «запрос без параметров» (например, открытие приложения или простое действие с устройством) и самостоятельно определяет информационные потребности пользователя.

US8478519B2
2013-07-02

Персонализация
Семантика и интент
Поведенческие сигналы

Как Google использует "ложные пропуски" (Fake Skips) для точной оценки качества своих правил синонимов

Google анализирует поведение пользователей для оценки качества синонимов, используемых при переписывании запросов. Патент вводит метрику "Fake Skip" (Ложный пропуск). Она фиксируется, если пользователь пропустил результат с синонимом, но кликнул на результат ниже, который также содержит этот синоним и исходный термин. Это позволяет точнее калибровать систему синонимов и не пессимизировать хорошие правила из-за неоднозначного поведения пользователей.

US8909627B1
2014-12-09

Поведенческие сигналы
Семантика и интент
SERP

Как Google использует персонализированный PageRank ссылающихся страниц для переоценки значимости анкорного текста

Google может персонализировать поисковую выдачу, изменяя вес анкорного текста ссылок. Вес ссылки зависит не от глобального PageRank ссылающейся страницы, а от её "персонализированного PageRank", рассчитанного на основе предпочтений пользователя (например, любимых сайтов или тематик). Это позволяет повышать в выдаче документы, на которые ссылаются авторитетные для конкретного пользователя источники.

US7260573B1
2007-08-21

Персонализация
Ссылки

Как Google генерирует блок "Похожие вопросы" (People Also Ask) на основе анализа кликов и поведения пользователей

Google анализирует топовые результаты по исходному запросу и определяет "Тематические запросы" (Topic Sets) — прошлые запросы, по которым пользователи кликали на эти результаты. Затем система ищет популярные вопросы, соответствующие этим темам, фильтрует дубликаты на основе общности кликов и показывает их в блоке PAA для дальнейшего исследования темы.

US9213748B1
2015-12-15

SERP
Семантика и интент
Поведенческие сигналы

Как Google автоматически определяет важность различных частей веб-страницы (DOM-узлов) для ранжирования

Google анализирует коллекции похожих структурированных документов (например, товарных карточек) и создает общую модель (DOM). Затем система изучает логи запросов и кликов, чтобы понять, какие части структуры (заголовки, основной контент, реклама) чаще всего содержат ключевые слова из успешных запросов. Этим частям присваивается больший вес при расчете релевантности.

US8538989B1
2013-09-17

Семантика и интент
Индексация
Структура сайта

Как Google использует данные из Local Search и Google Maps для распознавания географических названий в основном поиске

Google анализирует поведение пользователей в интерфейсах с отдельными полями ввода "Что?" и "Где?" (например, в Google Maps). На основе этой статистики система определяет, является ли термин однозначным названием местоположения ("Нью-Йорк") или нет ("Пицца"). Это позволяет поиску отличать локальные запросы от общих и формировать "черные списки" для терминов, которые похожи на города, но ими не являются (например, "Орландо Блум").

US8782030B1
2014-07-15

Local SEO
Семантика и интент
Поведенческие сигналы

Как Google выбирает каноническую (основную) версию документа, основываясь на авторитетности источника и полноте контента

Google использует систему для выбора канонической (основной) версии документа среди его дубликатов. Система присваивает «приоритет авторитетности» каждой версии, основываясь на источнике (например, официальный издатель) и праве публикации. Основной версией выбирается та, которая имеет высокий авторитет и является полной. При отсутствии идеального варианта выбирается версия с наибольшим объемом информации (например, самая длинная или с наибольшим PageRank).

US8095876B1
2012-01-10

EEAT и качество
Техническое SEO
Ссылки

Как Google динамически регулирует влияние фактора близости в локальном поиске в зависимости от тематики запроса и региона

Google использует систему для определения того, насколько важна близость (расстояние) для конкретного поискового запроса и региона. Анализируя исторические данные о кликах и запросах маршрутов, система вычисляет «Фактор важности расстояния». Для запросов типа «Кофе» близость критична, и удаленные результаты пессимизируются. Для запросов типа «Аэропорт» близость менее важна, и качественные результаты могут ранжироваться высоко. Система также учитывает плотность региона (город или село), адаптируя ожидания пользователей по расстоянию.

US8463772B1
2013-06-11

Local SEO
Поведенческие сигналы