Как Google использует графовые нейросети для обнаружения развивающихся событий через анализ социальных сетей и поисковых запросов

USING LIVE DATA STREAMS AND/OR SEARCH QUERIES TO DETERMINE INFORMATION ABOUT DEVELOPING EVENTS (Использование потоков данных в реальном времени и/или поисковых запросов для определения информации о развивающихся событиях)

US11366812B2
Google LLC
2019-06-25
2022-06-21

Google использует систему для обнаружения развивающихся событий (например, срочных новостей) путем мониторинга потоков данных в реальном времени (социальные сети) и поисковых запросов. Система моделирует распространение информации в виде графа и применяет специализированные модели машинного обучения (например, GCN, GAN) для оценки вероятности события и его релевантности для пользователя, позволяя предоставлять актуальную информацию до ее появления в традиционных источниках.

Какую проблему решает

Патент решает проблему задержки в получении информации о развивающихся (developing events) или "живых" событиях традиционными поисковыми системами и базами знаний. Информация о срочных событиях (катастрофы, происшествия, стихийные собрания) часто сначала появляется в социальных сетях и в виде всплеска поисковых запросов от очевидцев, прежде чем ее публикуют официальные новостные агентства. Изобретение направлено на быстрое обнаружение таких событий и предоставление информации о них заинтересованным пользователям в реальном времени.

Что запатентовано

Запатентована система и метод для сбора информации о развивающихся событиях из множества потоков данных в реальном времени (live data streams) и поисковых запросов. Суть изобретения заключается в моделировании распространения информации (diffusion of information) через популяцию (например, пользователей социальных сетей) в виде структуры данных (например, направленного графа). Эта структура подается на вход модели машинного обучения (например, Graph Convolutional Network или Graph Attention Network), которая оценивает вероятность того, что событие действительно происходит, и прогнозирует его релевантность для конкретного пользователя.

Как это работает

Система работает следующим образом:

Мониторинг: Постоянно отслеживаются live data streams (например, посты в социальных сетях) и поисковые запросы.
Моделирование распространения: Система строит базовую сетевую модель (underlying network model), отражающую связи между источниками (узлы) и пути коммуникации (ребра). На ее основе строится направленный граф, показывающий, как информация о потенциальном событии распространяется во времени.
Применение ML-моделей: Этот граф (или его векторное представление/embedding) подается на вход графовой нейронной сети (GNN, GCN, GAN). Модель обучается на исторических данных о подтвержденных событиях.
Оценка и Прогноз: Модель выдает оценку вероятности события и/или оценку его релевантности для конкретного пользователя, учитывая его признаки (user features).
Реагирование: Если вероятность или релевантность превышает пороговое значение, система предоставляет пользователю информацию о событии. Это может быть push-уведомление, ответ автоматизированного ассистента или предложение альтернативных поисковых запросов (alternative query suggestions), если точный ответ еще не доступен.

Актуальность для SEO

Высокая. Обнаружение срочных новостей и предоставление информации в реальном времени (Real-Time Search, QDF) является критически важной функцией поисковых систем. Использование сложных моделей машинного обучения, таких как графовые нейросети, для анализа социальных сигналов и паттернов распространения информации отражает современные тенденции в области Information Retrieval и NLP.

Важность для SEO

Патент имеет существенное значение (75/100), особенно для новостных сайтов, агрегаторов и создателей контента, ориентированных на освещение текущих событий. Он раскрывает механизм, с помощью которого Google может идентифицировать первоисточники и надежные источники информации в реальном времени, анализируя не только контент, но и паттерны его распространения в социальных сетях. Это подчеркивает важность скорости публикации, авторитетности источника в социальных медиа и стратегий распространения контента для быстрого попадания в выдачу по "горячим" запросам.

Термины и определения

Alternative Query Suggestion (Предложение альтернативного запроса): Запрос, предлагаемый пользователю, когда информация, отвечающая на его исходный запрос о развивающемся событии, еще недоступна. Может быть основан на запросах других пользователей, связанных с тем же событием.
Developing Event (Развивающееся событие): Новое или "живое" событие (например, происшествие, срочная новость), информация о котором только начинает распространяться и еще может отсутствовать в традиционных источниках.
Diffusion of Information (Распространение информации): Процесс распространения информации о событии через популяцию источников (например, пользователей социальных сетей).
Directed Graph (Направленный граф): Структура данных, используемая для моделирования diffusion of information поверх underlying network model. Показывает поток информации между узлами во времени.
Embedding (Векторное представление): Представление данных (например, текста запроса или направленного графа) в латентном пространстве (часто пониженной размерности).
GCN (Graph Convolutional Network, Графовая сверточная сеть): Тип нейронной сети, предназначенный для обработки данных, представленных в виде графов. Упоминается как возможная реализация ML-модели.
GAN (Graph Attention Network, Графовая сеть внимания): Тип нейронной сети для обработки графовых данных, использующий механизмы внимания. Упоминается как возможная реализация ML-модели.
GNN (Graph Neural Network, Графовая нейронная сеть): Общий класс нейронных сетей для обработки графовых данных. Может использоваться для создания embeddings графов.
Live Data Stream (Поток данных в реальном времени): Информационный поток, генерируемый пользователями или организациями, включающий обновления (текст, изображения, видео) с течением времени. Пример: лента в социальной сети.
Underlying Network Model (Базовая сетевая модель): Структура данных, моделирующая связи между источниками информации. Включает узлы (источники) и ребра (пути коммуникации, например, подписки в социальных сетях).

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод обнаружения событий.

Мониторинг множества live data streams.
На основе мониторинга генерируется структура данных, моделирующая diffusion of information через популяцию.
Эта структура данных подается на вход ML-модели для генерации вывода, указывающего на вероятность (likelihood) возникновения developing event.
Если вероятность удовлетворяет критерию, система выводит информацию о событии.
Ключевое уточнение: Структура данных является графом, а ML-модель обучена с использованием исторических примеров, где каждый пример включает предшествующий граф, моделировавший распространение информации о подтвержденном прошлом событии (verified past event).

Claim 3 (Независимый пункт): Описывает метод оценки релевантности события для конкретного пользователя с использованием двухступенчатой ML-модели.

Мониторинг live data streams.
Генерация графа, моделирующего diffusion of information.
Применение графа к первой ML-модели для генерации embedding.
Применение этого embedding И предпочтений/интересов конкретного пользователя ко второй ML-модели для генерации прогнозируемой меры релевантности (predicted measure of relevancy) события для этого пользователя.
Если мера релевантности удовлетворяет критерию, информация о событии выводится пользователю.

Claim 4 (Независимый пункт): Аналогичен базовому процессу Claim 1, но с уточнением типа ML-модели.

Процесс мониторинга, генерации структуры данных, применения ML-модели для оценки вероятности события и вывода информации.
Ключевое уточнение: ML-модель является моделью, обученной для работы с графовыми входными данными (например, GNN, GCN, GAN).

Claim 5 (Независимый пункт): Аналогичен базовому процессу Claim 1, но с уточнением источника выводимой информации.

Процесс мониторинга, генерации структуры данных, применения ML-модели для оценки вероятности события и вывода информации.
Ключевое уточнение: Выводимая информация о событии определяется, по крайней мере частично, на основе корпуса запросов (corpus of queries), отправленных в поисковые системы и связанных с этим событием.

Где и как применяется

Изобретение охватывает несколько этапов поисковой архитектуры, фокусируясь на сборе данных в реальном времени и понимании запросов для предоставления свежей информации.

CRAWLING – Сканирование и Сбор данных
Система активно собирает данные не из традиционного веба, а из live data streams (социальные сети A, B) и потока поисковых запросов (через Query Monitor). Это механизм сбора данных в реальном времени.

INDEXING – Индексирование и извлечение признаков
Полученные данные обрабатываются для построения структур: Underlying Network Model (моделирование связей между источниками) и Directed Graph (моделирование распространения конкретной информации). Также на этом этапе (или офлайн) происходит обучение графовых ML-моделей на исторических данных.

QUNDERSTANDING – Понимание Запросов
Query Monitor анализирует входящие запросы для обнаружения кластеров семантически связанных запросов, которые могут указывать на developing event. Также система использует запросы других пользователей как источник информации для генерации alternative query suggestions (Claim 5).

RANKING / RERANKING – Ранжирование и Переранжирование
Хотя патент не фокусируется на ранжировании традиционных веб-результатов, он описывает механизм оценки актуальности и релевантности обнаруженного события для пользователя. Если событие признано релевантным (Claim 3), информация о нем предоставляется пользователю, что можно рассматривать как форму ранжирования свежего контента или ответа ассистента.

Входные данные:

Потоки данных из социальных сетей (Live data streams).
Поток поисковых запросов.
Данные о связях между источниками (для построения Underlying Network Model).
Признаки пользователя (user features, preferences or interests).
Исторические данные о подтвержденных событиях и графах их распространения (для обучения ML).

Выходные данные:

Оценка вероятности возникновения события (likelihood of occurrence).
Оценка релевантности события для пользователя (measure of relevancy).
Информация о событии, предоставляемая пользователю (например, уведомление, ответ ассистента).
Alternative query suggestions.

На что влияет

Конкретные типы контента: В первую очередь влияет на контент в реальном времени – посты в социальных сетях, срочные новости, обновления статусов.
Специфические запросы: Запросы о текущих событиях, происшествиях, трендах (QDF - Query Deserves Freshness).
Конкретные ниши или тематики: Новости, спорт, политика, чрезвычайные ситуации – любые тематики, где информация быстро устаревает.

Когда применяется

Условия работы: Алгоритм активируется при обнаружении потенциального developing event. Это может быть вызвано всплеском семантически связанных постов в социальных сетях или кластером похожих поисковых запросов.
Триггеры активации: Система постоянно мониторит потоки данных. Триггером для запуска анализа (построения графа и применения ML) является обнаружение паттерна распространения информации, который потенциально соответствует новому событию.
Условия вывода: Информация выводится пользователю, только если вероятность события (Claim 1) или его релевантность для пользователя (Claim 3) удовлетворяет определенному критерию (порогу).

Пошаговый алгоритм

Процесс А: Обнаружение события и оценка вероятности (на основе Claim 1, 4)

Непрерывный мониторинг: Система отслеживает множество live data streams и/или поисковых запросов.
Идентификация потенциального события: Обнаружение кластеров семантически связанного контента или аномальной активности в потоках данных.
Построение базовой модели: Использование существующей или генерация Underlying Network Model, отражающей связи между источниками, участвующими в обсуждении.
Моделирование распространения: Генерация структуры данных (например, Directed Graph), которая моделирует diffusion of information о потенциальном событии через эту популяцию во времени.
Обработка графа ML-моделью: Применение структуры данных в качестве входных данных для модели машинного обучения, обученной на графах (например, GCN, GAN).
Генерация вывода: Получение вывода от ML-модели, указывающего на вероятность (likelihood) возникновения developing event.
Принятие решения: Сравнение вероятности с пороговым критерием.
Вывод информации: Если критерий удовлетворен, система инициирует вывод информации о событии (например, уведомление).

Процесс Б: Оценка релевантности для пользователя (на основе Claim 3)

Генерация графа: (Шаги 1-4 Процесса А).
Генерация векторного представления: Применение графа к первой ML-модели (например, GNN) для генерации embedding.
Сбор признаков пользователя: Получение данных о предпочтениях, интересах, местоположении пользователя.
Оценка релевантности: Применение embedding графа И признаков пользователя ко второй ML-модели.
Генерация вывода: Получение прогнозируемой меры релевантности события для пользователя.
Принятие решения и Вывод: Если релевантность удовлетворяет критерию, информация о событии предоставляется конкретному пользователю.

Процесс В: Использование поисковых запросов (на основе Claim 5, 6)

Обнаружение события: (Выполнение Процесса А или Б).
Сбор корпуса запросов: Идентификация корпуса поисковых запросов, связанных с обнаруженным событием.
Генерация ответов: Когда пользователь спрашивает о событии, а традиционные источники еще не содержат ответа, система использует собранный корпус запросов для предоставления информации.
Формирование альтернативных предложений: Генерация alternative query suggestions на основе запросов других пользователей для предоставления пользователю дополнительной информации или уточнения интента.

Какие данные и как использует

Данные на входе

Контентные факторы: Текст, изображения, видео из live data streams (посты в социальных сетях). Текст поисковых запросов.
Временные факторы: Временные метки постов и запросов критически важны для моделирования diffusion of information во времени.
Структурные факторы (Социальные): Данные о связях между источниками (кто на кого подписан, кто кого репостит) для построения Underlying Network Model.
Географические факторы: Местоположение источников (например, GPS координаты с мобильных устройств), упоминания локаций в постах/запросах. Используются для кластеризации информации о локальных событиях.
Пользовательские факторы: Признаки пользователя (user features), предпочтения, интересы, демография. Используются для оценки релевантности события для конкретного пользователя.
Данные об источниках: Предполагаемая надежность/авторитетность источников (например, официальные аккаунты служб быстрого реагирования, журналисты). Патент указывает, что ML-модель может обучаться определять надежность отдельных источников в процессе тренировки.

Какие метрики используются и как они считаются

Likelihood of Occurrence (Вероятность возникновения): Метрика, генерируемая ML-моделью на основе анализа графа распространения информации. Указывает на уверенность системы в том, что событие действительно происходит.
Measure of Relevancy (Мера релевантности): Метрика, прогнозирующая, насколько событие будет интересно конкретному пользователю. Рассчитывается ML-моделью на основе embedding графа и признаков пользователя.
Критерии/Пороги: Пороговые значения для Likelihood of Occurrence и Measure of Relevancy, при превышении которых система инициирует вывод информации.
Вероятностные модели: Патент упоминает конкретные формулы для моделирования вероятности, обусловленной признаками пользователя и структурой графа:

$P(\text{событие в узле x }|\text{ признаки пользователя}, \text{ граф})$

Или совместная вероятность:

$P(\text{событие в узле x}, \text{ пользователь наблюдает событие в узле x }|\text{ признаки пользователя}, \text{ признаки графа})$

Методы машинного обучения: Используются специализированные архитектуры для работы с графами: GNN, GCN, GAN. Обучение происходит на исторических данных (verified past events) с использованием методов вроде градиентного спуска и обратного распространения ошибки для минимизации функции потерь (loss function).

Анализ распространения информации как ключевой сигнал: Google анализирует не только содержание сообщений о событии, но и то, КАК эта информация распространяется (diffusion of information). Паттерн распространения моделируется в виде графа и анализируется с помощью сложных ML-моделей (GNN/GCN/GAN).
Автоматическое определение надежности источников: Графовые модели обучаются распознавать надежные источники. Узлы в графе, соответствующие авторитетным источникам (например, СМИ, официальные службы), могут получать больший вес. Система также учится отличать очевидцев от источников слухов.
Двухэтапная оценка: Вероятность и Релевантность: Система разделяет оценку того, происходит ли событие (Likelihood of Occurrence), и оценку того, интересно ли оно конкретному пользователю (Measure of Relevancy). Для оценки релевантности может использоваться двухступенчатая модель: первая создает embedding графа, вторая использует его вместе с признаками пользователя.
Запросы как источник информации: Если информация о событии еще отсутствует в индексе, Google может использовать поисковые запросы других пользователей, связанных с этим событием, для генерации ответов или alternative query suggestions. Это позволяет предоставить хоть какую-то информацию в условиях ее дефицита.
Важность Real-Time данных: Патент подчеркивает важность мониторинга live data streams (социальных сетей) для обнаружения событий быстрее традиционных новостных агентств.

Best practices (это мы делаем)

Рекомендации сфокусированы на стратегиях для издателей новостей и создателей контента в реальном времени.

Максимизация скорости и точности публикаций: Необходимо быть в числе первых источников, публикующих точную информацию о развивающемся событии. Это увеличивает вероятность того, что ваш контент станет основой для формирования графа распространения информации.
Активное использование социальных сетей для распространения: Поскольку система мониторит live data streams, активное и быстрое распространение новостей через официальные социальные каналы критически важно. Необходимо стимулировать распространение информации пользователями (репосты).
Построение авторитетности в социальных сетях: Необходимо развивать авторитетные аккаунты (узлы в Underlying Network Model). Патент указывает, что ML-модели учатся определять надежность узлов. Авторитетные аккаунты с большим количеством связей и историей достоверных публикаций будут иметь больший вес в графе.
Мониторинг поисковых трендов и запросов: Отслеживание всплесков запросов (например, через Google Trends) помогает понять, какую именно информацию ищут пользователи (corpus of queries). Быстрое создание контента, отвечающего на эти конкретные вопросы, повышает релевантность.
Использование геолокационных сигналов: Для локальных новостей важно указывать точное местоположение события, так как система использует географические данные для кластеризации и определения релевантности.

Worst practices (это делать не надо)

Распространение непроверенной информации и слухов: Публикация недостоверной информации негативно скажется на надежности источника (узла в графе). ML-модели обучаются минимизировать вес ненадежных источников при анализе diffusion of information.
Игнорирование социальных сетей как канала дистрибуции: Полагаться только на трафик из органического поиска для новостного контента неэффективно. Если информация не распространяется через live data streams, система может не обнаружить ее достаточно быстро.
Медленная реакция на события: Задержка в публикации приводит к тому, что другие источники сформируют начальный граф распространения, и догнать их будет сложнее.
Манипуляции с распространением (боты): Попытки искусственно ускорить распространение информации через сети ботов могут быть обнаружены при анализе графа, так как паттерны распространения будут отличаться от органических, что приведет к потере доверия к источнику.

Стратегическое значение

Патент подтверждает стратегическую важность интеграции SEO и SMM для работы с трендами и новостями. Для Google важно не просто найти контент, но и верифицировать его в реальном времени. Верификация происходит через анализ паттернов распространения информации и авторитетность участвующих узлов. Это означает, что для доминирования в Real-Time Search необходимо быть не только быстрым, но и иметь сильную, авторитетную сеть дистрибуции контента в социальных медиа. Использование графовых нейросетей для этих задач указывает на высокий уровень сложности алгоритмов, используемых Google для оценки свежего контента.

Практические примеры

Сценарий: Освещение локального происшествия новостным порталом

Мониторинг: Редакция отслеживает локальные группы и аккаунты служб быстрого реагирования (источники из патента). Появляются первые сообщения о крупном ДТП.
Быстрая верификация: Журналист быстро проверяет информацию через официальные каналы.
Публикация и посев: Новостной портал немедленно публикует короткую заметку с подтвержденными фактами и одновременно размещает ее в своих авторитетных социальных аккаунтах (Twitter, Facebook) с призывом делиться информацией.
Действие системы Google (по патенту): Google обнаруживает всплеск активности. Строится Directed Graph. Поскольку информация исходит от авторитетного новостного аккаунта (надежный узел) и быстро распространяется органически, графовая нейросеть (GCN/GAN) присваивает событию высокую Likelihood of Occurrence.
Результат: Новость быстро попадает в Топ-новости или другие блоки с актуальной информацией. Пользователи, ищущие информацию о ДТП, видят этот материал или получают уведомления, если система оценила событие как релевантное для них (например, из-за их местоположения).

Что такое "развивающееся событие" (developing event) в контексте этого патента?

Это событие, которое происходит в данный момент (например, стихийное бедствие, происшествие, срочная новость), информация о котором только начинает распространяться. Ключевая характеристика – эта информация часто еще недоступна в традиционных новостных источниках или в индексе поисковой системы, но активно обсуждается в социальных сетях или ищется пользователями.

Как система моделирует распространение информации?

Система использует двухуровневую модель. Сначала строится базовая сетевая модель (Underlying Network Model), которая отражает связи между источниками (кто на кого подписан). Затем поверх нее строится направленный граф (Directed Graph), который показывает, как конкретная информация о событии передавалась от одного источника к другому с течением времени.

Почему используются именно графовые нейросети (GNN, GCN, GAN)?

Традиционные модели машинного обучения плохо справляются с анализом сложных взаимосвязей в социальных сетях. Графовые нейросети специально разработаны для обработки данных, представленных в виде графов. Они позволяют анализировать паттерны распространения информации, учитывать структуру сети и определять влияние (авторитетность) отдельных узлов (источников).

Как система определяет, надежен ли источник информации?

Патент утверждает, что графовая нейросеть обучается определять надежность отдельных источников в процессе тренировки на исторических данных о подтвержденных событиях. Если источник в прошлом часто публиковал достоверную информацию, которая подтверждалась, модель присвоит его узлу в графе больший вес. Источники слухов или недостоверной информации будут пессимизироваться.

Что означает, что система использует поисковые запросы как источник информации?

Если событие только произошло и в индексе нет релевантных результатов, система анализирует, что ищут другие пользователи, связанные с этим событием (corpus of queries). Например, если пользователь ищет "пожар в соборе", а другие ищут "какие реликвии спасены при пожаре в соборе", система может предложить первый пользователю альтернативный запрос о реликвиях, тем самым предоставляя ему дополнительную информацию.

Какое значение этот патент имеет для небольших новостных сайтов?

Он подчеркивает, что скорость и активное распространение в социальных сетях критически важны для попадания в выдачу по горячим темам. Даже небольшой сайт может конкурировать, если он является первоисточником и его контент активно распространяется органически. Важно строить авторитетность не только сайта, но и связанных с ним социальных аккаунтов.

Влияет ли этот патент на ранжирование обычных (не новостных) сайтов?

Напрямую – нет. Патент сфокусирован исключительно на обнаружении и предоставлении информации о developing events в реальном времени. Для "вечнозеленого" контента или коммерческих запросов механизмы ранжирования остаются прежними, хотя общие принципы оценки авторитетности источников могут пересекаться.

Как система определяет, что событие интересно конкретному пользователю?

Для этого используется отдельный механизм (описанный в Claim 3). Система создает векторное представление (embedding) графа распространения информации и подает его вместе с признаками пользователя (интересы, местоположение, демография) на вход второй ML-модели. Эта модель прогнозирует меру релевантности (Measure of Relevancy) события для пользователя.

Может ли система использоваться для автоматического оповещения экстренных служб?

Да, в патенте упоминается такая возможность. Если вероятность события (Likelihood of Occurrence) превышает определенный высокий порог, система может автоматически инициировать оповещение служб быстрого реагирования (например, пожарных или полиции), предоставляя им детали о событии.

Что важнее для быстрого попадания в поиск по горячей теме: оптимизация текста или активность в социальных сетях?

В контексте этого патента, активность в социальных сетях и паттерн распространения информации имеют первостепенное значение для обнаружения события. Система анализирует live data streams. Оптимизация текста важна для релевантности, но если информация не распространяется через социальные каналы, она может быть не обнаружена достаточно быстро.

Как Google создает временные Графы Знаний для освещения срочных новостей и событий в реальном времени

Google использует механизм для мониторинга «live data streams» (социальные сети, поисковые запросы) для обнаружения «developing events» (срочные новости, происшествия). Для этих событий система создает «Event-Specific Provisional Knowledge Graph» – временный слой поверх основного Графа Знаний, который содержит самую свежую, хотя и потенциально непроверенную информацию. Это позволяет Поиску и Ассистенту быстро предоставлять ответы о событиях, происходящих прямо сейчас.

US11256992B2
2022-02-22

Knowledge Graph
Свежесть контента
Семантика и интент

Как Google встраивает ленту социальных обсуждений в реальном времени прямо в результаты поиска по трендовым запросам

Google использует механизм для идентификации трендовых запросов ("active keywords"), связанных с текущими событиями. Если пользователь ищет по такому запросу, система отбирает релевантные посты из социальных сетей, созданные во время события, и отображает их в виде специальной встроенной ленты ("discussion stream") прямо на странице результатов поиска, отделяя их от более старых социальных постов.

US9984155B2
2018-05-29

SERP
Свежесть контента
Персонализация

Как Google использует всплески поискового интереса и анализ новостей для обновления Графа Знаний в реальном времени

Google отслеживает аномальный рост запросов о сущностях (людях, компаниях) как индикатор реального события. Система анализирует свежие документы, опубликованные в этот период, извлекая факты в формате Субъект-Глагол-Объект (SVO). Эти факты используются для оперативного обновления Графа Знаний или добавления блока «Недавно» в поисковую выдачу.

US9235653B2
2016-01-12

Knowledge Graph
Свежесть контента
Семантика и интент

Как Google создает агрегированные блоки событий (Integrated Event View), объединяя факты, новости и фильтруя социальные сети

Google использует систему для идентификации событий (спорт, концерты) в запросах и генерации «Интегрированного представления события» (Integrated Event View). Эта система агрегирует фактические данные, результаты веб-поиска и контент из социальных сетей. Ключевой особенностью является фильтрация социальных сообщений с использованием семантического сходства (например, LSA) и геолокации для обеспечения релевантности.

US20110302153A1
2011-12-08

Семантика и интент

Как Google использует машинное обучение для извлечения фактов из текста и перевода вопросов на естественном языке в пути Графа Знаний

Анализ патента Google, описывающего два ключевых механизма: автоматическое расширение Графа Знаний путем анализа текста и ответы на вопросы на естественном языке. Система использует машинное обучение для определения надежных путей (связей) в графе. Эти пути используются как для вывода новых фактов из веб-документов, так и для интерпретации запросов пользователей и поиска прямых ответов.

US10810193B1
2020-10-20

Knowledge Graph
Семантика и интент

Как Google использует вероятностные модели и анализ пользовательского выбора (кликов) для обучения систем ранжирования

Патент Google описывает метод эффективного ранжирования контента (видео или результатов поиска) с использованием парных сравнений. Система моделирует качество как вероятностное распределение и оптимизирует сбор данных. Этот механизм может применяться для интерпретации кликов в поисковой выдаче как сигналов предпочтения, учитывая позицию результата и доверие к пользователю.

US8688716B1
2014-04-01

SERP
Поведенческие сигналы

Как Google использует близость цитирований (ссылок) для кластеризации результатов поиска

Google может группировать результаты поиска, анализируя, как документы ссылаются друг на друга. Система оценивает силу связи между документами, проверяя контекстуальную близость общих цитирований. Ссылки, расположенные в одном предложении (co-citation) или абзаце, имеют значительно больший вес, чем ссылки, просто присутствующие в документе. Это позволяет формировать точные тематические кластеры, отсеивая группы со слабыми связями.

US8612411B1
2013-12-17

Ссылки
SERP

Как Google (YouTube) ранжирует видео, повышая те, которые начинают сессию просмотра и приводят внешний трафик ("Lead Video")

Google использует систему ранжирования для видеоплатформ, которая идентифицирует "ведущее видео" (Lead Video), инициирующее сессию просмотра. Система применяет повышающие коэффициенты (Scaling Factors) ко времени просмотра этого видео. Видео, привлекшие пользователя на платформу из внешних источников (например, из социальных сетей или поиска Google), получают значительно больший коэффициент, чем те, что были найдены через внутренние рекомендации.

US10346417B2
2019-07-09

Мультимедиа
Поведенческие сигналы
SERP

Как Google использует социальные связи для выявления предвзятых ссылок и борьбы со ссылочными схемами и кликфродом

Google анализирует взаимоотношения между администраторами веб-сайтов (используя данные социальных сетей), чтобы определить независимость ссылок или кликов по рекламе. Если обнаружена тесная связь, это интерпретируется как предвзятость (Bias). В результате вес ссылки для ранжирования может быть снижен (борьба с Search Spamming), или клик по рекламе может быть дисконтирован (борьба с Ad Spamming).

US10402457B1
2019-09-03

Ссылки
Антиспам
Краулинг

Как Google использует околоссылочный текст и заголовки (Web Quotes) для индексирования страниц и генерации сниппетов

Google анализирует текст на страницах, ссылающихся на целевой документ, извлекая «Web Quotes». Это не только текст абзаца, окружающего ссылку, но и текст из ближайших заголовков. Эти цитаты ранжируются по качеству ссылающегося источника (например, PageRank) и используются для индексирования целевой страницы (даже если этих слов на ней нет) и для формирования сниппета в результатах поиска.

US8495483B1
2013-07-23

Индексация
Ссылки
SERP

Как Google динамически перестраивает выдачу, если пользователь игнорирует результаты, связанные с определенной сущностью

Google использует механизм уточнения интента пользователя в реальном времени при обработке неоднозначных запросов. Система группирует результаты поиска по связанным сущностям. Если пользователь демонстрирует отсутствие интереса к одной из групп (например, прокручивает или смахивает результаты), система динамически модифицирует выдачу, понижая или удаляя все результаты, связанные с этой отклоненной сущностью.

US9348945B2
2016-05-24

Семантика и интент
SERP
Поведенческие сигналы

Как Google использует клики пользователей в поиске по картинкам для понимания содержания изображений и улучшения таргетинга

Google анализирует поведение пользователей в поиске по картинкам для идентификации содержания изображений. Если пользователи ищут определенный запрос (идею) и массово кликают на конкретное изображение в результатах, система связывает это изображение с данным запросом (концепцией). Эти данные используются для улучшения ранжирования в поиске картинок и для предложения релевантных ключевых слов рекламодателям, загружающим схожие изображения.

US11409812B1
2022-08-09

Поведенческие сигналы
Семантика и интент
SERP

Как Google использует машинное обучение и поведенческие данные для прогнозирования полезности документов и решает, что включать в поисковый индекс

Google использует модель машинного обучения для определения, какие документы включать в поисковый индекс. Модель обучается на исторических данных о кликах и показах, чтобы предсказать будущую «оценку полезности» (Utility Score) документа. Документы ранжируются по этой оценке, а также с учетом других факторов (например, PageRank, стоимость индексации, свежесть, квоты), и лучшие из них попадают в индекс.

US8255386B1
2012-08-28

Индексация
Поведенческие сигналы

Как Google использует время взаимодействия пользователя с сайтом (Dwell Time) для расчета оценки качества всего сайта

Google использует агрегированные данные о продолжительности визитов пользователей на сайт для расчета метрики качества этого сайта (Site Quality Score). Система измеряет время взаимодействия (включая Dwell Time — время от клика в выдаче до возврата обратно), фильтрует аномальные визиты и нормализует данные по типам контента. Итоговая оценка используется как независимый от запроса сигнал для ранжирования и принятия решений об индексировании.

US9195944B1
2015-11-24

Поведенческие сигналы
Индексация
SERP

Как Google использует историю навигации и клики по рекламе для генерации ключевых слов, гео-таргетинга и выявления MFA-сайтов

Патент Google, описывающий три механизма, основанных на анализе поведения пользователей (selection data). Система использует путь навигации пользователя для генерации новых ключевых слов для рекламы, улучшает гео-таргетинг объявлений на основе предпочтений пользователей, а также выявляет низкокачественные сайты (MFA/манипулятивные) по аномально высокому CTR рекламных блоков.

US8005716B1
2011-08-23

Поведенческие сигналы
Семантика и интент
Антиспам