Как Google учится выводить недостающие факты для Графа Знаний, анализируя текст в интернете и существующие связи

SEMI STRUCTURED QUESTION ANSWERING SYSTEM (Система ответов на вопросы на основе полуструктурированных данных)

US9842166B1
Google LLC
2014-08-08
2017-12-12

Система Google для заполнения пробелов в Графе Знаний. Если факт отсутствует (например, отношение «дедушка»), система ищет текстовые подтверждения в интернете («A — дедушка B»). Затем она анализирует существующие связи в графе (например, A — родитель C, C — родитель B) и выводит правило (Родитель + Родитель = Дедушка). Это позволяет отвечать на фактические запросы, даже если связь явно не указана в базе знаний.

Какую проблему решает

Патент решает проблему неполноты данных в реляционных моделях знаний, таких как Data Graph (например, Google Knowledge Graph). Даже самые большие графы могут не содержать миллионы фактов или отношений (ребер) между сущностями (узлами). Система направлена на автоматический вывод (инференс) недостающей информации, основываясь на существующих данных в графе и анализе неструктурированного контента в интернете, чтобы улучшить ответы на прямые вопросы.

Что запатентовано

Запатентована система, которая изучает значение отношений, отсутствующих в Data Graph, путем сопоставления текстовых шаблонов из интернета с существующими путями в графе. Система генерирует алгоритм (algorithm) или правило вывода, которое представляет это новое отношение (например, определяя «дедушку» как путь «родитель родителя»). Это позволяет системе отвечать на сложные вопросы, требующие многошагового вывода, даже если факт явно не сохранен.

Как это работает

Система работает в двух основных режимах: Офлайн-обучение (Inference) и Онлайн-ответы (Question Answering).

Офлайн-обучение: Система генерирует шаблонное предложение (template sentence), например, «X — это [АТРИБУТ] для Y». Она сканирует веб-документы в поисках этого шаблона. Если текст подтверждает отношение (например, «Зак — дедушка Карины»), система ищет существующие пути в Data Graph, соединяющие X и Y. Наилучший путь (например, через ребра «ребенок»-«ребенок») сохраняется как алгоритм для этого атрибута. Этот алгоритм проходит строгую верификацию.
Онлайн-ответы: Когда поступает запрос о факте, отсутствующем в графе («Кто дедушка Карины?»), система использует ранее изученный алгоритм. Она следует по определенному пути (path) от начального узла (Карина) до конечного узла (Зак) и возвращает ответ.

Актуальность для SEO

Высокая. Полнота и точность Knowledge Graph критически важны для современных поисковых систем, особенно для генерации прямых ответов (Featured Snippets) и Панелей Знаний. Автоматическое обучение и вывод новых фактов (Inference) без ручной разметки является ключевым направлением развития семантического поиска и ИИ.

Важность для SEO

Влияние на SEO значительное (7/10), хотя и косвенное. Патент описывает, как Google использует контент из интернета для обучения своей системы инференса и расширения Графа Знаний. Это напрямую влияет на Entity SEO и E-E-A-T. Предоставление четкой, семантически однозначной информации о сущностях и их взаимосвязях в веб-документах критически важно, чтобы система могла корректно извлечь, интерпретировать и использовать эти данные.

Термины и определения

Data Graph (Граф данных / Граф Знаний): Реляционная модель знаний. Хранилище данных в виде графа, где узлы представляют сущности, а ребра — отношения между ними.
Node (Узел): Элемент в Data Graph, представляющий сущность реального мира (человек, место, вещь). Может иметь свойства (properties).
Edge (Ребро): Связь между узлами, представляющая отношение (например, «родитель», «профессия»).
Fact (Факт): Утверждение, обычно включающее первый узел, ребро и второй узел (триплет). Также используется для обозначения информации, которая может отсутствовать в графе.
Attribute (Атрибут): Может относиться к отношению (ребру между двумя узлами) или к свойству узла.
Inference Engine (Механизм вывода): Компонент системы, который определяет недостающую информацию в Data Graph и генерирует вывод (инференс) для этой информации.
Algorithm (Алгоритм): В контексте патента — это правило вывода или функция, сгенерированная Inference Engine. Оно представляет собой серию соединений (series of connections) или путь (path) между узлами и ребрами, которая определяет отсутствующий атрибут.
Path (Путь): Последовательность узлов и ребер в Data Graph, соединяющая два узла. Используется для вывода недостающих отношений.
Template Sentence / Semantically Structured Template Sentence (Шаблонное предложение): Сгенерированная структура предложения (например, "X является [STRING] Y"), используемая для поиска в интернете и выявления отношений между известными сущностями X и Y, где [STRING] представляет отсутствующий атрибут.
Semantic Query Engine (Механизм семантических запросов): Компонент, который может генерировать Template Sentence.

Ключевые утверждения (Анализ Claims)

Патент описывает два основных процесса: ответ на запрос (Claim 1) и обучение/вывод фактов (Claim 6).

Claim 1 (Независимый пункт): Описывает процесс ответа на запрос в реальном времени, когда факт отсутствует в графе.

Система получает запрос, основанный на первом узле и факте.
Определяется, что факт отсутствует в Data Graph.
Если факт отсутствует: Система определяет ответ, следуя пути (path) от первого узла ко второму узлу. Путь включает как минимум один промежуточный (третий) узел.
Путь соединяет узлы через существующие ребра (первый узел с третьим, третий со вторым).
Возвращается свойство (property), связанное со вторым (конечным) узлом, как ответ на запрос.

Это механизм использования ранее изученных путей (алгоритмов) для ответов на вопросы, требующие многошагового рассуждения в графе.

Claim 6 (Независимый пункт): Описывает офлайн-процесс обучения (генерации вывода/инференса).

Определяется, что первый факт отсутствует в Data Graph.
Генерируется шаблонное предложение (template sentence) на основе второго факта, включающего первый узел, второй узел и строку (string). Строка представляет отсутствующий первый факт.
Выполняется поиск в интернете документа, содержащего это шаблонное предложение.
Если документ найден: Система выводит (infer) первый факт путем генерации серии соединений (series of connections) между узлами и ребрами.
Эта серия соединений определяет путь в Data Graph от первого узла ко второму узлу.

Это механизм обучения, где система ищет текстовые подтверждения в интернете и сопоставляет их со структурой графа, чтобы изучить значение нового отношения.

Claim 15 (Зависимый от 6): Описывает процесс верификации сгенерированного пути (алгоритма).

Получение запроса на основе факта.
Использование одного узла как переменной (вход) и другого узла как известного ответа (выход).
Обход Data Graph с использованием сгенерированной серии соединений (алгоритма), чтобы проверить, приводит ли она к правильному ответу.
Повторение процесса много раз (N).
Верификация серии соединений как приемлемой, если количество правильных ответов превышает пороговое значение (Threshold).

Где и как применяется

Изобретение охватывает несколько этапов поисковой архитектуры, фокусируясь на расширении базы знаний и улучшении ответов на вопросы.

CRAWLING – Сканирование и Сбор данных
Система активно сканирует интернет (или использует корпус Crawled Documents) для поиска экземпляров Template Sentences. Это сбор данных, используемых для обучения механизма вывода.

INDEXING – Индексирование и извлечение признаков (Офлайн-обучение)
Основной этап работы Inference Engine. Происходит офлайн (pre-processing).

Обработка текста (NLP): Веб-документы парсятся (синтаксический анализ, построение parse tree) для идентификации сущностей и их отношений в тексте на основе шаблонов.
Анализ графа: Система анализирует пути в Data Graph между сущностями, найденными в тексте.
Генерация и Верификация Алгоритмов: Генерируются и тестируются алгоритмы (правила вывода), которые затем сохраняются.

QUNDERSTANDING – Понимание Запросов / RANKING – Ранжирование (Онлайн-ответы)
На этапе обработки запроса (processing time) система определяет, что прямой ответ отсутствует в Data Graph. Она использует предварительно вычисленный алгоритм для обхода графа в реальном времени и нахождения ответа.

Входные данные (Обучение):

Существующий Data Graph.
Корпус веб-документов (Интернет).
Шаблоны для генерации Template Sentences.

Выходные данные (Обучение):

Верифицированные алгоритмы (правила вывода), представляющие новые отношения.

Входные данные (Ответы):

Запрос пользователя.
Data Graph.
Сохраненные Алгоритмы.

Выходные данные (Ответы):

Ответ на запрос (свойство найденного узла).

На что влияет

Конкретные типы контента: Влияет на контент, содержащий четкие фактологические утверждения и описания отношений между сущностями (биографии, энциклопедические статьи, новости, корпоративные страницы).
Специфические запросы: Наибольшее влияние на информационные запросы типа "Кто/Что/Когда" (например, "Кто основатель компании X?"), особенно если прямой факт отсутствует в Графе Знаний.
Форматы контента: Улучшает способность Google извлекать ответы из неструктурированного текста для формирования прямых ответов (Featured Snippets) или заполнения Панелей Знаний.

Когда применяется

Алгоритм применяется в двух основных сценариях:

Офлайн (Периодически): Inference Engine запускается для поиска недостающей информации, анализа веба и генерации новых алгоритмов вывода. Триггером может служить анализ логов запросов (Search Records) для выявления часто запрашиваемых, но отсутствующих фактов.
Онлайн (Во время запроса): Когда поисковая система получает запрос о факте, который отсутствует в Data Graph, но для которого существует предварительно сгенерированный и верифицированный алгоритм вывода.

Пошаговый алгоритм

Процесс разделен на три основных потока: Генерация вывода (Обучение), Верификация и Ответ на вопрос (Применение).

Поток А: Генерация алгоритма вывода (Обучение)

Генерация шаблона: Создание семантически структурированного шаблонного предложения (например, "X является [АТРИБУТ] Y"), где X и Y — сущности в Data Graph, а [АТРИБУТ] отсутствует.
Сканирование документов: Поиск документов в интернете или в корпусе Crawled Documents.
Парсинг предложений: Анализ предложений в документе с использованием шаблона. Может включать построение синтаксического дерева (parse tree).
Проверка связи: Определение, подтверждает ли предложение, что "X является [АТРИБУТ] Y".
Поиск путей в графе: Если связь подтверждена, система ищет все существующие пути в Data Graph, которые соединяют узел X и узел Y.
Итерация: Повторение шагов 3-5 для желаемого количества документов.
Выбор лучшего пути: Анализ всех найденных путей. Выбор наилучшего пути на основе критериев (частота повторения, длина пути, тип узлов и т.д.).
Генерация алгоритма: Создание алгоритма (правила), который представляет атрибут на основе выбранного лучшего пути.
Верификация алгоритма (см. Поток В).

Поток Б: Ответ на вопрос (Применение)

Получение запроса: Получение запроса, структурированного как вопрос о первом узле.
Проверка наличия факта/алгоритма: Определение, что запрашиваемый факт отсутствует в графе, и загрузка сохраненного алгоритма для данного атрибута.
Определение ответа: Выполнение алгоритма путем следования по пути, начиная с первого узла и заканчивая вторым узлом.
Возврат ответа: Возвращение атрибута (например, имени), связанного со вторым узлом, как ответа на вопрос.

Поток В: Верификация алгоритма

Инициализация: Получение атрибута и входных данных для верификации. Установка количества тестов (N) и счетчика правильных ответов (ac=0).
Получение известного ответа: Получение эталонного ответа на вопрос (например, из данных, собранных при сканировании веба).
Запрос к графу (Тест): Использование тестируемого алгоритма для запроса к Data Graph с теми же входными данными.
Проверка корректности: Сравнение результата работы алгоритма с эталонным ответом.
Подсчет: Если ответ корректен, увеличение счетчика правильных ответов (ac).
Итерация: Повторение шагов 2-5 для N тестов.
Принятие/Отклонение: Если количество правильных ответов (ac) превышает пороговое значение (Thr, например, 85-95%), алгоритм принимается и сохраняется.

Какие данные и как использует

Данные на входе

Патент фокусируется на использовании структурных и текстовых данных для генерации выводов.

Структурные факторы (Data Graph): Существующие узлы (сущности) и ребра (отношения) в Data Graph. Это основа для поиска путей между сущностями.
Контентные факторы (Веб-документы): Неструктурированный текст из интернета (Crawled Documents). Система анализирует предложения, их синтаксическую структуру (parse tree) и семантику для идентификации отношений.
Поведенческие факторы (Косвенно): Упоминается возможность анализа журналов поиска (Search Records), чтобы определить, какие виды информации пользователи часто запрашивают, и использовать это для приоритизации генерации алгоритмов.

Какие метрики используются и как они считаются

Критерии выбора лучшего пути (Best Path Selection): Система оценивает несколько путей, соединяющих две сущности. Метрики для выбора включают:
- Частота повторения (Number of times that the path repeats): Как часто данный путь встречается для разных пар X, Y с одним и тем же атрибутом.
- Длина пути (Length of the path).
- Тип узла (Type of node traversed): Типы сущностей, через которые проходит путь.
- Распространенность (Abundance of the path relative to shorter paths).
Порог верификации (Threshold - Thr): Минимальный процент правильных ответов, который должен показать алгоритм в ходе тестирования (N тестов), чтобы быть принятым. Упоминаются высокие пороги (например, 85% - 95%).
Методы анализа текста (NLP): Используются парсинг предложений, лексический анализ и построение синтаксических деревьев (parse trees) для определения синтаксических и семантических отношений между словами в предложении.

Автоматическое расширение Графа Знаний: Патент описывает механизм, позволяющий Google автоматически изучать новые отношения между сущностями, даже если они явно не указаны в Data Graph. Система переводит наблюдения из неструктурированного текста в структурированные правила вывода.
Обучение на основе веба: Контент в интернете используется как обучающий набор данных и источник валидации. Система ищет текстовые шаблоны, связывающие известные сущности, чтобы понять семантику отношений.
Инференс через пути в графе (Multi-hop reasoning): Ядром изобретения является идея, что сложное отношение (например, «дедушка») можно представить как путь или комбинацию более простых, существующих отношений в графе (например, «родитель» + «родитель»).
Генерация алгоритмов, а не фактов: Система не просто добавляет новый факт, а создает алгоритм (правило/путь), который можно применять к любым сущностям для вывода этого типа отношения.
Строгая верификация точности: Сгенерированные алгоритмы проходят строгую проверку на точность с высокими порогами (например, 85-95%) перед тем, как они будут использованы для ответов на запросы пользователей.
Ответы на вопросы в реальном времени: Хотя обучение происходит офлайн, применение алгоритмов для ответа на вопросы происходит в реальном времени путем быстрого обхода графа по заданному пути.

Best practices (это мы делаем)

Ясность и однозначность контента (Clarity): Пишите контент с четкой структурой предложений, ясно описывая отношения между сущностями. Система использует парсинг (parse tree) для анализа текста. Чем проще системе понять, что "X является Y-ом Z" (например, "Зак Джонс — дедушка Карины Джонс"), тем выше вероятность использования этой информации для обучения Inference Engine.
Полнота описания сущностей (Completeness): Предоставляйте исчерпывающую информацию о ключевых сущностях (людях, компаниях, продуктах). Указание базовых фактов (например, кто родители человека) помогает Google корректно строить базовый граф, который затем используется для вывода более сложных отношений.
Использование стандартных и естественных шаблонов: Используйте естественные и распространенные языковые конструкции для описания фактов. Система ищет совпадения с Template Sentences, основанными на часто встречающихся структурах.
Согласованность данных (Consistency): Убедитесь, что информация о сущностях согласована на вашем сайте и в других авторитетных источниках. Это повышает достоверность данных, используемых для верификации алгоритмов (Процесс В).
Поддержка через разметку (Schema.org): Хотя патент фокусируется на извлечении из текста, использование микроразметки Schema.org для явного указания отношений помогает системе быстрее и точнее идентифицировать базовые факты в Data Graph, что облегчает последующий инференс.

Worst practices (это делать не надо)

Сложные и неоднозначные формулировки: Использование запутанных предложений, сарказма или идиом при описании фактов может помешать системе корректно распарсить текст и идентифицировать отношения между сущностями.
Противоречивая или неточная информация: Предоставление информации, которая противоречит общепринятым фактам. Если система попытается использовать вашу информацию для генерации алгоритма, он, скорее всего, не пройдет этап верификации из-за низкой точности.
Изоляция фактов: Предоставление фактов без контекста или без связи с известными сущностями. Система работает только тогда, когда может связать информацию с существующими узлами в Data Graph.
Факты только в медиаформатах: Система основана на анализе текста. Факты, представленные только в изображениях или видео, не будут использованы этим механизмом.

Стратегическое значение

Этот патент подтверждает стратегию Google на построение максимально полного и точного Графа Знаний с минимальным ручным вмешательством. Google стремится не просто собирать данные, а понимать мир, моделируя сложные отношения. Для SEO это означает, что роль веб-сайтов как источников достоверной информации возрастает. Стратегия должна фокусироваться на Entity SEO: создании семантически богатого контента, который помогает Google не только узнать о сущностях, но и понять глубинные связи между ними.

Практические примеры

Сценарий: Обучение Google сложной корпоративной структуре

Задача: Убедиться, что Google понимает, кто является Главным техническим директором (CTO) (Сущность Z) дочерней компании (Сущность Y), принадлежащей головному холдингу (Сущность X). Отношение может отсутствовать в графе.
Действия SEO:
- Убедиться, что X, Y и Z распознаются как сущности.
- Опубликовать пресс-релиз или статью на авторитетном ресурсе с четкой формулировкой: "[Имя Z] занимает должность Главного технического директора (CTO) компании [Название Y], которая является дочерним предприятием холдинга [Название X]".
Работа системы (по патенту):
- Система идентифицирует шаблон: "[Z] [CTO] [Y]" и "[Y] [дочернее предприятие] [X]".
- Находит подтверждение в тексте пресс-релиза.
- Анализирует существующие пути в графе (например, [X] -> [владеет] -> [Y]).
- Система выводит и верифицирует алгоритм для определения отношений в этой структуре.
Результат: При запросе "Кто CTO компании Y", Google может предоставить прямой ответ, используя выведенный алгоритм для нахождения Сущности Z.

Что такое «Алгоритм» (Algorithm) в контексте этого патента?

Это не алгоритм ранжирования. В данном патенте «Алгоритм» — это правило вывода или функция, которая представляет собой изученное отношение между сущностями. Он определяется как конкретный путь (последовательность ребер и узлов) в Графе Знаний. Например, алгоритм для «дедушки» может быть: «Пройти по ребру 'родитель' → еще раз по ребру 'родитель' → проверить свойство 'пол' = мужской».

Как система определяет, какой факт отсутствует в Графе Знаний и что нужно изучить?

Патент упоминает несколько способов. Inference Engine может анализировать журналы поисковых запросов (Search Records), чтобы определить, какие факты часто запрашиваются, но отсутствуют в графе. Также система может анализировать типы сущностей и искать недостающие атрибуты, характерные для этого типа (например, искать инструменты, на которых играют музыканты в группе).

Насколько важен текст на моем сайте для этого механизма?

Текст критически важен. Офлайн-процесс обучения полностью зависит от сканирования интернета (Crawled Documents) и поиска текстовых подтверждений (Template Sentences) для недостающих фактов. Если информация о ваших сущностях представлена нечетко или двусмысленно, система не сможет обучиться этим фактам.

Как система выбирает «лучший путь» (Best Path), если между двумя сущностями много связей?

Система использует несколько критериев для выбора наилучшего пути. К ним относятся: частота, с которой этот путь повторяется для разных пар сущностей с таким же отношением, длина пути, тип проходимых узлов и общая распространенность пути. Выбирается наиболее надежный и статистически значимый путь.

Как Google защищается от изучения ложных фактов из интернета?

Патент описывает строгий процесс верификации (Claim 15, FIG. 5). Сгенерированный алгоритм тестируется на большом наборе известных пар (вопрос-ответ). Он принимается только если его точность превышает высокий порог (например, 85-95%). Это помогает отсеять ненадежные правила или правила, основанные на ложной информации.

Что означает «полуструктурированные данные» (semi structured) в названии?

Это относится к методу извлечения данных. Система анализирует обычный текст в интернете (неструктурированный), но ищет в нем предложения, соответствующие определенной семантической структуре или шаблону (Template Sentence), например, «X — это АТРИБУТ для Y». Такой подход позволяет извлекать структурированные факты из неструктурированного контента.

Как SEO-специалист может использовать это знание на практике?

Ключевая задача — обеспечить, чтобы ваш контент содержал четкие, недвусмысленные и точные утверждения о взаимосвязях между сущностями. Используйте простые синтаксические конструкции. Это помогает Inference Engine правильно парсить текст и использовать ваш контент для обучения и валидации фактов в Knowledge Graph.

Нужно ли использовать микроразметку Schema.org, если Google может извлекать факты из текста?

Да, обязательно. Schema.org предоставляет явно структурированные данные, что является более сильным сигналом. Описанный механизм используется, когда структурированные данные отсутствуют, неполны или когда системе нужно подтвердить факты. Лучшая стратегия — комбинировать качественную микроразметку с четкими текстовыми утверждениями.

Происходит ли процесс обучения в реальном времени?

Нет. Процесс обучения (генерация шаблонов, сканирование веба, поиск путей, генерация и верификация алгоритмов) описан как офлайн-процесс (pre-processing). В реальном времени происходит только процесс ответа на вопрос, который использует уже изученные и сохраненные алгоритмы для быстрого обхода графа.

Влияет ли этот патент на локальное SEO?

Да, если локальные сущности и их отношения описаны в вебе. Например, система может изучить, что определенный врач работает в конкретном отделении больницы, даже если это явно не указано в структурированных данных, найдя подтверждение в новостной статье и сопоставив это с существующими связями между врачом и больницей в графе.

Как Google оценивает отсутствующие факты для Knowledge Graph и объясняет, на чем основана эта оценка

Google использует статистические модели для заполнения пробелов в Knowledge Graph, когда информация о сущности отсутствует. Система вычисляет недостающий факт (например, дату рождения), анализируя связанные данные (например, возраст супруга). Чтобы повысить доверие к этой оценке, Google показывает пользователю объяснение, основанное на наиболее влиятельных фактах, использованных при расчете.

US9659056B1
2017-05-23

Knowledge Graph
EEAT и качество
Семантика и интент

Как Google использует машинное обучение для извлечения фактов из текста и перевода вопросов на естественном языке в пути Графа Знаний

Анализ патента Google, описывающего два ключевых механизма: автоматическое расширение Графа Знаний путем анализа текста и ответы на вопросы на естественном языке. Система использует машинное обучение для определения надежных путей (связей) в графе. Эти пути используются как для вывода новых фактов из веб-документов, так и для интерпретации запросов пользователей и поиска прямых ответов.

US10810193B1
2020-10-20

Knowledge Graph
Семантика и интент

Как Google использует Knowledge Graph для автодополнения фактов и проверки точности информации при создании контента

Система анализирует вводимый текст в редакторах (например, Google Docs или Gmail), распознает сущности и их атрибуты, автоматически запрашивает факты у поисковой системы (Knowledge Graph) и предлагает их для вставки. Также она способна проверять уже введенные факты на точность и предлагать исправления в реальном времени.

US20150324339A1
2015-11-12

Knowledge Graph
Семантика и интент
EEAT и качество

Как Google использует консенсус источников для выбора и валидации фактов в Knowledge Graph и прямых ответах

Система Google для выбора наилучшего ответа на фактические запросы. Она оценивает потенциальные ответы из разных источников и вычисляет «Оценку Поддержки» (Supported Score) на основе их согласованности. Факт отображается, только если он значительно превосходит противоречащие и несвязанные данные, обеспечивая высокую точность ответа.

US7953720B1
2011-05-31

Knowledge Graph
EEAT и качество
Семантика и интент

Как Google эффективно обновляет Граф Знаний в реальном времени при изменении фактов

Патент Google описывает инфраструктурный механизм для поддержания актуальности Графа Знаний. Когда в базу добавляется или удаляется факт (связь между сущностями), система мгновенно определяет, какие сохраненные запросы (коллекции) затронуты, и эффективно пересчитывает результаты, минимизируя нагрузку на базу данных.

US9626407B2
2017-04-18

Knowledge Graph
Свежесть контента
Семантика и интент

Как Google использует историю местоположений для определения физической активности пользователя и гиперперсонализации поиска

Google анализирует историю перемещений пользователя (местоположения и скорость), чтобы определить его текущую физическую активность (например, поход, шоппинг) и способ передвижения (например, пешком, на автобусе). Эта информация используется для радикальной персонализации: система корректирует ранжирование результатов, изменяет запросы и формирует подсказки, чтобы они соответствовали контексту реальных действий пользователя.

US20150006290A1
2015-01-01

Поведенческие сигналы
Персонализация
Local SEO

Как Google определяет структурно похожие запросы (sibling queries) для автоматического обучения NLP-моделей

Google использует метод для идентификации "родственных запросов" (sibling queries) — запросов с одинаковой структурой интента, но разными переменными (например, "погода в Москве" и "погода в Париже"). Система сравнивает шаблоны использования этих запросов в логах, основываясь на поведении пользователей, чтобы понять их взаимосвязь без традиционного NLP. Это позволяет автоматически генерировать масштабные наборы данных для обучения ИИ.

US11379527B2
2022-07-05

Семантика и интент
Поведенческие сигналы

Как Google использует модель D-Q-D и поведение пользователей для предложения разнообразных запросов, связанных с конкретными результатами поиска

Google использует модель "Документ-Запрос-Документ" (D-Q-D), построенную на основе данных о поведении пользователей (клики, время просмотра), для генерации связанных поисковых подсказок. Система предлагает альтернативные запросы, привязанные к конкретному результату, только если эти запросы ведут к новому, разнообразному набору документов, облегчая исследование смежных тем.

US8583675B1
2013-11-12

Поведенческие сигналы
SERP
Семантика и интент

Как Google использует гибридную классификацию и данные о кликах пользователей для точного определения тематики контента

Google использует многоэтапный процесс для классификации контента в детальные иерархические категории. Система комбинирует традиционные методы классификации с анализом поисковых запросов и кликов пользователей (подтвержденных результатов поиска). Это позволяет точно определить узкоспециализированную тематику документа, фильтруя нерелевантные категории и взвешивая релевантность на основе TF-IDF и глубины иерархии.

US8145636B1
2012-03-27

Семантика и интент
Поведенческие сигналы

Как Google использует навигационные запросы, консенсус кликов и анкорных текстов для определения глобального качества сайта

Google анализирует потоки запросов, чтобы определить, когда пользователи ищут конкретный сайт (навигационный интент). Если запрос явно указывает на документ (через подавляющее большинство кликов пользователей или доминирование в анкор-текстах), этот документ получает «баллы качества». Эти баллы используются как глобальный сигнал качества, повышая ранжирование сайта по всем остальным запросам.

US7962462B1
2011-06-14

Поведенческие сигналы
Ссылки
SERP

Как Google использует структурированные данные для отображения прямых ссылок на песни в результатах поиска (Rich Snippets)

Google улучшает результаты поиска музыки, извлекая детали песен (названия, альбомы, продолжительность) из структурированной разметки (например, HTML5 microdata) на веб-страницах. Это позволяет Google отображать прямые ссылки на конкретные песни (вторичные ссылки) внутри основного блока результатов поиска, при условии соблюдения определенных порогов качества и популярности.

US9128993B2
2015-09-08

Ссылки
SERP
Индексация

Как Google вычисляет оценку качества сайта на основе соотношения брендового интереса и общего поискового трафика

Google использует поведенческие данные для расчета оценки качества сайта (Site Quality Score). Метрика основана на соотношении количества уникальных запросов, направленных конкретно на сайт (брендовый/навигационный интерес), к общему количеству уникальных запросов, которые привели пользователей на этот сайт. Высокий показатель этого соотношения свидетельствует о высоком качестве и авторитетности сайта.

US9031929B1
2015-05-12

Поведенческие сигналы
EEAT и качество

Как Google использует повторные клики, прямой трафик и время на сайте для расчета оценки качества домена и корректировки ранжирования

Google анализирует поведение пользователей на уровне домена (группы ресурсов) для вычисления модификатора ранжирования. Ключевые метрики включают долю повторных кликов (Repeat Click Fraction), долю прямого трафика (Deliberate Visit Fraction) и среднюю продолжительность визита (Average Duration). Эти данные используются для корректировки исходных оценок страниц сайта, понижая ресурсы с низкими показателями пользовательской лояльности и вовлеченности.

US9684697B1
2017-06-20

Поведенческие сигналы
SERP

Как Google использует механизм «Pull-Push» для валидации ссылок через трафик и время вовлечения (Dwell Time)

Google использует механизм «Pull-Push» для борьбы с искусственными ссылками, анализируя соотношение между количеством ссылок и реальными кликами по ним. Если ссылки не генерируют пропорциональный трафик (с учетом времени вовлечения), они обесцениваются. Сайты, которые систематически ставят такие ссылки, классифицируются как «неквалифицированные источники», и их исходящие ссылки дисконтируются при ранжировании.

US9558233B1
2017-01-31

Ссылки
Поведенческие сигналы
Антиспам

Как Google использует клики и пропуски пользователей для оценки и корректировки правил близости терминов (Proximity Rules)

Google анализирует поведение пользователей для оценки эффективности правил близости (Proximity Rules), которые влияют на ранжирование в зависимости от расстояния между ключевыми словами на странице. Система отслеживает, кликают ли пользователи на результаты, где термины расположены далеко друг от друга, или пропускают их. На основе этих данных (Click Count, Skip Count) вычисляется оценка качества правила, что позволяет Google динамически адаптировать важность фактора близости.

US9146966B1
2015-09-29

Поведенческие сигналы
SERP