Как Google извлекает факты из неструктурированного текста, используя «Контекстные Облака» для наполнения Knowledge Graph

COMPUTERIZED SYSTEMS AND METHODS FOR BUILDING KNOWLEDGE BASES USING CONTEXT CLOUDS (Компьютеризированные системы и методы для построения баз знаний с использованием контекстных облаков)

US10102291B1
Google LLC
2015-07-06
2018-10-16

Google использует механизм для понимания фактов и связей, описанных в свободном (неструктурированном) тексте. Система анализирует слова, окружающие сущность («Контекстное Облако»), и сравнивает этот контекст с тем, как эти слова используются в уже известных фактах. Это позволяет системе извлекать новую информацию и автоматически расширять Knowledge Graph, даже если контент не использует строгую разметку или шаблоны.

Какую проблему решает

Патент решает проблему извлечения структурированных знаний (фактов и отношений между сущностями) из неструктурированного или слабоструктурированного текста (unstructured data/semi-structured data). Основная сложность заключается в том, что поисковые системы могут распознавать сущности (например, даты или имена), но им трудно понять отношения, выраженные свободным текстом (free-form text), который не соответствует заранее определенным шаблонам (например, система понимает шаблон "Дата рождения: 16 октября", но может не понять фразу "родился 16-го октября").

Что запатентовано

Запатентована система для автоматического построения и расширения Базы Знаний (Knowledge Base), в частности Knowledge Graph. Метод основан на анализе "Контекстных Облаков" (Context Clouds) — набора слов и объектов, находящихся рядом с целевой сущностью в тексте. Система сравнивает эти контекстные облака с уже известными данными (seed knowledge) и статистикой совместной встречаемости (occurrence lists), чтобы вывести значение или отношение для целевой сущности в неструктурированном контенте.

Как это работает

Система работает следующим образом:

Обнаружение сущности: В документе идентифицируется целевой объект (target object), например, дата "Oct. 16, 1992".
Анализ структуры: Система проверяет, соответствует ли текст вокруг сущности известному шаблону. Если нет (т.е. данные неструктурированные), активируется данный механизм.
Создание Контекстного Облака: Собираются слова, находящиеся рядом (proximate objects), например, "Bryce Harper", "was born on". Это формирует Target Context Cloud.
Поиск кандидатов: Система ищет другие документы (seed knowledge), где встречается тот же целевой объект, используя списки встречаемости (occurrence lists).
Сравнение Контекстных Облаков: Target Context Cloud сравнивается с контекстными облаками из других документов (Candidate Context Clouds).
Вывод отношения: Если найдено высокодостоверное совпадение с документом, где отношение уже известно (например, в другом документе "Oct. 16, 1992" уже помечено как "день рождения"), это отношение присваивается целевому объекту в исходном документе.
Обновление Knowledge Graph: Новый факт добавляется в Knowledge Graph и используется для ответов на запросы.

Актуальность для SEO

Высокая. Извлечение фактов и наполнение Knowledge Graph являются критически важными задачами для Google. Способность понимать неструктурированный контент без зависимости от Schema.org или строгих шаблонов лежит в основе современных NLP-технологий и напрямую влияет на качество поиска, генерацию Knowledge Panels и ответы на фактические запросы.

Важность для SEO

Влияние на SEO значительно (8/10). Патент описывает механизм, с помощью которого Google учится понимать контент и извлекать из него факты. Это напрямую влияет на то, как Google оценивает авторитетность ресурса и насколько полно он может использовать его контент для наполнения Knowledge Graph. Для SEO-специалистов это означает, что ясность и контекстуальная точность изложения фактов в тексте критически важны для Entity SEO, даже без использования микроразметки.

Термины и определения

Context Cloud (Контекстное Облако): Набор объектов (слова, числа, сущности), которые встречаются в документе рядом (пространственно или синтаксически) с целевым объектом. Контекстное облако характеризует контекст использования целевого объекта в данном документе.
Target Object (Целевой объект): Сущность или объект, обнаруженный в неструктурированном тексте, для которого система пытается определить значение или отношение.
Proximate Object (Близлежащий объект): Объект, находящийся рядом с целевым объектом в документе. Является элементом Контекстного Облака.
Occurrence List (Список встречаемости): База данных или индекс, хранящий статистику о том, какие объекты совместно встречаются в корпусе документов, и частоту их совместной встречаемости (frequency of co-occurrence). Используется для поиска похожих контекстов.
Knowledge Graph (Граф Знаний): Структурированная база знаний, хранящая сущности, факты о них и отношения между ними. Цель изобретения — автоматическое наполнение этого графа.
Seed Knowledge (Начальные знания): Существующие структурированные данные или ранее проанализированные документы, где отношения между объектами уже известны. Используются как эталон для анализа новых неструктурированных данных.
Unstructured Data / Semi-structured Data (Неструктурированные / Слабоструктурированные данные): Текст в свободной форме (free-form text), который не соответствует заранее определенным шаблонам или структурам данных, что затрудняет машинное понимание отношений между объектами.
N-gram: Последовательность из N элементов (символов, слов). Используется на этапе парсинга текста для идентификации объектов.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает систему для генерации и использования графов знаний, охватывая весь процесс от извлечения факта до его использования в поиске.

Система обнаруживает целевой объект (target data object) в документе в Интернете.
Обнаруживается второй объект, находящийся рядом (proximate) с целевым объектом.
Идентифицируется третий объект, ассоциированный со вторым объектом, на основе частоты совместной встречаемости (frequency of co-occurrence) второго и третьего объектов в сохраненных списках встречаемости (stored occurrence lists).
Определяется отношение (relationship), ассоциированное с целевым объектом, на основе идентифицированного третьего объекта.
В Knowledge Graph генерируется первая запись, включающая целевой объект и определенное отношение.
Далее система использует эту запись для ответа на запрос: получает запрос, идентифицирует сгенерированную запись как релевантную, генерирует результат поиска на ее основе и отправляет его пользователю.

Это ядро патента, описывающее извлечение фактов из текста. Если система видит "А рядом с Б" (формируя Context Cloud), она проверяет базу данных (occurrence lists и seed knowledge): "С чем обычно встречается Б?". Если Б часто встречается с отношением В (например, слово "родился" часто встречается с фактом "Дата Рождения"), система делает вывод, что А имеет отношение В, и записывает этот факт в Knowledge Graph. Затем этот факт используется в поиске.

Claim 6 и 11 (Независимые пункты): Описывают аналогичный процесс, но как компьютерно-реализуемый метод и как неперезаписываемый компьютерный носитель соответственно.

Где и как применяется

Изобретение применяется преимущественно на этапе обработки контента и построения базы знаний.

CRAWLING – Сканирование и Сбор данных
На этом этапе собираются документы (веб-страницы), которые служат источником неструктурированных данных для анализа.

INDEXING – Индексирование и извлечение признаков
Основное применение патента. В рамках этого этапа Knowledge Server выполняет:

Парсинг и NLP: Текст разбирается (например, на n-grams), идентифицируются сущности (Target Objects).
Извлечение фактов (Fact Extraction): Применяется механизм Context Clouds для анализа неструктурированного текста и вывода отношений, когда стандартные шаблоны не работают.
Построение Knowledge Graph: Извлеченные факты используются для создания новых записей в Knowledge Graph.
Генерация Occurrence Lists: Система (например, Data Mining Engine) также может обновлять occurrence lists на основе анализа всего корпуса документов.

METASEARCH – Метапоиск и Смешивание
Результаты работы алгоритма (новые факты в Knowledge Graph) используются на этом этапе для генерации обогащенных результатов поиска, таких как Knowledge Panels или прямые ответы, в ответ на запросы пользователей (как прямо указано в Claims).

Входные данные:

Неструктурированные или слабоструктурированные документы.
Существующий Knowledge Graph или другие базы данных (Seed Knowledge).
Предварительно рассчитанные или динамически генерируемые Occurrence Lists.

Выходные данные:

Новые или обновленные записи в Knowledge Graph (сущности и отношения между ними).

На что влияет

Конкретные типы контента: Наибольшее влияние оказывается на информационный контент, где факты часто излагаются в свободной текстовой форме: биографии, новостные статьи, описания продуктов, исторические справки, блоги.
Специфические запросы: Влияет на фактические запросы (например, "когда родился Брайс Харпер"), где ответ может быть извлечен из Knowledge Graph, наполненного с помощью этого механизма.
Конкретные ниши или тематики: Влияет на все ниши, но особенно важен в тематиках, где много сущностей и отношений (медицина, история, развлечения, спорт), включая YMYL-темы, где точность фактов критична.

Когда применяется

Условия работы алгоритма и Триггеры активации: Алгоритм активируется, когда система идентифицирует объект в тексте и определяет, что окружающий его текст является неструктурированным или слабоструктурированным (т.е. не соответствует известным шаблонам извлечения данных).
Частота применения: Применяется в процессе индексации контента — либо при первичном сканировании, либо при переобработке корпуса документов для обновления Knowledge Graph.

Пошаговый алгоритм

Этап 1: Обнаружение объекта и анализ структуры

Парсинг текста: Документ разбирается на n-граммы.
Идентификация сущности: В тексте распознается сущность (например, дата).
Анализ окружающего текста: Анализируются n-граммы, окружающие сущность.
Проверка структуры данных: Система определяет, соответствуют ли сущность и окружающий текст заранее определенному структурированному шаблону.
- Если ДА: Применяется стандартный шаблон извлечения данных. Процесс завершается.
- Если НЕТ: Сущность обозначается как Целевой Объект (Target Object).

Этап 2: Генерация контекста и поиск кандидатов

Генерация Целевого Контекстного Облака: Идентифицируются Близлежащие Объекты (Proximate Objects) и создается Target Context Cloud.
Поиск в Списках Встречаемости: Система обращается к Occurrence Lists для поиска других документов (Seed Knowledge), где встречается Целевой Объект и/или Близлежащие Объекты.
Идентификация Кандидатов: Отбираются документы-кандидаты, которые содержат похожие контексты.
Генерация Контекстных Облаков Кандидатов: Для отобранных кандидатов создаются или извлекаются их собственные Context Clouds.

Этап 3: Сравнение и вывод отношений

Сравнение и Оценка: Target Context Cloud сравнивается с облаками кандидатов. Рассчитывается оценка схожести (Similarity Score) или достоверности (Confidence Level). Оценка может учитывать количество совпадающих объектов и их близость к целевому объекту.
Выбор наилучшего соответствия: Идентифицируется кандидат с наивысшей оценкой схожести, превышающей порог.
Вывод Отношения: Система анализирует известное отношение Целевого Объекта в документе-кандидате и присваивает это отношение Целевому Объекту в исходном документе.

Этап 4: Обновление Базы Знаний

Обновление Knowledge Graph: Проверяется наличие записи для Целевого Объекта. Создается новая запись или обновляется существующая с учетом нового факта/отношения.

Какие данные и как использует

Данные на входе

Патент фокусируется на обработке текстовых данных и использовании статистики корпуса.

Контентные факторы: Основные данные — это текст документа, разобранный на n-grams и объекты.
Структурные факторы (Контекстуальные): Критически важна близость (proximity) слов и сущностей друг к другу в тексте (в одном предложении, абзаце или пространственной локации). Система также анализирует общую структуру, чтобы определить, является ли текст шаблонным или свободным.

Какие метрики используются и как они считаются

Frequency of Co-occurrence (Частота совместной встречаемости): Метрика из Occurrence Lists, показывающая, насколько часто два объекта появляются вместе в корпусе документов. Используется для идентификации потенциальных отношений и поиска кандидатов.
Оценка Схожести Контекстных Облаков: Метрика, рассчитываемая при сравнении Target Context Cloud и Candidate Context Clouds. Может учитывать:
- Количество совпадающих Proximate Objects.
- Расстояние между объектами в документе (может присваиваться вес, обратно пропорциональный расстоянию — чем ближе, тем важнее).
- Схожесть паттернов расположения объектов.
Confidence Level Score (Оценка достоверности): Статистические методы, используемые для определения наилучшего соответствия при идентификации сущностей (например, при опечатках) и при выборе наиболее похожего контекстного облака.
Пороги: Используются пороговые значения оценки схожести/достоверности для принятия решения о выводе нового отношения.

Google активно развивает методы понимания контента без разметки: Патент демонстрирует сложный механизм, позволяющий извлекать факты из обычного текста, не полагаясь на Schema.org или фиксированные шаблоны (вроде таблиц или списков). Система учится понимать язык, наблюдая за контекстом использования слов в огромном корпусе документов.
Контекст и близость слов критичны: Механизм Context Clouds основан на анализе слов, непосредственно окружающих сущность (proximity). Четкость и ясность контекста напрямую влияют на способность Google правильно интерпретировать факты.
Использование "Начальных Знаний" (Seed Knowledge): Система не пытается понять текст с нуля. Она использует уже существующие знания (Knowledge Graph) как эталон и ищет похожие паттерны в новом контенте. Это метод бутстрэппинга (bootstrapping).
Статистический подход к пониманию отношений: Occurrence Lists играют ключевую роль. Google определяет отношения не только через грамматический разбор, но и через статистику совместной встречаемости (co-occurrence): если слово "родился" в 99% случаев соседствует с датой рождения, система выучивает это отношение.
Прямое влияние на SERP: Патент явно указывает (в Claims), что извлеченные и сохраненные в Knowledge Graph факты напрямую используются для генерации результатов поиска в ответ на запросы пользователей.

Best practices (это мы делаем)

Обеспечивайте четкий контекст и семантическую близость: При упоминании ключевых сущностей (имен, дат, названий) убедитесь, что окружающий текст ясно описывает их атрибуты и отношения. Связанные сущности и определяющие их термины должны находиться близко друг к другу (в идеале, в одном предложении). Это помогает формировать точные Context Clouds.
Используйте естественные и распространенные формулировки: Поскольку система полагается на сравнение контекстов и статистику (Occurrence Lists), использование общепринятых фраз для описания отношений (например, "основан в", "автор книги") повышает вероятность правильного извлечения фактов.
Структурируйте контент логически: Хотя система предназначена для неструктурированного текста, логичное построение предложений и абзацев упрощает работу Context Cloud Engine. Используйте ясную структуру Субъект-Предикат-Объект, когда это возможно.
Работайте над Topical Authority: Создавайте контент, который полно и точно описывает сущности в вашей нише. Становясь авторитетным источником, вы увеличиваете вероятность того, что ваш контент будет использоваться для наполнения Knowledge Graph и, возможно, станет частью Seed Knowledge.

Worst practices (это делать не надо)

Разделение сущностей и контекста: Не следует размещать сущность и описывающие ее атрибуты далеко друг от друга в тексте или в верстке. Это размывает Context Cloud и снижает веса близости (proximity).
Использование неоднозначного или жаргонного языка для фактов: Использование нестандартных или слишком сложных языковых конструкций для описания простых фактов может привести к тому, что система не найдет соответствий в Seed Knowledge.
Keyword Stuffing и неестественный текст: Переоптимизированный текст нарушает естественное распределение слов и создает "шумные" Context Clouds, что снижает достоверность извлекаемых фактов.
Игнорирование Entity SEO: Полагаться только на традиционное ранжирование по ключевым словам и игнорировать оптимизацию под сущности и наполнение Knowledge Graph — проигрышная стратегия.

Стратегическое значение

Патент подтверждает стратегию Google по переходу от индексации строк к индексации сущностей и знаний (Entity-Oriented Search). Способность извлекать структурированные данные из неструктурированного текста позволяет Google масштабировать Knowledge Graph экспоненциально. Для Senior SEO-специалистов это подчеркивает необходимость фокусироваться на создании качественного, фактически точного и семантически ясного контента. Стратегия должна быть направлена на то, чтобы сайт был распознан как надежный источник информации о сущностях в своей тематике.

Практические примеры

Сценарий: Оптимизация биографической статьи для Knowledge Graph

Задача: Убедиться, что Google правильно извлечет дату рождения спортсмена Брайса Харпера из статьи.

Плохая реализация (Сложно для извлечения):
"Брайс Харпер — звезда бейсбола. В 1992 году, 16 октября, мир стал лучше, когда он появился на свет. Он продолжает радовать фанатов."
Проблема: Контекст размыт, слова, указывающие на рождение ("появился на свет"), находятся далеко от даты и имени. Context Cloud шумный, близость низкая.
Хорошая реализация (Оптимизировано для Context Clouds):
"Звезда бейсбола Брайс Харпер (Bryce Harper) родился 16 октября 1992 года."
Преимущество: Сущности ("Брайс Харпер", "16 октября 1992 года") находятся рядом (высокая proximity). Ключевое слово отношения ("родился") является распространенным и имеет четкую статистику в Occurrence Lists. Система легко сравнит этот Context Cloud с Seed Knowledge и извлечет факт "Дата Рождения".

Что такое "Контекстное Облако" (Context Cloud) на практике?

Context Cloud — это, по сути, набор слов, которые находятся в непосредственной близости от интересующей нас сущности в тексте. Например, если есть предложение "Компания Apple основана Стивом Джобсом в 1976 году", то для сущности "Apple" контекстное облако будет включать "Компания", "основана", "Стивом Джобсом", "1976 году". Система анализирует этот набор слов, чтобы понять отношения между Apple, Джобсом и датой.

Означает ли этот патент, что можно больше не использовать разметку Schema.org для фактов?

Не совсем. Schema.org предоставляет явные, структурированные сигналы, которые Google легко интерпретировать. Описанный механизм Context Clouds предназначен для извлечения фактов, когда явная разметка отсутствует или текст нешаблонный. Лучшая стратегия — использовать Schema.org для максимальной точности, но при этом писать текст так, чтобы он был понятен и без разметки, полагаясь на механизмы, подобные описанному в патенте.

Как система определяет, какие слова включать в Context Cloud?

Патент указывает на использование "близлежащих объектов" (Proximate Objects). Это может означать слова, находящиеся в том же предложении, абзаце или в определенной пространственной близости (например, в одной ячейке таблицы). Система также может присваивать веса этим словам, причем чем ближе слово к целевой сущности (proximity), тем выше может быть его вес в контекстном облаке.

Что такое "Списки Встречаемости" (Occurrence Lists) и как они формируются?

Occurrence Lists — это глобальная статистика совместной встречаемости объектов (co-occurrence), собранная по всему корпусу документов (веб-индексу). Они показывают, насколько часто определенные слова или сущности появляются вместе. Например, они могут содержать информацию о том, что слово "родился" очень часто встречается рядом с датами и именами людей. Система использует эту статистику для вывода отношений.

Что такое "Seed Knowledge" и как оно влияет на мой сайт?

Seed Knowledge – это уже существующая база знаний Google (факты, которые система уже знает). Google использует эти знания для интерпретации вашего контента. Если ваш контент предоставляет контекст, похожий на тот, что уже есть в авторитетных источниках (которые, вероятно, формируют Seed Knowledge), системе будет проще понять ваш текст и извлечь из него факты.

Как этот патент влияет на E-E-A-T и авторитетность сайта?

Он имеет косвенное, но важное влияние. Если Google может успешно и точно извлекать факты из вашего контента с помощью этого механизма, это служит сигналом качества и достоверности информации на сайте. Сайты, которые регулярно поставляют точную информацию, которая попадает в Knowledge Graph, укрепляют свою авторитетность и экспертность в глазах поисковой системы.

Стоит ли использовать синонимы при описании отношений?

Да, но важно, чтобы контекст оставался ясным. Система может распознавать синонимы (например, "родился", "дата рождения", "появился на свет"), если эти синонимы часто встречаются в схожих контекстах в Occurrence Lists. Однако использование наиболее распространенных и четких терминов обычно повышает надежность извлечения фактов.

Может ли этот механизм извлекать неверные факты?

Да. Поскольку механизм основан на статистике и сравнении схожести контекстов, он может ошибаться, особенно если контекст в документе неоднозначен или если оценка достоверности (Confidence Score) рассчитана неверно. Система использует пороговые значения, чтобы минимизировать ошибки, но они не исключены полностью.

Как лучше всего оптимизировать текст, учитывая этот патент?

Лучшая оптимизация — это ясность и точность. Пишите предложения так, чтобы отношения между сущностями были очевидны. Используйте структуру "Субъект — Предикат — Объект" (например, "[Компания] основала [Продукт] в [Год]"). Держите связанные сущности и описывающие их слова близко друг к другу в тексте.

Применяется ли этот метод только к тексту или также к таблицам и спискам?

Хотя патент фокусируется на неструктурированном (свободном) тексте, он упоминает, что Proximate Objects могут определяться по пространственной локации, что включает таблицы и списки (например, слова непосредственно над или под целевым объектом). Если таблица или список не соответствуют известным структурированным шаблонам, этот механизм может быть применен для анализа контекста внутри этих элементов.

Как Google использует шаблоны сайтов и структурированные компоненты для извлечения и расширения наборов сущностей (Entity Set Expansion)

Патент описывает, как Google автоматически расширяет наборы данных (например, таблицы или списки). Система анализирует существующие сущности и ищет новые похожие элементы в интернете. Для этого используются два ключевых метода: анализ повторяющихся шаблонов веб-страниц (Template Analysis) и извлечение данных из структурированных компонентов (HTML-таблиц и списков) на сайтах.

US8452791B2
2013-05-28

Knowledge Graph
Семантика и интент
Структура сайта

Как Google использует графы сущностей для точного семантического сопоставления запросов и контента

Google применяет семантический подход к выбору контента, строя «граф запроса» на основе сущностей в запросе и их связей в Knowledge Graph. Этот граф затем сопоставляется с «графами критериев выбора контента». Система также может автоматически генерировать эти критерии, анализируя целевой контент и выявляя статистически значимые семантические шаблоны.

US9501530B1
2016-11-22

Семантика и интент
Knowledge Graph

Как Google использует базу данных сущностей (Knowledge Graph) для формирования прямых ответов на вопросы о фактах

Google использует систему для идентификации запросов, направленных на получение фактов о конкретной сущности (Entity-Triggering Questions). Система анализирует топовые результаты поиска, определяет, какие сущности чаще всего ассоциируются с этими документами, и выбирает наиболее релевантную сущность. Затем система извлекает запрошенный атрибут (например, адрес, дату рождения) из своей базы данных сущностей или находит лучший сниппет, содержащий этот факт, чтобы предоставить прямой ответ пользователю.

US9081814B1
2015-07-14

Knowledge Graph
Семантика и интент
SERP

Как Google находит, оценивает и показывает «интересные факты» о сущностях в поиске

Google идентифицирует «уникальные» или «интересные» факты о сущностях, анализируя документы, на которые ссылаются с использованием триггеров (например, «fun facts»). Система извлекает предложения, кластеризует их для поиска лучшей формулировки и оценивает качество факта на основе авторитетности источника, уникальности терминов и топикальности. Эти факты затем показываются в выдаче в виде специальных блоков.

US11568274B2
2023-01-31

Knowledge Graph
Семантика и интент
EEAT и качество

Как Google динамически выбирает и ранжирует факты об объектах в зависимости от запроса пользователя (Основы Knowledge Graph)

Патент описывает создание и использование репозитория фактов (предшественника Knowledge Graph). Система извлекает факты из интернета и связывает их с объектами (сущностями). При поиске Google не просто возвращает список объектов, а динамически выбирает и ранжирует наиболее релевантные факты для каждого объекта, основываясь на конкретном запросе пользователя, а также метриках достоверности и важности.

US7774328B2
2010-08-10

Knowledge Graph
Семантика и интент
SERP

Как Google использует визуальные цитаты и обратную связь для генерации и уточнения ответов в мультимодальном поиске

Google генерирует ответы на мультимодальные запросы (изображение + текст), находя визуально похожие изображения в интернете и используя текст с их исходных страниц как основу для LLM. Система показывает эти изображения как «визуальные цитаты» для подтверждения ответа и позволяет пользователям исключать нерелевантные источники, чтобы мгновенно уточнить сгенерированный результат.

US20240378236A1
2024-11-14

Мультимедиа
EEAT и качество
Ссылки

Как Google использует историю браузера, закладки и поведение пользователей для персонализации результатов поиска в e-commerce

Система отслеживает поведение пользователей (клики, время на сайте, покупки) и их сохраненные закладки (content pointers) в сетевой среде. На основе этих данных создается персональная модель релевантности и иерархия предпочтений. Эта модель используется для дополнения запросов, переранжирования результатов поиска и предоставления рекомендаций, обеспечивая персонализированный опыт в e-commerce.

US7089237B2
2006-08-08

Поведенческие сигналы
Персонализация
SERP

Как Google консолидирует сигналы ранжирования между мобильными и десктопными версиями страниц, используя десктопный авторитет для мобильного поиска

Патент Google описывает механизм для решения проблемы недостатка сигналов ранжирования в мобильном вебе. Система идентифицирует корреляцию между мобильной страницей и её десктопным аналогом. Если мобильная версия недостаточно популярна сама по себе, она наследует сигналы ранжирования (например, обратные ссылки и PageRank) от авторитетной десктопной версии, улучшая её позиции в мобильном поиске.

US8996514B1
2015-03-31

Техническое SEO
Ссылки

Как Google определяет географическую релевантность сайта по локали ссылающихся на него ресурсов и их аудитории

Google использует географические сигналы ссылающихся сайтов для определения локальной релевантности целевого домена. Система анализирует контент, технические данные и, что важно, географию аудитории ссылающихся ресурсов, чтобы вычислить «Link Based Locale Score». Эта оценка комбинируется с собственными сигналами сайта и используется для повышения позиций в релевантных географических регионах.

US8788490B1
2014-07-22

Local SEO
Ссылки
SERP

Как Google классифицирует интент запросов (например, поиск порнографии), анализируя историю использования фильтров (SafeSearch)

Google использует данные о том, как часто пользователи включают или отключают фильтры контента (например, SafeSearch) при вводе конкретного запроса. Анализируя нормализованное соотношение фильтрованных и нефильтрованных поисковых операций, система классифицирует запрос как целенаправленно ищущий определенный тип контента (например, adult). Эта классификация затем используется для повышения или понижения релевантности соответствующего контента в выдаче.

US9152701B2
2015-10-06

Семантика и интент
Безопасный поиск
Поведенческие сигналы

Как Google использует данные о реальных повторных посещениях (Quality Visit Measure) и социальных взаимодействиях для ранжирования локального бизнеса

Google использует данные о физических посещениях пользователей для оценки качества локального бизнеса. Система рассчитывает «Quality Visit Measure», придавая значительно больший вес местам, куда люди возвращаются повторно, приводят друзей или посещают по рекомендации. Этот показатель используется как сильный сигнал качества для ранжирования в локальном поиске и Google Maps, снижая зависимость от онлайн-отзывов.

US10366422B2
2019-07-30

Поведенческие сигналы
Local SEO

Как Google комбинирует поведенческие сигналы из разных поисковых систем для улучшения ранжирования

Google использует механизм для улучшения ранжирования путем объединения данных о поведении пользователей (клики и время взаимодействия) из разных поисковых систем (например, Веб-поиск и Поиск по Видео). Если в основной системе данных недостаточно, система заимствует данные из другой, применяя весовой коэффициент и фактор сглаживания для контроля смещения и обеспечения релевантности.

US8832083B1
2014-09-09

Поведенческие сигналы
SERP

Как Google переносит авторитетность бренда и описательные термины между страницами одного сайта для улучшения ранжирования

Google использует механизмы для улучшения релевантности страниц путем переноса сигналов внутри сайта. Система распространяет "авторитетные" термины (например, бренд) с главной страницы на внутренние разделы и, наоборот, поднимает "высокоописательные" термины (например, адреса, категории, уникальные слова) с внутренних страниц на главную. Это позволяет ранжировать наиболее подходящую страницу сайта, даже если нужные ключевые слова на ней отсутствуют.

US7933890B2
2011-04-26

Структура сайта
Техническое SEO
Индексация

Как Google использует исторические данные о документах, ссылках и поведении пользователей для определения свежести, качества и борьбы со спамом

Фундаментальный патент Google, описывающий использование временных рядов данных для ранжирования. Система анализирует историю документа (дату создания, частоту и объем обновлений), историю ссылок (скорость появления, возраст, изменения анкоров), тренды запросов и поведение пользователей. Эти данные используются для определения свежести контента, выявления неестественной активности (спама) и оценки легитимности домена.

US7346839B2
2008-03-18

Свежесть контента
Антиспам
Ссылки

Как Google комбинирует визуальное сходство и поведение пользователей для переранжирования поиска по картинкам

Google использует механизм для перекрестной проверки релевантности изображений, объединяя поведенческие сигналы (клики) с визуальным анализом. Если изображение часто кликают и оно визуально похоже на другие релевантные изображения по запросу (совместная релевантность), его рейтинг агрессивно повышается. Если оно редко кликается и визуально отличается (совместная нерелевантность), его рейтинг понижается. Это защищает выдачу от кликбейта.

US8209330B1
2012-06-26

Поведенческие сигналы
SERP
Мультимедиа