Как Google находит, объединяет и обогащает связанные таблицы, разбросанные по разным веб-страницам

SYNTHESIZING UNION TABLES FROM THE WEB (Синтезирование объединенных таблиц из Интернета)

US9720896B1
Google LLC
2013-12-30
2017-08-01

Семантика и интент

Google использует механизм для идентификации связанных таблиц ("stitchable tables") на разных веб-страницах. Система проверяет семантическую эквивалентность заголовков, извлекает скрытые атрибуты из окружающего контекста (текст, URL) и объединяет все данные в единую, обогащенную таблицу ("union table") для лучшего понимания структурированных данных в вебе.

Какую проблему решает

Патент решает проблему фрагментации структурированных данных в интернете. Часто единый набор данных разбит на несколько таблиц, расположенных на разных веб-страницах (например, статистика по разным регионам или годам). Стандартные методы извлечения рассматривают эти фрагменты изолированно, что затрудняет анализ всего набора данных. Кроме того, при изолированном извлечении теряется важный контекст, который часто содержится не в самой таблице, а в окружающем ее тексте, заголовке страницы или URL.

Что запатентовано

Запатентована система для автоматического синтеза полных наборов данных из разрозненных фрагментов. Изобретение описывает методы идентификации связанных таблиц (Stitchable Tables) на основе семантической эквивалентности их заголовков. Ключевым элементом является механизм извлечения Hidden Attributes (скрытых атрибутов) из контекста исходных страниц с использованием сегментации и выравнивания текста. В результате система создает единую Union Table, обогащенную извлеченным контекстом.

Как это работает

Система работает в несколько этапов:

Идентификация Stitchable Tables: Система анализирует извлеченные таблицы и определяет, какие из них можно объединить. Это делается путем проверки Semantic Equivalence заголовков колонок (учитываются синонимы, акронимы, вариации) и наличия взаимно однозначного соответствия между ними.
Извлечение Hidden Attributes: Для связанных таблиц система анализирует контекст исходных веб-страниц. Текст сегментируется (Segmentation) с помощью различных эвристик (пунктуация, HTML-теги, связь с сущностями). Затем последовательности сегментов с разных страниц выравниваются (Alignment). Атрибуты, которые различаются между страницами (например, название региона), идентифицируются как Hidden Attributes.
Синтез Union Table: Исходные таблицы объединяются. Извлеченные Hidden Attributes добавляются в виде новых колонок.
Маркировка: Система автоматически определяет названия для новых колонок (например, "Регион"), используя базу данных меток классов (Class Label Database), чтобы понять тип извлеченных данных.

Актуальность для SEO

Высокая. Извлечение и структурирование данных из веба является центральной задачей для Google, питающей Knowledge Graph, Featured Snippets и специализированные поисковые сервисы. Методы, описанные в патенте, направлены на повышение полноты и точности извлечения данных из таблиц и списков. Участие Алона Халеви (Alon Halevy), одного из ведущих исследователей в области структурированных данных, подчеркивает важность этого направления.

Важность для SEO

Влияние на SEO – Высокое (7/10). Хотя это не патент о ранжировании, он критически важен для понимания того, как Google извлекает и интерпретирует структурированную информацию с веб-сайтов, даже без разметки Schema.org. Качественное представление данных в табличном формате и четкий контекст на странице напрямую влияют на способность Google использовать этот контент для обогащения Knowledge Graph и формирования расширенных результатов поиска.

Термины и определения

Alignment (Выравнивание): Процесс сопоставления последовательностей сегментов, извлеченных с разных веб-страниц, для идентификации общих паттернов и различающихся элементов (скрытых атрибутов). Может использоваться Iterative Pairwise Alignment.
Class Label Database (База данных меток классов): Репозиторий сущностей и связанных с ними меток классов (например, сущности "Арканзас" и "Массачусетс" связаны с меткой "Штат"). Используется для автоматического наименования новых колонок в Union Table.
Hidden Attributes (Скрытые атрибуты): Контекстуальные данные, которые относятся к таблице, но находятся вне ее структуры (например, в окружающем тексте, URL, заголовке страницы). Эти атрибуты извлекаются и добавляются в Union Table для обогащения данных.
Segmentation (Сегментация): Процесс разделения контекстного текста веб-страницы на отдельные фрагменты (сегменты) с использованием эвристик, таких как пунктуация, HTML-теги, самые длинные общие подпоследовательности (longest common subsequences) или привязка текста к репозиторию сущностей.
Semantic Equivalence (Семантическая эквивалентность): Критерий для определения связи между заголовками таблиц. Заголовки считаются эквивалентными, если они являются синонимами, акронимами или семантически сохраняющими вариациями (например, "Number of Students" и "# of Students").
Stitchable Tables (Сшиваемые таблицы): Две или более таблицы (часто с разных страниц), которые идентифицированы как части одного набора данных. Критерий сшиваемости — наличие взаимно однозначного соответствия (one-to-one mapping) между семантически эквивалентными заголовками таблиц.
Union Table (Объединенная таблица): Итоговая таблица, синтезированная путем объединения данных из Stitchable Tables и обогащенная Hidden Attributes.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной процесс синтеза таблиц.

Система получает две или более таблицы, извлеченные из веб-документов, причем документы содержат текстовые части (контекст), отдельные от таблиц.
Проводится сравнение заголовков таблиц и определяется их семантическая эквивалентность.
На основе этой эквивалентности таблицы идентифицируются как Stitchable Tables.
Для каждой таблицы определяются соответствующие текстовые части (контекст) на исходных веб-страницах.
Из этого контекста извлекается как минимум один Hidden Attribute, связанный с контентом таблиц.
Создается Union Table путем объединения Stitchable Tables, при этом Hidden Attribute добавляется в новую колонку.

Claim 4 (Зависимый от 3): Детализирует критерии для определения Stitchable Tables.

Определение семантической эквивалентности требует строгого взаимно однозначного соответствия (one-to-one mapping): каждый заголовок из первой таблицы должен быть семантически эквивалентен ровно одному соответствующему заголовку из второй таблицы, и наоборот.

Claim 5 (Зависимый от 4): Уточняет, что такое семантическая эквивалентность.

Заголовок из первой таблицы семантически эквивалентен заголовку из второй таблицы, если они являются синонимами, акронимами или семантически сохраняющими вариациями.

Claim 7 (Зависимый от 1): Описывает механизм извлечения Hidden Attributes.

Текст, ассоциированный с веб-документом, сегментируется (Segmentation) для получения последовательностей сегментов.
Оцениваются (scoring) возможные варианты выравнивания (Alignment) между этими последовательностями.
Сегменты выравниваются на основе этой оценки для получения выровненных сегментов (из которых извлекаются атрибуты).

Claim 8 (Зависимый от 7): Уточняет эвристики для сегментации.

Сегментация использует эвристики, включающие: пунктуацию, HTML-разделители, самые длинные общие подпоследовательности или связь текста с репозиторием сущностей (entity repository).

Claim 10 (Зависимый от 7): Описывает фильтрацию выровненных сегментов.

Выровненный сегмент отбрасывается, если он содержит значения, которые одинаковы для всех таблиц, И это значение не найдено в корпусе заголовков таблиц, идентифицированных как значимые (meaningful table headers).

Claim 11 (Зависимый от 1): Описывает процесс маркировки извлеченных атрибутов.

Процесс включает определение метки класса (Class Label) для Hidden Attribute и добавление этой метки в Union Table для наименования новой колонки.

Где и как применяется

Изобретение применяется на этапе обработки и структурирования собранного контента.

CRAWLING – Сканирование и Сбор данных
На этом этапе система собирает исходные данные: веб-страницы, содержащие HTML-таблицы, а также полный контекст этих страниц (HTML, текст, URL).

INDEXING – Индексирование и извлечение признаков
Основное применение патента. В рамках индексирования (в частности, подсистемами Information Extraction) происходит:

Извлечение таблиц: Парсинг HTML для извлечения сырых табличных данных.
Анализ и структурирование: Идентификация Stitchable Tables, извлечение Hidden Attributes с помощью NLP-техник (Segmentation и Alignment) и синтез Union Tables.
Обогащение Знаний: Использование Class Label Database (вероятно, часть Knowledge Graph или репозитория сущностей) для маркировки атрибутов. Полученные структурированные данные используются для пополнения базы знаний.

Входные данные:

Извлеченные таблицы (Extracted Tables) из корпуса веб-документов.
Полный контент (текст, HTML) и URL исходных веб-страниц.
Class Label Database (репозиторий сущностей).
Корпус значимых заголовков таблиц (для фильтрации).

Выходные данные:

Union Tables — обогащенные, структурированные наборы данных, объединяющие информацию из нескольких источников.

На что влияет

Конкретные типы контента: В первую очередь влияет на контент, представленный в виде HTML-таблиц. Также может быть применимо к спискам (<ul>, <ol>), если они используются для представления структурированных данных.
Определенные форматы контента: Списки сущностей, сравнения продуктов, статистические данные, директории (например, списки школ, компаний, спортивных результатов).
Конкретные ниши или тематики: Наибольшее влияние в нишах, где данные часто представлены в табличном виде и фрагментированы: E-commerce (характеристики товаров), финансы, спорт, недвижимость, локальные данные (муниципальная статистика).

Когда применяется

Условия работы алгоритма: Применяется в процессе индексирования после того, как таблицы были извлечены из веб-страниц.
Триггеры активации: Обнаружение двух или более таблиц, которые удовлетворяют критериям Stitchable Tables (взаимно однозначное соответствие семантически эквивалентных заголовков).

Пошаговый алгоритм

Процесс синтеза Union Table:

Получение данных: Система получает набор таблиц, извлеченных из веб-страниц, и сохраняет связь с исходными страницами.
Определение Stitchable Tables:
- Сравнение заголовков пар таблиц для определения Semantic Equivalence (учет синонимов, акронимов).
- Проверка наличия строгого взаимно однозначного соответствия между всеми заголовками двух таблиц.
- Группировка таблиц, удовлетворяющих этим условиям.
Извлечение Hidden Attributes: Для каждой группы Stitchable Tables:
- Сегментация контекста: Извлечение контекстного текста (вокруг таблицы, заголовок страницы, URL) с исходных страниц. Применение эвристик (HTML-теги, пунктуация, связь с сущностями) для разделения текста на сегменты.
- Выравнивание (Alignment): Использование Iterative Pairwise Alignment для сопоставления последовательностей сегментов с разных страниц. Вычисление оценок соответствия сегментов (Segment Matching Scores).
- Фильтрация: Удаление выровненных сегментов, которые имеют одинаковое значение на всех страницах И это значение не найдено в корпусе значимых заголовков таблиц (например, удаление навигационных элементов типа "Home").
- Идентификация атрибутов: Оставшиеся выровненные сегменты, которые различаются между страницами, определяются как Hidden Attributes.
Объединение таблиц (Stitching):
- Объединение данных (строк) из Stitchable Tables в единую Union Table.
- Переупорядочивание колонок при необходимости для соответствия единой схеме.
Обогащение и Маркировка:
- Добавление новых колонок в Union Table для Hidden Attributes и заполнение их соответствующими значениями из контекста.
- Определение типа значений атрибутов и поиск соответствующей метки в Class Label Database.
- Присвоение имен новым колонкам.

Какие данные и как использует

Данные на входе

Система использует несколько типов данных для анализа и синтеза таблиц:

Структурные факторы: Структура HTML-таблиц (<table>, <tr>, <th>, <td>). Заголовки колонок (Headers) являются ключевыми для определения Stitchable Tables. HTML-теги окружающего контента (включая теги форматирования, меняющие шрифт, цвет, размер) используются для сегментации.
Контентные факторы: Текст внутри ячеек таблиц. Текст, окружающий таблицу на веб-странице (contextual data), заголовки страницы (Title). Этот контент используется для извлечения Hidden Attributes.
Технические факторы: URL страницы. Может использоваться для извлечения Hidden Attributes.
Внешние данные (Системные):
- Class Label Database (репозиторий сущностей): используется для маркировки новых колонок и как эвристика для сегментации (Entity Linking).
- Корпус значимых заголовков таблиц: используется для фильтрации незначимых атрибутов.

Какие метрики используются и как они считаются

Semantic Equivalence Score: Метрика, определяющая, являются ли два заголовка синонимами, акронимами или семантически сохраняющими вариациями. Используется для установления соответствия схем.
Segment Matching Score (Оценка соответствия сегментов): Оценка соответствия между парой сегментов во время процесса выравнивания. Патент предлагает конкретные веса:
- $\lambda_h$ : если сегменты сгенерированы одной и той же эвристикой.
- $\lambda_{gap}$ : если один из сегментов пуст (null segment). (При этом $\lambda_h$ > $\lambda_{gap}$ ).
Meaningfulness (Значимость атрибута): Определяется путем проверки наличия значения атрибута в корпусе часто встречающихся заголовков таблиц. Если атрибут одинаков для всех таблиц и не является значимым заголовком, он отбрасывается.
Class Label Confidence: Определение наиболее подходящей метки класса для набора значений Hidden Attribute путем запроса к Class Label Database.

Google активно реконструирует фрагментированные данные: Система не полагается только на то, как данные представлены на одной странице. Если данные концептуально связаны, но физически разделены (например, пагинация или разные страницы для категорий), Google попытается "сшить" их обратно в единый набор данных (Union Table).
Контекст определяет данные (Hidden Attributes): Информация, расположенная вне самой HTML-таблицы (в окружающем тексте, заголовках, URL), критически важна для интерпретации данных внутри таблицы. Система использует сложные методы (Segmentation и Alignment) для извлечения этого контекста.
Семантическое понимание структуры: Google анализирует схемы таблиц (заголовки колонок) на семантическом уровне (Semantic Equivalence), понимая синонимы и вариации. Это позволяет объединять таблицы с разными, но эквивалентными схемами.
Важность HTML-структуры и верстки: Эвристики сегментации явно полагаются на HTML-теги (включая теги форматирования) и структуру документа. Консистентная и чистая верстка облегчает работу системы по извлечению и объединению данных.
Автоматическое обогащение через Knowledge Graph: Система активно использует внешние базы знаний (Class Label Database / Репозиторий сущностей) для распознавания сущностей в тексте и для автоматической маркировки новых атрибутов, что необходимо для интеграции данных в Knowledge Graph.

Best practices (это мы делаем)

Использование четких и описательных заголовков таблиц: Используйте стандартные, недвусмысленные названия для колонок (<th>). Это повышает вероятность того, что Google корректно определит Semantic Equivalence и сможет использовать ваши данные.
Размещение контекста рядом с таблицей: Критически важная информация, которая применяется ко всей таблице (например, год, регион, категория), должна быть размещена в непосредственной близости от таблицы — в теге <caption>, в предшествующем заголовке (Hn), абзаце текста или в хлебных крошках. Это облегчает извлечение Hidden Attributes.
Последовательность при фрагментации данных: Если большой набор данных разбит на несколько страниц (например, пагинация или разделы по категориям):
- Сохраняйте абсолютно идентичную структуру таблиц на всех страницах.
- Убедитесь, что дифференцирующий контекст (например, название категории) четко указан на каждой странице в схожем формате и схожей HTML-структуре.
Это позволит Google успешно применить механизм Stitching.
Использование нативных HTML-таблиц для данных: Представляйте структурированные данные с помощью тега <table>, а не через <div>, CSS-Grid или Flexbox, если цель — максимальная доступность для извлечения поисковыми системами.

Worst practices (это делать не надо)

Использование неоднозначных или пустых заголовков: Отсутствие заголовков или использование неинформативных названий (например, "Колонка 1", "Данные") делает невозможным определение Semantic Equivalence и блокирует процесс объединения таблиц.
Отделение таблицы от ее контекста: Размещение таблицы в документе далеко от текста, который ее описывает, или использование сложных скриптов для динамической загрузки контекста может помешать извлечению Hidden Attributes.
Непоследовательные схемы для связанных данных: Изменение порядка колонок, добавление или удаление колонок в таблицах, которые являются частью одного набора данных (например, на разных страницах пагинации). Это нарушает требование взаимно однозначного соответствия.
Сложная и неконсистентная верстка вокруг таблиц: Избыточная вложенность и непоследовательное использование HTML-тегов или стилей на похожих страницах могут ухудшить работу эвристик сегментации и выравнивания, что приведет к ошибкам при извлечении контекста.

Стратегическое значение

Патент подтверждает стратегическое направление Google на извлечение и понимание структурированных данных из веба любыми доступными способами, далеко выходя за рамки микроразметки Schema.org. Для SEO-специалистов это означает, что качественное, чистое и семантически понятное представление данных в HTML-таблицах является значимым активом. Эти данные могут напрямую использоваться для формирования ответов в поиске (Featured Snippets) и для пополнения Knowledge Graph, повышая видимость и авторитетность ресурса как источника данных.

Практические примеры

Сценарий: Оптимизация директории филиалов компании

Компания имеет филиалы в нескольких регионах и представляет их списком на сайте, разделяя по страницам (например, /branches/moscow, /branches/spb).

Структура данных: На каждой странице используется HTML-таблица с заголовками: "Название филиала", "Адрес", "Телефон", "Часы работы". Структура идентична на всех страницах.
Контекст (Hidden Attributes): На странице /branches/moscow над таблицей расположен заголовок H1 "Филиалы в Москве". На странице /branches/spb — H1 "Филиалы в Санкт-Петербурге". Верстка заголовков идентична.
Действия Google (согласно патенту):
- Google определяет таблицы как Stitchable Tables (схемы идентичны).
- Система сегментирует контекст (H1) и выравнивает его. Она идентифицирует, что "Москва" и "Санкт-Петербург" являются переменными значениями в схожем контексте (H1 "Филиалы в [Значение]").
- Google извлекает их как Hidden Attributes.
- Система создает Union Table, объединяя все филиалы.
- Используя Class Label Database, Google определяет, что "Москва" и "Санкт-Петербург" — это "Город", и добавляет новую колонку "Город" в объединенную таблицу.
Результат: Google получает полный и структурированный набор данных о всех филиалах компании, что может быть использовано в локальном поиске или для прямых ответов на запросы о филиалах.

Означает ли этот патент, что разметка Schema.org для таблиц (Dataset) не нужна?

Нет, не означает. Schema.org предоставляет явный и недвусмысленный способ указания структурированных данных, который всегда предпочтительнее. Описанный в патенте механизм — это способ Google извлекать данные, когда явная разметка отсутствует или недостаточна. Лучшая стратегия — использовать чистые HTML-таблицы И дополнять их разметкой Dataset.

Как Google определяет, что заголовки таблиц семантически эквивалентны?

Патент упоминает, что учитываются синонимы, акронимы и семантически сохраняющие вариации (например, "Date of Birth" и "D.O.B.", или "Number of Students" и "# of Students"). На практике это реализуется с помощью моделей обработки естественного языка (NLP) и базы знаний о взаимосвязях между терминами и сущностями, чтобы установить строгое взаимно однозначное соответствие.

Что такое "Hidden Attributes" и откуда они берутся?

Hidden Attributes — это данные, которые применяются ко всей таблице, но находятся вне ее структуры. Они извлекаются из контекста веб-страницы: окружающего текста, заголовков (H1-H6), тега <title>, URL страницы или тега <caption> таблицы. Например, если на странице есть таблица со статистикой за 2025 год, то "2025" может быть извлечено как скрытый атрибут.

Как повлиять на то, какие именно данные Google извлечет как "Hidden Attributes"?

Ключевым фактором является размещение контекстной информации близко к таблице и использование чистого, последовательного форматирования и верстки. Система использует эвристики, основанные на HTML-тегах (включая теги форматирования) и пунктуации, для сегментации текста. Чем четче и консистентнее структура вашего контента вокруг таблицы, тем точнее будет извлечение.

Может ли Google объединить таблицы с моего сайта с таблицами с другого сайта?

Да, патент не ограничивает применение механизма одним доменом. Если система обнаружит таблицы на разных сайтах, которые удовлетворяют критериям Stitchable Tables (имеют семантически эквивалентные схемы), она может попытаться их объединить для формирования более полного набора данных в своей базе знаний.

Что делать, если я использую пагинацию для большой таблицы?

Это идеальный сценарий для применения этого патента. Чтобы помочь Google корректно "сшить" таблицу, критически важно сохранять абсолютно идентичную структуру таблицы (порядок и названия колонок) на всех страницах пагинации. Также убедитесь, что контекст страницы (например, номер страницы) понятен и консистентен.

Как работает механизм "Segmentation"?

Segmentation разделяет текст на фрагменты, используя различные эвристики. К ним относятся: разделители в виде пунктуации или HTML-тегов (например, изменение стиля шрифта или <br>), обнаружение самых длинных общих подпоследовательностей текста или разметки, а также привязка текста к известным сущностям в репозитории (Entity Linking).

Что такое "Class Label Database" и как она используется?

Это база знаний (вероятно, связанная с Knowledge Graph), которая хранит сущности и их типы (метки классов). Когда система извлекает значения скрытых атрибутов (например, "Арканзас" и "Массачусетс"), она обращается к этой базе, чтобы определить общий тип данных ("Штат"), и использует его для наименования новой колонки в объединенной таблице.

Влияет ли этот патент на ранжирование моего сайта?

Напрямую нет, это не алгоритм ранжирования. Однако он влияет на то, насколько хорошо Google понимает контент вашего сайта. Если Google может успешно извлечь и синтезировать высококачественные структурированные данные с вашего ресурса, это может повысить его авторитетность как источника информации и улучшить видимость через Featured Snippets или результаты, основанные на Knowledge Graph.

Работает ли этот механизм для списков (UL/OL), а не только для таблиц?

Хотя в патенте основное внимание уделяется HTML-таблицам, в описании упоминается, что подходы могут использоваться для извлечения данных из списков (lists). Если списки используются для представления структурированных данных (например, список характеристик продукта), система потенциально может применить аналогичную логику для их анализа и объединения.

Как Google использует шаблоны сайтов и структурированные компоненты для извлечения и расширения наборов сущностей (Entity Set Expansion)

Патент описывает, как Google автоматически расширяет наборы данных (например, таблицы или списки). Система анализирует существующие сущности и ищет новые похожие элементы в интернете. Для этого используются два ключевых метода: анализ повторяющихся шаблонов веб-страниц (Template Analysis) и извлечение данных из структурированных компонентов (HTML-таблиц и списков) на сайтах.

US8452791B2
2013-05-28

Knowledge Graph
Семантика и интент
Структура сайта

Как Google анализирует, извлекает и ранжирует данные из таблиц для формирования Featured Snippets

Google использует систему для идентификации таблиц с упорядоченными данными (рейтингами) на веб-страницах. Система анализирует структуру таблицы и контекст страницы (заголовки, окружающий текст, прошлые запросы), чтобы понять, что именно и по какому критерию ранжируется. Если исходная страница уже занимает высокие позиции, Google может извлечь данные из таблицы и показать их непосредственно в выдаче в виде Featured Snippet, отвечая на запросы о рейтингах и сравнениях.

US20190065502A1
2019-02-28

Семантика и интент
Индексация
SERP

Как Google извлекает структурированные данные путем анализа и запоминания шаблонов DOM-дерева сайта

Google использует гибридную систему для извлечения структурированных данных (например, списков эпизодов, треков альбома) с сайтов, даже если они не используют микроразметку. Система сначала применяет эвристики для поиска данных, проверяет их точность путем сравнения с другими источниками, а затем анализирует DOM-дерево сайта, чтобы запомнить шаблон расположения этих данных. Это позволяет Google эффективно извлекать информацию, понимая структуру HTML-шаблонов сайта.

US8954438B1
2015-02-10

Структура сайта
Индексация

Как Google использует шинглирование для обнаружения дубликатов и связывания повторяющихся фрагментов текста в разных документах

Google использует технологию шинглирования (shingling) для анализа больших коллекций документов (например, книг или веб-страниц) с целью выявления идентичных или почти идентичных отрывков текста. Система находит общие последовательности текста, ранжирует их по значимости (длине и частоте) и создает гиперссылки между документами, содержащими эти отрывки.

US8122032B2
2012-02-21

Индексация
Ссылки

Как Google автоматически определяет ключевые характеристики (атрибуты) сущностей, анализируя неструктурированный веб-контент

Google использует этот механизм для автоматического определения схемы (набора атрибутов) для любой сущности. Анализируя, как различные веб-страницы описывают набор схожих объектов (например, список фильмов), система выявляет новые релевантные характеристики (например, «Режиссер», «Время выполнения»), извлекая их из таблиц, списков или шаблонов страниц в интернете.

US8615707B2
2013-12-24

Knowledge Graph
Семантика и интент

Как Google классифицирует интент запросов (например, поиск порнографии), анализируя историю использования фильтров (SafeSearch)

Google использует данные о том, как часто пользователи включают или отключают фильтры контента (например, SafeSearch) при вводе конкретного запроса. Анализируя нормализованное соотношение фильтрованных и нефильтрованных поисковых операций, система классифицирует запрос как целенаправленно ищущий определенный тип контента (например, adult). Эта классификация затем используется для повышения или понижения релевантности соответствующего контента в выдаче.

US9152701B2
2015-10-06

Семантика и интент
Безопасный поиск
Поведенческие сигналы

Как Google выбирает модель визуальной релевантности для сложных запросов в Поиске по картинкам

Google решает проблему ранжирования изображений для сложных или редких запросов, для которых нет специализированной модели релевантности. Система тестирует существующие модели, созданные для частей запроса (подзапросов), и выбирает ту, которая лучше всего соответствует поведению пользователей (кликам) по исходному запросу. Это позволяет улучшить визуальную релевантность в Image Search.

US9152652B2
2015-10-06

Поведенческие сигналы
Мультимедиа
Семантика и интент

Как Google использует время просмотра (Watch Time) для ранжирования видео и другого контента

Google измеряет, сколько времени пользователи тратят на потребление контента (особенно видео) после клика по результату поиска и во время последующей сессии. Ресурсы, которые удерживают внимание пользователей дольше, получают повышение в ранжировании (Boost), а ресурсы с коротким временем просмотра понижаются. Система учитывает не только клики, но и фактическое вовлечение пользователя в рамках всей сессии просмотра.

US9098511B1
2015-08-04

Поведенческие сигналы
Мультимедиа
SERP

Как Google использует анализ со-цитирования (Co-citation) для группировки результатов поиска по темам

Google использует механизм кластеризации для организации поисковой выдачи, особенно при неоднозначных запросах. Система анализирует, какие внешние страницы одновременно ссылаются на несколько результатов поиска (со-цитирование). На основе этого вычисляется показатель сходства, который учитывает и нормализует популярность страниц, чтобы точно сгруппировать результаты по конкретным темам (например, отделить «Saturn» как планету от «Saturn» как автомобиль).

US7213198B1
2007-05-01

Ссылки
SERP

Как Google динамически регулирует влияние фактора близости в локальном поиске в зависимости от тематики запроса и региона

Google использует систему для определения того, насколько важна близость (расстояние) для конкретного поискового запроса и региона. Анализируя исторические данные о кликах и запросах маршрутов, система вычисляет «Фактор важности расстояния». Для запросов типа «Кофе» близость критична, и удаленные результаты пессимизируются. Для запросов типа «Аэропорт» близость менее важна, и качественные результаты могут ранжироваться высоко. Система также учитывает плотность региона (город или село), адаптируя ожидания пользователей по расстоянию.

US8463772B1
2013-06-11

Local SEO
Поведенческие сигналы

Как Google использует клики (CTR) и время на сайте (Click Duration) для выявления спама и корректировки ранжирования в тематических выдачах

Google использует итеративный процесс для улучшения классификации контента и выявления спама, анализируя поведенческие сигналы (CTR и продолжительность клика). Если пользователи быстро покидают документ или игнорируют его в выдаче, он помечается как спам или нерелевантный теме. Эти данные затем используются для переобучения классификатора и корректировки ранжирования для будущих тематических запросов.

US7769751B1
2010-08-03

Поведенческие сигналы
Антиспам
SERP

Как Google планировал использовать социальные связи, сети доверия и экспертизу для персонализации и переранжирования поисковой выдачи

Google запатентовал метод использования данных из социальных сетей («member networks») для влияния на ранжирование. Пользователи могли явно одобрять («endorse») результаты поиска. Эти одобрения показывались другим связанным пользователям (друзьям или людям, ищущим экспертное мнение) и использовались для переранжирования выдачи, добавляя персонализированный слой доверия.

US8825639B2
2014-09-02

Персонализация
EEAT и качество
Поведенческие сигналы

Как Google автоматически распознает сущности в тексте и связывает их в Knowledge Graph с помощью динамических поисковых ссылок

Google использует автоматизированную систему для поддержания связей между сущностями (объектами) в своем хранилище фактов (Knowledge Graph). Система сканирует текст, статистически определяет значимые фразы и сверяет их со списком известных объектов. При совпадении создается динамическая «поисковая ссылка» вместо фиксированного URL. Это позволяет Google постоянно обновлять связи по мере добавления новых знаний.

US8260785B2
2012-09-04

Knowledge Graph
Семантика и интент
Ссылки

Как Google использует всплески поискового интереса и анализ новостей для обновления Графа Знаний в реальном времени

Google отслеживает аномальный рост запросов о сущностях (людях, компаниях) как индикатор реального события. Система анализирует свежие документы, опубликованные в этот период, извлекая факты в формате Субъект-Глагол-Объект (SVO). Эти факты используются для оперативного обновления Графа Знаний или добавления блока «Недавно» в поисковую выдачу.

US9235653B2
2016-01-12

Knowledge Graph
Свежесть контента
Семантика и интент

Как Google генерирует "Свежие связанные запросы" на основе анализа трендов и новостного контента

Google анализирует недавние поисковые логи, чтобы выявить запросы, демонстрирующие резкий рост популярности или отклонение от ожидаемой частоты. Эти "свежие" запросы проходят обязательную валидацию: они должны возвращать достаточное количество новостных результатов и иметь хорошие показатели вовлеченности (CTR). Это позволяет Google динамически обновлять блок "Связанные поиски", отражая актуальные события и тренды.

US8412699B1
2013-04-02

Свежесть контента
Поведенческие сигналы
SERP