Как Google находит, классифицирует и ранжирует контент «Глубокой паутины» (Deep Web), скрытый за веб-формами

SEARCHING THROUGH CONTENT WHICH IS ACCESSIBLE THROUGH WEB-BASED FORMS (Поиск контента, доступного через веб-формы)

US8037068B2
Google LLC
2006-04-05
2011-10-11

Google использует систему для доступа к контенту, скрытому за веб-формами («Глубокая паутина»). Система сканирует веб, идентифицирует формы, классифицирует их по тематикам (используя «Поисковую онтологию») и понимает, какие поля заполнять. При поиске Google анализирует запрос пользователя, находит релевантные формы, ранжирует их и может автоматически заполнить форму для пользователя или показать уже извлеченный контент.

Какую проблему решает

Патент решает проблему недоступности значительной части данных в интернете для традиционных поисковых систем — так называемой «Глубокой паутины» (Deep Web). Этот контент не существует в виде статических веб-страниц, а генерируется динамически в ответ на запросы через веб-формы (например, базы данных недвижимости, вакансий, товаров). Традиционные краулеры, следующие по ссылкам, не могут индексировать этот контент. Изобретение направлено на то, чтобы сделать этот скрытый контент доступным для поиска.

Что запатентовано

Запатентована система для поиска контента, доступного через веб-формы. Она включает механизмы для обнаружения и анализа веб-форм, создания базы данных этих форм (Form Database) и их классификации с использованием поисковой онтологии (Search Ontology). Система также включает компонент обработки запросов, который интерпретирует ключевые слова пользователя, преобразует их в структурированный запрос, находит релевантные формы и ранжирует их на основе множества факторов, включая специфический показатель Form Score.

Как это работает

Система работает в двух режимах: офлайн (сканирование) и онлайн (обработка запроса).

Офлайн: Краулер находит веб-формы, анализирует их (поля ввода, обязательные поля) и классифицирует их тематику (например, «Недвижимость», «Авто») с помощью Search Ontology. Он также выполняет Schema Matching, пытаясь сопоставить поля формы со свойствами онтологии (например, поле «ZIP code» соответствует свойству «Location»). Опционально система может предварительно извлекать контент, автоматически заполняя формы и индексируя результаты.
Онлайн: Пользователь вводит запрос. Система предсказывает, к какому классу онтологии относится запрос, и преобразует ключевые слова в структурированный запрос. Система ищет в Form Database подходящие формы. Формы ранжируются (учитывая PageRank, релевантность, местоположение и Form Score — насколько форма способна ответить на запрос). Пользователю предлагаются ссылки (Query-Through Links) для автоматического заполнения и отправки формы или показывается уже извлеченный контент.

Актуальность для SEO

Средняя/Высокая. Доступ к структурированным данным остается ключевой задачей поиска. Хотя методы, описанные в патенте (например, классификаторы TF/IDF, наивный Байес), могут быть устаревшими по сравнению с современными нейронными сетями, сама концепция идентификации, классификации и доступа к данным за формами по-прежнему актуальна. Google активно извлекает структурированные данные, и этот патент описывает фундаментальный подход к работе с Deep Web.

Важность для SEO

Влияние на SEO значительно (7.5/10), особенно для сайтов, чей основной контент предоставляется через формы (агрегаторы, каталоги, сайты с базами данных). Патент показывает, что Google стремится понять структуру и назначение форм, чтобы либо ранжировать саму форму, либо индексировать контент за ней. Если контент за формой будет проиндексирован, это может кардинально изменить видимость сайта. Если же ранжируется сама форма, то её оптимизация и контекст страницы становятся критически важными.

Термины и определения

Deep Web (Глубокая паутина): Часть интернета, скрытая за формами и недоступная для традиционных поисковых систем, которые сканируют только по ссылкам.
Form Database (База данных форм): Хранилище метаданных о веб-формах, обнаруженных краулером. Включает классификацию формы, её поля, обязательные поля, сопоставление полей со свойствами онтологии и т.д.
Form Score (Оценка формы): Метрика ранжирования, которая оценивает способность формы ответить на запрос пользователя. Рассчитывается путем сравнения входов/выходов, требуемых запросом, с входами/выходами, которые поддерживает форма.
Query Analyzer (Анализатор запросов): Компонент, который анализирует запрос пользователя, предсказывает релевантный класс Search Ontology и преобразует ключевые слова в структурированный запрос.
Query-Through Link (Ссылка для сквозного запроса): Ссылка, предоставляемая пользователю, при нажатии на которую автоматически заполняется и отправляется соответствующая веб-форма с использованием данных из исходного запроса пользователя. Содержит invocation string.
Schema Matching (Сопоставление схемы): Процесс установления соответствия между полями веб-формы и свойствами в Search Ontology.
Search Ontology (SO) (Поисковая онтология): Онтология классов (SO-classes) и свойств (SO-properties), используемая для классификации веб-источников, веб-форм и запросов пользователей (например, классы: Недвижимость, Персона; свойства: Цена, Местоположение, Имя).
Structured Query (Структурированный запрос): Внутреннее представление запроса пользователя, где ключевые слова сопоставлены со свойствами предсказанного класса Search Ontology.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод поиска контента через веб-формы.

Система получает запрос с ключевыми словами.
Анализирует запрос для создания структурированного запроса (Structured Query):
- Предсказывает класс (Class) для запроса.
- Сопоставляет ключевые слова со свойствами (Properties) этого класса.
- Генерирует структурированный запрос на основе этого сопоставления.
Выполняет поиск в базе данных веб-форм (Form Database) на основе структурированного запроса.
Ранжирует возвращенные формы. Ранжирование включает определение Form Score, который отражает способность формы ответить на запрос. Это делается путем сравнения входов и выходов, требуемых запросом (на основе предсказанного класса), и входов и выходов конкретной формы из базы данных.
Облегчает поиск контента, доступного через эти формы, используя ранжирование.

Claim 4 и 5 (Зависимые): Детализируют способ предоставления результатов поиска.

Система представляет пользователю ссылку Query-Through Link для интересующей формы. Эта ссылка конструируется путем сопоставления ключевых слов из запроса с полями ввода формы и содержит строку вызова (invocation string). При нажатии на ссылку автоматически отправляется запрос к этой форме.

Claim 7 (Зависимый от 1): Определяет формулу для расчета Form Score (FS(f)).

Оценка формы рассчитывается по формуле:

$FS(f) = \frac{|I_f \cap Q_I|}{|I_f \cup Q_I|} \cdot \frac{|O_f|}{|Q_O|}$

Где: I_f и O_f — входные и выходные свойства формы f; Q_I и Q_O — входные и выходные свойства, извлеченные из запроса пользователя.

Первый член (Коэффициент Жаккара) измеряет, достаточно ли данных в запросе пользователя для заполнения формы. Второй член измеряет способность формы предоставить выходные данные, требуемые пользователем.

Claim 10 (Зависимый от 1): Описывает методы предсказания класса (Class Prediction) для запроса.

Предсказание класса может выполняться с помощью одного или нескольких методов:

Word-based prediction: Предсказание классов, которые с наибольшей вероятностью генерируют ключевые слова запроса (используя схему типа наивного Байеса).
Property-based prediction: Предсказание классов на основе распознанных значений свойств в запросе (например, распознавание имен, локаций, дат).
Feedback-based prediction: Предсказание класса на основе анализа Топ-20 результатов обычного поиска по ключевым словам.
Location detection: Предсказание класса на основе ключевых слов, определенных как названия местоположений.

Где и как применяется

Изобретение охватывает почти все этапы поисковой архитектуры, так как требует комплексного подхода к сканированию, индексированию, пониманию запросов и ранжированию.

CRAWLING – Сканирование и Сбор данных
На этом этапе Web Crawler (или Site Crawler) активно ищет веб-формы на сайтах. Он фильтрует неинтересные формы (например, подписка на email) и устраняет дубликаты. Также может выполняться «глубокое сканирование» — отправка запросов в формы для извлечения контента. Упоминается использование эмуляции Javascript для обхода скриптов, мешающих сканированию.

INDEXING – Индексирование и извлечение признаков
Ключевой этап для этого патента. Система индексирует сами формы и создает Form Database. Происходит анализ (Form Analyzer) и классификация:

Классификация веб-страницы и самой формы с использованием Search Ontology (с помощью классификаторов TF/IDF).
Schema Matching: сопоставление полей формы со свойствами онтологии.
Извлечение метаданных: обязательные поля, типы полей, географическая привязка (Location Prediction).

Если контент был предварительно извлечен, он сохраняется в обычном веб-индексе.

QUNDERSTANDING – Понимание Запросов
Query Analyzer интерпретирует запрос пользователя. Он предсказывает класс Search Ontology, к которому относится запрос, распознает сущности (имена, локации) и преобразует ключевые слова в Structured Query.

RANKING – Ранжирование
Система выполняет поиск в Form Database. Ранжирование найденных форм использует сложную комбинацию сигналов, включая стандартные (PageRank, ключевые слова) и специфические для этого изобретения (Ontology Score, Location Score и, самое главное, Form Score).

METASEARCH – Метапоиск и Смешивание
Результаты (ссылки на формы или предварительно извлеченный контент) интегрируются в общую выдачу. Система может предоставлять Query-Through Links или отображать результат в виде специального блока (упоминается «one-box»).

На что влияет

Конкретные ниши или тематики: Наибольшее влияние оказывается на ниши, где контент традиционно предоставляется через базы данных и формы: недвижимость, автомобили, вакансии, каталоги специалистов, локальный поиск, e-commerce с фасетным поиском.
Специфические запросы: Влияет на запросы, которые подразумевают поиск структурированных данных или объектов с определенными атрибутами (например, «квартиры в аренду Сиэтл до 2000 долларов»).
Типы контента: Влияет на видимость динамически генерируемого контента и страниц с поисковыми формами.

Когда применяется

Алгоритм применяется, когда система идентифицирует, что запрос пользователя лучше всего может быть удовлетворен контентом, скрытым за веб-формами.

Триггеры активации: Когда Query Analyzer с высокой уверенностью предсказывает класс Search Ontology, связанный с формами (например, пользователь ищет объект с атрибутами).
Условия работы: Наличие релевантных форм в Form Database, которые соответствуют структурированному запросу пользователя.

Пошаговый алгоритм

Процесс А: Офлайн-сканирование и индексирование форм (Web Crawler)

Обнаружение и фильтрация форм: Краулер обходит веб-сайты, идентифицируя HTML-формы, отсеивая нерелевантные и устраняя дубликаты.
Классификация источника и формы: Использование классификаторов (например, TF/IDF) для определения класса Search Ontology для веб-страницы и для самой формы. Учитывается текст всей страницы и текст внутри/вокруг формы.
Предсказание местоположения: Определение географической привязки источника и объектов, возвращаемых формой.
Анализ полей формы: Извлечение имен полей, видимого текста, типов полей (text, select box) и примеров значений (опции в select box). Предсказание обязательных полей и выходных свойств.
Сопоставление схемы (Schema Matching): Сопоставление полей формы со свойствами (SO-properties) предсказанного класса онтологии (например, поле «City» -> свойство «Location»).
Сохранение метаданных: Запись всей информации в Form Database.
(Опционально) Извлечение контента: Генерация констант для заполнения обязательных полей, отправка формы (возможно, с эмуляцией Javascript) и индексация полученных результатов в веб-индекс.

Процесс Б: Онлайн-обработка запроса (Query Engine)

Получение запроса: Система получает запрос пользователя.
Анализ запроса (Query Analyzer):
- Предсказание класса SO: Определение наиболее релевантного класса онтологии с использованием методов Word-based, Property-based и Feedback-based prediction.
- Распознавание свойств и локаций: Идентификация констант в запросе (имена, локации, даты и т.д.) и разрешение неоднозначностей локаций.
Конструирование структурированного запроса: Сопоставление ключевых слов запроса со свойствами предсказанного класса (например, Запрос: «Телефон Дэвида Ко 98102» -> Структурированный запрос: Person{Телефон ?, Имя=Дэвид, Фамилия=Ко, ZipCode=98102}).
Поиск в базе данных форм: Выполнение поиска релевантных форм в Form Database на основе структурированного запроса.
Ранжирование форм: Расчет оценок для найденных форм на основе линейной комбинации факторов:
- PageRank источника.
- Keyword Scores (релевантность текста страницы, анкоров).
- Ontology Score (релевантность класса запроса классу формы).
- Form Score (способность формы ответить на запрос, формула в Claim 7).
- Location Score (близость локации формы к локации в запросе).
Подготовка результатов:
- Вариант 1 (Query-Through): Сопоставление слов запроса с полями ввода формы. Конструирование строки вызова (invocation string), включая внутренние значения для select boxes и обработку Javascript. Генерация Query-Through Links.
- Вариант 2 (Pre-extracted content): Поиск в веб-индексе среди контента, предварительно извлеченного на Шаге А.7.
Представление результатов: Отображение ранжированных ссылок или специального блока («one-box»).

Какие данные и как использует

Данные на входе

Контентные факторы: Текст веб-страницы, текст внутри и вокруг формы, заголовки (title), текст анкоров входящих ссылок (anchor-score), видимый текст (метки) полей формы. Используются для классификации (TF/IDF) и расчета Keyword Scores.
Технические факторы: HTML-структура форм (имена параметров полей, типы полей, значения опций, скрытые поля), URL форм, фрагменты Javascript на странице (используются для конструирования строки вызова и эмуляции).
Ссылочные факторы: Количество входящих ссылок на страницу с формой (используется для оценки PageRank).
Географические факторы: Названия городов, штатов, стран, почтовые индексы на странице и в запросе пользователя. Используются для Location Prediction и расчета Location Score. Данные о населении городов также используются для разрешения неоднозначностей локаций.
Системные данные: Search Ontology (иерархия классов и свойств). Данные для обучения классификаторов и распознавателей.

Какие метрики используются и как они считаются

Система использует несколько ключевых метрик для ранжирования форм:

Approximate Page Rank Score: Оценка важности страницы, например, логарифм количества входящих ссылок.
Keyword Scores: Оценка релевантности текста страницы (page-text-score), анкоров и заголовка запросу пользователя.
Ontology Score: Оценка релевантности класса Search Ontology, предсказанного для запроса, классу формы. Включает query-match-score (уверенность в классе запроса) и ontology-match-score (уверенность в классе формы).
Form Score (FS(f)): Оценка способности формы ответить на запрос. Рассчитывается по формуле, сочетающей Коэффициент Жаккара для входных параметров и соотношение выходных параметров (подробно описано в анализе Claim 7).
Location Score: Оценка близости местоположения, связанного с формой, к местоположению, обнаруженному в запросе (например, расчет на основе расстояния в милях).

Агрегация оценок: Различные компоненты оценки объединяются с использованием линейной комбинации. Веса в комбинации динамические и зависят от анализа запроса (например, если класс предсказан с высокой уверенностью, вес Ontology Score увеличивается; если обнаружено местоположение, вес Location Score увеличивается).

Методы анализа: Упоминаются классификаторы TF/IDF, наивный Байес, распознаватели свойств (Property Recognizers), а также методы машинного обучения для сопоставления схем (Schema Matching).

Доступ к «Глубокой паутине» систематизирован: Патент описывает конкретную архитектуру для систематического обнаружения, анализа и использования контента, скрытого за веб-формами. Это позволяет поисковой системе выходить за рамки статического веба.
Критичность Поисковой Онтологии (SO): Search Ontology является ядром системы. Она используется для классификации форм (офлайн), понимания запросов (онлайн) и сопоставления между ними (Schema Matching). Способность системы понять семантику формы и её полей критически важна.
Два пути индексации контента: Система может либо индексировать саму форму и предоставлять пользователю возможность взаимодействия с ней (Query-Through Link), либо предварительно извлекать контент из формы и индексировать его как обычные веб-страницы.
Сложное ранжирование форм: Ранжирование форм не зависит только от релевантности страницы. Вводятся специфические метрики: Form Score (насколько форма функционально соответствует запросу), Ontology Score (семантическое соответствие) и Location Score, которые комбинируются с традиционными сигналами (PageRank, ключевые слова).
Техническая реализация форм имеет значение: Патент признает трудности при автоматическом взаимодействии с формами (например, из-за Javascript) и предлагает решения, такие как эмуляция Javascript. Технически доступные формы имеют преимущество.
Контекст формы важен для классификации: Текст на странице и вокруг формы, а также метки полей играют важную роль в определении назначения формы.

Best practices (это мы делаем)

Рекомендации актуальны для сайтов, предоставляющих доступ к базам данных через формы (агрегаторы, порталы, E-commerce с фильтрами).

Четкая семантика форм и полей: Используйте ясные и описательные названия для полей формы (как в атрибуте name, так и в видимом тексте label). Это помогает системе выполнить Schema Matching и корректно сопоставить поля со свойствами Search Ontology.
Контекстная оптимизация страницы с формой: Страница, на которой размещена форма, должна быть хорошо оптимизирована и иметь сильный ссылочный профиль, так как Keyword Scores и PageRank учитываются при ранжировании формы. Текст вокруг формы должен четко описывать её назначение, помогая классификации.
Обеспечение технической доступности форм: Избегайте сложного Javascript, который динамически генерирует форму или изменяет строку вызова непредсказуемым образом. Хотя патент упоминает эмуляцию JS, простота реализации повышает надежность анализа.
Содействие предварительному извлечению контента (GET-запросы): Если возможно, реализуйте функциональность поиска и фильтрации через GET-запросы. Это создает URL с параметрами запроса (GET-string), что значительно упрощает предварительное извлечение контента краулером и индексацию результатов.
Использование стандартных элементов для списков: Реализуйте выпадающие списки через стандартный <select>. Система использует значения опций для Schema Matching и для генерации констант при предварительном извлечении контента.

Worst practices (это делать не надо)

Блокировка доступа к контенту за формами: Использование CAPTCHA, сложных многошаговых форм или чрезмерно сложного Javascript для валидации может помешать системе как проанализировать форму, так и предварительно извлечь контент.
Неоднозначные названия полей: Использование неясных или технических названий полей (например, «field1», «param_x») затрудняет для системы понимание назначения поля и снижает вероятность корректного Schema Matching.
Размещение форм на пустых страницах: Размещение важной формы на странице без контекстного контента или со слабым ссылочным профилем приведет к низким оценкам Keyword Scores и PageRank, что ухудшит ранжирование формы.
Использование нестандартных форматов данных: Использование нестандартных форматов для дат, локаций или других структурированных данных затрудняет их распознавание системой.

Стратегическое значение

Этот патент подчеркивает стремление Google структурировать и понимать весь доступный контент, включая динамический. Для SEO-специалистов это означает, что оптимизация не ограничивается статическими страницами. Техническая реализация и семантика интерактивных элементов (форм, фильтров) напрямую влияют на видимость сайта. Сайты, которые предоставляют доступ к уникальным базам данных через хорошо спроектированные и доступные формы, могут получить преимущество, так как Google может ранжировать их выше или использовать их для наполнения своих вертикальных сервисов.

Практические примеры

Сценарий: Оптимизация формы поиска недвижимости

Анализ текущей формы: Сайт использует форму с полями «Местоположение» (текстовое поле), «Диапазон цен» (два текстовых поля) и «Тип недвижимости» (select box). Названия полей в коде: «loc», «p1», «p2», «type». Форма отправляется через POST.
Проблема: Система Google может испытывать трудности с Schema Matching из-за неясных названий полей. Использование POST затрудняет предварительное извлечение контента.
Оптимизация (на основе патента):
- Перевести форму на использование метода GET, чтобы результаты поиска имели индексируемые URL.
- Переименовать поля в коде и добавить четкие labels: «city», «price_min», «price_max», «property_type».
- Изменить поле «Местоположение» на структурированный ввод (например, автозаполнение с географическими данными), чтобы улучшить Location Score.
- Добавить описательный текст на страницу вокруг формы, объясняющий её возможности.
Ожидаемый результат: Google более точно классифицирует форму в Search Ontology (класс: Недвижимость). Schema Matching выполняется корректно. При запросе пользователя «квартиры в Бостоне до 3000 долларов» система сможет сгенерировать корректный Structured Query, а форма получит высокий Form Score. Краулер сможет проиндексировать страницы результатов благодаря GET-запросам.

Что такое «Глубокая паутина» (Deep Web) в контексте этого патента?

Это контент, который недоступен при обычном сканировании по ссылкам, так как он скрыт за веб-формами. Чтобы получить этот контент (например, список авиарейсов или объектов недвижимости), необходимо заполнить поля формы и отправить запрос к базе данных сайта. Патент описывает методы, позволяющие Google получить доступ к этому контенту.

Что такое Search Ontology (SO) и почему это важно?

Search Ontology — это система классификации, которую Google использует для понимания тематики веб-форм и запросов пользователей. Она состоит из классов (например, «Автомобили», «Вакансии») и свойств (например, «Марка», «Модель», «Цена»). Корректная классификация формы в этой онтологии критически важна для её ранжирования и использования системой.

Как Google определяет назначение полей в моей форме?

Система использует процесс, называемый Schema Matching. Она анализирует названия полей (атрибут name), видимый текст (labels), типы полей и примеры значений (опции в выпадающих списках). Затем она пытается сопоставить эти поля со свойствами в своей Search Ontology, используя методы машинного обучения и различные классификаторы.

Что такое Form Score и как он влияет на ранжирование?

Form Score — это ключевая метрика ранжирования в этом патенте. Она оценивает, насколько хорошо форма функционально соответствует запросу пользователя. Учитывается, достаточно ли данных в запросе для заполнения обязательных полей формы (вход) и может ли форма предоставить ту информацию, которую ищет пользователь (выход). Чем выше Form Score, тем выше ранжируется форма.

Может ли Google проиндексировать контент, который доступен только после заполнения формы на моем сайте?

Да. Патент описывает два варианта. Первый — предоставить пользователю ссылку для автоматического заполнения формы (Query-Through Link). Второй — система может попытаться самостоятельно заполнить форму во время сканирования (используя сгенерированные константы) и проиндексировать полученные результаты в обычный веб-индекс.

Как Javascript влияет на способность Google анализировать мои формы?

Javascript может создавать проблемы, особенно если он используется для изменения строки вызова формы перед отправкой или для сложной валидации. Патент упоминает использование движка эмуляции Javascript (Javascript emulation engine) для обхода этих препятствий, но сложная или непредсказуемая реализация JS может помешать анализу и индексации.

Что важнее для ранжирования формы: контент на странице или сама форма?

Важно и то, и другое. Ранжирование использует линейную комбинацию факторов. Контент на странице, заголовки и входящие ссылки влияют на Keyword Scores и PageRank. Функциональность и семантика самой формы влияют на Form Score и Ontology Score. Для оптимального результата необходимо оптимизировать оба аспекта.

Как я могу помочь Google правильно классифицировать мою форму?

Используйте четкий и описательный текст на странице и вокруг формы, чтобы указать её назначение. Используйте ясные и стандартные названия для полей формы. Это поможет классификаторам (которые, согласно патенту, могут использовать TF/IDF) правильно определить класс Search Ontology.

Что такое Query-Through Link?

Это ссылка, которую Google может показать в результатах поиска. Когда пользователь нажимает на неё, система автоматически перенаправляет его на ваш сайт, при этом заполняя и отправляя форму с параметрами из его исходного запроса. Это позволяет пользователю сразу увидеть результаты без ручного ввода данных.

Актуален ли этот патент, учитывая развитие структурированных данных (Schema.org)?

Патент описывает фундаментальный подход к извлечению данных из форм, который отличается от использования разметки Schema.org. В то время как Schema.org полагается на то, что владелец сайта сам разметит данные, этот патент описывает, как Google может самостоятельно понять и извлечь данные из неразмеченных источников (баз данных за формами). Обе технологии направлены на понимание структурированных данных, но используют разные подходы.

Как Google автоматически распознает и извлекает структурированные данные с сайтов-классифайдов и шаблонных сайтов

Google использует систему для автоматического распознавания сайтов, организованных по шаблону (например, классифайды, сайты недвижимости, форумы). Система анализирует структуру URL и HTML-код для выявления повторяющихся паттернов и "динамических областей". На основе этого создаются шаблоны для извлечения данных (например, цена, местоположение, атрибуты), которые затем сохраняются в структурированном виде для использования в поиске.

US8682881B1
2014-03-25

Структура сайта
Краулинг

Как Google анализирует веб-формы и фильтры для эффективного сканирования «Глубокого интернета» (Deep Web)

Google использует метод для эффективного сканирования контента, скрытого за веб-формами (Deep Web). Вместо перебора всех возможных комбинаций полей ввода система определяет, какие поля являются «информативными» — то есть, изменение каких полей приводит к генерации страниц с существенно различным контентом. Это позволяет индексировать уникальный контент, избегая дубликатов и экономя ресурсы сканирования.

US8484566B2
2013-07-09

Краулинг
Индексация

Как Google использует сущности, онтологии и векторные представления для кластеризации и организации поисковой выдачи

Google использует этот механизм для структурирования поисковой выдачи по широким запросам. Система группирует результаты в кластеры на основе их связи с сущностями из Базы Знаний. Для объединения кластеров используются онтологические связи (иерархия, синонимы) и векторная близость (embedding similarity). Система параллельно тестирует несколько алгоритмов и выбирает наилучшую структуру SERP на основе метрик качества (покрытие, баланс, пересечение, силуэт).

US10496691B1
2019-12-03

SERP
Семантика и интент
Knowledge Graph

Как Google автоматизирует извлечение структурированных данных с веб-страниц для создания списков ключевых слов

Патент Google описывает инструмент для автоматического извлечения данных со структурированных веб-страниц. Пользователь выбирает два примера элемента (например, названия товаров), а инструмент анализирует структуру документа (DOM-дерево), находит шаблон и автоматически извлекает все остальные элементы, соответствующие этому шаблону. Это используется для быстрого сбора ключевых слов для рекламных кампаний.

US8341176B1
2012-12-25

Структура сайта

Как Google определяет тематику и интент запроса, анализируя контент уже ранжирующихся страниц в выдаче

Google использует метод классификации запросов, который анализирует не сам текст запроса, а контент (URL, заголовки, сниппеты) страниц, находящихся в топе выдачи по этому запросу. Сравнивая набор терминов из этих результатов с эталонными профилями разных тематик или типов контента (Новости, Видео, Картинки), система определяет интент пользователя и решает, какие вертикали поиска активировать.

US8756218B1
2014-06-17

Семантика и интент
SERP

Как Google рассчитывает авторитетность страниц на основе их близости к доверенным сайтам-источникам (Seed Sites)

Google использует метод ранжирования страниц, основанный на измерении «расстояния» в ссылочном графе от набора доверенных исходных сайтов (Seed Sites) до целевой страницы. Чем короче путь от доверенных источников до страницы, тем выше ее рейтинг авторитетности. Длина ссылки увеличивается (а ее ценность падает), если исходная страница имеет большое количество исходящих ссылок. Этот механизм позволяет эффективно рассчитывать показатели доверия (Trust) в масштабах всего веба.

US9165040B1
2015-10-20

Ссылки
EEAT и качество
Антиспам

Как Google использует контекст пользователя в реальном времени и машинное обучение для переранжирования результатов поиска

Google использует систему для прогнозирования истинного намерения пользователя на основе его текущего контекста (местоположение, время, среда, недавние действия) и исторических данных о поведении других пользователей в аналогичных ситуациях. Система переранжирует стандартные результаты поиска, чтобы выделить информацию (особенно "Search Features"), которая наиболее соответствует прогнозируемому намерению.

US10909124B2
2021-02-02

Семантика и интент
Персонализация
SERP

Как Google использует генеративный ИИ для создания чата с конкретным сайтом прямо в поисковой выдаче и предоставления глубинных ссылок

Google патентует механизм, позволяющий пользователям взаимодействовать с конкретным результатом поиска через интерфейс чата (prompt input interface) прямо на странице выдачи. Искусственный интеллект анализирует запрос пользователя и его последующий промпт, определяет намерение (поиск информации, действие или навигация) и предоставляет глубинные ссылки (deep links) на конкретные внутренние страницы этого же домена в виде conversational response.

US12353458B2
2025-07-08

Ссылки
Семантика и интент
SERP

Как Google автоматически обнаруживает и индексирует контент внутри мобильных приложений для показа в поиске (App Indexing)

Google использует систему для индексации контента нативных мобильных приложений. Для приложений, связанных с веб-сайтами, система проверяет аффилиацию и использует существующие веб-URL для доступа к контенту приложения. Для приложений с кастомными URI система эмулирует работу приложения и итеративно обнаруживает внутренние ссылки. Это позволяет контенту из приложений появляться в результатах поиска в виде глубоких ссылок.

US10073911B2
2018-09-11

Индексация
Краулинг
Ссылки

Как Google рассчитывает тематический авторитет сайта для кастомизации поиска с помощью Topic-Sensitive PageRank

Патент Google, описывающий механизм кастомизации результатов поиска, инициированного со стороннего сайта (например, Google Custom Search). Система использует «профиль сайта» для повышения результатов, соответствующих его тематике. Ключевая ценность патента — детальное описание расчета тематической авторитетности (Topic Boosts) путем анализа ссылок с эталонных сайтов (Start Sites), что является реализацией Topic-Sensitive PageRank.

US7565630B1
2009-07-21

Персонализация
SERP
Ссылки

Как Google индексирует контент внутри мобильных приложений для показа в результатах поиска (App Indexing)

Google использует механизм для индексации контента, который пользователи просматривают в нативных мобильных приложениях. Система получает данные о просмотренном контенте и deep links напрямую от приложения на устройстве. Эта информация сохраняется в индексе (персональном или публичном) и используется для генерации результатов поиска, позволяя пользователям переходить к контенту внутри приложений напрямую из поисковой выдачи.

US10120949B2
2018-11-06

Индексация
SERP
Персонализация

Как Google использует анализ со-цитирования (Co-citation) для группировки результатов поиска по темам

Google использует механизм кластеризации для организации поисковой выдачи, особенно при неоднозначных запросах. Система анализирует, какие внешние страницы одновременно ссылаются на несколько результатов поиска (со-цитирование). На основе этого вычисляется показатель сходства, который учитывает и нормализует популярность страниц, чтобы точно сгруппировать результаты по конкретным темам (например, отделить «Saturn» как планету от «Saturn» как автомобиль).

US7213198B1
2007-05-01

Ссылки
SERP

Как Google использует историю запросов, сделанных на Картах, для ранжирования локальных результатов и рекламы

Google анализирует, что пользователи ищут, когда просматривают определенную географическую область на карте (Viewport). Эта агрегированная история запросов используется для определения популярности локальных бизнесов и контента в этом конкретном районе. Результаты, которые часто запрашивались в этой области, особенно недавно, получают значительное повышение в ранжировании.

US9129029B1
2015-09-08

Local SEO
Поведенческие сигналы
Свежесть контента

Как Google определяет, когда показывать обогащенный результат для сущности, и использует консенсус веба для исправления данных

Google использует механизм для определения того, когда запрос явно относится к конкретной сущности (например, книге). Если один результат значительно доминирует над другими по релевантности, система активирует «обогащенный результат». Этот результат агрегирует данные из разных источников (структурированные данные, веб-страницы, каталоги товаров) и использует наиболее популярные варианты данных из интернета для проверки и исправления информации о сущности.

US8577897B2
2013-11-05

SERP
Семантика и интент
EEAT и качество

Как Google использует данные о выделении текста пользователями (явно или неявно) для генерации сниппетов и анализа контента

Google может собирать данные о том, какие фрагменты текста пользователи выделяют на веб-страницах, используя специальные инструменты или просто выделяя текст мышью. Эти данные агрегируются для определения наиболее важных частей документа. На основе этой "популярности" Google может динамически генерировать поисковые сниппеты, включающие наиболее часто выделяемые фрагменты.

US8595619B1
2013-11-26

Поведенческие сигналы
SERP