Как Google автоматизирует извлечение структурированных данных с веб-страниц для создания списков ключевых слов

STRUCTURE-BASED EXPANSION OF USER ELEMENT SELECTION (Расширение выбора пользовательских элементов на основе структуры)

US8341176B1
Google LLC
2012-05-25
2012-12-25

Структура сайта

Патент Google описывает инструмент для автоматического извлечения данных со структурированных веб-страниц. Пользователь выбирает два примера элемента (например, названия товаров), а инструмент анализирует структуру документа (DOM-дерево), находит шаблон и автоматически извлекает все остальные элементы, соответствующие этому шаблону. Это используется для быстрого сбора ключевых слов для рекламных кампаний.

Какую проблему решает

Патент решает проблему трудоемкого ручного извлечения больших объемов данных (например, списков названий продуктов, цен) из структурированных документов, таких как онлайн-каталоги. Основная задача, указанная в патенте, — автоматизировать процесс сбора ключевых слов для менеджеров рекламных кампаний (PPC), устраняя необходимость ручного копирования и вставки каждого элемента по отдельности.

Что запатентовано

Запатентована система и метод для автоматического расширения пользовательского выбора на основе анализа структуры документа. Система представляет собой инструмент (ключевой компонент которого назван Object Crawler), который позволяет пользователю выбрать несколько примеров элементов на веб-странице. На основе этих примеров инструмент анализирует базовую структуру данных (например, DOM-дерево HTML-документа), выявляет структурный шаблон и автоматически выбирает все остальные элементы на странице, соответствующие этому шаблону.

Как это работает

Механизм работает следующим образом:

Захват выбора: Поверх веб-страницы отображается невидимая Transparent Panel, которая перехватывает клики пользователя, не активируя гиперссылки.
Выбор примеров: Пользователь выбирает как минимум два примера элемента (например, два названия товара).
Анализ структуры: Система определяет соответствующие объекты в структурированных данных (Structured Data) и анализирует их расположение в древовидной структуре (Tree Representation).
Определение шаблона: Path Assembler находит Наименьшего Общего Предка (Lowest Common Ancestor) для выбранных объектов и сравнивает пути к ним, выявляя общие элементы и вариации (Variant). На основе этого создается обобщенный Selection Path (шаблон).
Автоматическое расширение: Система находит все остальные объекты в документе, соответствующие этому Selection Path.
Обработка: Результаты отображаются в отдельном окне (Selection Window), могут быть отредактированы (Clean-up Engine) и использованы для генерации ключевых слов (Keyword Generator).

Актуальность для SEO

Средняя. Технологии, описанные в патенте (анализ DOM-дерева, генерация путей, подобных XPath, алгоритмическое выявление шаблонов), являются стандартными и широко используются в инструментах веб-скрейпинга и автоматизации. Вероятно, Google использует подобные механизмы во внутренних инструментах или продуктах типа Google Ads и Merchant Center для облегчения создания фидов данных и списков ключевых слов.

Важность для SEO

Влияние на SEO: 1/10 (Минимальное/Инфраструктура). Патент имеет минимальное значение для органического SEO. Он не описывает алгоритмы ранжирования, индексирования или сканирования Google Search. Он описывает пользовательский инструмент для извлечения данных с целью создания рекламных кампаний (PPC). Понимание этого патента не дает конкурентных преимуществ в органическом поиске.

Термины и определения

Clean-up Engine (Механизм очистки): Компонент, который применяет пользовательские инструкции (Instructions) к извлеченным данным для их модификации (например, удаление подстрок, изменение регистра).
Item (Элемент): Визуальное представление объекта (Object) на отрендеренной странице в интерфейсе пользователя.
Keyword Generator (Генератор ключевых слов): Компонент, который обрабатывает извлеченные и очищенные данные для создания списка ключевых слов (Keywords), предназначенных для использования в рекламных кампаниях.
Lowest Common Ancestor (LCA) (Наименьший общий предок): Узел в древовидной структуре, который является общим предком для двух или более выбранных объектов и находится на самом низком уровне иерархии (наиболее близок к этим объектам). Используется как отправная точка для генерации шаблона.
Metadata (Метаданные): Элементы, обеспечивающие структуру данных. В контексте HTML это теги (например, <table>, <tr>, <td>), которые формируют узлы в DOM-дереве.
Object (Объект): Единица данных в Structured Data (например, текст, изображение, гиперссылка), которая отображается пользователю как Item.
Object Crawler (Обходчик объектов): Основной компонент системы, описанной в патенте. Это НЕ Googlebot. Это часть пользовательского инструмента, отвечающая за анализ выборов и поиск похожих объектов.
Path Assembler (Сборщик пути): Компонент, который сравнивает пути к выбранным объектам и определяет обобщенный Selection Path.
Selection Path (Путь выбора): Обобщенный шаблон (например, в формате, похожем на XPath), созданный на основе сравнения путей к выбранным пользователем объектам. Включает общие узлы и Variant.
Structured Data (Структурированные данные): Исходный код документа, имеющий иерархическую структуру (например, HTML, XML).
Transparent Panel (Прозрачная панель): Невидимый слой пользовательского интерфейса, размещаемый поверх отрендеренной страницы. Он перехватывает клики пользователя для выбора элементов, не позволяя браузеру реагировать на них (например, не переходя по гиперссылкам).
Tree Representation (Древовидное представление): Иерархическая модель структурированных данных (например, Document Object Model - DOM-дерево HTML-документа).
Variant (Вариант): Часть пути выбора, которая различается между двумя выбранными пользователем объектами (например, разные индексы в tr[1] и tr[2]).

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной процесс работы системы в графическом интерфейсе, состоящем из первого и второго окна.

Рендеринг Transparent Panel поверх первого окна, отображающего множество элементов. Панель невидима и настроена на перехват ввода для выбора элементов, предотвращая активацию гиперссылок под ней.
Получение ввода, указывающего на выбор пользователем первого элемента (соответствующего первому объекту в Structured Data).
Получение ввода, указывающего на выбор второго элемента (соответствующего второму объекту).
Автоматическое определение дополнительных объектов в Structured Data, которые структурно похожи на первый и второй объекты.
Отображение во втором окне индикации выбора первого, второго и дополнительных элементов.

Claim 8 (Зависимый от 1): Детализирует механизм автоматического определения дополнительных объектов (шаг 4 в Claim 1).

Идентификация Наименьшего Общего Предка (Lowest Common Ancestor) для первого и второго объектов в иерархической структуре.
Идентификация первого пути от LCA до первого объекта и второго пути от LCA до второго объекта.
Идентификация идентичных узлов в первом и втором путях.
Идентификация Variant (различия) в первом и втором путях.
Идентификация дополнительных объектов, связанных с LCA через другие пути, которые включают те же идентичные узлы и Variant в той же позиции, где он встречается в первом и втором путях.

Claim 10 (Независимый пункт): Описывает применение метода конкретно к онлайн-каталогу ритейлера.

Отображение в окне браузера информации о продуктах ритейлера на основе структурированных данных.
Отображение Transparent Panel поверх части окна браузера для перехвата ввода и предотвращения активации гиперссылок.
Получение ввода от пользователя, указывающего на выбор первого и второго идентификаторов продуктов.
Автоматическое определение дополнительных идентификаторов других продуктов, которые структурно похожи на первый и второй идентификаторы.

Где и как применяется

ВАЖНОЕ УТОЧНЕНИЕ: Этот патент не описывает механизмы, применяемые в архитектуре органического поиска Google (сканирование, индексирование, ранжирование).

Описанная система применяется исключительно в контексте пользовательского интерфейса, например, как браузерное расширение или функция внутри рекламных платформ Google (Google Ads, Merchant Center).

Среда выполнения: Клиентская сторона (Client-side) в браузере пользователя.

Взаимодействие с компонентами:

Система взаимодействует с отрендеренным представлением веб-страницы и её базовой структурой (Tree Representation / DOM-дерево).
Transparent Panel взаимодействует с браузером для перехвата событий мыши.
Object Crawler анализирует DOM-дерево для извлечения данных.

Входные данные:

Структурированные данные (HTML/XML) загруженной веб-страницы.
Координаты кликов пользователя по элементам страницы (Selections).
Инструкции пользователя по очистке данных (Instructions).

Выходные данные:

Список извлеченных элементов (текст, данные).
Список ключевых слов (Keywords) для рекламных кампаний.

На что влияет

Конкретные типы контента: Наиболее эффективно работает с контентом, имеющим повторяющуюся структуру: каталоги товаров (явно указано в патенте), списки, таблицы, результаты поиска на любом сайте (пример на FIG. 6).
Специфические запросы: Не применимо к поисковым запросам. Применимо к задаче извлечения данных (Data Extraction).
Конкретные ниши или тематики: Особенно полезно для E-commerce и любых сайтов с большими каталогами или базами данных, отображаемыми онлайн.

Когда применяется

Условия работы: Алгоритм активируется пользователем, когда ему необходимо извлечь массив данных со страницы (например, нажатием кнопки «Record»).
Триггеры активации: Автоматическое расширение выбора срабатывает после того, как пользователь выбрал как минимум два примера элемента, и система смогла определить между ними структурную закономерность.
Временные рамки: Патент упоминает возможность работы с несколькими страницами (Pages 146), позволяя извлекать данные из наборов, распределенных по страницам пагинации.

Пошаговый алгоритм

Процесс работы инструмента извлечения данных:

Инициализация: Веб-страница загружается в браузер. Система отображает интерфейс инструмента и накладывает Transparent Panel поверх страницы.
Активация записи: Пользователь активирует режим записи.
Получение примеров: Пользователь кликает на первый и второй примеры элементов. Transparent Panel перехватывает координаты кликов.
Маппинг на структуру: Selection Handler и Object Locator определяют, каким объектам в Structured Data (DOM-дереве) соответствуют эти клики.
Анализ путей: Data Parser определяет метаданные (теги), связанные с этими объектами, формируя пути в Tree Representation.
Определение LCA: Система находит Наименьшего Общего Предка (LCA) для выбранных объектов.
Генерация шаблона: Path Assembler сравнивает пути от LCA до объектов. Он идентифицирует общие узлы и различия (Variant). На основе этого генерируется обобщенный Selection Path. (Например, если выбраны /table/tr[1]/td[2] и /table/tr[2]/td[2], LCA это /table, а шаблон – /tr[X]/td[2]).
Поиск соответствий: Selection Logic применяет Selection Path ко всему документу (или его части, начиная с LCA) и находит все объекты, соответствующие шаблону.
Отображение результатов: Delivery Engine отображает все найденные элементы (исходные и дополнительные) в Selection Window и подсвечивает их на странице.
Очистка данных (Опционально): Пользователь вводит инструкции для Clean-up Engine (например, «удалить символ валюты»), и данные модифицируются.
Генерация ключевых слов (Опционально): Keyword Generator обрабатывает финальный список для использования в рекламе.

Какие данные и как использует

Данные на входе

Система использует исключительно данные, доступные в браузере пользователя.

Структурные факторы: Это основной тип данных. Используются HTML/XML теги (Metadata) и иерархическая структура документа (DOM-дерево или Tree Representation). Структура используется для определения путей и шаблонов.
Контентные факторы: Содержимое узлов (Objects) — это данные, которые извлекаются системой (например, текст названия продукта, цена).
Пользовательские факторы: Действия пользователя критичны для работы системы: клики для выбора примеров (Selections) и правила для очистки данных (Instructions).

Другие факторы (ссылочные, поведенческие, временные и т.д.) в этом патенте не упоминаются и не используются.

Какие метрики используются и как они считаются

Патент не использует метрики ранжирования или оценки качества. Он использует алгоритмы структурного анализа:

Сравнение путей (Path Comparison): Алгоритм сравнивает последовательности узлов (метаданных) в древовидной структуре.
Наименьший Общий Предок (Lowest Common Ancestor - LCA): Вычисляемый узел в дереве, используемый как база для сравнения.
Идентификация Варианта (Variant Identification): Определение точки расхождения в путях после LCA.
Сопоставление с шаблоном (Pattern Matching): Проверка соответствия структуры других объектов сгенерированному Selection Path.

Инструмент для PPC, а не алгоритм SEO: Патент описывает пользовательский инструмент для автоматизированного извлечения данных (Data Extraction Tool), а не алгоритм органического поиска Google. Его основное назначение — упрощение сбора ключевых слов для рекламных кампаний (PPC).
Зависимость от структуры документа: Метод полностью полагается на анализ структурированных данных (DOM-дерева/HTML) отображаемой страницы. Система ищет повторяющиеся структурные шаблоны.
Алгоритмическое обобщение выбора: Ключевым механизмом является использование алгоритма Наименьшего Общего Предка (LCA) и идентификация вариаций (Variant) для генерации обобщенного пути выбора (Selection Path) на основе всего двух примеров от пользователя.
Клиентская реализация: Описанный механизм работает на стороне клиента, в браузере пользователя, и включает элементы интерфейса (Transparent Panel) для удобного взаимодействия с контентом без его модификации или активации ссылок.
Отсутствие прямых выводов для SEO: Патент не дает практических рекомендаций по оптимизации сайтов для лучшего ранжирования в органическом поиске, так как не касается работы поисковых роботов или факторов ранжирования.

Практическое применение в SEO

ВАЖНО: Патент является инфраструктурным (описывает инструмент) и не дает прямых практических выводов для органического SEO. Однако он дает важное понимание того, как автоматизированные системы Google анализируют структуру страниц.

Best practices (это мы делаем)

Использование чистой семантической верстки: Хотя патент описывает инструмент для пользователей, он демонстрирует, как легко алгоритмически извлекать данные из хорошо структурированных документов. Это подтверждает важность использования чистого, валидного и семантически размеченного HTML. Такая структура облегчает анализ контента любыми системами, включая поисковые роботы Googlebot.
Структурирование каталогов и списков: Убедитесь, что повторяющиеся элементы (товары, статьи) имеют идентичную и предсказуемую HTML-структуру. Это улучшает как пользовательский опыт, так и возможность автоматизированного парсинга.

Worst practices (это делать не надо)

Патент не направлен против каких-либо SEO-тактик и не описывает механизмы пессимизации.

Использование непредсказуемой или "сломанной" верстки: Хотя это не приведет к пессимизации в контексте данного патента, это усложняет автоматический анализ структуры страницы, что потенциально может затруднить работу поисковых систем при попытке понять контент страницы.

Стратегическое значение

Стратегическое значение для SEO минимально. Патент подтверждает способность Google эффективно анализировать и понимать структуру документа (DOM-дерево) на алгоритмическом уровне. Однако он не дает никакой информации о сигналах ранжирования, оценке качества контента или поведении поисковых роботов в органическом поиске.

Практические примеры

Практических примеров для органического SEO нет. Патент описывает инструмент для PPC-специалистов или менеджеров по рекламе.

Сценарий: Использование инструмента PPC-специалистом для сбора ключевых слов

Задача: Менеджеру нужно быстро собрать названия всех 500 товаров из онлайн-каталога для запуска новой рекламной кампании.
Действие: Менеджер открывает страницу каталога в браузере и активирует инструмент (Object Crawler). Включается режим записи.
Выбор примеров: Менеджер кликает на название первого товара («Кроссовки Модель А») и второго товара («Кроссовки Модель Б»). Transparent Panel перехватывает клики.
Анализ: Инструмент анализирует HTML-структуру. Он определяет, что оба элемента находятся по пути типа /body/div[1]/ul/li[X]/h3/a.
Автоматическое извлечение: Инструмент автоматически находит и выбирает названия всех остальных товаров на этой странице (и, возможно, на следующих страницах), которые соответствуют этому пути.
Очистка: В Selection Window появляется список из 500 названий. Менеджер использует Clean-up Engine, чтобы удалить артикулы из названий.
Результат: Менеджер получает готовый список ключевых слов для загрузки в Google Ads.

Описывает ли этот патент, как Googlebot сканирует веб-сайты?

Нет. Патент описывает пользовательский инструмент для извлечения данных. Компонент, названный Object Crawler в этом патенте, является частью этого инструмента и не имеет отношения к основному поисковому краулеру Google (Googlebot).

Влияет ли описанный механизм на ранжирование сайта в органическом поиске?

Нет. Патент не касается алгоритмов ранжирования, факторов E-E-A-T или оценки качества контента. Он сосредоточен исключительно на методе автоматического извлечения структурированных данных для использования в рекламных кампаниях (PPC).

Какова основная цель изобретения?

Основная цель — автоматизировать трудоемкий процесс сбора ключевых слов для рекламных кампаний. Инструмент позволяет менеджерам быстро извлекать большие списки продуктов или других элементов из онлайн-каталогов без ручного копирования и вставки.

Какие технологии лежат в основе этого инструмента?

Инструмент использует анализ древовидной структуры документа (DOM-дерева), алгоритм поиска Наименьшего Общего Предка (LCA) и логику сравнения путей (похожую на XPath) для выявления структурных шаблонов и обобщения пользовательского выбора.

Что такое "Transparent Panel" и зачем она нужна?

Это невидимый слой интерфейса, который накладывается поверх веб-страницы. Он нужен для перехвата кликов пользователя, когда тот выбирает примеры элементов. Это позволяет выбрать элемент (например, ссылку), не активируя его (т.е. браузер не перейдет по ссылке).

Может ли этот инструмент работать с данными на нескольких страницах?

Да, в патенте упоминается (Pages 146), что интерфейс может отображать несколько страниц, и пользователь может делать выбор на разных страницах, а Object Crawler может обрабатывать выбор и возвращать результаты, охватывающие любое количество страниц.

Что такое "Clean-up Engine"?

Это компонент, который позволяет пользователю модифицировать уже извлеченные данные. Например, можно автоматически удалить определенные слова, символы, числа или изменить регистр текста в списке результатов перед их использованием в качестве ключевых слов.

Как система определяет, какие элементы похожи?

Система определяет похожесть исключительно на основе структуры HTML-кода. Она сравнивает пути в DOM-дереве к выбранным элементам. Если пути идентичны, за исключением определенного вариативного участка (Variant), элементы считаются структурно похожими.

Подтверждает ли этот патент важность чистого HTML-кода для SEO?

Косвенно. Хотя патент не о SEO, он демонстрирует, что алгоритмы могут легко и точно извлекать данные из хорошо структурированных документов. Логично предположить, что чистый, семантический HTML также облегчает работу и поисковым роботам при анализе контента страницы.

Где на практике может применяться этот инструмент?

Наиболее вероятно, что этот инструмент или его вариации используются внутри платформ Google Ads или Google Merchant Center, чтобы помочь ритейлерам автоматически создавать или обновлять фиды данных о продуктах и генерировать списки ключевых слов.

Как Google извлекает цены и изображения товаров с веб-страниц для Google Shopping

Этот патент описывает, как Google автоматически идентифицирует страницы электронной коммерции и извлекает структурированные данные о товарах (такие как цена и изображение) из неструктурированного HTML. Система использует анализ близости элементов, структуру HTML и сигналы форматирования для поиска правильных атрибутов, что формирует основу для поисковых систем по товарам, таких как Google Shopping.

US7836038B2
2010-11-16

Google Shopping
SERP
Индексация

Как Google автоматически распознает и извлекает структурированные данные с сайтов-классифайдов и шаблонных сайтов

Google использует систему для автоматического распознавания сайтов, организованных по шаблону (например, классифайды, сайты недвижимости, форумы). Система анализирует структуру URL и HTML-код для выявления повторяющихся паттернов и "динамических областей". На основе этого создаются шаблоны для извлечения данных (например, цена, местоположение, атрибуты), которые затем сохраняются в структурированном виде для использования в поиске.

US8682881B1
2014-03-25

Структура сайта
Краулинг

Как Google автоматически определяет ключевые характеристики (атрибуты) сущностей, анализируя неструктурированный веб-контент

Google использует этот механизм для автоматического определения схемы (набора атрибутов) для любой сущности. Анализируя, как различные веб-страницы описывают набор схожих объектов (например, список фильмов), система выявляет новые релевантные характеристики (например, «Режиссер», «Время выполнения»), извлекая их из таблиц, списков или шаблонов страниц в интернете.

US8615707B2
2013-12-24

Knowledge Graph
Семантика и интент

Как Google использует шаблоны сайтов и структурированные компоненты для извлечения и расширения наборов сущностей (Entity Set Expansion)

Патент описывает, как Google автоматически расширяет наборы данных (например, таблицы или списки). Система анализирует существующие сущности и ищет новые похожие элементы в интернете. Для этого используются два ключевых метода: анализ повторяющихся шаблонов веб-страниц (Template Analysis) и извлечение данных из структурированных компонентов (HTML-таблиц и списков) на сайтах.

US8452791B2
2013-05-28

Knowledge Graph
Семантика и интент
Структура сайта

Как Google использует внутренние ссылки и структуру DOM для генерации шаблонов сайта и извлечения структурированных сниппетов

Google анализирует повторяющиеся блоки внутренних ссылок (например, списки товаров). Если текст возле ссылки на исходной странице совпадает с текстом на целевой странице, Google определяет DOM-структуру этого текста и создает шаблон домена. Этот шаблон позволяет автоматически извлекать ключевую информацию (например, цену и характеристики) для сниппетов со всех однотипных страниц сайта, даже без микроразметки.

US9971746B2
2018-05-15

Структура сайта
SERP
Ссылки

Как Google динамически фильтрует выдачу, уточняя интент пользователя после клика по результату

Google использует механизм для обработки неоднозначных запросов. Если выдача содержит результаты, относящиеся к разным сущностям (например, «Ягуар» как животное и как автомобиль), клик пользователя по одному из результатов сигнализирует о его интересе к конкретной сущности. При возврате на страницу выдачи система модифицирует SERP, скрывая или понижая результаты, связанные с нерелевантными сущностями, и фокусируя выдачу на выбранном интенте.

US9355158B2
2016-05-31

Семантика и интент
SERP
Поведенческие сигналы

Как Google снижает ценность ссылок между аффилированными сайтами для борьбы с линк-схемами

Google использует модификацию алгоритмов расчета качества (типа PageRank), которая учитывает аффилированность между ссылающимися документами. Если система определяет, что сайты связаны (например, принадлежат одному владельцу, находятся в одной сети или имеют схожие паттерны трафика), ценность ссылок между ними агрессивно снижается. Вместо суммирования веса всех ссылок система учитывает только максимальный вклад от аффилированной группы, нейтрализуя эффект линк-ферм и PBN.

US7783639B1
2010-08-24

Ссылки
Антиспам
EEAT и качество

Как Google ранжирует сущности (книги, фильмы, людей), анализируя тематичность и авторитетность их упоминаний в вебе

Google использует механизм для оценки значимости конкретных сущностей (например, изданий книг или фильмов). Система анализирует, как эти сущности упоминаются на релевантных веб-страницах, учитывая уверенность распознавания (Confidence) и то, насколько страница посвящена именно этой сущности (Topicality). Эти сигналы агрегируются с учетом авторитетности и релевантности страниц для расчета итоговой оценки сущности, которая затем корректирует ее ранжирование в поиске.

US20150161127A1
2015-06-11

Семантика и интент
EEAT и качество
SERP

US9971746B2
2018-05-15

Структура сайта
SERP
Ссылки

Как Google использует анализ сопутствующих ссылок (co-citation) и нормализацию веса для определения связанных сайтов и конкурентов

Google анализирует структуру ссылок для поиска сайтов, связанных с выбранным документом и находящихся на том же уровне обобщения (например, конкурентов). Система определяет, на какие еще сайты ссылаются источники, цитирующие исходный документ (co-citation). Для повышения точности вес ссылок нормализуется: снижается влияние множественных ссылок с одного хоста и ссылок со страниц-каталогов (хабов).

US6754873B1
2004-06-22

Ссылки
SERP
Техническое SEO

Как Google идентифицирует и верифицирует локальные бизнесы для показа карт и адресов в органической выдаче

Google использует этот механизм для улучшения органических результатов. Система определяет, связана ли веб-страница с одним конкретным бизнесом. Затем она верифицирует ее локальную значимость, проверяя, ссылаются ли на нее другие топовые результаты по тому же запросу. Если страница верифицирована, Google дополняет стандартную «синюю ссылку» интерактивными локальными данными, такими как адреса и превью карт.

US9418156B2
2016-08-16

Local SEO
SERP
Ссылки

Как Google идентифицирует, оценивает и ранжирует «Глубокие статьи» (In-Depth Articles) и «Вечнозеленый контент»

Google использует систему для идентификации и ранжирования высококачественного лонгрид-контента (In-Depth Articles). Система определяет авторитетные сайты на основе внешних наград и ссылочных паттернов. Контент оценивается по критериям «вечнозелености» (Evergreen Score), структуры (Article Score), отсутствия коммерческого интента и авторитетности автора (Author Score). Ранжирование основано на комбинации качества (IDA Score) и релевантности запросу (Topicality Score).

US9996624B2
2018-06-12

EEAT и качество
Индексация
Семантика и интент

Как Google определяет и ранжирует вертикали поиска (Web, Images, News, Local) на основе интента запроса и профиля пользователя

Патент описывает фундаментальный механизм Универсального Поиска (Universal Search). Система генерирует результаты из разных индексов (Web, Картинки, Новости, Карты) и вычисляет «Оценку Вероятности» (Likelihood Value) для каждой категории. Эта оценка определяет, какая вертикаль наиболее релевантна интенту запроса. Для расчета используются как агрегированные данные о поведении всех пользователей по схожим запросам, так и индивидуальный профиль пользователя.

US7966309B2
2011-06-21

Семантика и интент
Персонализация
SERP

Как Google генерирует «синтетический анкорный текст», анализируя структуру и контекст ссылающихся страниц

Google анализирует структурно похожие страницы, ссылающиеся на различные ресурсы. Определяя, где известные поисковые запросы (Seed Queries) появляются в структуре этих ссылающихся страниц (например, в заголовках или Title), Google создает шаблоны. Эти шаблоны затем используются для извлечения текста из аналогичных мест на других страницах, создавая «синтетический описательный текст» (аналог анкорного текста) для целевых ресурсов. Это улучшает ранжирование, даже если фактический анкорный текст низкого качества.

US9208232B1
2015-12-08

Ссылки
Структура сайта
Семантика и интент

Как Google динамически перестраивает выдачу, если пользователь игнорирует результаты, связанные с определенной сущностью

Google использует механизм уточнения интента пользователя в реальном времени при обработке неоднозначных запросов. Система группирует результаты поиска по связанным сущностям. Если пользователь демонстрирует отсутствие интереса к одной из групп (например, прокручивает или смахивает результаты), система динамически модифицирует выдачу, понижая или удаляя все результаты, связанные с этой отклоненной сущностью.

US9348945B2
2016-05-24

Семантика и интент
SERP
Поведенческие сигналы