Как Google автоматически определяет важность различных частей веб-страницы (DOM-узлов) для ранжирования

ASSIGNING WEIGHTS TO PARTS OF A DOCUMENT (Присвоение весов частям документа)

US8538989B1
Google LLC
2008-02-08
2013-09-17

Google анализирует коллекции похожих структурированных документов (например, товарных карточек) и создает общую модель (DOM). Затем система изучает логи запросов и кликов, чтобы понять, какие части структуры (заголовки, основной контент, реклама) чаще всего содержат ключевые слова из успешных запросов. Этим частям присваивается больший вес при расчете релевантности.

Какую проблему решает

Патент решает задачу автоматического определения семантической важности различных частей (сегментов) веб-документа. Вместо использования жестко заданных правил (например, «текст в заголовке важнее основного текста»), система предлагает метод определения весов на основе анализа данных о запросах и поведении пользователей. Это позволяет поисковой системе более точно оценивать релевантность контента, расположенного в ключевых областях страницы, и снижать вес шаблонного контента (boilerplate), навигации или рекламы.

Что запатентовано

Запатентована система для автоматического присвоения весов различным частям документа на основе анализа коллекции структурированных документов. Система создает обобщенную модель структуры документа (Document Object Model, DOM) для группы похожих страниц. Затем она анализирует логи запросов (Query Logs) и кликов (Click Logs), чтобы определить, какие узлы DOM чаще всего содержат термины из запросов, которые привели к взаимодействию пользователя с документом (Impression). Узлам с высокой корреляцией присваиваются более высокие веса, которые затем используются при ранжировании.

Как это работает

Ключевой механизм работает следующим образом:

Генерация DOM: Система анализирует коллекцию похожих структурированных документов (например, все страницы товаров на сайте) и создает общий DOM, описывающий их структуру.
Анализ логов: Извлекаются данные о запросах, по которым эти документы были показаны и выбраны пользователями (Impressions).
Идентификация совпадений: Система определяет, в каких частях документов (соответствующих узлам DOM) содержались термины из этих запросов.
Расчет весов узлов (Node Weights): Узлам DOM присваиваются веса. Вес увеличивается, если узел часто содержит поисковые термины из запросов, которые привели к клику на документ.
Применение весов: При индексации и ранжировании конкретного документа контент, найденный в частях с более высоким весом, получает больший вклад в общую оценку релевантности документа (Scoring Function).

Актуальность для SEO

Высокая. Понимание структуры документа и выделение основного контента (Main Content) на фоне шаблонных элементов является критически важной задачей для современных поисковых систем. Методы, описанные в патенте, лежат в основе систем, позволяющих Google игнорировать шум (рекламу, навигацию) и фокусироваться на семантическом центре страницы, что напрямую влияет на оценку качества и релевантности.

Важность для SEO

Патент имеет высокое значение для технического и контентного SEO. Он демонстрирует механизм, с помощью которого Google может автоматически снижать значимость контента в зависимости от его расположения на странице. Это подчеркивает важность чистой семантической верстки и размещения ключевой информации в тех структурных элементах, которые с наибольшей вероятностью будут идентифицированы как семантически важные для данного типа документа.

Термины и определения

Click Log (Лог кликов): Часть User Activity Log. Хранит данные о том, какой контент был выбран (кликнут) пользователем в ответ на запросы.
Document Object Model (DOM) (Объектная модель документа): Иерархическое представление структуры электронного документа (например, HTML или XML). В контексте патента, это обобщенная модель, созданная для коллекции похожих документов.
Impression (Показ/Взаимодействие): В контексте патента, это событие, представляющее собой предшествующий выбор пользователем (prior user selection) идентифицированного документа (например, клик по ссылке в результатах поиска).
Node Weight (Вес узла): Вес, присвоенный узлу в обобщенном DOM. Отражает семантическую важность этого структурного элемента, основанную на анализе запросов и кликов в коллекции документов.
Portion Weight (Вес части документа): Вес, присвоенный конкретной части (Portion) конкретного документа. Этот вес наследуется (derived from) от Node Weight соответствующего узла в DOM.
Query Log (Лог запросов): Часть User Activity Log. Хранит историю запросов, отправленных пользователями.
Scoring Function (Функция оценки/ранжирования): Функция, используемая для расчета итоговой оценки релевантности документа. Она учитывает Portion Weights контента, найденного в документе.
Structured Documents (Структурированные документы): Документы, имеющие определенную иерархию элементов и структурные правила (например, HTML, XML). Патент фокусируется на коллекциях документов с похожей структурой (шаблоном).
User Activity Log (Лог активности пользователя): Хранилище данных о действиях пользователей, включая Query Logs и Click Logs.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод присвоения весов частям документа.

Система генерирует DOM, который представляет общий формат документов в коллекции.
Получаются данные, связанные с запросами, для которых эти документы были релевантны.
Выбираются части документов, содержащие поисковые термины из этих запросов.
Узлам DOM присваиваются веса (Node Weights) на основе подсчета (count) поисковых терминов, содержащихся в соответствующих частях документов.
Определяются веса (Portion Weights) для частей конкретного (первого) документа. Эти веса наследуются от весов соответствующих узлов DOM.
Эти веса предоставляются процессу ранжирования для оценки документа.

Ядро изобретения по Claim 1 — это автоматическое определение важности структурных элементов на основе того, насколько часто они содержат релевантные поисковые термины.

Claim 2 (Зависимый от 1): Уточняет, что данные о запросах включают информацию об Impressions (предшествующих выборах пользователя).

Claim 3 (Зависимый от 2): Детализирует процесс присвоения весов.

Вес, связанный с узлом DOM, увеличивается, если этот узел представляет части документа, которые включают поисковые термины.

Claim 4 (Зависимый от 3): Вводит ключевое условие для увеличения веса.

Вес узла дополнительно увеличивается, если этот узел представляет части документа, связанные с Impression (т.е. пользователь кликнул на документ, когда искал эти термины).

Claims 2-4 критически важны, так как они связывают вес структурного элемента не просто с наличием ключевых слов, а с успешным взаимодействием пользователя. Это позволяет системе учиться на поведении пользователей для определения семантической важности.

Claim 5 (Зависимый от 4): Указывает на источник данных.

Система анализирует User Activity Log для определения количества Impressions, связанных с каждой частью документов.

Где и как применяется

Изобретение применяется на этапах индексирования и ранжирования, используя данные о поведении пользователей.

CRAWLING – Сканирование и Сбор данных
На этом этапе собираются структурированные документы и логи активности пользователей (запросы и клики), которые служат входными данными для системы.

INDEXING – Индексирование и извлечение признаков
Основное применение патента происходит здесь (вероятно, в виде офлайн или пакетного процесса):

Анализ структуры и генерация DOM: Система идентифицирует коллекции документов с похожей структурой и генерирует обобщенные DOM.
Анализ логов и расчет весов: Система обрабатывает User Activity Logs, сопоставляет запросы и клики (Impressions) с узлами DOM и вычисляет Node Weights.
Присвоение весов и индексация: При обработке конкретного документа ему присваиваются Portion Weights, наследуемые от DOM. Эти веса сохраняются в индексе и используются для взвешивания контента внутри документа.

RANKING – Ранжирование
На этом этапе система использует предварительно рассчитанные веса. Scoring Function при расчете релевантности документа запросу учитывает не только наличие терминов, но и Portion Weights тех частей документа, где эти термины были найдены.

Входные данные:

Коллекция структурированных документов (например, HTML-страницы с одного сайта или использующие один шаблон).
User Activity Log (Query Logs и Click Logs), относящийся к этим документам.

Выходные данные:

Обобщенный DOM с рассчитанными Node Weights.
Portion Weights для индексируемых документов.
Вклад в Scoring Function для ранжирования.

На что влияет

Конкретные типы контента: Наибольшее влияние оказывается на сайты с большим количеством однотипных страниц, сгенерированных по шаблону: карточки товаров (E-commerce), статьи в блогах, профили пользователей, страницы объектов недвижимости, новостные статьи.
Структурные факторы: Влияет на значимость контента в зависимости от его расположения в структуре документа (DOM) – заголовки, основной текст, боковые панели (sidebars), футеры, навигационные меню, рекламные блоки.

Когда применяется

Условия применения: Алгоритм применяется, когда поисковая система может идентифицировать коллекцию документов, имеющих общую или очень похожую структуру (т.е. когда можно построить обобщенный DOM).
Частота применения: Генерация DOM и расчет Node Weights, вероятно, выполняются периодически в пакетном режиме (офлайн), так как требуют анализа больших объемов логов. Применение рассчитанных весов (Portion Weights) происходит постоянно во время индексации и ранжирования.

Пошаговый алгоритм

Этап А: Генерация модели и расчет весов (Офлайн/Пакетная обработка)

Генерация обобщенного DOM: Система анализирует коллекцию структурированных документов и создает DOM, определяющий структуру узлов, соответствующую формату этих документов.
Сбор данных о запросах и взаимодействиях: Из User Activity Log извлекаются данные о запросах, по которым документы из коллекции были релевантны, а также данные об Impressions (кликах).
Идентификация совпадений: Для каждого запроса определяются части документов (и соответствующие им узлы DOM), которые содержат поисковые термины.
Расчет весов узлов (Node Weights): Система присваивает веса узлам DOM. Расчет основан на:
- Количестве поисковых терминов, найденных в частях документа, соответствующих узлу.
- (Критически важно) Увеличении веса, если наличие этих терминов в узле коррелирует с Impression (кликом пользователя).

Этап Б: Применение весов (Индексация/Ранжирование)

Определение весов частей документа (Portion Weights): Для конкретного документа из коллекции определяются веса его частей. Каждый Portion Weight наследуется от Node Weight соответствующего узла в обобщенном DOM.
Взвешивание контента: Контент, найденный в частях документа, взвешивается в соответствии с присвоенными Portion Weights.
Расчет функции ранжирования: Эти взвешенные значения используются при расчете итоговой Scoring Function для документа. Контент в более важных (с большим весом) частях вносит больший вклад в итоговый рейтинг.

Какие данные и как использует

Данные на входе

Структурные факторы: Структура документов (HTML/XML), позволяющая построить DOM. Идентифицируются узлы, такие как заголовки (Title, Headings), параграфы (Paragraph), таблицы (Table), изображения (Image), навигация (Navigation Menu), реклама (Advertisements), футер (Footer).
Поведенческие факторы: User Activity Log, включающий Query Logs (поисковые запросы) и Click Logs (данные об Impressions или выборе пользователем документа).
Контентные факторы: Текстовое содержимое узлов DOM, которое сопоставляется с терминами из запросов.

Какие метрики используются и как они считаются

Count of Search Terms (Подсчет поисковых терминов): Количество терминов из релевантных запросов, которые появляются в определенном узле DOM в коллекции документов.
Count of Impressions (Подсчет взаимодействий): Количество кликов (выборов пользователя), связанных с запросами, чьи термины появились в определенном узле DOM.
Node Weight (Вес узла): Метрика семантической важности узла DOM. Рассчитывается на основе Count of Search Terms и значительно увеличивается при наличии корреляции с Count of Impressions.
Portion Weight (Вес части документа): Метрика, наследуемая от Node Weight и применяемая к конкретному документу.

Автоматическое определение важности структуры: Google использует анализ данных о запросах и кликах для автоматического определения того, какие части страницы являются семантически важными для данного шаблона. Это более продвинутый подход, чем жестко заданные правила.
Важность зависит от контекста шаблона: Важность одного и того же элемента (например, H1 или Sidebar) может различаться для разных сайтов или разных типов страниц (например, блог vs. e-commerce), в зависимости от того, как пользователи взаимодействуют с ними и какой контент там размещен.
Автоматическое снижение веса шаблонного контента: Элементы, которые редко содержат термины из успешных запросов (например, навигация, футеры, рекламные блоки, boilerplate текст), автоматически получат низкий Node Weight. Контент в этих блоках будет иметь меньшее влияние на ранжирование.
Поведенческие данные определяют семантику: Ключевым аспектом является использование Impressions (кликов). Недостаточно просто разместить ключевое слово в элементе; важно, чтобы пользователи, ищущие это слово, кликали на документ именно тогда, когда слово находится в этом элементе.
Фокус на коллекциях структурированных документов: Механизм требует наличия группы похожих страниц для генерации обобщенного DOM и сбора достаточной статистики.

Best practices (это мы делаем)

Использование семантической верстки: Применяйте чистый, структурированный HTML5 (<header>, <footer>, <nav>, <article>, <aside>, <main>). Это помогает поисковой системе корректно построить DOM и отделить основное содержание от вспомогательных блоков.
Размещение ключевого контента в центральных областях: Убедитесь, что основная тема страницы и ключевые слова расположены в основном контенте (Main Content Area), который с наибольшей вероятностью получит высокий Node Weight.
Поддержание консистентной структуры сайта: Используйте согласованные шаблоны для однотипных страниц (например, всех карточек товаров). Это облегчает генерацию обобщенного DOM и позволяет системе эффективно накапливать статистику для расчета весов.
Оптимизация сниппетов для повышения CTR: Поскольку клики (Impressions) используются для определения весов, важно работать над привлекательностью сниппетов. Высокий CTR по релевантным запросам может косвенно подтвердить системе, что контент в ключевых узлах (например, Title, Description) является важным.

Worst practices (это делать не надо)

Keyword Stuffing в сквозных блоках: Размещение оптимизированных текстов или списков ключевых слов в футере, боковых панелях или других шаблонных элементах. Описанный механизм автоматически присвоит этим блокам низкий вес, делая такую тактику неэффективной.
Размещение критически важной информации в нетипичных местах: Например, размещение основного описания товара в блоке, который структурно похож на рекламу или блок «Похожие товары». Система может присвоить этому блоку низкий вес.
Использование запутанной или неконсистентной верстки: Сложные, вложенные структуры или частая смена шаблонов могут помешать системе сгенерировать корректный обобщенный DOM и точно рассчитать веса узлов.

Стратегическое значение

Патент подтверждает стратегию Google по глубокому пониманию структуры и контекста контента на странице. Он показывает, как поведенческие сигналы используются не только для прямого ранжирования, но и для обучения системы пониманию семантической структуры веб-документов. Для SEO это означает, что информационная архитектура, чистота кода и пользовательский опыт (UX) являются взаимосвязанными факторами, определяющими, как именно контент будет взвешен при ранжировании.

Практические примеры

Сценарий: Оптимизация карточки товара E-commerce

Анализ структуры: Сайт использует единый шаблон для всех товаров. Google генерирует обобщенный DOM с узлами: «Название товара», «Цена», «Описание», «Отзывы», «Похожие товары» (Sidebar), «Футер».
Сбор данных: Пользователи часто ищут конкретные характеристики (например, «размер XL синяя футболка Nike») и кликают на карточку товара.
Расчет весов:
- Термины запроса чаще всего находятся в «Название товара» и «Описание». Эти узлы получают высокий Node Weight.
- Термины редко находятся в «Футер» или «Похожие товары». Эти узлы получают низкий Node Weight.
Применение в SEO:
- Правильно: Включить ключевые характеристики в «Описание». Этот контент получит высокий вес при ранжировании.
- Неправильно: Добавить блок текста о доставке, оптимизированный под эти характеристики, в «Футер». Этот контент получит низкий вес, даже если он содержит ключевые слова.

Применяется ли этот механизм к каждой отдельной странице в интернете?

Нет. Механизм предназначен для работы с коллекциями структурированных документов, которые имеют общий формат или шаблон. Чтобы система могла рассчитать веса, ей необходимо сгенерировать обобщенный DOM и собрать достаточный объем статистики по запросам и кликам для этой группы страниц. Уникальные страницы с нетипичной структурой, скорее всего, обрабатываются другими алгоритмами.

Как система определяет, какие документы относятся к одной коллекции?

Патент упоминает, что система использует сходство между структурированными документами для генерации общего DOM. На практике это может включать анализ URL-структуры, а также методы распознавания шаблонов (pattern recognition techniques) для сравнения структуры HTML-кода различных страниц. Документы с высоким уровнем структурного сходства объединяются в коллекцию.

Что такое Impression в этом патенте и как он отличается от обычного понимания «показа»?

В патенте термин Impression используется специфически и определяется как «предшествующий выбор пользователем» (prior user selection) документа. Это больше соответствует понятию «клик» (Click) или успешное взаимодействие, а не просто показу документа в результатах поиска. Именно клики используются для увеличения веса узлов DOM.

Как этот патент влияет на значимость контента в футере или сайдбаре?

Он предоставляет механизм для автоматического снижения веса этого контента. Если система определяет, что футер или сайдбар редко содержат термины из запросов, по которым пользователи кликают на документы, этим узлам DOM будет присвоен низкий вес. В результате, контент в этих блоках будет оказывать минимальное влияние на ранжирование страницы по этим запросам.

Означает ли это, что традиционные веса (например, Title важнее Body) больше не используются?

Не обязательно. Система может использовать этот механизм для уточнения или переопределения стандартных весов. Например, если анализ данных показывает, что для определенного типа сайтов (например, форумов) основной текст сообщения (Body) чаще содержит ключевые термины из успешных запросов, чем заголовок (Title), система может присвоить Body больший вес, чем Title, именно для этого шаблона.

Как можно использовать этот патент для улучшения SEO?

Ключевая стратегия — обеспечить четкую семантическую структуру и консистентность шаблонов. Используйте HTML5 теги (<main>, <article>, <nav>) для разграничения основного контента и вспомогательных элементов. Размещайте наиболее важную информацию в тех частях страницы, которые логически являются центральными для пользователя, так как именно они, вероятно, получат наибольший вес.

Влияет ли этот патент на обработку JavaScript и динамического контента?

Патент описывает работу с DOM, который является результатом рендеринга страницы, включая исполнение JavaScript. Если динамический контент формирует стабильную и консистентную структуру DOM в коллекции документов, механизм будет применим. Однако, если JavaScript создает непредсказуемую или сильно различающуюся структуру, это затруднит генерацию обобщенного DOM.

Может ли система ошибочно принять основной контент за рекламу или наоборот?

Да, это возможно, особенно если структура документа запутанная или если реклама маскируется под основной контент. Однако, поскольку веса рассчитываются на основе анализа запросов и кликов, система стремится к самокоррекции. Если пользователи кликают на документ, ища термины, которые находятся в блоке, похожем на рекламу, вес этого блока может быть увеличен.

Как часто пересчитываются веса узлов DOM?

Патент не указывает точную частоту, но предполагает, что это процесс, требующий обработки логов активности пользователей. Вероятно, это происходит периодически в пакетном режиме (офлайн), по мере накопления новых данных о запросах и кликах. Это позволяет системе адаптироваться к изменениям в дизайне сайта или поведении пользователей.

Что произойдет, если я изменю дизайн и структуру своего сайта?

При значительном изменении структуры система должна будет идентифицировать новый шаблон, сгенерировать новый обобщенный DOM и начать процесс сбора статистики и расчета весов заново для новой структуры. В переходный период оценка важности различных частей страницы может быть неоптимальной, пока не накопится достаточно данных по новому шаблону.

Как Google определяет наиболее релевантную часть документа, игнорируя ключевые слова из Title и URL

Google использует механизм для определения самой важной части страницы по запросу пользователя. Система классифицирует слова запроса на «навигационные» (если они есть в Title или URL) и «информационные». При анализе контента внутри страницы вес «навигационных» слов снижается или обнуляется, позволяя точнее выделить конкретный фрагмент текста, содержащий ответ.

US8005825B1
2011-08-23

Семантика и интент

Как Google определяет основной контент страницы, анализируя визуальную структуру и характеристики разделов

Google использует систему для идентификации основного контента веб-страницы путем её разделения на логические разделы на основе визуального макета. Система оценивает характеристики каждого раздела (соотношение ссылок к тексту, количество слов, изображения, расположение) относительно характеристик всей страницы, чтобы выделить наиболее значимый контент и отделить его от навигации и шаблонов.

US20140372873A1
2014-12-18

Структура сайта
Техническое SEO
Ссылки

Как Google идентифицирует и игнорирует навигацию, футеры и рекламу на странице для понимания основного контента

Google использует технологию анализа структуры документа (DOM-дерева) для отделения основного содержания страницы от шаблонных элементов (boilerplate) — таких как навигационные меню, футеры, списки ссылок и рекламные блоки. Система анализирует геометрические, структурные и иерархические признаки элементов (например, размер, форму, количество дочерних ссылок, расположение), чтобы классифицировать контент как шаблонный и исключить его при анализе тематики страницы.

US8898296B2
2014-11-25

Структура сайта
Семантика и интент
Техническое SEO

Как Google определяет основной контент страницы, анализируя визуальную геометрию и расположение элементов после рендеринга

Google анализирует визуальную структуру отрендеренной страницы для идентификации основного контента («Колонки интереса»). Система определяет расположение колонок, исключает выбросы (невидимый или удаленный контент) и вычисляет центральную область. Контент, найденный в этой области, получает повышенный вес при ранжировании, в то время как контент в боковых панелях, футерах и рекламе деприоритизируется.

US9753901B1
2017-09-05

Индексация
Техническое SEO
Структура сайта

Как Google сегментирует веб-страницы на семантические блоки (хедер, футер, контент) с помощью анализа геометрии рендеринга

Google использует механизм "псевдо-рендеринга" для анализа геометрической структуры веб-страницы и её разделения на семантически различные области (чанки), такие как основное содержимое, навигация, футер и реклама. Это позволяет системе определять важность контента и ссылок в зависимости от их расположения на странице.

US7913163B1
2011-03-22

Семантика и интент
Структура сайта
Техническое SEO

Как Google использует социальные связи и анализ контекста рекомендаций (Endorsements) для персонализации поисковой выдачи

Google анализирует контент (например, посты в микроблогах и социальных сетях), созданный контактами пользователя. Система определяет, является ли ссылка в этом контенте "подтверждением" (Endorsement) на основе окружающих ключевых слов. Если да, то при поиске пользователя эти результаты могут быть аннотированы, указывая, кто из контактов и через какой сервис подтвердил результат, и потенциально повышены в ранжировании.

US9092529B1
2015-07-28

Поведенческие сигналы
Персонализация
EEAT и качество

Как Google интерпретирует последовательные запросы для автоматического уточнения поискового намерения пользователя

Google использует механизм для понимания контекста сессии, анализируя последовательные запросы (например, Q1: [рестораны в Москве], затем Q2: [итальянские]). Система автоматически объединяет их в уточненный запрос (Q3: [итальянские рестораны в Москве]), основываясь на исторических данных о том, как пользователи обычно уточняют запросы. Это позволяет системе лучше понимать намерение пользователя в диалоговом режиме.

US9116952B1
2015-08-25

Семантика и интент
Поведенческие сигналы

Как Google определяет авторитетные сайты для конкретных тем, анализируя «гибридные запросы» пользователей

Google анализирует «гибридные запросы» (например, «back pain WebMD»), чтобы понять, какие сайты пользователи считают лучшими источниками информации по конкретным темам. Система создает карты соответствия между темами и авторитетными ресурсами. Эти данные используются для повышения релевантности авторитетных сайтов в выдаче по информационным запросам и для улучшения поисковых подсказок.

US9244972B1
2016-01-26

EEAT и качество
Семантика и интент
SERP

Как Google использует анализ со-цитирования (Co-citation) для группировки результатов поиска по темам

Google использует механизм кластеризации для организации поисковой выдачи, особенно при неоднозначных запросах. Система анализирует, какие внешние страницы одновременно ссылаются на несколько результатов поиска (со-цитирование). На основе этого вычисляется показатель сходства, который учитывает и нормализует популярность страниц, чтобы точно сгруппировать результаты по конкретным темам (например, отделить «Saturn» как планету от «Saturn» как автомобиль).

US7213198B1
2007-05-01

Ссылки
SERP

Как Google использует данные о поведении пользователей внутри документов (время чтения разделов, закладки) для улучшения ранжирования

Google может собирать и анализировать данные о том, как пользователи взаимодействуют с электронными документами (например, PDF, DOC, HTML). Система отслеживает, какие разделы или страницы просматриваются дольше всего или добавляются в закладки. Эта агрегированная информация используется для повышения в ранжировании документов, чьи ключевые слова находятся в наиболее используемых (и, следовательно, ценных) разделах.

US8005811B2
2011-08-23

Поведенческие сигналы
SERP

Как Google рассчитывает тематическую репутацию для выявления и наделения полномочиями экспертов-кураторов

Google описывает систему для тематических сообществ, где пользователи зарабатывают репутацию (Topical Reputation Score) на основе качества контента, которым они делятся в рамках конкретных тем. Достигнув порогового значения, пользователь «разблокирует» тему, получая права куратора и возможность управлять контентом других. Система использует механизм «Impact Scores» для оценки влияния действий кураторов на репутацию участников.

US9436709B1
2016-09-06

EEAT и качество
Поведенческие сигналы

Как Google находит, фильтрует и подмешивает посты из блогов, релевантные конкретным результатам поиска

Патент описывает систему Google для дополнения стандартных результатов веб-поиска ссылками на релевантные посты в блогах. Система использует многоступенчатую фильтрацию для отсеивания низкокачественных блогов и спама (splogs). Фильтры анализируют количество исходящих ссылок (out-degree), качество входящих ссылок (Link-based score), возраст поста, его длину и расположение ссылок, чтобы гарантировать качество подмешиваемого контента.

US8117195B1
2012-02-14

EEAT и качество
Антиспам
Ссылки

Как Google использует анализ параллельных анкорных текстов и кликов пользователей для перевода запросов и кросс-язычного поиска

Google использует механизм для автоматического перевода запросов с одного языка или набора символов на другой. Система создает вероятностный словарь, анализируя, как анкорные тексты на разных языках ссылаются на одни и те же страницы (параллельные анкоры). Вероятности перевода затем уточняются на основе того, на какие результаты кликают пользователи. Это позволяет осуществлять кросс-язычный поиск (CLIR).

US8706747B2
2014-04-22

Мультиязычность
Семантика и интент
Ссылки

Как Google использует данные о наведении курсора (Hover Data) для ранжирования изображений и борьбы с кликбейтными миниатюрами

Google использует данные о взаимодействии пользователя с миниатюрами в поиске по картинкам (наведение курсора) как сигнал интереса. Для редких запросов эти сигналы получают больший вес, дополняя недостаток данных о кликах. Система также вычисляет соотношение кликов к наведениям (Click-to-Hover Ratio), чтобы идентифицировать и понижать в выдаче «магниты кликов» — привлекательные, но нерелевантные изображения, которые собирают много наведений, но мало кликов.

US8819004B1
2014-08-26

Поведенческие сигналы
Мультимедиа
SERP

Как Google использует структурированные данные (Schema) для отслеживания вовлеченности пользователей на уровне сущностей, а не только URL

Google может отслеживать поведение пользователей (например, время пребывания на странице и клики) и связывать его с конкретными сущностями (продуктами, людьми, темами), идентифицированными через структурированные данные, а не только с URL-адресом. Это позволяет агрегировать метрики вовлеченности для определенной темы на разных страницах и сравнивать эффективность сайтов.

US20140280133A1
2014-09-18

Семантика и интент
Поведенческие сигналы
Knowledge Graph