Как Google использует структуру URL для прогнозирования качества, популярности и поведения пользователей для новых страниц

PREDICTING DATA FOR DOCUMENT ATTRIBUTES BASED ON AGGREGATED DATA FOR REPEATED URL PATTERNS (Прогнозирование данных для атрибутов документа на основе агрегированных данных для повторяющихся шаблонов URL)

US8645367B1
Google LLC
2010-03-08
2014-02-04

Google анализирует исторические данные о поведении пользователей (например, долгие клики) и атрибуты документов, агрегируя их по схожим шаблонам URL. Если страница новая и не имеет собственных данных, система прогнозирует ее ценность, основываясь на показателях других страниц с аналогичной структурой URL. Это влияет на приоритеты сканирования, индексирования и начальное ранжирование.

Какую проблему решает

Патент решает проблему «холодного старта» (cold start problem) для новых или редко посещаемых документов. Когда поисковая система обнаруживает новый URL, у нее отсутствуют исторические данные (например, поведение пользователей, частота обновлений, сигналы качества), необходимые для оценки его важности. Это затрудняет эффективное планирование сканирования (Crawl Scheduling), принятие решений об индексировании (Index Selection) и начальное ранжирование.

Что запатентовано

Запатентована система для прогнозирования атрибутов документа на основе анализа структуры его URL. Система идентифицирует повторяющиеся структурные шаблоны (Repeated String Patterns) в большом массиве известных URL и агрегирует исторические данные (например, показатели вовлеченности, такие как «долгие клики») для групп URL, соответствующих этим шаблонам (URL Classes). Для нового URL система прогнозирует его атрибуты, используя агрегированные данные схожих по структуре URL.

Как это работает

Механизм работает в два этапа: офлайн-обработка и онлайн-прогнозирование.

Офлайн (Построение модели): Система анализирует известные URL и связанные с ними данные. Применяется Процедура извлечения шаблонов (Pattern Extraction Procedure), которая разбирает URL на иерархию структурных элементов (путем усечения пути, замены параметров wildcards и т.д.). Идентифицируются повторяющиеся шаблоны, которые определяют Классы URL (URL Classes). Для каждого класса рассчитываются агрегированные данные (Aggregated Data).
Онлайн (Прогнозирование): Когда появляется новый URL (Lookup-URL), система извлекает из него шаблоны тем же методом. Она находит соответствующие Классы URL в базе данных и использует их агрегированные данные для прогноза. Если URL соответствует нескольким классам, больший вес (more deference) придается данным из более специфичного (детализированного) шаблона.

Актуальность для SEO

Высокая. Эффективное управление краулинговым бюджетом и способность быстро оценивать качество и потенциал нового контента критически важны для Google. Использование структурных сигналов, таких как шаблоны URL, для масштабирования оценок качества и прогнозирования поведения пользователей остается фундаментальным подходом в современных поисковых системах.

Важность для SEO

Патент имеет высокое значение для технического SEO и информационной архитектуры (8/10). Он демонстрирует, что структура URL является не просто идентификатором, а сигналом, используемым для прогнозирования качества и релевантности. Архитектура сайта и логика формирования URL напрямую влияют на то, как быстро и насколько положительно Google оценит новые страницы, определяя приоритет сканирования, скорость индексации и потенциально начальные позиции в ранжировании.

Термины и определения

Aggregated Data (Агрегированные данные): Статистические данные (например, среднее значение, дисперсия), рассчитанные для URL Class на основе индивидуальных данных всех URL, входящих в этот класс. Служат основой для прогнозирования.
Document Attribute (Атрибут документа): Характеристика документа, которую система стремится предсказать. Примеры включают поведение пользователей, ожидаемый срок жизни документа (life expectancy), меру качества, коммерциализацию или тематическую категорию.
Long Clicks / Dwell Time (Долгие клики / Время пребывания): В контексте Claim 1, это данные о поведении пользователя, основанные на подсчете случаев, когда документ просматривался дольше порогового периода времени после перехода из результатов поиска. Указывает на удовлетворенность пользователя.
Lookup-URL (Целевой URL): URL документа, для которого необходимо спрогнозировать данные, обычно новый или имеющий недостаточно собственной статистики.
Pattern Extraction Procedure (Процедура извлечения шаблонов): Алгоритм обработки строки URL для генерации иерархии структурных шаблонов. Включает методы усечения пути (truncating the file path), замены аргументов/параметров на подстановочные знаки (wildcard) и обработки имен хоста/домена.
Repeated String Pattern (Повторяющийся строковый шаблон): Шаблон URL, который встречается в двух или более известных URL. Определяет URL Class.
URL Class (Класс URL): Группа URL, объединенных наличием общего Repeated String Pattern.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод прогнозирования атрибутов документа на основе URL.

Система получает множество URL, каждый из которых связан с данными. Критически важно, что эти данные получены из подсчета просмотров документа дольше порогового времени (Long Clicks).
Из этих URL генерируются группы строк (шаблоны) с помощью Pattern Extraction Procedure.
Идентифицируются повторяющиеся шаблоны (встречающиеся в 2+ URL).
Для каждого повторяющегося шаблона данные связанных с ним URL комбинируются (агрегируются).
Из нового (целевого) URL генерируются шаблоны тем же методом.
Данные для нового URL рассчитываются (прогнозируются) на основе агрегированных данных тех повторяющихся шаблонов, которые ему соответствуют.

Claim 3 (Зависимый от 1): Уточняет метод Pattern Extraction Procedure, фокусируясь на параметрах (аргументах) URL.

Процедура включает идентификацию аргументов в URL. Генерируются шаблоны путем индивидуальной замены каждого аргумента на wildcard, а также путем замены всех аргументов на wildcard. Это создает шаблоны разной степени специфичности.

Claim 4 (Зависимый от 1): Уточняет метод Pattern Extraction Procedure, фокусируясь на структуре пути.

Процедура включает идентификацию файлового пути (сайт, каталоги, файл) и генерацию шаблонов путем последовательного усечения этого пути сегмент за сегментом (например, от файла к каталогу).

Claim 5 (Зависимый от 1): Уточняет метод Pattern Extraction Procedure, фокусируясь на имени сайта.

Процедура включает идентификацию имени хоста и домена. Генерируются два набора шаблонов: первый включает и хост, и домен (например, user1.blog.com); второй включает домен, но не хост (например, *.blog.com).

Claim 6 (Зависимый от 1): Описывает механизм интеграции прогнозов от разных шаблонов.

Если целевой URL соответствует нескольким шаблонам разной специфичности, система получает прогнозы от всех. При интеграции этих данных для финального прогноза большее предпочтение (more deference) отдается данным из более специфичного шаблона.

Где и как применяется

Изобретение применяется на нескольких ключевых этапах жизненного цикла документа в поиске для оптимизации ресурсов и улучшения качества.

CRAWLING – Сканирование и Сбор данных

Приоритезация сканирования (Crawl Scheduling): Когда краулер обнаруживает новый URL, он использует этот механизм для прогнозирования его важности (например, ожидаемого количества кликов или качества). URL с высокой прогнозируемой важностью получают приоритет в очереди сканирования (Crawl Frontier).
Управление бюджетом (Crawl Budget Management): Система может решить не скачивать URL или снизить частоту его посещения, если прогнозируется низкая ценность или редкие обновления на основе шаблона URL.

INDEXING – Индексирование и извлечение признаков

Выбор для индекса (Index Selection): Система может решить, стоит ли индексировать документ или когда его следует удалить из индекса, основываясь на прогнозируемых атрибутах, таких как ожидаемый срок жизни (life expectancy).
Приоритезация обработки: Документы с прогнозируемо высокой важностью могут обрабатываться системой индексирования в первую очередь.

RANKING – Ранжирование

Начальное ранжирование (Cold Start Problem): Для документов, у которых еще нет собственных исторических данных о поведении пользователей, прогнозируемые данные (например, ожидаемый CTR или вероятность долгих кликов) могут использоваться как временный сигнал ранжирования.

Входные данные (Офлайн):

Множество известных URL.
Исторические данные для этих URL (Long Clicks, Click-Count, данные о сроке жизни, качестве и т.д.).

Входные данные (Онлайн/Прогноз):

Lookup-URL.
База данных URL Classes и их Aggregated Data.

Выходные данные:

Прогнозируемое значение атрибута для Lookup-URL.

На что влияет

Типы контента и Структура сайтов: Наибольшее влияние оказывается на сайты с четкой и логичной структурой URL, где шаблоны коррелируют с качеством или типом контента (E-commerce, новостные порталы, крупные контент-проекты, блоги). Сайты с хаотичными или непрозрачными URL получают меньше преимуществ от этой системы.
Жизненный цикл контента: Влияет на скорость обнаружения и индексации нового контента, а также на частоту повторного сканирования.

Когда применяется

Условие применения: Алгоритм применяется, когда необходимо оценить документ, но прямые исторические данные для этого конкретного URL отсутствуют, недостаточны или недостоверны.
Триггер активации: Обнаружение нового URL краулером, обработка документа индексатором или оценка документа на этапе ранжирования при дефиците данных.

Пошаговый алгоритм

Алгоритм состоит из двух основных процессов: построение базы данных шаблонов и использование ее для прогнозирования.

Процесс А: Построение базы данных классов URL (Офлайн)

Сбор данных: Получение множества URL и связанных с ними данных об атрибутах (например, количество долгих кликов).
Извлечение шаблонов: Для каждого URL применяется Pattern Extraction Procedure:
- Идентификация и замена аргументов на wildcards (индивидуально и всех сразу).
- Последовательное усечение файлового пути сегмент за сегментом.
- Обработка имени хоста и домена (генерация шаблонов с хостом и без него).
Идентификация повторяющихся шаблонов: Сбор всех сгенерированных шаблонов и выбор тех, которые встречаются у нескольких URL (Repeated String Patterns).
Определение Классов URL: Каждый повторяющийся шаблон определяет URL Class. Группировка URL по соответствующим классам.
Агрегация данных: Для каждого URL Class расчет Aggregated Data (например, среднее значение, дисперсия атрибута, количество URL в классе) на основе данных всех URL в классе.
Сохранение модели: Сохранение базы данных соответствий <Повторяющийся Шаблон URL, Агрегированные Данные>.

Процесс Б: Прогнозирование атрибутов для Lookup-URL (Онлайн)

Получение запроса: Получение Lookup-URL от клиента (краулера, индексатора или системы ранжирования).
Извлечение шаблонов: Применение той же Pattern Extraction Procedure к Lookup-URL для генерации его иерархии шаблонов.
Поиск соответствий: Поиск сгенерированных шаблонов в базе данных URL Classes.
Получение прогнозов: Извлечение Aggregated Data для всех найденных соответствующих классов URL.
Интеграция прогнозов: Расчет финального прогнозируемого значения путем интеграции данных из всех соответствующих классов. При интеграции больший вес (more deference) отдается данным из более специфичных классов URL. Может учитываться Confidence Score (Оценка уверенности).
Возврат результата: Предоставление прогнозируемого значения клиенту.

Какие данные и как использует

Данные на входе

Система использует несколько типов данных для построения модели прогнозирования.

Технические факторы (URL-структура): Структура URL является основным элементом анализа. Система анализирует домен, хост, путь (каталоги), имя файла и аргументы (параметры запроса).
Поведенческие факторы: Это ключевые данные, которые система агрегирует и прогнозирует. Патент (Claim 1) явно указывает на использование данных, полученных из подсчета просмотров документа дольше порогового времени (Long Clicks / Dwell Time). Также упоминаются click-count (количество кликов), click-duration (продолжительность клика) и click-to-impression ratio (CTR).
Временные факторы: В качестве примеров атрибутов упоминаются срок жизни документа (life expectancy) и частота обновления (update-frequencies).
Факторы качества/Ссылочные факторы: В качестве примера атрибута документа упоминается мера качества, основанная на количестве ссылок на документ (number of links).
Контентные факторы: В качестве примеров упоминаются тематическая категория и коммерциализация (количество рекламы в документе).

Какие метрики используются и как они считаются

Уровень специфичности (Level of Specificity): Метрика, определяющая степень детализации шаблона URL. Более длинные шаблоны или шаблоны с меньшим количеством wildcards являются более специфичными.
Aggregated Data (Агрегированные данные): Рассчитываются для каждого URL Class. Методы расчета включают среднее значение (mean), дисперсию (variance) и общее количество образцов (URLs в классе).
Confidence Score (Оценка уверенности): Метрика, используемая при интеграции прогнозов. Она зависит от уровня специфичности класса (более специфичный – выше уверенность), количества образцов (больше образцов – выше уверенность) и дисперсии данных (меньше дисперсия – выше уверенность).
Интегрированный прогноз (Integrated Prediction): Финальное прогнозируемое значение. Рассчитывается как взвешенная комбинация Aggregated Data из разных классов URL, где веса определяются специфичностью или Confidence Score.

Структура URL как сигнал наследования качества и релевантности: Патент подтверждает, что Google использует структуру URL не только для навигации, но и как механизм наследования характеристик. Система предполагает, что страницы со схожими URL будут иметь схожие атрибуты и показатели качества.
Концепция «Хороших и Плохих Районов» (Neighborhoods): Качество страницы оценивается в контексте ее «соседей» по структуре URL (URL Class). Новая страница, размещенная в директории, которая исторически показывала высокие показатели вовлеченности (Long Clicks), унаследует положительный прогноз. И наоборот, размещение в «плохой» директории приведет к пессимизации.
Важность Долгих Кликов (Dwell Time): Claim 1 явно определяет, что агрегируемые данные основаны на времени просмотра дольше порогового значения. Это подчеркивает фокус Google на удовлетворенности пользователей и вовлеченности.
Иерархическая оценка и вес специфичности: Система ценит детализацию. Прогноз, основанный на точном шаблоне (например, /category/subcategory/), имеет значительно больший вес, чем прогноз, основанный на общем шаблоне (например, /category/).
Влияние на весь жизненный цикл документа: Прогнозирование на основе URL влияет на документ с момента его обнаружения (Crawl Scheduling), через индексацию (Index Selection) до его ранжирования (Ranking).
Критичность консистентности URL: Последовательное использование логичных шаблонов URL критически важно. Хаотичные структуры затрудняют для Google формирование стабильных URL Classes и точное прогнозирование.

Best practices (это мы делаем)

Разработка логичной, иерархической и последовательной структуры URL: Внедряйте строгие правила формирования URL. Структура должна быть читаемой и стабильной. Это позволит системе точнее классифицировать ваши URL и формировать надежные URL Classes.
Группировка контента по качеству и типу в структуре URL: Сегментируйте контент с разными показателями качества или интентом в разные директории или шаблоны URL. Например, отделяйте высококачественные статьи (/blog/) от пользовательского контента низкого качества (/forum/) или технических страниц.
Размещение нового контента в «сильных» директориях: Запускайте новые страницы в рамках тех шаблонов URL (директорий), которые уже демонстрируют высокие показатели вовлеченности (Long Clicks, высокий CTR). Это обеспечит новым страницам начальный «буст» доверия.
Использование чистых URL без мусорных параметров: Минимизируйте использование динамических, незначащих параметров (например, session IDs). Это помогает системе корректно применять wildcards и группировать страницы в правильные классы.
Анализ производительности по разделам сайта: Регулярно анализируйте данные в Google Search Console и системах аналитики, сегментированные по директориям (шаблонам URL). Выявляйте «горячие» и «холодные» разделы сайта, чтобы понять, как Google может оценивать ваши URL Classes.

Worst practices (это делать не надо)

Хаотичная или непоследовательная структура URL: Использование разных структур URL для одного типа контента затрудняет формирование стабильных URL Classes и снижает точность прогнозов.
Использование непрозрачных параметров и случайных идентификаторов: URL вида /page?id=12345 менее эффективны для этого алгоритма, чем структурированные пути, хотя система и пытается обрабатывать параметры (Claim 3).
Смешивание контента разного качества в одной директории: Размещение низкокачественного контента в той же директории, что и основной трафикогенерирующий контент, снизит общие агрегированные показатели (Aggregated Data) для этого шаблона URL, навредив всем страницам в классе.
Частое изменение структуры URL без необходимости: Это разрушает исторические данные, накопленные для URL Classes, и вынуждает систему заново строить модель для новых шаблонов.
Плоская структура URL без иерархии: Размещение всех страниц в корне затрудняет системе определение специфичных URL Classes, заставляя ее полагаться только на общие данные всего сайта.

Стратегическое значение

Патент подчеркивает важность технического SEO и информационной архитектуры как фундаментальных элементов стратегии продвижения. Способность Google прогнозировать качество на основе структуры URL означает, что архитектурные решения имеют прямое влияние на производительность контента, особенно на этапе запуска. Стратегия должна включать проектирование структуры сайта таким образом, чтобы максимизировать положительные прогнозы, группируя высокоценный контент в четко определенные иерархические структуры.

Практические примеры

Сценарий 1: Оптимизация краулингового бюджета для E-commerce

Ситуация: Крупный интернет-магазин имеет миллионы страниц. Анализ логов показывает, что страницы товаров (/product/item-name/) имеют высокую вовлеченность, а страницы фильтрации (/category/?color=red&size=M...) – низкую.
Применение патента: Google формирует URL Class для /product/* с высокими агрегированными данными и URL Class для /category/?* с низкими данными.
Действие SEO: Убедиться в чистоте структуры. Можно также создать статические URL для важных фильтров (/category/red-dresses/), чтобы они формировали отдельный, более качественный URL Class.
Ожидаемый результат: Система прогнозирует высокую ценность для новых товаров в /product/* и низкую ценность для динамических фильтров. Краулер приоритизирует сканирование товаров, экономя бюджет на фильтрах.

Сценарий 2: Запуск нового раздела на контентном сайте

Ситуация: Авторитетный сайт о здоровье запускает новый раздел о питании.
Применение патента: Необходимо, чтобы новый контент быстро получил высокие позиции.
Действие SEO: Вместо запуска на новом поддомене (nutrition.site.com), новый раздел интегрируется в существующую высокопроизводительную структуру (например, /health/wellness/nutrition/).
Ожидаемый результат: Новые URL наследуют положительные агрегированные данные от сильных шаблонов /health/wellness/. Система прогнозирует высокую вовлеченность (Long Clicks), что ускоряет индексацию и дает начальный буст в ранжировании.

Как именно система определяет, какие URL похожи?

Система использует процедуру извлечения шаблонов (Pattern Extraction Procedure). Она не просто ищет текстовое совпадение, а разбирает URL иерархически. Это включает усечение пути (/news/sports/ становится /news/), замену параметров на wildcards (?id=1 становится ?*) и обработку поддоменов. URL считаются похожими, если они разделяют один или несколько общих шаблонов (входят в один URL Class).

Что важнее для прогноза: общий шаблон или более специфичный?

Патент明确 указывает (Claim 6), что при интеграции прогнозов от нескольких шаблонов большее предпочтение (more deference) отдается данным из более специфичного шаблона. Например, если у вас есть данные для /blog/ и /blog/seo/, то для новой статьи /blog/seo/new-post прогноз от /blog/seo/ будет иметь больший вес.

На какие именно данные смотрит Google при агрегации статистики по URL?

Claim 1 патента специфицирует, что данные основаны на подсчете случаев, когда документ просматривался дольше порогового периода времени – это так называемые «долгие клики» (Long Clicks) или Dwell Time. В описании также упоминаются стандартные метрики: количество кликов, CTR, а также другие атрибуты, такие как частота обновления, срок жизни документа и показатели качества (например, ссылки).

Как этот патент влияет на управление краулинговым бюджетом?

Это один из ключевых механизмов управления бюджетом. Если шаблон URL исторически связан с низкокачественным контентом или низкой вовлеченностью, система спрогнозирует низкую ценность для новых URL с этим шаблоном. Краулер, получив этот прогноз, может понизить приоритет сканирования этих URL или вообще исключить их, экономя ресурсы для более важных разделов.

Что делать, если у меня сайт с хаотичной структурой URL или все на параметрах?

Сайты с хаотичной структурой затрудняют работу этого алгоритма, так как системе сложнее выявить надежные повторяющиеся шаблоны (Repeated String Patterns). Если контент качественный, он все равно будет ранжироваться, но вы не получите преимуществ в виде ускоренного сканирования и начального буста доверия. Рекомендуется провести реструктуризацию и внедрить логичную, иерархическую систему ЧПУ.

Влияет ли этот патент на выбор между поддоменом и подкаталогом?

Да, косвенно влияет. Система обрабатывает имена хостов и доменов (Claim 5). Поддомен (blog.site.com) и подкаталог (site.com/blog/) будут формировать разные URL Classes. Если основной домен имеет сильные показатели, размещение в подкаталоге может позволить новому контенту быстрее унаследовать эти сигналы в рамках общих шаблонов. Поддомен может рассматриваться как более обособленная структура.

Что произойдет, если я перемещу раздел сайта в новую директорию?

При изменении структуры URL старые URL Classes перестают быть актуальными для перемещенного контента. Система начнет собирать данные для новых шаблонов с нуля. Перемещенный контент попадет под влияние агрегированных данных новой директории. Если новая директория имеет лучшие исторические показатели, это может быть выгодно, но если показатели хуже или отсутствуют, это создаст временную неопределенность.

Как избежать негативного влияния «плохих» разделов сайта на «хорошие»?

Ключевой стратегией является структурная изоляция. Убедитесь, что контент с разным качеством или интентом находится в разных директориях или использует разные шаблоны URL. Например, не смешивайте UGC (User Generated Content) низкого качества с экспертными статьями в рамках одной структуры /articles/. Разделите их на /forum/ и /experts/.

Может ли система предсказать тематику страницы по URL?

Да, в патенте упоминается, что одним из прогнозируемых атрибутов документа может быть тематическая категория (topical category), основанная на анализе ключевых слов в документах данного URL Class. Если все страницы в директории /cars/toyota/ содержат ключевые слова, связанные с Toyota, система спрогнозирует эту тематику для нового URL в этой директории.

Заменяет ли этот прогноз реальные данные о поведении пользователей?

Нет, не заменяет. Прогноз используется в основном тогда, когда реальных данных для конкретного URL недостаточно (проблема "холодного старта"). Как только страница накопит достаточно собственных исторических данных о кликах и вовлеченности, эти прямые сигналы будут иметь приоритет над прогнозируемыми значениями.

Как Google прогнозирует частоту обновления новых страниц для оптимизации краулингового бюджета

Google использует статистический метод для оценки того, как часто будет обновляться новый документ. Система анализирует исторические данные о частоте изменений похожих документов (например, страниц с аналогичной структурой URL или на том же домене), чтобы определить оптимальную частоту сканирования новой страницы. Это позволяет поддерживать свежесть индекса и эффективно расходовать краулинговый бюджет.

US20130212100A1
2013-08-15

Краулинг
Индексация
Свежесть контента

Как Google использует исторические данные о кликах по Сущностям для ранжирования нового или редко посещаемого контента

Google решает проблему «холодного старта» для новых страниц, у которых нет собственных поведенческих данных. Система агрегирует историю кликов на уровне Сущностей (Entities). Если сущности, упомянутые на новой странице, исторически имеют высокий CTR по целевому запросу, страница получает бустинг в ранжировании, наследуя поведенческие сигналы через эти сущности.

US10303684B1
2019-05-28

Поведенческие сигналы
Семантика и интент
SERP

Как Google приоритизирует сканирование, управляет краулинговым бюджетом и повторно использует контент

Google использует распределенную систему планирования для оптимизации сканирования. Приоритет URL определяется их важностью (Page Importance/PageRank) и специальными коэффициентами (Boost Factor). Система фильтрует постоянно недоступные страницы и решает, загружать ли контент заново или использовать кэшированную версию (Reuse), основываясь на истории изменений и важности страницы.

US8042112B1
2011-10-18

Краулинг
Свежесть контента
Индексация

Как Google автоматически распознает и извлекает структурированные данные с сайтов-классифайдов и шаблонных сайтов

Google использует систему для автоматического распознавания сайтов, организованных по шаблону (например, классифайды, сайты недвижимости, форумы). Система анализирует структуру URL и HTML-код для выявления повторяющихся паттернов и "динамических областей". На основе этого создаются шаблоны для извлечения данных (например, цена, местоположение, атрибуты), которые затем сохраняются в структурированном виде для использования в поиске.

US8682881B1
2014-03-25

Структура сайта
Краулинг

Как Google определяет, какие параметры URL влияют на контент, чтобы выбрать канонический URL и оптимизировать краулинг

Google использует систему для статистического анализа динамических URL-адресов и определения того, какие параметры являются значимыми для контента (content-relevant), а какие нет (content-irrelevant). Система группирует URL-адреса, ведущие на одинаковый контент, в «Классы эквивалентности» и выбирает один «Представительский URL» для сканирования и индексации, экономя краулинговый бюджет и решая проблемы дублированного контента.

US7680773B1
2010-03-16

Техническое SEO
Краулинг
Индексация

Как Google оценивает качество изображений, комбинируя визуальные характеристики, распознанный контент и социальные сигналы для ранжирования

Google использует систему для автоматического определения качества изображений, анализируя три класса характеристик: техническое качество (резкость, экспозиция), содержание (объекты, лица, ландшафты) и социальную популярность (просмотры, шеры, рейтинги). Система присваивает баллы этим характеристикам, взвешивает их (учитывая репутацию пользователей, оставивших отзывы) и формирует общий рейтинг для выбора лучших изображений.

US9858295B2
2018-01-02

Мультимедиа
Поведенческие сигналы
SERP

Как Google объединяет разные стратегии и поведенческие данные для генерации и выбора лучших альтернативных запросов

Google использует архитектуру, которая одновременно применяет множество стратегий (расширение, уточнение, синтаксис, анализ сессий) для генерации альтернативных запросов. Система оценивает качество этих вариантов с помощью показателей уверенности, основанных на поведении пользователей (например, длительности кликов) и критериях разнообразия. Лучшие альтернативы предлагаются пользователю, часто с превью результатов, чтобы помочь уточнить поиск.

US7565345B2
2009-07-21

Поведенческие сигналы
SERP

Как Google использует внешние данные для оценки репутации сущностей и их взаимной привлекательности в вертикальном поиске

Google использует систему для улучшения вертикального поиска (например, вакансий, недвижимости) путем оценки взаимной привлекательности двух разных типов сущностей (например, соискателя и вакансии). Система агрегирует данные из внешних источников для выявления скрытых атрибутов и расчета «Репутационной значимости» каждой сущности. На основе этих данных определяется метрика «Двухстороннего соответствия», которая используется для ранжирования.

US10853432B2
2020-12-01

Семантика и интент
SERP
Поведенческие сигналы

Как Google анализирует распределение качества входящих ссылок для классификации и понижения сайтов в выдаче

Google использует систему для оценки качества ссылочного профиля сайта. Система фильтрует входящие ссылки (удаляя шаблонные и дублирующиеся с одного домена), группирует оставшиеся по качеству источника (например, Vital, Good, Bad) и вычисляет взвешенный «Link Quality Score». Если доля низкокачественных ссылок слишком велика, сайт классифицируется как низкокачественный и понижается в результатах поиска.

US9002832B1
2015-04-07

Ссылки
Антиспам
SERP

Как Google вычисляет семантическую близость запросов, анализируя поведение пользователей при переформулировках

Google использует механизм для определения семантического расстояния между запросами (Generalized Edit Distance). Вместо подсчета изменений символов система анализирует исторические логи, чтобы понять, как пользователи переформулируют запросы. На основе этих данных вычисляется «стоимость» замены одного термина на другой с помощью Pointwise Mutual Information (PMI), что позволяет генерировать более релевантные подсказки и расширения запросов.

US8417692B2
2013-04-09

Семантика и интент
Поведенческие сигналы

Как Google извлекает готовые ответы из авторитетных источников для формирования Featured Snippets

Google использует систему для предоставления прямых ответов на естественном языке (в виде абзацев или списков) на запросы с четким намерением. Система заранее анализирует авторитетные источники, извлекает пары «заголовок-текст», соответствующие популярным шаблонам вопросов, и сохраняет их в специальной базе данных. При получении соответствующего запроса система извлекает готовый ответ из этой базы и отображает его в выдаче.

US9448992B2
2016-09-20

Семантика и интент
EEAT и качество
Индексация

Как Google использует историю поиска и браузинга для персонализации выдачи и определения предпочтений пользователя

Google записывает и анализирует историю действий пользователя: запросы, клики по результатам и рекламе, посещенные страницы. Система группирует связанные действия в сессии, определяет "Предпочитаемые локации" на основе частоты и времени визитов (stay-time), и использует эту историю для изменения порядка ранжирования, повышая позиции ранее посещенных сайтов в персональной выдаче.

US20060224583A1
2006-10-05

Персонализация
Поведенческие сигналы

Как Google определяет язык и языковую релевантность страницы, анализируя контекст входящих и исходящих ссылок

Google использует контекст входящих и исходящих ссылок для определения языковой релевантности ресурса. Система анализирует язык анкоров, URL, контент ссылающихся и целевых страниц, а также качество ссылок и тип страницы (например, «языковой шлюз»). Это позволяет точно идентифицировать релевантные языки, даже если на самой странице мало текста.

US9098582B1
2015-08-04

Ссылки
Мультиязычность
Семантика и интент

Как Google извлекает сущности из активности пользователя для запуска проактивных (имплицитных) поисковых запросов

Анализ патента Google, описывающего метод идентификации «именованных сущностей» (людей, тем, фраз) путем мониторинга действий пользователя, таких как электронная почта, просмотр веб-страниц и набор текста. Система использует эти сущности для проактивного запуска фоновых поисковых запросов (имплицитных запросов), релевантных текущему контексту пользователя, часто с использованием персонализированных данных.

US9009153B2
2015-04-14

Персонализация
Семантика и интент
Поведенческие сигналы

Как Google генерирует интерактивные и иерархические Sitelinks на основе структуры и популярности разделов сайта

Google анализирует навигационную иерархию сайта (DOM), популярность ссылок и глубину разделов для создания интерактивного представления ресурса (расширенных Sitelinks) в SERP. Это позволяет пользователям просматривать ключевые категории и вложенные ссылки через интерфейс вкладок, не покидая страницу результатов поиска.

US9348846B2
2016-05-24

Структура сайта
SERP
Ссылки