Как Google использует Топ-N терминов и URL-паттерны для быстрой кластеризации похожих страниц на сайте

EFFICIENT DOCUMENT CLUSTERING (Эффективная кластеризация документов)

US8200670B1
Google LLC
2008-10-31
2012-06-12

Google использует эффективный метод (O(n)) для группировки структурно похожих документов на веб-сайте. Система определяет страницы, у которых совпадают наиболее весомые термины (Топ-N), используя метрику Modified TF-IDF, смещенную в сторону шаблонного текста (boilerplate). Затем находится общий шаблон в их URL-адресах. Это позволяет быстро кластеризовать большие объемы контента для анализа структуры сайта и оптимизации индексирования.

Какую проблему решает

Патент решает проблему вычислительной сложности традиционных алгоритмов кластеризации документов (часто требующих времени O(n²)), что делает их непрактичными для обработки данных в масштабах веба. Цель изобретения — предоставить высокоэффективный механизм кластеризации, работающий за линейное время (O(n)), для быстрого группирования схожих документов, что позволяет оптимизировать дальнейшую обработку (например, применяя её к выборке из кластера, а не ко всем документам).

Что запатентовано

Запатентован метод эффективной кластеризации документов, использующий двухэтапный подход. Система сначала группирует документы, у которых идентичны Топ-N терминов (Top N Terms) по оценке частотности. Для этого используется Modified TF-IDF, смещающий вес в сторону шаблонного контента (boilerplate). Затем для этой группы идентифицируется общий строковый паттерн (Pattern String), основанный на URL. Документы, удовлетворяющие этому паттерну, формируют итоговый кластер.

Как это работает

Система работает в несколько этапов:

Расчет оценок терминов: Для набора документов (обычно с одного сайта) рассчитываются оценки Modified TF-IDF. Эта метрика специально разработана для выделения общего шаблонного текста.
Группировка по Топ-N: Документы группируются, если у них идентичны Top N Terms и их порядок. Система итеративно увеличивает N (начиная с 1 до максимума M), чтобы найти оптимальный баланс между схожестью и размером группы.
Идентификация паттерна URL: Для подходящей группы определяется шаблон URL (Pattern String). Для выбора наилучшего шаблона используется принцип минимальной длины описания (Minimum Description Length, MDL).
Кластеризация: Все документы из исходного набора, которые удовлетворяют найденному шаблону URL, объединяются в финальный кластер. Процесс повторяется для оставшихся документов.

Актуальность для SEO

Средняя/Высокая. Эффективная обработка данных остается критически важной задачей. Хотя методы анализа контента эволюционировали с 2008 года (например, в сторону векторных эмбеддингов), базовые принципы быстрой (O(n)) структурной кластеризации на основе частотности терминов и URL-паттернов остаются актуальными для инфраструктурных задач, таких как управление краулинговым бюджетом, анализ структуры сайтов и обнаружение шаблонов (boilerplate detection).

Важность для SEO

Влияние на SEO умеренное (4/10), преимущественно в области технического SEO. Это инфраструктурный патент, направленный на повышение эффективности индексирования и сканирования, а не на ранжирование. Он не вводит новых сигналов ранжирования. Однако он демонстрирует, как Google структурно анализирует сайты, подчеркивая важность консистентной архитектуры и шаблонов URL для эффективной обработки ресурса.

Термины и определения

Document Cluster (Кластер документов): Финальная группа документов, которые удовлетворяют определенному Pattern String.
Document Group (Группа документов): Предварительная группа документов, которые имеют идентичные Top N Terms. Используется как основа для поиска Pattern String.
Fingerprint (Отпечаток): Хеш или компактное представление конкатенации Top N Terms документа. Используется для быстрого сравнения документов при реализации алгоритма.
Minimum Description Length (MDL) (Принцип минимальной длины описания): Принцип, используемый для выбора наилучшего Pattern String. Он балансирует точность шаблона (меньше подстановочных знаков) с его охватом (больше совпадений URL).
Modified TF-IDF (Модифицированный TF-IDF): Специфическая метрика оценки терминов, используемая в патенте. Она смещает вес в сторону терминов, часто встречающихся в анализируемом наборе документов (например, шаблонный текст сайта), за счет компонента S в формуле.
Pattern String (Строка шаблона / Шаблон URL): Шаблон, основанный на URL с использованием подстановочных знаков (например, * или <>), который идентифицируется как общий для подмножества документов.
Term Frequency Score (Оценка частотности термина): Метрика, оценивающая важность термина в документе (в данном случае, Modified TF-IDF).
Top N Terms (Топ-N терминов): N терминов с наивысшими оценками Term Frequency Score в документе.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод кластеризации.

Система идентифицирует множество документов из набора, у которых Top N Terms (по оценке частоты термина) одинаковы.
Идентифицируется подмножество этих документов, которые удовлетворяют определенной строке шаблона (Pattern String).
Формируется кластер документов (Document Cluster) как минимум из этого подмножества.

Claim 2 и 3 (Зависимые): Уточняют процесс идентификации схожести.

Система определяет оценки частоты терминов и упорядочивает их (Claim 2).
Критическое уточнение (Claim 3): Идентифицируются документы, у которых не только одинаковые Top N Terms, но и одинаковый порядок этих терминов (по их оценкам). Это строгий критерий структурной схожести.

Claim 7 (Зависимый от 1): Уточняет область применения. Набор документов — это документы, принадлежащие одному и тому же веб-сайту.

Claim 8 (Зависимый от 1): Уточняет природу Pattern String. Строка шаблона — это строка, которой удовлетворяют URL (Universal Resource Locators) документов.

Claim 13 (Независимый пункт): Описывает систему, реализующую метод, аналогичный Claim 1, с акцентом на этапы (расчет оценок, идентификация первого подмножества по Top N и порядку, идентификация второго подмножества по Pattern String, формирование кластера).

Где и как применяется

Изобретение направлено на повышение эффективности внутренних процессов Google на этапах индексирования и сканирования.

INDEXING – Индексирование и извлечение признаков
Основное применение патента. После сканивания система анализирует документы для вычисления Term Frequency Scores и определения Top N Terms. Этот процесс является частью структурного анализа сайта и обнаружения шаблонного контента (boilerplate detection). Цель — сгруппировать похожие страницы до того, как они будут полностью обработаны, что позволяет применять дальнейшую обработку к выборке из кластера или обрабатывать кластер как единое целое.

CRAWLING – Сканирование и Сбор данных
Результаты кластеризации могут влиять на планирование сканирования (Crawl Scheduling). Если система идентифицирует Document Cluster через шаблон URL (Pattern String), она может оптимизировать краулинговый бюджет, например, адаптируя частоту сканирования для всего кластера на основе анализа выборки документов (sampling).

Входные данные:

Набор документов (обычно с одного веб-сайта, согласно Claim 7).
URL этих документов.
Предварительно рассчитанная статистика корпуса (для компонента IDF).

Выходные данные:

Кластеры документов (Document Clusters), каждый из которых связан с определенным Pattern String.

На что влияет

Конкретные типы контента и ниши: Особенно эффективно на крупных веб-сайтах с шаблонной структурой и предсказуемыми шаблонами URL. Примеры: страницы товаров в E-commerce, новостные статьи, ветки форумов, профили пользователей. Менее эффективно для сайтов с хаотичной структурой или уникальным дизайном каждой страницы.

Когда применяется

При каких условиях работает алгоритм: При обработке набора документов, принадлежащих одному веб-сайту, для выявления структурных сходств.
Триггеры активации и пороговые значения: Процесс группирования активируется, если достаточное количество документов (превышающее пороговый минимальный размер группы, threshold minimum size, например, 4) имеют идентичные Top N Terms. Итерации ограничены максимальным значением N (параметр M, например, 100) для гарантии эффективности O(n).

Пошаговый алгоритм

Процесс А: Группировка документов (Поиск оптимального N)

Расчет оценок: Для всех терминов в наборе документов рассчитываются Modified TF-IDF. Термины в каждом документе сортируются по убыванию оценки.
Инициализация N: Устанавливается значение $N=1$ .
Группировка по Топ-N: Вычисляются отпечатки (Fingerprint) конкатенации Top N Terms (с учетом порядка). Документы с одинаковыми отпечатками объединяются в Document Groups.
Проверка размера групп: Проверяется, есть ли хотя бы одна группа, размер которой равен или превышает пороговое значение (threshold minimum size).
Условие итерации:
- Если размер достаточен И N меньше максимального порога M: N увеличивается на 1, процесс возвращается к шагу 3.
- Если размер недостаточен: процесс останавливается, используются группы, полученные для $N-1$ .
- Если $N=M$ : процесс останавливается, используются группы для N.

Процесс Б: Кластеризация на основе групп

Выбор группы: Выбирается Document Group (например, самая большая), сгенерированная в Процессе А.
Идентификация паттерна: Анализируются URL документов в группе для поиска общего Pattern String. Используется принцип MDL для выбора наилучшего шаблона (баланс точности и охвата).
Формирование кластера: Идентифицируются ВСЕ документы в исходном наборе (не только в текущей группе), которые удовлетворяют найденному Pattern String. Они формируют Document Cluster.
Итерация: Процесс повторяется для оставшихся некластеризованных документов до тех пор, пока возможно формирование групп достаточного размера.

Какие данные и как использует

Данные на входе

Контентные факторы: Текст документов. Система анализирует частоту терминов внутри каждого документа (n) и в пределах всего набора документов/сайта (S).
Технические факторы: URL-адреса документов. Они используются на этапе Pattern Matching для формирования финальных кластеров. URL сегментируются по разделителям (например, "/" и "?").
Статистические данные корпуса: Общее количество документов в корпусе (D) и количество документов в корпусе, содержащих термин (d), необходимые для расчета IDF-компоненты.

Какие метрики используются и как они считаются

Modified TF-IDF: Ключевая метрика для определения важности термина. Формула, приведенная в патенте:
Modified TF-IDF=(n+S)⋅log⁡

Выводы

Эффективность как приоритет (O(n)): Основная цель патента — обеспечить быструю (линейное время) кластеризацию. Система использует упрощенные признаки (Top N Terms и шаблоны URL) для достижения этой цели в масштабах веба.

Двухэтапный подход (Контент + Структура): Система сначала идентифицирует схожесть контента (Top N Terms), а затем подтверждает и расширяет группу на основе структурной схожести (URL Pattern String). Это надежный метод для выявления страниц, сгенерированных одним шаблоном.

Специальный фокус на шаблонном контенте (Boilerplate): Использование Modified TF-IDF $((n+S)\cdot\log(D/d))$ явно направлено на придание большего веса терминам, повторяющимся на сайте (S). Это означает, что кластеризация основана преимущественно на структурных элементах (меню, футер), а не на уникальном семантическом контенте.

Строгое определение схожести: На этапе группировки требуется не только совпадение Top N Terms, но и совпадение их порядка (Claim 3). Это очень строгий критерий, гарантирующий, что группируются только страницы с идентичной структурой частотности.

Критическая роль структуры URL: Финальные кластеры определяются шаблонами URL. Это подтверждает важность последовательной и логичной архитектуры сайта для эффективной обработки поисковыми системами.

Практика

Best practices (это мы делаем)

Хотя патент является инфраструктурным, он подчеркивает важность технического SEO для эффективного индексирования и сканирования.

Проектирование чистой и последовательной структуры URL: Используйте логичные, иерархические и предсказуемые структуры URL. Поскольку финальная кластеризация основана на URL Pattern Strings, это помогает системе правильно идентифицировать разделы сайта (например, /blog/*, /products/*).

Обеспечение консистентности шаблонов (Templating): Убедитесь, что страницы одного типа используют строго одинаковую структуру шаблона и элементы навигации (boilerplate). Это облегчает идентификацию общих Top N Terms (которые часто являются boilerplate из-за Modified TF-IDF) и помогает корректно кластеризовать эти страницы как группу.

Оптимизация краулингового бюджета: Понимание того, что Google ищет шаблоны URL для кластеризации и потенциальной выборочной обработки (sampling), подчеркивает важность чистой архитектуры. Это помогает Google эффективнее расходовать краулинговый бюджет на вашем сайте.

Worst practices (это делать не надо)

Хаотичные структуры URL для однотипного контента: Использование непоследовательных путей или параметров для одного и того же типа контента затрудняет системе поиск эффективных Pattern Strings. Это усложняет анализ сайта и может привести к неэффективному сканированию.

Непоследовательное использование шаблонов и Boilerplate: Применение разных шаблонов или значительные вариации в навигации/футерах на страницах одного типа может нарушить процесс сопоставления Top N Terms, препятствуя кластеризации.

Чрезмерное раздувание шаблонного контента: Если boilerplate составляет подавляющую часть контента, Top N Terms будут состоять только из него. Это увеличивает риск того, что страницы с разным основным содержанием будут считаться почти идентичными.

Стратегическое значение

Патент подтверждает критическую важность технического SEO и продуманной архитектуры сайта. Он показывает, что Google анализирует сайты структурно, ища закономерности для оптимизации использования своих вычислительных ресурсов. Стратегически важно проектировать сайты так, чтобы их структура была очевидна алгоритмам кластеризации. Это влияет на то, как быстро и полно Google сможет обработать контент сайта.

Практические примеры

Сценарий: Кластеризация страниц товаров в E-commerce

Набор данных: 10,000 страниц интернет-магазина shop.com.

Анализ контента (Modified TF-IDF): Система рассчитывает оценки. Термины из меню и футера ("Доставка", "Контакты", "Корзина") получают высокие оценки из-за частого повторения на сайте (высокий S).

Группировка (Top N=5): 8,000 страниц имеют одинаковые Топ-5 терминов в одинаковом порядке. Они формируют Document Group.

Идентификация паттерна (Pattern Matching): Система анализирует URL этих 8,000 страниц. Примеры:

shop.com/product/item-123

shop.com/product/item-456

Выбор Pattern String: Система идентифицирует оптимальный паттерн с помощью MDL: shop.com/product/<>.

Кластеризация: Все страницы на сайте, соответствующие этому URL-паттерну, объединяются в кластер "Страницы товаров". Google теперь может использовать этот кластер для эффективного планирования сканирования этого раздела.

Вопросы и ответы

Является ли этот патент алгоритмом ранжирования?

Нет. Патент описывает инфраструктурный механизм для эффективной кластеризации документов (группировки похожих страниц). Он предназначен для оптимизации внутренних процессов Google, таких как индексирование, анализ структуры сайта и управление сканированием, а не для определения позиции документа в поисковой выдаче.

Как формула Modified TF-IDF, описанная в патенте, отличается от стандартной и почему это важно?

Формула в патенте $(n+S) \cdot \log(D/d)$ добавляет компонент S (общее количество появлений термина на всем сайте) к компоненту n (частота в документе). Это приводит к тому, что термины, часто повторяющиеся на многих страницах (например, в меню или футере), получают завышенный вес. Это сделано специально для идентификации шаблонного контента (boilerplate) и группировки страниц по структурному сходству.

Что означает, что алгоритм работает за линейное время O(n)?

Это означает, что время, необходимое для выполнения алгоритма, прямо пропорционально количеству входных документов (n). Это значительно эффективнее традиционных методов (O(n²)), где удвоение количества документов увеличивает время обработки в четыре раза. Эта эффективность критична для работы в масштабах веба.

Как структура URL влияет на этот процесс кластеризации?

Структура URL критически важна на втором этапе. Даже если страницы имеют очень похожий контент (одинаковые Top N Terms), финальный кластер формируется на основе общего URL Pattern String. Чистая, последовательная и иерархическая структура URL помогает алгоритму находить надежные паттерны и правильно кластеризовать разделы сайта.

Важен ли порядок Top N терминов для группировки?

Да, это критически важно согласно Claim 3 патента. Для включения в предварительную группу документы должны иметь не только одинаковые Top N Terms, но и одинаковый порядок этих терминов (т.е. их ранжирование по оценкам должно совпадать). Это обеспечивает высокую точность при идентификации идентичных шаблонов.

Как этот патент связан с обработкой дубликатов или каноникализацией?

Он косвенно поддерживает эти процессы. Кластеризация помогает быстро выявить группы структурно похожих или почти дублирующихся страниц (near-duplicates). Если две страницы имеют идентичные Top N Terms (особенно при высоком N) и попадают в один кластер, это сильный сигнал их схожести, который может использоваться системой каноникализации.

Должен ли я беспокоиться, если на моем сайте много шаблонного текста (boilerplate)?

Важно обеспечить консистентность boilerplate. Поскольку Modified TF-IDF придает большой вес шаблонному тексту, он должен быть одинаковым на однотипных страницах, чтобы способствовать правильной кластеризации. Однако следует также следить, чтобы уникальный контент не терялся на фоне boilerplate, иначе разные страницы могут быть ошибочно восприняты как идентичные.

Что такое Топ-N терминов и как выбирается N?

Топ-N терминов — это N слов или фраз в документе с самыми высокими оценками Modified TF-IDF. Значение N не фиксировано. Система начинает с $N=1$ и итеративно увеличивает его (до максимума M, например, 100), проверяя, сколько документов имеют одинаковые Топ-N термины. Цель — найти оптимальное N, при котором размер группы документов все еще достаточно велик.

Что такое принцип минимальной длины описания (MDL)?

Это метод, используемый для выбора наилучшего шаблона URL (Pattern String). Система ищет баланс: шаблон должен быть достаточно точным (содержать меньше подстановочных знаков * или <>), но при этом охватывать как можно больше URL в группе. MDL помогает выбрать наиболее эффективное и краткое описание раздела сайта.

Что произойдет, если мои страницы имеют похожий контент, но совершенно разные URL?

В рамках этого алгоритма, такие страницы сначала попадут в одну Document Group на основе контента. Однако на этапе поиска Pattern String система не найдет надежного общего шаблона для их URL. В этом случае эффективный кластер сформирован не будет. Это может снизить эффективность обработки вашего сайта, так как страницы будут рассматриваться индивидуально.

Похожие патенты

Как Google определяет дублированный и переработанный (spun) контент, анализируя относительный порядок слов
Патент Google, описывающий метод обнаружения похожих или почти дублирующихся документов, устойчивый к локальным изменениям текста (например, замене синонимов или перестановке слов). Вместо анализа последовательных фраз, система анализирует упорядоченные пары слов, которые не обязательно стоят рядом. Это позволяет идентифицировать структурное сходство контента даже при значительном изменении формулировок.

US7734627B1
2010-06-08

Индексация

Антиспам

Как Google использует гибридную итеративную кластеризацию для организации документов в системах E-Discovery
Патент Google описывает метод оптимизации для анализа больших наборов документов в системах E-Discovery (юридический анализ). Документы сначала быстро кластеризуются по одному типу данных (например, метаданным), а затем итеративно уточняются с использованием других типов данных (например, основного текста). Это балансирует скорость и точность тематической группировки и не связано с веб-поиском.

US9268844B1
2016-02-23

Как Google находит, оценивает и показывает «интересные факты» о сущностях в поиске
Google идентифицирует «уникальные» или «интересные» факты о сущностях, анализируя документы, на которые ссылаются с использованием триггеров (например, «fun facts»). Система извлекает предложения, кластеризует их для поиска лучшей формулировки и оценивает качество факта на основе авторитетности источника, уникальности терминов и топикальности. Эти факты затем показываются в выдаче в виде специальных блоков.

US11568274B2
2023-01-31

Knowledge Graph

Семантика и интент

EEAT и качество

Как Google использует консенсус между сайтами для валидации ключевых слов и ранжирования изображений и видео
Google агрегирует описания (метки) изображения или видео со всех сайтов, где этот контент размещен. Чтобы метка была принята как надежная («Final Label») и использовалась для ранжирования, она должна подтверждаться несколькими независимыми группами источников (консенсус). Этот механизм двойной группировки (по домену и по смыслу) снижает влияние спама и значительно повышает релевантность поиска медиаконтента.

US8275771B1
2012-09-25

Антиспам

Семантика и интент

Мультимедиа

Как Google автоматически находит похожие страницы внутри одного сайта, используя текст текущей страницы как запрос (Query by Example)
Анализ патента Google, описывающего технологию автоматического поиска связанного контента внутри одного веб-сайта. Система анализирует текст просматриваемой страницы, извлекает и взвешивает ключевые термины на основе их уникальности, а затем использует их как поисковый запрос (Query by Example) для нахождения тематически похожих документов на том же сайте. Используются классические формулы информационного поиска (TF-IDF/BM25).

US8756212B2
2014-06-17

Индексация

Семантика и интент

Структура сайта

Популярные патенты

Как Google использует личные данные пользователя (User Model) для понимания его намерений и персонализации выдачи
Google создает персональную модель пользователя (User Model) на основе его личного контента (письма, контакты, документы). Эта модель используется для определения неявного намерения пользователя (личный поиск или общий) и для аннотирования запроса контекстом из личных данных, чтобы предоставить точные персонализированные результаты.

US20150012558A1
2015-01-08

Персонализация

Семантика и интент

Поведенческие сигналы

Как Google использует длительность кликов, Pogo-Sticking и уточнение запросов для оценки качества поиска (Click Profiles)
Google анализирует поведение пользователей после клика для оценки удовлетворенности. Система создает «Профили взаимодействия» (Click Profiles), учитывая длительность клика (Dwell Time), возврат к выдаче (Pogo-Sticking) и последующее уточнение запроса. Эти данные используются для сравнения эффективности алгоритмов ранжирования и выявления спама или кликбейта.

US9223868B2
2015-12-29

Поведенческие сигналы

SERP

Антиспам

Как Google анализирует распределение качества входящих ссылок для классификации и понижения сайтов в выдаче
Google использует систему для оценки качества ссылочного профиля сайта. Система фильтрует входящие ссылки (удаляя шаблонные и дублирующиеся с одного домена), группирует оставшиеся по качеству источника (например, Vital, Good, Bad) и вычисляет взвешенный «Link Quality Score». Если доля низкокачественных ссылок слишком велика, сайт классифицируется как низкокачественный и понижается в результатах поиска.

US9002832B1
2015-04-07

Ссылки

Антиспам

SERP

Как Google использует позиционный CTR (Selection Rate) для ранжирования и группировки вертикалей в Универсальном поиске
Google использует механизм для структурирования поисковой выдачи путем группировки результатов по категориям (вертикалям), таким как Новости, Видео или Веб. Система определяет порядок этих категорий, основываясь на ожидаемой частоте кликов (Selection Rate/CTR) тех позиций, которые занимают результаты категории в исходном смешанном ранжировании. Это определяет структуру Универсального поиска (Universal Search).

US8498984B1
2013-07-30

SERP

Поведенческие сигналы

Как Google выявляет ссылочный спам (Link Farms и Web Rings), анализируя чувствительность PageRank к изменениям в структуре ссылок
Google использует математический метод для обнаружения искусственного завышения PageRank. Система анализирует, насколько резко меняется ранг страницы при изменении «коэффициента связи» (coupling factor/damping factor). Если ранг страницы слишком чувствителен к этим изменениям (имеет высокую производную), это сигнализирует о наличии манипулятивных структур, таких как ссылочные фермы или веб-кольца.

US7509344B1
2009-03-24

Антиспам

Ссылки

Техническое SEO

Как Google персонализирует поисковую выдачу, анализируя историю кликов и поведение пользователя на сайте
Google использует механизм для персонализации поисковой выдачи на основе истории взаимодействия пользователя с результатами поиска. Система отслеживает, какие сайты пользователь выбирает, как долго он на них остается (Dwell Time), частоту и контекст выбора. Основываясь на этих данных, предпочитаемые пользователем ресурсы повышаются в ранжировании при его последующих запросах.

US9037581B1
2015-05-19

Персонализация

Поведенческие сигналы

SERP

Как Google рассчитывает «сигнал конкурентоспособности» (Competition Signal) страниц на основе анализа кликов, показов и времени взаимодействия
Google оценивает качество страниц, анализируя их «победы» и «поражения» в поисковой выдаче. Система сравнивает, как часто пользователи выбирают данный URL вместо других и как долго они взаимодействуют с контентом по сравнению с конкурентами (Dwell Time). На основе этих данных рассчитывается корректирующий фактор, который повышает или понижает позиции страницы, отражая её относительную конкурентоспособность и удовлетворенность пользователей.

US9020927B1
2015-04-28

Поведенческие сигналы

SERP

EEAT и качество

Как Google интерпретирует последовательные запросы для автоматического уточнения поискового намерения пользователя
Google использует механизм для понимания контекста сессии, анализируя последовательные запросы (например, Q1: [рестораны в Москве], затем Q2: [итальянские]). Система автоматически объединяет их в уточненный запрос (Q3: [итальянские рестораны в Москве]), основываясь на исторических данных о том, как пользователи обычно уточняют запросы. Это позволяет системе лучше понимать намерение пользователя в диалоговом режиме.

US9116952B1
2015-08-25

Семантика и интент

Поведенческие сигналы

Как Google использует историю физических перемещений пользователя для фильтрации и персонализации результатов поиска
Google может собирать и хранить историю физических перемещений пользователя (Location History). Патент описывает интерфейс, позволяющий пользователю осознанно включать свои прошлые местоположения (например, «места, где я был на прошлой неделе») в качестве фильтра для нового поискового запроса, чтобы сделать результаты более релевантными личному опыту.

US8874594B2
2014-10-28

Персонализация

Поведенческие сигналы

Local SEO

Как Google классифицирует запросы как навигационные или исследовательские, чтобы регулировать количество показываемых результатов
Google использует систему для динамического определения количества отображаемых результатов поиска. Система классифицирует запрос как навигационный (поиск конкретного места/ресурса) или исследовательский (поиск вариантов). Классификация основана на анализе компонентов оценки релевантности (совпадение по названию vs. категории) и энтропии исторических кликов. При навигационном интенте количество результатов сокращается.

US9015152B1
2015-04-21

Семантика и интент

Поведенческие сигналы

Local SEO

seohardcore

Как Google использует Топ-N терминов и URL-паттерны для быстрой кластеризации похожих страниц на сайте

Описание

Какую проблему решает

Что запатентовано

Как это работает

Актуальность для SEO

Важность для SEO

Детальный разбор

Термины и определения

Ключевые утверждения (Анализ Claims)

Где и как применяется

На что влияет

Когда применяется

Пошаговый алгоритм

Какие данные и как использует

Данные на входе

Какие метрики используются и как они считаются

Выводы

Практика

Best practices (это мы делаем)

Worst practices (это делать не надо)

Стратегическое значение

Практические примеры

Вопросы и ответы

Похожие патенты

Популярные патенты