Анализ патента (поданного AT&T), описывающего механизм ранжирования результатов поиска на основе структурного расстояния (глубины клика) между целевой страницей и главной страницей сайта. Поисковые системы могут использовать эту метрику для определения важности страницы: чем ближе страница к главной, тем выше ее потенциальный вес в выдаче. Это подчеркивает важность плоской и логичной архитектуры сайта.
Описание
Какую задачу решает
Патент решает проблему неоптимального ранжирования результатов поиска, которое может возникать при чрезмерной зависимости от традиционных метрик, таких как количество ссылок на странице или частота ключевых слов в тексте. Утверждается, что эти критерии не всегда выводят наиболее релевантные или авторитетные страницы наверх. Изобретение призвано улучшить качество сортировки путем учета внутренней структуры сайта и иерархической важности контента.
Что запатентовано
Запатентована система и метод для определения порядка отображения (display order) результатов поиска, который учитывает расстояние (distance) между найденной веб-страницей и главной страницей (home page) соответствующего сайта. Под расстоянием понимается количество промежуточных страниц или кликов. Предполагается, что страницы, структурно расположенные ближе к главной, являются более важными. Этот показатель используется как фактор при ранжировании результатов.
Как это работает
Механизм работает в два основных этапа:
- Индексация и расчет расстояния: Во время сканирования сайта поисковая система идентифицирует главную страницу (расстояние = 0). Затем она обходит сайт и для каждой страницы вычисляет кратчайшее расстояние (shortest distance) до главной страницы (количество кликов). Эта метрика сохраняется в индексе.
- Ранжирование: При обработке запроса система находит релевантные страницы и извлекает их предварительно рассчитанное расстояние. При определении финального порядка сортировки (sort order) система взвешивает различные факторы, включая это расстояние. Страницы с меньшим расстоянием получают преимущество.
Патент также описывает дополнительные функции UI, такие как отображение индикатора расстояния в SERP.
Актуальность для SEO
Высокая. Хотя патент подан AT&T, а не Google, и имеет раннюю дату приоритета (2006 г.), концепция «глубины клика» (Click Depth) или расстояния от главной страницы является фундаментальной в SEO и информационной архитектуре. Логично предположить, что современные поисковые системы используют анализ структуры сайта и внутренней перелинковки (например, через распределение внутреннего PageRank) для определения важности страниц. Механизм отражает базовый принцип: важный контент должен быть легкодоступен.
Важность для SEO
Патент имеет высокое значение для стратегии построения архитектуры сайта. Он подтверждает важность метрики глубины клика как потенциального фактора ранжирования. Если поисковая система реализует подобный механизм, структура сайта напрямую влияет на ранжирование: страницы, находящиеся далеко от главной, могут быть пессимизированы по сравнению с контентом, доступным в один или два клика.
Детальный разбор
Термины и определения
- Distance (Расстояние, Глубина клика)
- Ключевая метрика патента. Определяется как количество страниц (number of pages) или шагов (кликов) на кратчайшем пути между найденной веб-страницей и связанной с ней главной страницей.
- Home Page (Главная страница)
- Отправная точка для расчета расстояния на сайте. Ей присваивается расстояние = 0 (DIST=0).
- Display Order / Sort Order (Порядок отображения / Порядок сортировки)
- Ранжирование результатов поиска, определяющее их последовательность на странице выдачи (SERP).
- Shortest Distance (Кратчайшее расстояние)
- Минимальное количество переходов по ссылкам, необходимое для достижения целевой страницы от главной.
- Sorting Logic (Логика сортировки)
- Компонент для определения Display Order на основе взвешивания различных факторов, включая Distance.
- Website Topology (Топология сайта)
- Структура взаимосвязей (ссылок) между страницами на веб-сайте.
Ключевые утверждения (Анализ Claims)
Анализируются Claims, представленные в документе US20160357873A1.
Claim 1, 8, 17 (Независимые пункты): Описывают основной метод ранжирования и отображения (как устройство, метод и носитель соответственно).
- Система определяет расстояние (distance), основанное на количестве страниц (number of pages) между веб-страницей результата поиска и ее главной страницей.
- Система определяет порядок (order) ранжирования на основе этого расстояния.
- Система вызывает отображение результатов в этом порядке на пользовательском интерфейсе.
- Критически важно: Отображаемые результаты также содержат индикацию расстояния (indication of the distance).
Ядро изобретения — использование метрики «количество страниц до главной» (структурная глубина) для ранжирования и обязательное отображение этой метрики в выдаче.
Claim 2 (Зависимый): Дополняет факторы ранжирования.
Система также учитывает количество других страниц, на которые ссылается найденная веб-страница (количество исходящих ссылок), при определении порядка ранжирования.
Claims 3-7, 9-16 (Зависимые): Описывают взаимодействие пользователя с результатами поиска (UX features).
- При выборе результата система может отобразить главную страницу и предоставить опцию для доступа к конкретной найденной веб-странице (Claims 3, 13).
- Или система может отобразить найденную веб-страницу и предоставить опцию для доступа к главной странице (Claims 5, 9).
- Эти опции могут отображаться с использованием фреймов (frames) или окон (windows), отдельно от основного контента страницы (Claims 6, 10, 11, 14, 15).
Эти пункты защищают специфический способ навигации, который поисковая система может наложить поверх сайта, чтобы облегчить пользователю доступ к главной странице.
Где и как применяется
Изобретение затрагивает несколько этапов работы поисковой системы.
CRAWLING – Сканирование и Сбор данных
На этом этапе система должна обойти сайт, чтобы обнаружить связи между страницами и определить Website Topology.
INDEXING – Индексирование и извлечение признаков
Это ключевой этап для применения патента. Система должна:
- Идентифицировать Home Page сайта.
- Рассчитать и сохранить в индексе метрику Distance from Home Page для каждой страницы сайта. Это статический (не зависящий от запроса) сигнал.
- Извлечь другие признаки (например, количество исходящих ссылок).
RANKING – Ранжирование
На этапе ранжирования система использует предварительно рассчитанную метрику Distance from Home Page как один из факторов для определения Display Order. Sorting Logic взвешивает этот фактор наряду с другими сигналами релевантности и качества.
METASEARCH / RERANKING (Формирование SERP)
На финальном этапе система не только сортирует результаты, но и добавляет в SERP дополнительную информацию, такую как indication of the distance (индикацию расстояния до главной страницы).
Входные данные:
- Структура ссылок сайта (полученная при сканировании).
- Контент страниц (для определения релевантности).
- Поисковый запрос пользователя.
Выходные данные:
- Метрика Distance from Home Page для каждой проиндексированной страницы.
- Отсортированный список результатов поиска (Display Order).
- (Опционально) Индикация расстояния в SERP.
На что влияет
- Конкретные типы контента: Наибольшее влияние оказывается на контент, расположенный глубоко в структуре сайта (например, старые статьи в архивах, страницы пагинации, товары в глубоких категориях). Контент на главной странице или в одном клике от нее получает преимущество.
- Структура сайта: Патент явно отдает предпочтение «плоской» архитектуре сайта перед «глубокой». Сайты с логичной иерархией, где важные страницы доступны быстро, будут иметь преимущество.
- Взаимодействие с другими факторами: Расстояние используется наряду с другими факторами (контентные, ссылочные). Страница может быть близко к главной, но если она нерелевантна запросу, она не будет высоко ранжироваться.
Когда применяется
- Временные рамки: Расчет расстояния происходит периодически во время индексации сайта. Применение фактора происходит в реальном времени во время ранжирования результатов для любого запроса.
- Условия применения: Алгоритм применяется как один из взвешиваемых факторов ранжирования. В патенте не указаны специфические триггеры или пороговые значения для его активации; предполагается его постоянное использование при наличии данных о структуре сайта.
Пошаговый алгоритм
Процесс А: Расчет расстояния (Офлайн / Во время индексации)
- Идентификация и Инициализация: Поисковая система определяет главную страницу сайта, индексирует ее и присваивает Расстояние = 0.
- Сканирование следующей страницы: Система переходит к следующей странице на сайте (например, следуя по ссылкам с главной).
- Расчет расстояния: Для этой страницы определяется кратчайшее расстояние (shortest distance) от главной страницы. Например, если страница доступна по прямой ссылке с главной, Расстояние = 1.
- Проверка завершения и итерация: Система проверяет, все ли страницы сайта были проанализированы. Процесс повторяется, обходя сайт (например, методом поиска в ширину) до полного анализа топологии. Если страница найдена по более короткому пути, метрика обновляется. Метрики сохраняются в индексе.
Процесс Б: Обработка запроса и Ранжирование
- Получение запроса: Поисковая система получает критерии поиска.
- Поиск результатов: Система сканирует индекс для поиска релевантных страниц.
- Извлечение признаков: Для каждой найденной релевантной страницы система извлекает ее расстояние от главной страницы (рассчитанное в Процессе А).
- Компиляция результатов: Система собирает набор кандидатов для ранжирования.
- Взвешивание факторов: Система взвешивает один или несколько факторов для определения порядка отображения. Эти факторы включают Distance from Home Page, а также могут включать контентные и ссылочные метрики.
- Определение порядка: Система определяет финальный порядок отображения (Display Order).
- Отображение результатов: Результаты предоставляются пользователю, опционально с индикацией расстояния.
Какие данные и как использует
Данные на входе
Патент явно упоминает использование следующих данных для определения порядка сортировки (основано на тексте, Claims и Table 1):
- Структурные факторы (Ключевой фактор):
- Distance from Home Page: Расстояние (количество шагов/страниц) между найденной страницей и главной страницей сайта.
- Ссылочные факторы:
- Links to Page (Входящие ссылки): Количество ссылок, ведущих на страницу (упомянуто в Таблице 1 патента).
- Количество исходящих ссылок: Количество других страниц, на которые ссылается найденная страница (упомянуто в Claim 2 и в описании к FIG. 5 и 6).
- Контентные факторы (упомянуты в Таблице 1):
- Total Word Match: Общее количество совпадений поисковых терминов на странице.
- Word Match Description/Body/Keyword: Количество совпадений в описании, теле документа, ключевых словах.
- Avg. Distance between Words: Среднее расстояние между поисковыми терминами на странице (плотность и близость ключевых слов).
Какие метрики используются и как они считаются
- Shortest Distance from Home Page: Рассчитывается путем обхода графа сайта (например, алгоритмом поиска в ширину — BFS), начиная с главной страницы. Каждому переходу (ссылке) присваивается вес 1.
- Взвешивание факторов: Патент утверждает, что система взвешивает (weighs) факторы, включая расстояние. Конкретные формулы не раскрываются, но предполагается, что меньшее расстояние дает больший вес (более высокую позицию в ранжировании).
Выводы
- Архитектура сайта как фактор ранжирования: Основной вывод заключается в том, что структура сайта и внутренняя перелинковка напрямую влияют на оценку важности отдельных страниц. Метрика Distance from Home Page (глубина клика) используется как сигнал авторитетности страницы в пределах сайта.
- Предпочтение плоской структуре: Система отдает предпочтение контенту, расположенному близко к главной странице. Страницы с меньшим расстоянием (например, 1 или 2 клика) получают преимущество перед страницами, расположенными глубоко в иерархии.
- Расчет по кратчайшему пути: Система ищет именно кратчайшее расстояние (shortest distance) до главной страницы, что подчеркивает важность эффективной перелинковки, а не только формальной иерархии.
- Многофакторное ранжирование: Расстояние от главной страницы является одним из многих факторов. Оно используется в сочетании с контентными факторами (частота и расположение ключевых слов) и ссылочными факторами (входящие и исходящие ссылки).
- Предложения по UI/UX (Менее актуально): Патент также защищает идею отображения расстояния в SERP и предоставления пользователям гарантированных путей к главной странице (например, через фреймы). Эти функции не получили широкого распространения в современных поисковых системах.
Практика
Best practices (это мы делаем)
- Оптимизация архитектуры сайта (Flat Architecture): Проектируйте сайт с плоской архитектурой, чтобы ключевые страницы (приоритетные категории, важные статьи) были доступны в минимальное количество кликов от главной страницы (идеально 1-3 клика).
- Стратегическая внутренняя перелинковка: Размещайте ссылки на наиболее важные страницы непосредственно на главной странице или в основном навигационном меню, которое доступно с главной. Это напрямую уменьшает их Distance from Home Page.
- Использование «Хлебных крошек» (Breadcrumbs): Внедряйте навигационные цепочки. Они помогают поисковым системам лучше понять иерархию и предоставляют дополнительные пути для навигации и расчета расстояния.
- Использование HTML Sitemaps и Хабов: Создавайте HTML-карты сайта или тематические хаб-страницы, доступные с главной страницы. Это может служить механизмом для сокращения кратчайшего расстояния до глубоко расположенного контента.
- Аудит структуры сайта: Регулярно проводите технический аудит с использованием краулеров для анализа глубины сканирования (Crawl Depth) и выявления страниц, находящихся слишком далеко от главной.
Worst practices (это делать не надо)
- Создание глубокой и запутанной иерархии: Размещение важного контента на 4-м уровне вложенности и глубже может привести к снижению его веса в ранжировании из-за большого расстояния от главной страницы.
- Изоляция ключевых страниц (Orphan Pages): Страницы без входящих внутренних ссылок (сироты) не будут иметь рассчитанного расстояния от главной. Наличие только длинных путей к важным страницам увеличивает их расстояние и снижает видимость.
- Чрезмерная зависимость от пагинации для доступа к контенту: Если доступ к статьям или товарам возможен только через десятки страниц пагинации, их расстояние от главной будет очень велико, что негативно скажется на ранжировании.
- Скрытие навигации за несканируемыми элементами: Если структура ссылок не может быть легко обнаружена стандартными краулерами (например, сложный JavaScript), расчет расстояния может быть неточным или невозможным.
Стратегическое значение
Этот патент подтверждает, что для SEO критически важна не только внешняя авторитетность и качество контента, но и то, как этот контент организован внутри сайта. Информационная архитектура (IA) напрямую связана с SEO-эффективностью. Стратегия должна включать продуманное проектирование структуры сайта. Понимание того, что близость к главной странице может служить сигналом важности, должно влиять на решения о дизайне навигации и внутренней перелинковке.
Практические примеры
Сценарий: Оптимизация страницы категории в интернет-магазине
- Ситуация: Ключевая страница категории «Ноутбуки для игр» плохо ранжируется. Аудит показывает, что для доступа к ней с главной нужно пройти путь: Главная -> Каталог -> Компьютеры -> Ноутбуки -> Ноутбуки для игр. Глубина клика (Distance) = 4.
- Применение принципов патента: Зная, что меньшее расстояние предпочтительнее, необходимо сократить этот путь.
- Действия: Добавить прямую ссылку на категорию «Ноутбуки для игр» в главное навигационное меню на Главной странице или в блок «Популярные категории» на Главной странице.
- Ожидаемый результат: Новая глубина клика (Distance) = 1. Поисковая система при переиндексации обновит метрику, что повысит структурную важность страницы и положительно повлияет на ее ранжирование.
Вопросы и ответы
Что такое «Distance from Home Page» согласно этому патенту?
Это метрика, определяющая кратчайшее расстояние между конкретной страницей и главной страницей сайта. Она измеряется в количестве шагов, кликов или страниц (number of pages), которые необходимо пройти. Главной странице присваивается расстояние 0. Страницам, доступным по прямой ссылке с главной, присваивается расстояние 1, и так далее.
Как именно расстояние от главной страницы влияет на ранжирование?
Патент предполагает, что меньшее расстояние соответствует большей важности страницы. При определении порядка сортировки результатов (Display Order) система взвешивает различные факторы, и Distance from Home Page является одним из них. При прочих равных, страницы, расположенные ближе к главной, получают преимущество в ранжировании.
Является ли глубина клика единственным фактором ранжирования в этом патенте?
Нет. Патент четко указывает на взвешивание нескольких факторов. В тексте и Таблице 1 упоминаются также контентные факторы (частота ключевых слов в разных зонах страницы, среднее расстояние между словами) и ссылочные факторы (входящие и исходящие ссылки). Глубина клика используется в комбинации с ними.
Как этот патент соотносится с внутренним PageRank?
Обе концепции направлены на определение важности страницы через анализ внутренних ссылок, но механика отличается. Внутренний PageRank распределяет вес по ссылкам и зависит от авторитетности ссылающихся страниц. Distance from Home Page — это чисто структурная метрика, основанная на кратчайшем пути. На практике плоская архитектура (малое расстояние) также способствует более эффективному распределению PageRank.
Этот патент подан AT&T. Гарантирует ли это, что Google использует этот механизм?
Нет, это не гарантирует. Патент принадлежит AT&T. Однако концепция использования расстояния от главной страницы для определения важности контента является логичной и фундаментальной в SEO. Высока вероятность, что Google использует аналогичные или более продвинутые метрики для анализа структуры сайта, даже если их реализация отличается от описанной в этом патенте.
Что важнее для SEO: плоская архитектура или глубокая тематическая иерархия?
В контексте этого патента плоская архитектура предпочтительнее, так как она минимизирует расстояние до контента. Однако для крупных сайтов необходим баланс. Важно создать логичную иерархию, но при этом использовать механизмы (перекрестные ссылки, хаб-страницы), чтобы сократить кратчайшее расстояние до важных страниц, независимо от их положения в формальной иерархии.
В патенте упоминается отображение расстояния прямо в результатах поиска. Google делает это?
Патент предлагает отображать indication of the distance в SERP (например, «**2 AWAY FROM HOMEPAGE**»). На данный момент Google не отображает глубину клика в таком виде. Однако Google отображает «хлебные крошки» или структуру URL, что косвенно дает пользователю представление о положении страницы в иерархии сайта.
Как оптимизировать глубину клика для страниц пагинации?
Страницы пагинации по определению увеличивают расстояние до контента. Чтобы минимизировать негативный эффект, следует предоставлять альтернативные пути доступа к контенту. Используйте тематические хабы, фильтры и HTML-карты сайта, чтобы контент был доступен не только через пагинацию, но и через более короткие пути от главной страницы.
Как мне узнать расстояние моих страниц от главной?
Используйте инструменты для сканирования сайта (краулеры), такие как Screaming Frog или аналоги. В отчетах эта метрика обычно называется «Crawl Depth» (глубина сканирования) или «Level». Она показывает минимальное количество кликов от стартовой точки сканирования (обычно главной страницы) до целевого URL.
Какова идеальная глубина клика для важных страниц?
Общепринятой лучшей практикой в SEO, которую подтверждает логика этого патента, является размещение наиболее важных страниц как можно ближе к главной. Идеальное расстояние — 1 (прямая ссылка с главной). Для большинства ключевых страниц рекомендуется стремиться к глубине не более 3 кликов.