Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Яндекс

    Как Яндекс генерирует прямые ссылки (Deep Links) на структурированные сайты, минуя традиционное сканирование

    SYSTEM AND METHOD FOR CONDUCTING A SEARCH (Система и метод проведения поиска)
    • WO2015198116A1
    • Yandex LLC
    • 2015-12-30
    • 2014-12-28
    2015 E-commerce SEO SERP Патенты Яндекс Ссылки

    Яндекс патентует метод генерации прямых ссылок (Deep Links) на релевантные страницы структурированных сайтов (например, авиабилеты, E-commerce) без их предварительного сканирования. Система определяет подходящий сайт, извлекает параметры из запроса пользователя и динамически конструирует целевой URL с помощью шаблона адресации этого сайта (Address Template), решая проблему индексации сайтов с огромным количеством комбинаторных страниц.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает проблему неэффективности и высокой ресурсоемкости традиционного сканирования (crawling) сайтов, характеризующихся так называемым «Combinatory Explosion» (комбинаторным взрывом). Это сайты, где огромное количество страниц генерируется динамически на основе комбинации параметров (например, сайты бронирования, агрегаторы, крупные E-commerce с множеством фильтров). Сканировать и индексировать все эти варианты непрактично. Патент предлагает метод предоставления релевантных результатов с таких сайтов без необходимости предварительного сканирования каждой конкретной страницы.

    Что запатентовано

    Запатентован метод и система для динамической генерации адреса релевантного ресурса (Search Query Relevant Resource Address), также называемого Deep Link (глубинная ссылка). Суть изобретения заключается в том, чтобы в ответ на запрос пользователя определить релевантный сайт (Search Query Relevant Host) и сконструировать URL конкретной страницы на этом сайте, используя шаблон адресации (Address Template) этого сайта и параметры, извлеченные из поискового запроса.

    Как это работает

    Система получает поисковый запрос и анализирует его для извлечения ключевых параметров (например, города и даты для авиабилетов). Параллельно определяется подходящий хост (Search Query Relevant Host). Система использует известный ей Address Template для этого хоста (например, http://site.example/?from=[A]&to=[B]). Этот шаблон может быть предоставлен сайтом или определен Яндексом автоматически. Затем извлеченные параметры подставляются (merging) в шаблон, генерируя конкретный Deep Link. Этот сгенерированный адрес включается в SERP, позволяя пользователю перейти непосредственно на релевантную страницу, даже если она не была проиндексирована. Патент также упоминает опциональный шаг верификации доступности сгенерированного адреса.

    Актуальность для SEO

    Высокая. В условиях экспоненциального роста числа страниц на крупных e-commerce, travel и classified-площадках, традиционные методы краулинга сталкиваются с ограничениями (Crawl Budget). Механизмы динамической генерации ссылок на основе структурированных данных критически важны для обеспечения полноты поиска и предоставления пользователям точных ответов на параметрические запросы.

    Важность для SEO

    Влияние на SEO значительно (8/10), особенно для крупных структурированных сайтов. Патент демонстрирует механизм, позволяющий поисковой системе направлять трафик на страницы фильтрации или карточки объектов, минуя ограничения краулингового бюджета. Это подчеркивает критическую важность наличия чистой, логичной и стабильной структуры URL (которая служит основой для Address Template). Сайты с непредсказуемой или слишком сложной адресацией могут упустить трафик, генерируемый этим методом.

    Детальный разбор

    Термины и определения

    Address Template (Шаблон адреса)
    Правило или структурированный формат для генерации адресов (URL) ресурсов на определенном хосте. Шаблон содержит фиксированные части и плейсхолдеры для динамических параметров. Пример из патента: http://www.cheaptickets.example/?mode?/?departure?/?destination?/?date?.
    Combinatory Explosion (Комбинаторный взрыв)
    Ситуация, когда веб-ресурс имеет огромное количество потенциальных страниц из-за множества комбинаций параметров (например, фильтры в e-commerce). Упоминается в разделе Background патента.
    Deep Link (Глубинная ссылка)
    Гиперссылка в результатах поиска, ведущая на конкретную внутреннюю страницу сайта (Search Query Relevant Resource), а не на главную страницу. В контексте патента, это ссылка, сгенерированная динамически.
    Search Parameter (Параметр поиска)
    Ключевое слово или значение, извлеченное из поискового запроса (например, название города, дата, ценовой лимит), которое используется для подстановки в Address Template (упоминается в Claim 13).
    Search Query Relevant Host (Релевантный запросу хост)
    Веб-сайт (хост), который идентифицирован поисковой системой как содержащий множество ресурсов, связанных с поисковым запросом.
    Search Query Relevant Resource (Релевантный запросу ресурс)
    Конкретная веб-страница на релевантном хосте, которая содержит информацию, точно соответствующую поисковому запросу.
    Search Query Relevant Resource Address (Адрес релевантного запросу ресурса)
    URL, связанный с релевантным ресурсом. В рамках патента этот адрес генерируется динамически путем объединения Address Template и Search Parameters.

    Ключевые утверждения (Анализ Claims)

    Основную суть изобретения определяет независимый пункт 1 (Claim 1).

    Claim 1 (Независимый пункт): Описывает метод проведения поиска, выполняемый на сервере.

    1. Получение поискового запроса от пользовательского устройства.
    2. В ответ на запрос, определение Search Query Relevant Host. Этот хост содержит множество ресурсов, связанных как минимум с частью запроса.
    3. Генерация Search Query Relevant Resource Address, связанного с конкретным релевантным ресурсом.
    4. Критически важно: генерация адреса основана на (i) Address Template, ассоциированном с хостом, и (ii) как минимум части поискового запроса (т.е. Search Parameters, как уточняется в Claim 13).
    5. Отображение страницы результатов поиска (SERP) на устройстве пользователя, включающей результат, указывающий на сгенерированный адрес или ресурс.

    Ядром изобретения является динамическое конструирование URL (Deep Link) в реальном времени в ответ на запрос. Вместо того чтобы искать нужный URL в существующем индексе (который может отсутствовать из-за проблем с краулингом), система определяет релевантный сайт и строит целевой URL, используя известный шаблон адресации этого сайта.

    Зависимые пункты (Claims 6-10): Детализируют способы получения Address Template.

    • Claims 6-9: Шаблон может быть получен от самого хоста (Search Query Relevant Host). Это может произойти до получения поискового запроса (проактивно) или в ответ на запрос (реактивно).
    • Claim 10: Шаблон может быть получен путем обработки (анализа) существующих адресов ресурсов на этом хосте.

    Патент предусматривает два основных пути получения знаний о структуре URL сайта: 1) Сотрудничество (сайт сам предоставляет шаблон, например, через фид или API). 2) Автоматический анализ (поисковая система анализирует структуру уже известных URL на сайте и выводит общий шаблон).

    Зависимый пункт 5 (Claim 5): Описывает шаг верификации.

    • После генерации адреса ресурса проверяется доступность (availability) этого ресурса по сгенерированному адресу.

    Система может выполнять быструю проверку (например, HTTP HEAD запрос) на существование сгенерированного URL перед тем, как показать его в SERP, чтобы избежать битых ссылок.

    Где и как применяется

    Изобретение применяется на нескольких этапах поискового конвейера, связывая понимание запроса с генерацией выдачи.

    QUERY PROCESSING – Понимание Запросов
    На этом этапе происходит анализ входящего запроса для извлечения Search Parameters. Например, из запроса «Madrid to Moscow flight July 11» извлекаются параметры: отправление (Madrid), назначение (Moscow), дата (July 11). Также определяется интент пользователя.

    RANKING / BLENDER (Метапоиск и Смешивание)
    Этот механизм может работать как часть основного ранжирования или как специализированный компонент (вертикальный поиск или Wizard/Колдунщик).

    1. Определение хоста: Система идентифицирует Search Query Relevant Host (например, сайт продажи билетов), который соответствует интенту и имеет доступный Address Template.
    2. Генерация URL: Происходит подстановка Search Parameters в Address Template.
    3. Интеграция в SERP: Сгенерированный Deep Link встраивается в выдачу.

    CRAWLING / INDEXING (Офлайн-процессы)
    Хотя основная цель патента — избежать сканирования конкретных страниц, офлайн-процессы необходимы для подготовки данных:

    • Сбор и хранение Address Templates, предоставленных владельцами сайтов (Claim 6).
    • Сканирование части страниц хоста для автоматического определения Address Template (Claim 10). В описании патента указано, что для этого используется анализ паттернов (Pattern Analysis) и семантический анализ (Semantic Analysis), чтобы коррелировать структуру URL с контентом.

    На что влияет

    • Конкретные ниши и типы контента: Патент оказывает максимальное влияние на сайты со структурированными данными и параметрической навигацией (faceted navigation):
      • E-commerce (страницы фильтрации по характеристикам товаров).
      • Travel (авиабилеты, отели с фильтрами по датам, ценам, локациям).
      • Real Estate (недвижимость с фильтрами).
      • Classifieds и Директории.
      • Сайты с базами данных (например, погода по городам и датам).
    • Специфические запросы: Влияет на обработку запросов, содержащих явные параметры (например, «погода в Москве в июле», «билеты из А в Б на дату Д»).

    Когда применяется

    Алгоритм активируется при выполнении следующих условий:

    1. Пользовательский запрос имеет четкий интент и содержит извлекаемые Search Parameters.
    2. Система идентифицирует Search Query Relevant Host, который специализируется на данном интенте.
    3. Для этого хоста известен (был предоставлен или определен автоматически) Address Template.

    Этот механизм используется для решения проблемы Combinatory Explosion, когда традиционное индексирование всех вариантов страниц невозможно.

    Пошаговый алгоритм

    Процесс работы системы по генерации Deep Links:

    1. Получение и анализ запроса: Сервер получает поисковый запрос. Запрос анализируется для извлечения Search Parameters и определения интента. В патенте упоминается использование pattern extraction и machine learning на этом этапе.
    2. Определение релевантного хоста: Система определяет Search Query Relevant Host. Это может быть сделано на основе предварительных знаний о хосте или путем проведения предварительного поиска (Claim 3).
    3. Получение шаблона адреса: Система извлекает Address Template для данного хоста. Шаблон может быть предварительно сохранен или получен от хоста в реальном времени.
    4. Генерация адреса ресурса: Система генерирует Search Query Relevant Resource Address путем слияния (merging) извлеченных Search Parameters в Address Template (Claim 13). Если какие-то параметры отсутствуют в запросе, могут использоваться значения по умолчанию.
    5. (Опционально) Верификация: Система проверяет доступность (availability) сгенерированного URL (Claim 5).
    6. Формирование SERP: Сгенерированный Deep Link включается в результаты поиска и отображается пользователю. Результат может также включать сниппет, полученный с этой страницы.

    Какие данные и как использует

    Данные на входе

    • Контентные факторы: Текст поискового запроса. Он используется для определения интента и извлечения Search Parameters.
    • Структурные факторы (URL): Address Templates, ассоциированные с различными хостами. Также используются URL уже проиндексированных страниц хоста (в офлайн-режиме) для автоматического определения шаблона.
    • Системные данные: База данных известных хостов и их специализации для определения Search Query Relevant Host.
    • Пользовательские и Географические факторы (Косвенно): В описании патента указано, что локация устройства и история поиска могут использоваться для определения интента пользователя (например, чтобы отличить поиск картины «Mona Lisa» от ресторана с таким же названием).

    Какие метрики используются и как они считаются

    Патент фокусируется на структурных методах генерации URL, а не на метриках ранжирования.

    • Address Template (Шаблон адреса): Ключевая структура данных, представляющая собой правило генерации URL.
    • Методы анализа (Pattern Analysis / Semantic Analysis): В патенте упоминается, что для автоматического определения Address Template (Claim 10) может использоваться анализ структуры существующих адресов ресурсов. Это включает методы анализа паттернов и семантический анализ для корреляции структуры URL с контентом ресурса.
    • Методы обработки запроса (NLP): Упоминаются pattern extraction и machine learning для парсинга запроса и извлечения параметров.
    • Верификация доступности: Проверка наличия ресурса по сгенерированному адресу (вероятно, с помощью HTTP-запросов и анализа кодов ответа).

    Выводы

    1. Генерация ссылок вместо индексации: Яндекс может динамически генерировать Deep Links на релевантные страницы в реальном времени, не полагаясь на предварительное сканирование и индексацию этих конкретных URL.
    2. Решение проблемы Combinatory Explosion: Этот механизм является прямым ответом на проблему индексации сайтов с огромным количеством параметрических страниц (e-commerce, travel и т.д.), позволяя предоставлять доступ к этим данным, несмотря на ограничения Crawl Budget.
    3. Критичность структуры URL: Для работы системы необходимо, чтобы сайт имел предсказуемую, логичную и стабильную структуру URL (Address Template). Это ключевой фактор для сайтов, желающих получать трафик через этот механизм.
    4. Два способа определения шаблонов: Яндекс может получать информацию о структуре URL либо напрямую от владельца сайта (сотрудничество, Claim 6), либо путем автоматического анализа паттернов уже известных URL (инжиниринг, Claim 10).
    5. Важность верификации и скорости ответа: Система может проверять работоспособность сгенерированной ссылки перед показом (Claim 5), что подчеркивает важность быстрой и стабильной работы сервера.

    Практика

    Best practices (это мы делаем)

    Рекомендации применимы в первую очередь к крупным структурированным сайтам (E-commerce, Travel, Classifieds, Директории).

    • Обеспечение чистой и стабильной структуры URL (ЧПУ): Структура URL должна быть логичной, иерархичной и предсказуемой. Это позволяет поисковой системе легче определить Address Template автоматически (Claim 10). Параметры фильтрации должны быть реализованы через статические URL или чистые параметры (например, /category/color-red/ или /category?color=red, а не /category?fid=12345).
    • Стабильность адресации: Избегайте частых изменений структуры URL. Если структура меняется, старый Address Template, используемый Яндексом, станет недействительным, что приведет к потере трафика до тех пор, пока новый шаблон не будет определен.
    • Оптимизация скорости ответа сервера: Так как патент предусматривает возможность верификации сгенерированного URL в реальном времени (Claim 5), критически важно, чтобы целевые страницы (например, результаты фильтрации) загружались быстро и отдавали корректный код ответа (200 OK).
    • Активное предоставление данных (Фиды и API): Патент явно указывает на возможность получения шаблонов от хоста (Claim 6). На практике это реализуется через предоставление полных данных через YML/XML фиды или API. Это гарантирует, что Яндекс знает точную структуру и доступность ресурсов.

    Worst practices (это делать не надо)

    • Использование непредсказуемых или сессионных URL: Использование динамических идентификаторов сессий, временных меток или запутанных хешей в URL делает невозможным определение стабильного Address Template.
    • Генерация параметров через JavaScript/POST-запросы без изменения URL: Если навигация по параметрам (фильтрация) реализована без изменения URL (например, только через AJAX или формы с методом POST), поисковая система не сможет сгенерировать Deep Link на конкретный набор результатов.
    • Полная блокировка доступа к параметрическим страницам в robots.txt: Закрытие страниц фильтрации в robots.txt может помешать системе как автоматически изучить структуру URL (Claim 10), так и верифицировать результаты (Claim 5).
    • Медленная работа или ошибки сервера на страницах фильтрации: Если сгенерированные страницы часто недоступны или загружаются слишком долго, система верификации может отклонить показ Deep Link в выдаче.

    Стратегическое значение

    Патент подтверждает стратегическое направление развития поиска в сторону работы со структурированными данными и обхода ограничений традиционного краулинга. Для крупных проектов это означает, что инвестиции в техническую оптимизацию, особенно в архитектуру сайта и структуру URL, имеют первостепенное значение. Система позволяет поисковой системе взаимодействовать с сайтом почти как с базой данных, запрашивая информацию по параметрам и получая предсказуемый адрес ответа. Сайты, которые облегчают этот процесс через чистую архитектуру или прямую передачу данных, получают преимущество.

    Практические примеры

    Сценарий: Оптимизация сайта по продаже недвижимости

    1. Задача: Увеличить видимость по запросам типа «купить 2-комнатную квартиру в Самаре до 5 млн».
    2. Действие (Best Practice): Внедрить предсказуемую структуру URL для результатов фильтрации.
      • Плохой URL: /search?sid=123&q=aG67d (невозможно вывести шаблон).
      • Хороший URL: /samara/kupit/kvartira/2-komnatnaya/?price_max=5000000.
    3. Как работает система:
      • Яндекс анализирует структуру и выводит Address Template: /{city}/{action}/{type}/{rooms}/?price_max={price}.
      • При получении нового запроса (например, «купить студию в Казани до 3 млн»), система извлекает параметры и генерирует Deep Link: /kazan/kupit/kvartira/studiya/?price_max=3000000.
      • Система верифицирует ссылку (Claim 5) и показывает ее в SERP.
    4. Результат: Сайт получает прямой трафик на конкретную страницу листинга, минуя необходимость традиционной индексации этой специфической комбинации фильтров.

    Вопросы и ответы

    Что такое «Address Template» (Шаблон адреса) в контексте этого патента?

    Address Template — это правило или формула, описывающая структуру URL на определенном сайте. Он состоит из постоянных частей и плейсхолдеров для переменных параметров. Например, для сайта погоды это может быть http://weather.example/[city]/[date]. Поисковая система использует этот шаблон, чтобы динамически конструировать URL, подставляя параметры из запроса пользователя.

    Заменяет ли этот механизм традиционное сканирование (crawling)?

    Он не заменяет его полностью, но дополняет. Традиционное сканирование по-прежнему необходимо для индексации основного контента и определения авторитетности сайта. Однако для сайтов с огромным количеством параметрических страниц (Combinatory Explosion), где полное сканирование невозможно, этот механизм позволяет предоставлять доступ к релевантным результатам, минуя индекс.

    Как Яндекс узнает Address Template моего сайта?

    Патент описывает два основных способа (Claims 6 и 10). Первый — сайт сам предоставляет этот шаблон поисковой системе (например, через фиды данных). Второй — поисковая система автоматически определяет шаблон путем анализа (Pattern Analysis) структуры уже известных URL на вашем сайте. Для успешного автоматического определения критически важна чистая и предсказуемая структура URL.

    Для каких типов сайтов этот патент наиболее важен?

    Он критически важен для сайтов со структурированными данными и большим количеством страниц, генерируемых на основе параметров. Это, в первую очередь, E-commerce (страницы фильтрации), сайты по бронированию путешествий (Travel), агрегаторы недвижимости, доски объявлений (Classifieds) и любые сайты, работающие по принципу базы данных.

    Что произойдет, если я изменю структуру URL на своем сайте?

    Если вы измените структуру URL, то Address Template, который использовал Яндекс, станет недействительным. Сгенерированные Deep Links начнут вести на несуществующие страницы. Это приведет к потере трафика до тех пор, пока система не определит новый шаблон или вы не предоставите его. Поэтому стабильность структуры URL критически важна.

    Проверяет ли Яндекс, существует ли сгенерированный URL, перед тем как показать его в выдаче?

    Да, патент явно упоминает этот шаг верификации (Claim 5). После генерации адреса система проверяет доступность (availability) ресурса по этому адресу. Это подчеркивает важность быстрой и стабильной работы сервера для страниц, которые могут быть сгенерированы таким образом.

    Как этот патент влияет на управление краулинговым бюджетом (Crawl Budget)?

    Он положительно влияет на ситуацию с краулинговым бюджетом. Поскольку поисковой системе не нужно сканировать миллионы комбинаций страниц фильтрации, она может сосредоточить ресурсы на сканировании более важного контента (например, карточек товаров или категорий). При этом параметрические страницы остаются доступными для пользователей через механизм генерации Deep Links.

    Что такое «Combinatory Explosion», упоминаемый в патенте?

    Combinatory Explosion (Комбинаторный взрыв) — это термин, используемый для описания ситуации, когда сайт может генерировать астрономически большое количество уникальных URL из-за множества комбинаций доступных параметров. Например, если в интернет-магазине есть 10 фильтров, каждый из которых имеет 10 значений, количество возможных комбинаций огромно, что делает их полное сканирование невозможным.

    Как наличие ЧПУ (человекопонятных URL) влияет на работу этого алгоритма?

    Наличие ЧПУ значительно облегчает автоматический вывод шаблонов (Claim 10). Семантически понятные сегменты в URL (например, /color-red/ вместо /?c=123) позволяют системе точнее определить назначение параметров и сформировать корректный Address Template. Это лучшая практика для сайтов, на которые распространяется действие данного патента.

    Как я могу определить, использует ли Яндекс этот механизм для моего сайта?

    Введите в поиск запросы с конкретными параметрами, которые поддерживаются вашими фильтрами (например, «[ваш товар] купить»). Если в выдаче появляется ссылка, ведущая непосредственно на страницу с примененными фильтрами, и вы уверены, что эта страница не является статически сгенерированной посадочной, вероятно, работает этот механизм. Также косвенным признаком может быть трафик на глубинные страницы фильтрации.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.