Яндекс патентует метод автоматического создания высококачественных «негативных примеров» для обучения своих алгоритмов ранжирования. Система анализирует сессии, где пользователь уточняет свой запрос. Если пользователь переформулировал Запрос 1 в Запрос 2, система берет результат из выдачи Запроса 1 и помечает его как нерелевантный для Запроса 2. Это позволяет моделям машинного обучения лучше отличать релевантные документы от похожих, но не отвечающих финальному интенту пользователя.
Автор: Виктор Репин
Патент описывает систему Google для верификации того, что нативное мобильное приложение и соответствующая веб-страница отображают идентичный контент (Consistent Content). Система сравнивает контент, используя N-gram анализ, сопоставление сущностей и сравнение признаков. Только верифицированные пары адресов используются для генерации «Native Application Search Results» (App Deep Links) в выдаче, гарантируя, что пользователь увидит ожидаемый контент при открытии приложения из поиска.
Яндекс патентует метод для глубокого понимания интересов пользователя. Система преобразует разнородные действия (поисковые запросы, посещенные сайты, геолокацию) в векторы и размещает их в многомерном пространстве так, чтобы близость векторов отражала близость событий во времени. Эти векторы агрегируются на разных временных масштабах (часы, дни), создавая многослойный профиль интересов для персонализации контента и поиска похожих пользователей.
Google использует механизм иерархического скоринга для ранжирования сущностей (например, брендов или исполнителей) в вертикальных поисках (non-WWW corpus). Популярность родительской сущности рассчитывается на основе агрегированной популярности дочерних (например, товаров или треков). Система использует данные о запросах и CTR из основного веб-поиска (WWW corpus) для определения популярности и применяет геолокацию и язык для устранения неоднозначности.
Яндекс патентует метод оптимизации поискового индекса в условиях ограниченных ресурсов. Система оценивает прогнозируемую или фактическую полезность документа (на основе поведения пользователей) и его размер. Используя модифицированный алгоритм LambdaMART, Яндекс ранжирует документы так, чтобы максимизировать суммарную пользу индекса в рамках заданного объема хранилища, отдавая предпочтение документам с наилучшим соотношением пользы к затратам на хранение.
Яндекс патентует метод для построения комплексных профилей пользователей путем преобразования разнородных событий (запросы, посещенные места, просмотры страниц) в векторы в общем многомерном пространстве. Система использует иерархический подход с нейросетями (включая Сиамские сети) для агрегации данных на разных временных масштабах (от минут до месяцев), позволяя оценивать как краткосрочные намерения, так и долгосрочные интересы пользователя для глубокой персонализации контента.
Google анализирует вовлеченность пользователей (полезность), сравнивая фактическую удовлетворенность (Good Utilization Events) с ожидаемой вовлеченностью для данной позиции ранжирования. На основе этого рассчитывается Correction Factor для повышения документов, превосходящих ожидания, и понижения тех, которые им не соответствуют. Эта система также влияет на приоритеты сканирования и решения об индексации.
Google использует систему для индексации содержимого структурированных файлов, таких как KML (географические данные). Система извлекает отдельные элементы данных (например, метки мест) из файла-контейнера и превращает их в самостоятельные поисковые записи. Критически важно, что эти извлеченные элементы наследуют авторитетность (PageRank, популярность) исходного файла, что используется для их ранжирования в поиске.
Google использует механизм для классификации веб-страниц, основанный на анализе исторических поисковых логов. Система «распространяет» тематическую классификацию с известных сайтов на неизвестные через анализ запросов, по которым они совместно ранжируются, и поведение пользователей (клики, позиция в выдаче). Эта классификация затем используется для построения профилей пользователей и персонализации результатов поиска.
Google генерирует «Связанные запросы», анализируя данные о предпочтениях пользователей (клики, dwell time). Система ищет запросы, которые одновременно связаны с исходным запросом через общие качественные результаты (Quality Score) и привносят новизну (Diversity Score). Также применяется фильтрация, гарантирующая разнообразие между самими предложенными уточнениями (Intra-Suggestion Diversity) и соблюдение географической консистентности.
Google патентует механизм генерации предложений связанных запросов, привязанных к конкретным результатам поиска (сниппетам). Используя модель D-Q-D, основанную на поведении пользователей (клики и время пребывания), система находит альтернативные запросы, которые ведут к релевантному, но разнообразному (diverse) контенту, позволяя пользователям исследовать смежные темы.
Яндекс патентует метод оценки важности новостных событий для push-уведомлений. Важность рассчитывается как произведение авторитетности источника (Source Weight), определяемой по его реальному трафику (логи браузеров, Метрика, клики из поиска), и свежести публикации (Freshness). Новости кластеризуются по темам, и общая важность события (Importance Rank) определяется суммой оценок статей в кластере, выявляя тренды по концентрации публикаций авторитетных СМИ.
Google использует алгоритм для идентификации наиболее важных страниц сайта (Primary Resources), которые затем отображаются как Sitelinks в поисковой выдаче. Система строит иерархическую модель сайта на основе структуры URL (а не ссылок) и оценивает каждую страницу по нескольким критериям: глубина в иерархии, количество дочерних страниц, количество внешних и внутренних ссылок, PageRank и качество контента. Этот метод позволяет выбирать Sitelinks даже без данных о трафике.
Google использует масштабируемую распределенную систему для анализа огромных графов, таких как Веб-граф (триллионы связей). Система вычисляет кратчайшие пути от каждого узла (сайта) до набора предопределенных авторитетных источников («Seeds»). Эти расстояния используются для расчета метрик авторитетности и ранжирования сайтов: чем ближе сайт к доверенным источникам, тем выше его предполагаемое качество.
Яндекс патентует метод селективного индексирования для оптимизации использования хранилища. Система оценивает «полезность» документа (на основе прошлых или прогнозируемых взаимодействий пользователей) и его «стоимость» (размер файла). Алгоритм машинного обучения (Listwise LTR, например, LambdaMART) ранжирует документы так, чтобы максимизировать суммарную полезность индекса в рамках ограниченного объема хранилища. Документы с низкой полезностью и большим размером могут быть исключены из индекса.
Яндекс патентует механизм внедрения блоков со связанными запросами (например, «Похожие запросы») в основную поисковую выдачу. Позиция этого блока определяется отдельным алгоритмом ранжирования. Ключевым фактором для ранжирования как органических результатов, так и самого блока связанных запросов, является «Долгий клик» (среднее время, проведенное пользователями на сайтах / Dwell Time).
Яндекс использует технологию для точной идентификации объектов на веб-странице (таких как реклама, логотипы, карты или формы). Система анализирует не только исходный код (HTML/CSS), но и финальный визуальный вид страницы после рендеринга. Это позволяет Яндексу понимать структуру страницы и расположение элементов так, как их видит пользователь, что критично для оценки качества и юзабилити сайта.
Google использует внешние «офлайн-сигналы» для ранжирования документов с плохой ссылочной структурой (книги, журналы). К ним относятся: попадание в списки бестселлеров (с учетом локации пользователя), данные о тиражах, общие продажи издателя или автора, а также ссылочный вес связанных веб-сайтов. Эти сигналы комбинируются с традиционной оценкой релевантности.
Google использует систему для оценки и ранжирования онлайн-сообществ (например, форумов или групп в социальных сетях). Система анализирует, кто участвует в сообществе (их репутацию и экспертизу), как они взаимодействуют (качество и количество активности), а также общие сигналы здоровья сообщества (спам, отток участников). Сообщества с авторитетными и активными участниками ранжируются выше в поиске и рекомендациях.
Яндекс патентует метод генерации высококачественных обучающих данных для алгоритмов машинного обучения (MLA), определяющих схожесть запросов по тексту. Система находит пары запросов, которые текстуально очень похожи (например, отличаются одним словом), но ведут к разным результатам поиска и поведению пользователей. Эти пары используются как «сложные отрицательные примеры», обучая модель улавливать тонкие различия в интенте.