Автор: Виктор Репин

Яндекс патентует метод автоматического создания высококачественных «негативных примеров» для обучения своих алгоритмов ранжирования. Система анализирует сессии, где пользователь уточняет свой запрос. Если пользователь переформулировал Запрос 1 в Запрос 2, система берет результат из выдачи Запроса 1 и помечает его как нерелевантный для Запроса 2. Это позволяет моделям машинного обучения лучше отличать релевантные документы от похожих, но не отвечающих финальному интенту пользователя.

2014 Индексация Патенты Google Семантика и интент Ссылки

Как Google проверяет соответствие контента в мобильных приложениях и на веб-страницах для показа App Deep Links в поиске

Патент описывает систему Google для верификации того, что нативное мобильное приложение и соответствующая веб-страница отображают идентичный контент (Consistent Content). Система сравнивает контент, используя N-gram анализ, сопоставление сущностей и сравнение признаков. Только верифицированные пары адресов используются для генерации «Native Application Search Results» (App Deep Links) в выдаче, гарантируя, что пользователь увидит ожидаемый контент при открытии приложения из поиска.

2016 Обучение моделей Патенты Яндекс Персонализация Поведенческие факторы Рекомендательные системы

Как Яндекс создает многослойные векторы интересов пользователя с учетом времени и контекста

Яндекс патентует метод для глубокого понимания интересов пользователя. Система преобразует разнородные действия (поисковые запросы, посещенные сайты, геолокацию) в векторы и размещает их в многомерном пространстве так, чтобы близость векторов отражала близость событий во времени. Эти векторы агрегируются на разных временных масштабах (часы, дни), создавая многослойный профиль интересов для персонализации контента и поиска похожих пользователей.

2012 Knowledge Graph Патенты Google Поведенческие сигналы Семантика и интент

Как Google использует иерархическую популярность связанных сущностей и данные веб-поиска для ранжирования в вертикальном поиске

Google использует механизм иерархического скоринга для ранжирования сущностей (например, брендов или исполнителей) в вертикальных поисках (non-WWW corpus). Популярность родительской сущности рассчитывается на основе агрегированной популярности дочерних (например, товаров или треков). Система использует данные о запросах и CTR из основного веб-поиска (WWW corpus) для определения популярности и применяет геолокацию и язык для устранения неоднозначности.

2021 Индексация Обучение моделей Патенты Яндекс Поведенческие факторы

Как Яндекс оптимизирует выбор документов для индекса, балансируя их пользу и размер

Яндекс патентует метод оптимизации поискового индекса в условиях ограниченных ресурсов. Система оценивает прогнозируемую или фактическую полезность документа (на основе поведения пользователей) и его размер. Используя модифицированный алгоритм LambdaMART, Яндекс ранжирует документы так, чтобы максимизировать суммарную пользу индекса в рамках заданного объема хранилища, отдавая предпочтение документам с наилучшим соотношением пользы к затратам на хранение.

2016 Обучение моделей Патенты Яндекс Персонализация Поведенческие факторы

Как Яндекс объединяет разные типы пользовательских данных (поиск, местоположение, клики) в иерархический векторный профиль для оценки интересов

Яндекс патентует метод для построения комплексных профилей пользователей путем преобразования разнородных событий (запросы, посещенные места, просмотры страниц) в векторы в общем многомерном пространстве. Система использует иерархический подход с нейросетями (включая Сиамские сети) для агрегации данных на разных временных масштабах (от минут до месяцев), позволяя оценивать как краткосрочные намерения, так и долгосрочные интересы пользователя для глубокой персонализации контента.

2011 EEAT и качество Индексация Патенты Google Поведенческие сигналы

Как Google использует нормализованные сигналы удовлетворенности пользователей для переранжирования выдачи и управления краулингом/индексацией

Google анализирует вовлеченность пользователей (полезность), сравнивая фактическую удовлетворенность (Good Utilization Events) с ожидаемой вовлеченностью для данной позиции ранжирования. На основе этого рассчитывается Correction Factor для повышения документов, превосходящих ожидания, и понижения тех, которые им не соответствуют. Эта система также влияет на приоритеты сканирования и решения об индексации.

2007 EEAT и качество Краулинг Патенты Google Ссылки

Как Google извлекает, индексирует и ранжирует элементы из структурированных файлов (например, KML), наследуя авторитет источника

Google использует систему для индексации содержимого структурированных файлов, таких как KML (географические данные). Система извлекает отдельные элементы данных (например, метки мест) из файла-контейнера и превращает их в самостоятельные поисковые записи. Критически важно, что эти извлеченные элементы наследуют авторитетность (PageRank, популярность) исходного файла, что используется для их ранжирования в поиске.

2009 Патенты Google Персонализация Поведенческие сигналы Семантика и интент

Как Google использует историю поиска и поведение пользователей для классификации документов и персонализации выдачи

Google использует механизм для классификации веб-страниц, основанный на анализе исторических поисковых логов. Система «распространяет» тематическую классификацию с известных сайтов на неизвестные через анализ запросов, по которым они совместно ранжируются, и поведение пользователей (клики, позиция в выдаче). Эта классификация затем используется для построения профилей пользователей и персонализации результатов поиска.

2009 Патенты Google Персонализация Поведенческие сигналы Семантика и интент

Как Google использует данные о кликах для генерации блока «Связанные запросы» (Related Searches), обеспечивая их качество и разнообразие

Google генерирует «Связанные запросы», анализируя данные о предпочтениях пользователей (клики, dwell time). Система ищет запросы, которые одновременно связаны с исходным запросом через общие качественные результаты (Quality Score) и привносят новизну (Diversity Score). Также применяется фильтрация, гарантирующая разнообразие между самими предложенными уточнениями (Intra-Suggestion Diversity) и соблюдение географической консистентности.

2010 Paul Haahr SERP Патенты Google Поведенческие сигналы Семантика и интент

Как Google использует модель «Документ-Запрос-Документ» (D-Q-D) для генерации разнообразных связанных запросов прямо в сниппетах результатов

Google патентует механизм генерации предложений связанных запросов, привязанных к конкретным результатам поиска (сниппетам). Используя модель D-Q-D, основанную на поведении пользователей (клики и время пребывания), система находит альтернативные запросы, которые ведут к релевантному, но разнообразному (diverse) контенту, позволяя пользователям исследовать смежные темы.

2022 EEAT Патенты Яндекс Ранжирование Яндекс Новости

Как Яндекс определяет важность новостей и авторитетность источников для генерации срочных уведомлений

Яндекс патентует метод оценки важности новостных событий для push-уведомлений. Важность рассчитывается как произведение авторитетности источника (Source Weight), определяемой по его реальному трафику (логи браузеров, Метрика, клики из поиска), и свежести публикации (Freshness). Новости кластеризуются по темам, и общая важность события (Importance Rank) определяется суммой оценок статей в кластере, выявляя тренды по концентрации публикаций авторитетных СМИ.

2011 EEAT и качество SERP Патенты Google Ссылки

Как Google анализирует структуру URL и сигналы качества для выбора Sitelinks (Primary Resources)

Google использует алгоритм для идентификации наиболее важных страниц сайта (Primary Resources), которые затем отображаются как Sitelinks в поисковой выдаче. Система строит иерархическую модель сайта на основе структуры URL (а не ссылок) и оценивает каждую страницу по нескольким критериям: глубина в иерархии, количество дочерних страниц, количество внешних и внутренних ссылок, PageRank и качество контента. Этот метод позволяет выбирать Sitelinks даже без данных о трафике.

2009 Knowledge Graph Антиспам Патенты Google Ссылки

Как Google рассчитывает авторитетность и ранжирует сайты, вычисляя кратчайшие пути до доверенных источников (Seeds) в Веб-графе

Google использует масштабируемую распределенную систему для анализа огромных графов, таких как Веб-граф (триллионы связей). Система вычисляет кратчайшие пути от каждого узла (сайта) до набора предопределенных авторитетных источников («Seeds»). Эти расстояния используются для расчета метрик авторитетности и ранжирования сайтов: чем ближе сайт к доверенным источникам, тем выше его предполагаемое качество.

2020 Индексация Метрики качества поиска Обучение моделей Патенты Яндекс

Как Яндекс оптимизирует поисковый индекс, выбирая документы на основе их полезности и размера (Selective Indexing)

Яндекс патентует метод селективного индексирования для оптимизации использования хранилища. Система оценивает «полезность» документа (на основе прошлых или прогнозируемых взаимодействий пользователей) и его «стоимость» (размер файла). Алгоритм машинного обучения (Listwise LTR, например, LambdaMART) ранжирует документы так, чтобы максимизировать суммарную полезность индекса в рамках ограниченного объема хранилища. Документы с низкой полезностью и большим размером могут быть исключены из индекса.

2017 SERP Метрики качества поиска Патенты Яндекс Поведенческие факторы Ранжирование

Как Яндекс ранжирует блоки связанных запросов в основной выдаче, используя метрику «Долгого клика» (Dwell Time)

Яндекс патентует механизм внедрения блоков со связанными запросами (например, «Похожие запросы») в основную поисковую выдачу. Позиция этого блока определяется отдельным алгоритмом ранжирования. Ключевым фактором для ранжирования как органических результатов, так и самого блока связанных запросов, является «Долгий клик» (среднее время, проведенное пользователями на сайтах / Dwell Time).

2017 Антикачество Индексация Качество контента Патенты Яндекс

Как Яндекс идентифицирует ключевые объекты на странице (логотипы, баннеры, формы) с помощью анализа кода и визуального рендеринга

Яндекс использует технологию для точной идентификации объектов на веб-странице (таких как реклама, логотипы, карты или формы). Система анализирует не только исходный код (HTML/CSS), но и финальный визуальный вид страницы после рендеринга. Это позволяет Яндексу понимать структуру страницы и расположение элементов так, как их видит пользователь, что критично для оценки качества и юзабилити сайта.

2004 EEAT и качество Индексация Патенты Google Поведенческие сигналы

Как Google использует офлайн-сигналы (продажи, тиражи, списки бестселлеров) для ранжирования книг и печатных изданий

Google использует внешние «офлайн-сигналы» для ранжирования документов с плохой ссылочной структурой (книги, журналы). К ним относятся: попадание в списки бестселлеров (с учетом локации пользователя), данные о тиражах, общие продажи издателя или автора, а также ссылочный вес связанных веб-сайтов. Эти сигналы комбинируются с традиционной оценкой релевантности.

2013 EEAT и качество SERP Патенты Google Поведенческие сигналы

Как Google ранжирует онлайн-сообщества, анализируя репутацию, экспертизу и активность их участников

Google использует систему для оценки и ранжирования онлайн-сообществ (например, форумов или групп в социальных сетях). Система анализирует, кто участвует в сообществе (их репутацию и экспертизу), как они взаимодействуют (качество и количество активности), а также общие сигналы здоровья сообщества (спам, отток участников). Сообщества с авторитетными и активными участниками ранжируются выше в поиске и рекомендациях.

2021 Интент пользователя Обучение моделей Патенты Яндекс Семантический поиск

Как Яндекс обучает модели понимания запросов, используя «сложные отрицательные примеры» (Hard Negatives)

Яндекс патентует метод генерации высококачественных обучающих данных для алгоритмов машинного обучения (MLA), определяющих схожесть запросов по тексту. Система находит пары запросов, которые текстуально очень похожи (например, отличаются одним словом), но ведут к разным результатам поиска и поведению пользователей. Эти пары используются как «сложные отрицательные примеры», обучая модель улавливать тонкие различия в интенте.