Автор: Виктор Репин

2006 Paul Haahr Simon Tong Патенты Google Поведенческие сигналы Свежесть контента Ссылки

Как Google использует исторические данные, поведение пользователей и анализ трендов для ранжирования документов

Анализ патента Google, описывающего систему оценки качества документов на основе исторических данных. Система анализирует, как контент, ссылки и поведение пользователей меняются с течением времени. Патент описывает механизмы определения свежести контента, выявления спама через анализ скорости роста ссылок и оценки авторитетности домена. Особое внимание уделяется тому, как система учится на предпочтениях пользователей, повышая в ранжировании документы, которые пользователи выбирают чаще, даже если эти документы старше или изначально ранжировались ниже.

2024 Асессоры Обучение моделей Патенты Яндекс Поведенческие факторы Ранжирование

Как Яндекс обучает трансформерные модели (YATI) для ранжирования, комбинируя данные о кликах и оценки асессоров

Яндекс использует многоэтапный процесс для обучения трансформерных моделей (типа BERT/YATI). Модель сначала обучается на миллиардах кликов (прогнозируя поведение), затем дообучается на миллионах оценок асессоров (понимая качество). Ключевой этап — перенос знаний от асессоров обратно на данные о кликах (Knowledge Distillation) для масштабирования качества. Также в патенте описано, как метаданные (URL, Title) обрабатываются трансформером как семантические единицы.

2008 EEAT и качество Manjunath Srinivasaiah Антиспам Патенты Google Ссылки

Как Google использует анализ связей («Скажи мне, кто твой друг») для определения характеристик и проверки достоверности сущностей (E-E-A-T)

Анализ патента Google, описывающего метод определения характеристик онлайн-сущностей (сайтов, авторов, организаций) путем анализа характеристик связанных с ними сущностей. Система сравнивает профиль связей сущности с эталонными профилями, чтобы вывести недостающую информацию (например, тематику или авторитетность) или проверить достоверность заявленных данных (например, экспертизу).

2024 Патенты Яндекс Персонализация Поведенческие факторы Ранжирование

Как Яндекс использует долгосрочную историю поиска и контекст текущей сессии для глубокой персонализации ранжирования

Яндекс применяет двухкомпонентную систему машинного обучения для персонализации выдачи. Первая модель агрегирует долгосрочную историю поиска пользователя в компактное векторное представление (профиль интересов). Вторая модель в реальном времени использует этот вектор вместе с данными текущей сессии (недавние запросы и действия) для предсказания вероятности взаимодействия с документом и переранжирования результатов.

2005 Патенты Google Поведенческие сигналы Семантика и интент Ссылки

Как Google использует навигационные запросы, клики и анкорный текст для определения глобального качества сайта

Google анализирует потоки запросов, чтобы определить, когда пользователи целенаправленно ищут конкретный сайт (навигационный интент). Если система подтверждает это через доминирование в кликах, анкорных текстах или совпадение с URL/заголовком, ресурс получает глобальное повышение оценки качества. Это помогает сайту лучше ранжироваться по всем последующим запросам.

2015 E-commerce SEO SERP Патенты Яндекс Ссылки

Как Яндекс генерирует прямые ссылки (Deep Links) на структурированные сайты, минуя традиционное сканирование

Яндекс патентует метод генерации прямых ссылок (Deep Links) на релевантные страницы структурированных сайтов (например, авиабилеты, E-commerce) без их предварительного сканирования. Система определяет подходящий сайт, извлекает параметры из запроса пользователя и динамически конструирует целевой URL с помощью шаблона адресации этого сайта (Address Template), решая проблему индексации сайтов с огромным количеством комбинаторных страниц.

2024 Патенты Google Персонализация Поведенческие сигналы Ссылки

Как Google использует On-Device ML и историю навигации для прогнозирования следующих шагов пользователя и создания динамических прямых ссылок в SERP

Google патентует систему, которая использует модель машинного обучения (часто работающую локально в браузере), обученную на последовательностях действий пользователей. Модель предсказывает, на какую конкретную страницу (Action Interface) пользователь захочет перейти после поиска. Система генерирует прямой ярлык (Shortcut) на эту целевую страницу (например, «Бронирование» или «Цены») и отображает его в SERP, ускоряя навигацию.

2020 Индексация Патенты Яндекс Поведенческие факторы Ранжирование

Как Яндекс модифицирует инвертированный индекс на основе кликов, позволяя документам ранжироваться по терминам, которых в них нет

Яндекс патентует метод обогащения инвертированного индекса поведенческими данными. Если пользователи кликают на документ, в котором отсутствует один из терминов запроса (найденный благодаря «Правилу Кворума»), система добавляет в индекс «неявную словопозицию» (CTP). Это позволяет документу в будущем находиться на ранней стадии поиска (L1 Retrieval) по этому термину, даже если текст его не содержит.

2020 Интент пользователя Патенты Яндекс Поведенческие факторы Ранжирование

Как Яндекс создает векторы аннотации документа, объединяя лингвистику запросов и поведение пользователей

Яндекс патентует метод генерации факторов ранжирования, называемых «векторами аннотации». Система анализирует все прошлые запросы, по которым пользователи находили конкретный документ, изучает лингвистические характеристики этих запросов и фиксирует поведение пользователей (клики, время на сайте). Эти данные объединяются в векторы. Если запросы схожи, создается один усредненный вектор; если различны (разные интенты) — они кластеризуются, и для каждого кластера создается свой вектор. Эти векторы используются основными алгоритмами ранжирования.

2020 SERP Патенты Яндекс Поведенческие факторы Ранжирование

Как Яндекс использует исторически успешные паттерны поиска (пары Запрос-Документ) для переранжирования текущей выдачи

Яндекс использует механизм переранжирования, основанный на исторических данных (логи поведения или оценки асессоров). Система находит прошлые пары «запрос-документ», похожие на текущую ситуацию. Если прошлая пара была высоко оценена (например, имела высокий CTR или высокую оценку качества), система агрессивно повышает ранг текущего документа, корректируя оценку основного алгоритма ранжирования.

2019 Патенты Яндекс Поведенческие факторы Ранжирование Семантический поиск

Как Яндекс создает профиль релевантности документа на основе запросов, которые к нему приводят, и поведения пользователей

Яндекс патентует метод генерации «Аннотационных векторов» для документов. Эти векторы агрегируют лингвистические характеристики всех запросов, по которым пользователи находили документ, и связанные с ними поведенческие метрики (CTR, Dwell Time). Система может кластеризовать эти данные для идентификации разных интентов, которые обслуживает документ. Эти векторы используются как признаки ранжирования, в частности, в моделях DSSM и основной формуле.

2018 EEAT и качество Патенты Google Поведенческие сигналы Семантика и интент

Как Google использует внешние данные для оценки репутации сущностей и их взаимной привлекательности в вертикальном поиске

Google использует систему для улучшения вертикального поиска (например, вакансий, недвижимости) путем оценки взаимной привлекательности двух разных типов сущностей (например, соискателя и вакансии). Система агрегирует данные из внешних источников для выявления скрытых атрибутов и расчета «Репутационной значимости» каждой сущности. На основе этих данных определяется метрика «Двухстороннего соответствия», которая используется для ранжирования.

2024 Matthew Sharifi Victor Carbune Патенты Google Семантика и интент Ссылки Техническое SEO

Как Google планирует заменить статические веб-сайты страницами, генерируемыми ИИ на лету из «сырого» контента

Патент описывает радикально новую архитектуру веба («Generative Navigational Corpus»), где контент-провайдеры предоставляют «сырые» данные (Seed Content), а Большая Фундаментальная Модель (LFM) генерирует веб-страницы, UI и ссылки в реальном времени, адаптируя формат и структуру под конкретный интент пользователя и контекст навигации.

2018 SERP Патенты Яндекс Поведенческие факторы Ранжирование Холодный старт

Как Яндекс использует алгоритмы «Многорукого бандита» для тестирования и продвижения новых документов в ТОП выдачи

Яндекс использует механизм «Exploration vs. Exploitation» для решения проблемы «холодного старта» новых документов, у которых нет накопленных поведенческих данных. Система предсказывает их потенциальную релевантность на основе контента и структуры, вычисляет «Exploration Score» с помощью Bandit-алгоритмов и принудительно добавляет лучшие из них на высокие позиции в SERP. Это позволяет собрать данные о поведении пользователей и улучшить ранжирование в долгосрочной перспективе.

2012 Антиспам Индексация Патенты Google Ссылки

Как Google использует алгоритмы распространения меток (Label Propagation) для классификации сайтов и сущностей в масштабе всей сети

Анализ патента Google, описывающего инфраструктуру для выполнения алгоритмов распространения меток (LPA) на огромных графах. Эта технология позволяет Google эффективно классифицировать веб-страницы и сайты (например, по качеству, тематике или спамности), распространяя эти метки на основе структуры связей и весов в графе.

2004 EEAT и качество Антиспам Патенты Google Ссылки

Как Google использует математические производные PageRank для выявления и нейтрализации ссылочного спама (Link Farms и Web Rings)

Google использует метод обнаружения искусственного завышения рейтинга (например, PageRank) путем вычисления математической производной функции ранжирования по отношению к «фактору связности» (coupling factor). Резкие изменения этой производной (сильно положительные или отрицательные) сигнализируют о наличии структур ссылочного спама, таких как Link Farms или Web Rings (PBN), позволяя Google применять корректирующие меры.

2018 Патенты Яндекс Персонализация Поведенческие факторы Ранжирование

Как Яндекс обучает персонализированные модели ранжирования прямо на устройстве пользователя, используя данные о микроповедении (скроллинг, движение мыши)

Яндекс патентует метод клиентской персонализации. Система отслеживает детальные взаимодействия пользователя (скорость скроллинга, движения мыши, копирование текста) прямо на его устройстве. На основе этих данных локально обучается персональная модель ранжирования. Затем эта модель отправляется на сервер Яндекса, где она комбинируется с основной формулой ранжирования (например, путем переобучения) для создания высокоточной персонализированной выдачи.

2017 Индексация Патенты Яндекс Поведенческие факторы Ранжирование Семантический поиск

Как Яндекс индексирует и ранжирует страницы без ключевых слов в тексте, используя данные о поведении пользователей в сессии

Яндекс патентует метод создания «Аннотированного Поискового Индекса». Если пользователи в рамках одной поисковой сессии переходят с релевантной страницы на другую и проводят там значительное время (например, более 30 секунд), вторая страница может быть проиндексирована по исходному запросу, даже если она не содержит ни одного слова из этого запроса. Это позволяет находить контент на основе поведенческой релевантности.

2019 SERP Интент пользователя Навигационные запросы Патенты Яндекс Ранжирование

Как Яндекс автоматически перенаправляет пользователя на сайт, минуя SERP, если уверен в результате

Яндекс патентует механизм автоматического «Мгновенного Ответа». Если система определяет, что один документ значительно релевантнее остальных (Relevancy Differential) и с высокой вероятностью полностью удовлетворяет запрос (Likelihood Parameter, основанный на анализе Заголовка, URL и CTR), она перенаправляет пользователя напрямую на этот сайт, не показывая страницу результатов поиска (SERP).

2023 Антикачество Антиспам Патенты Яндекс Ссылки

Как Яндекс использует граф ссылок и оценки доверия для приоритизации проверки сайтов на вирусы и спам

Яндекс патентует метод оптимизации ресурсов при проверке сайтов на вредоносный контент. Система строит граф связей между сайтами и присваивает им оценки доверия (Trust Scores) на основе истории ранжирования и поведения пользователей. Доверие наследуется по принципу «слабого звена»: ресурс получает наименьшую оценку из всех ссылающихся на него сайтов. Ресурсы с наименьшим доверием проверяются в первую очередь с помощью алгоритма кратчайшего пути.