Автор: Виктор Репин

Яндекс использует систему для оптимизации графиков сканирования, прогнозируя как долгосрочную популярность нового URL, так и скорость угасания этой популярности (краткосрочный интерес). Рассчитывая «Параметр выгоды от сканирования» на основе этих прогнозов, краулер отдает приоритет страницам, которые, как ожидается, будут очень популярными, но недолговечными, обеспечивая своевременное индексирование свежего, трендового контента.

2012 Патенты Google Семантика и интент

Как Google консолидирует оценки популярности и фильтрует подсказки в Autocomplete для оптимизации выдачи

Google использует механизм консолидации оценок в Autocomplete: популярность длинных запросов суммируется с популярностью их коротких префиксов. Это позволяет точнее определить реальный спрос. Затем система фильтрует список, предпочитая более длинные и информативные подсказки коротким, если длинная подсказка составляет значительную часть популярности короткой, оптимизируя интерфейс пользователя.

2012 Knowledge Graph Патенты Google Семантика и интент

Как Google использует визуальные (графовые) запросы для поиска структурированного контента и графиков на веб-страницах

Патент Google описывает систему, позволяющую пользователям визуально конструировать сложные запросы в виде графов (узлы и связи). Система преобразует этот граф в математическое представление (матрицу) и сравнивает его с аналогичными метаданными, извлеченными из веб-контента (например, из таблиц и диаграмм). Это позволяет находить ресурсы, структура данных которых соответствует структуре запроса пользователя.

2021 SERP Обучение моделей Патенты Яндекс Ранжирование

Как Яндекс генерирует «сложные негативные» примеры для обучения ранжирующих моделей

Яндекс патентует методы генерации высококачественных негативных примеров для обучения алгоритмов ранжирования. Вместо случайных нерелевантных документов система использует графы поведения пользователей и анализ позиций в выдаче для поиска «сложных негативов» — документов, которые популярны и контекстуально связаны с запросом через цепочку поисков, но при этом нерелевантны исходному интенту. Это позволяет точнее обучать модели отличать релевантный контент от близкого по теме, но не отвечающего на запрос пользователя.

2010 Патенты Google Персонализация Поведенческие сигналы

Как Google использует вовлеченность в приложения для ранжирования результатов в поиске на устройстве (On-Device Federated Search)

Патент Google, описывающий систему поиска на устройстве (например, смартфоне), которая объединяет результаты из интернета, системных данных и установленных сторонних приложений. Ключевой механизм — ранжирование источников (приложений) на основе предыдущих взаимодействий пользователя: чем чаще пользователь выбирает результаты из конкретного приложения, тем выше оно поднимается в будущих результатах поиска.

2022 SERP Патенты Яндекс Поведенческие факторы Ранжирование

Как Яндекс оптимизирует размещение виджетов и сниппетов на выдаче, учитывая их размер и полезность

Яндекс патентует метод оптимизации компоновки поисковой выдачи (SERP). Система обучается предсказывать полезность элемента (например, виджета или расширенного сниппета) на разных позициях, учитывая его визуальный размер. Ключевой механизм: если пользователь пропускает большой элемент и кликает на результат ниже, большой элемент получает штраф, пропорциональный его размеру. Это позволяет Яндексу находить оптимальное, а не обязательно самое высокое, место для каждого элемента.

2012 Dan Popovici Патенты Google Семантика и интент

Как Google автоматически оценивает и удаляет неэффективные синонимы и правила расширения запросов

Google использует механизм для оценки эффективности правил подстановки (синонимов). Если подставленный термин редко встречается в топовых результатах поиска или если пользователи не кликают на результаты, содержащие этот термин, система автоматически удаляет или понижает уверенность в этом правиле. Это позволяет поддерживать качество и точность понимания запросов.

2017 Luca Chiarandini Антиспам Мультимедиа Патенты Google Поведенческие сигналы

Как Google использует историю поисковых запросов на платформе для выявления пиратского контента, обходящего автоматические фильтры (Content ID)

Google использует механизм для обнаружения медиаконтента (например, видео на YouTube), который обходит стандартные системы контент-анализа (Content ID). Система анализирует историю поисковых запросов, которые приводили пользователей к уже удаленному (пиратскому) контенту. Затем она находит другие материалы, появлявшиеся в тех же результатах поиска, и оценивает их с помощью неконтентных сигналов (возраст канала, история нарушений), чтобы выявить потенциальные копии.

2023 Интент пользователя Обучение моделей Патенты Яндекс Семантический поиск

Как Яндекс генерирует «сложные» примеры (Hard Negatives) для обучения AI-моделей точному пониманию интента запросов

Яндекс патентует метод автоматической генерации «сложных негативных примеров» для обучения алгоритмов машинного обучения (MLA), определяющих схожесть запросов. Система ищет пары запросов, которые текстуально очень похожи (например, отличаются одним словом), но при этом ведут на совершенно разные результаты поиска и демонстрируют разное поведение пользователей. Это позволяет обучать AI-модели (например, YATI) тонкостям языка и точно различать интент, несмотря на текстовую близость.

2009 Paul Haahr SERP Патенты Google Персонализация Поведенческие сигналы

Как Google использует явно указанные пользователем предпочтения сайтов для персонализации и изменения ранжирования

Google позволяет пользователям явно указывать предпочитаемые сайты (вручную или принимая рекомендации системы). Система использует эти данные для корректировки выдачи: результаты с предпочитаемых сайтов могут повышаться в ранжировании или визуально выделяться. Это механизм явной персонализации, обеспечивающий пользователю контроль над отображением результатов.

2018 Патенты Яндекс Поведенческие факторы Рекомендательные системы Яндекс Дзен

Как Яндекс отбирает источники и персонализирует контент для своих Рекомендательных Систем (например, Дзен)

Патент Яндекса описывает двухкомпонентную систему генерации персональных рекомендаций. Первый компонент (офлайн) оценивает качество и пригодность сайтов (Source Suitability) на основе агрегированных поведенческих метрик и трафика. Второй компонент (онлайн) формирует ленту, смешивая контент из известных пользователю источников с новыми, подобранными с помощью коллаборативной фильтрации (SVD/PMI), и затем персонально ранжирует их.

2017 Патенты Яндекс Поведенческие факторы Рекомендательные системы Яндекс Дзен

Как Яндекс оценивает пригодность сайтов для рекомендаций и формирует персональную ленту контента

Патент описывает два ключевых механизма рекомендательных систем Яндекса (например, Дзен). Первый — офлайн-оценка «пригодности» сайтов на основе поведенческих метрик и структуры трафика. Второй — онлайн-генерация ленты, которая смешивает известные пользователю источники с новыми, найденными через коллаборативную фильтрацию (SVD или PMI), и финальное ранжирование контента ML-моделью.

2013 Патенты Google Свежесть контента Семантика и интент

Как Google выявляет краткосрочные (темпоральные) связи между ключевыми словами на основе текущих событий для отбора контента

Google анализирует свежие документы (новости, социальные сети) и сравнивает их с историческими данными, чтобы выявить новые, внезапно возникшие ассоциации между терминами. Это позволяет системе понять меняющийся контекст и временно связать термины. Эти «временные связи» затем используются для более релевантного отбора контента (преимущественно рекламы) во время актуальности события.

2017 Knowledge Graph Индексация Патенты Google Семантика и интент

Как Google использует машинное обучение для оптимизации обхода Knowledge Graph и поиска связанных концепций

Google оптимизирует обход Knowledge Graph для эффективного поиска семантически связанных фраз. Вместо анализа всех связей сущности система использует ML-модели для выбора только тех отношений (свойств), которые вероятнее всего приведут к ценным результатам. Этот выбор основан на истории поисковых запросов и контексте пользователя, что позволяет экономить вычислительные ресурсы и повышать релевантность предложений.

2017 Индексация Патенты Яндекс Свежесть контента Холодный старт

Как Яндекс приоритизирует сканирование новых страниц, прогнозируя их будущую популярность и скорость ее угасания

Яндекс патентует метод оптимизации очереди сканирования. Система прогнозирует не только общую будущую популярность новой страницы, но и то, как быстро эта популярность будет снижаться. Используя машинное обучение, обученное на исторических данных о трафике схожих по структуре URL (шаблонов), система рассчитывает «Параметр полезности просмотра». Страницы с высокой ожидаемой популярностью и быстрым ее угасанием сканируются в первую очередь.

2019 Индексация Краулинг Патенты Google Семантика и интент

Как Google нормализует словоформы при индексировании, используя стемминг и «Репрезентативные Токены»

Google оптимизирует поиск, обрабатывая морфологические варианты слов на этапе индексирования. Система определяет основу слова (стемму) и находит ее наиболее частотную форму в интернете («Репрезентативный Токен»). Этот токен добавляется в индекс вместе с исходным словом. Это позволяет находить релевантные документы независимо от словоформы, но при ранжировании отдается явное предпочтение точным совпадениям.

2020 Патенты Яндекс Поведенческие факторы Рекомендательные системы Яндекс Дзен

Как Яндекс персонализирует соотношение разных типов контента в рекомендательных системах (Дзен)

Яндекс патентует механизм для систем рекомендаций (например, Дзен), который определяет оптимальное соотношение (пропорции) различных типов контента (видео, статьи, картинки) для конкретного пользователя. Система сравнивает поведение пользователя (CTR, время просмотра) с поведением всех пользователей и динамически корректирует микс контента: если пользователь смотрит видео больше среднего, система увеличит долю видео в его ленте в заданных пределах.

2023 Интент пользователя Патенты Яндекс Персонализация Ранжирование

Как Яндекс использует двухступенчатую нейросетевую архитектуру для оптимизации и ускорения персонализированного ранжирования

Яндекс патентует двухступенчатую архитектуру на базе нейронных сетей (Трансформеры/BERT) для эффективного персонализированного ранжирования. Первая ступень анализирует историю поиска пользователя и текущий запрос, создавая единое пользовательское представление. Вторая ступень быстро сопоставляет это представление с множеством документов-кандидатов для генерации персонализированных оценок релевантности. Это позволяет использовать сложные модели в реальном времени.

2017 Google Shopping Антиспам Патенты Google

Как Google адаптивно сортирует комментарии и UGC в зависимости от популярности («buzziness») страницы

Google использует адаптивный механизм для сортировки пользовательского контента (UGC), такого как комментарии или посты в социальных сетях, связанных с веб-страницей. Если страница популярна или трендовая («buzzy»), система отдает приоритет самым свежим комментариям. Если страница не является трендовой, система отдает приоритет самым качественным комментариям, основываясь на авторитете автора, длине контента и других сигналах.

2017 SERP Вертикальный поиск Интент пользователя Патенты Яндекс

Как Яндекс пропускает основную выдачу и сразу показывает результаты вертикального поиска (Картинки, Видео, Погода)

Яндекс патентует механизм, позволяющий пропустить стандартную страницу результатов поиска (SERP) и сразу показать пользователю выдачу конкретного вертикального сервиса (например, Яндекс Картинки или Видео). Это происходит, если система с высокой степенью уверенности определяет, что именно этот вертикальный поиск является наилучшим ответом на запрос. Уверенность рассчитывается на основе анализа интента запроса, ключевых слов и исторического поведения пользователей.