Автор: Виктор Репин

Яндекс использует систему для оптимизации графиков сканирования, прогнозируя как долгосрочную популярность нового URL, так и скорость угасания этой популярности (краткосрочный интерес). Рассчитывая «Параметр выгоды от сканирования» на основе этих прогнозов, краулер отдает приоритет страницам, которые, как ожидается, будут очень популярными, но недолговечными, обеспечивая своевременное индексирование свежего, трендового контента.

Google использует механизм консолидации оценок в Autocomplete: популярность длинных запросов суммируется с популярностью их коротких префиксов. Это позволяет точнее определить реальный спрос. Затем система фильтрует список, предпочитая более длинные и информативные подсказки коротким, если длинная подсказка составляет значительную часть популярности короткой, оптимизируя интерфейс пользователя.

Патент Google описывает систему, позволяющую пользователям визуально конструировать сложные запросы в виде графов (узлы и связи). Система преобразует этот граф в математическое представление (матрицу) и сравнивает его с аналогичными метаданными, извлеченными из веб-контента (например, из таблиц и диаграмм). Это позволяет находить ресурсы, структура данных которых соответствует структуре запроса пользователя.

Яндекс патентует методы генерации высококачественных негативных примеров для обучения алгоритмов ранжирования. Вместо случайных нерелевантных документов система использует графы поведения пользователей и анализ позиций в выдаче для поиска «сложных негативов» — документов, которые популярны и контекстуально связаны с запросом через цепочку поисков, но при этом нерелевантны исходному интенту. Это позволяет точнее обучать модели отличать релевантный контент от близкого по теме, но не отвечающего на запрос пользователя.

Патент Google, описывающий систему поиска на устройстве (например, смартфоне), которая объединяет результаты из интернета, системных данных и установленных сторонних приложений. Ключевой механизм — ранжирование источников (приложений) на основе предыдущих взаимодействий пользователя: чем чаще пользователь выбирает результаты из конкретного приложения, тем выше оно поднимается в будущих результатах поиска.

Яндекс патентует метод оптимизации компоновки поисковой выдачи (SERP). Система обучается предсказывать полезность элемента (например, виджета или расширенного сниппета) на разных позициях, учитывая его визуальный размер. Ключевой механизм: если пользователь пропускает большой элемент и кликает на результат ниже, большой элемент получает штраф, пропорциональный его размеру. Это позволяет Яндексу находить оптимальное, а не обязательно самое высокое, место для каждого элемента.

Google использует механизм для оценки эффективности правил подстановки (синонимов). Если подставленный термин редко встречается в топовых результатах поиска или если пользователи не кликают на результаты, содержащие этот термин, система автоматически удаляет или понижает уверенность в этом правиле. Это позволяет поддерживать качество и точность понимания запросов.

Google использует механизм для обнаружения медиаконтента (например, видео на YouTube), который обходит стандартные системы контент-анализа (Content ID). Система анализирует историю поисковых запросов, которые приводили пользователей к уже удаленному (пиратскому) контенту. Затем она находит другие материалы, появлявшиеся в тех же результатах поиска, и оценивает их с помощью неконтентных сигналов (возраст канала, история нарушений), чтобы выявить потенциальные копии.

Яндекс патентует метод автоматической генерации «сложных негативных примеров» для обучения алгоритмов машинного обучения (MLA), определяющих схожесть запросов. Система ищет пары запросов, которые текстуально очень похожи (например, отличаются одним словом), но при этом ведут на совершенно разные результаты поиска и демонстрируют разное поведение пользователей. Это позволяет обучать AI-модели (например, YATI) тонкостям языка и точно различать интент, несмотря на текстовую близость.

Google позволяет пользователям явно указывать предпочитаемые сайты (вручную или принимая рекомендации системы). Система использует эти данные для корректировки выдачи: результаты с предпочитаемых сайтов могут повышаться в ранжировании или визуально выделяться. Это механизм явной персонализации, обеспечивающий пользователю контроль над отображением результатов.

Патент Яндекса описывает двухкомпонентную систему генерации персональных рекомендаций. Первый компонент (офлайн) оценивает качество и пригодность сайтов (Source Suitability) на основе агрегированных поведенческих метрик и трафика. Второй компонент (онлайн) формирует ленту, смешивая контент из известных пользователю источников с новыми, подобранными с помощью коллаборативной фильтрации (SVD/PMI), и затем персонально ранжирует их.

Патент описывает два ключевых механизма рекомендательных систем Яндекса (например, Дзен). Первый — офлайн-оценка «пригодности» сайтов на основе поведенческих метрик и структуры трафика. Второй — онлайн-генерация ленты, которая смешивает известные пользователю источники с новыми, найденными через коллаборативную фильтрацию (SVD или PMI), и финальное ранжирование контента ML-моделью.

Google анализирует свежие документы (новости, социальные сети) и сравнивает их с историческими данными, чтобы выявить новые, внезапно возникшие ассоциации между терминами. Это позволяет системе понять меняющийся контекст и временно связать термины. Эти «временные связи» затем используются для более релевантного отбора контента (преимущественно рекламы) во время актуальности события.

Google оптимизирует обход Knowledge Graph для эффективного поиска семантически связанных фраз. Вместо анализа всех связей сущности система использует ML-модели для выбора только тех отношений (свойств), которые вероятнее всего приведут к ценным результатам. Этот выбор основан на истории поисковых запросов и контексте пользователя, что позволяет экономить вычислительные ресурсы и повышать релевантность предложений.

Яндекс патентует метод оптимизации очереди сканирования. Система прогнозирует не только общую будущую популярность новой страницы, но и то, как быстро эта популярность будет снижаться. Используя машинное обучение, обученное на исторических данных о трафике схожих по структуре URL (шаблонов), система рассчитывает «Параметр полезности просмотра». Страницы с высокой ожидаемой популярностью и быстрым ее угасанием сканируются в первую очередь.

Google оптимизирует поиск, обрабатывая морфологические варианты слов на этапе индексирования. Система определяет основу слова (стемму) и находит ее наиболее частотную форму в интернете («Репрезентативный Токен»). Этот токен добавляется в индекс вместе с исходным словом. Это позволяет находить релевантные документы независимо от словоформы, но при ранжировании отдается явное предпочтение точным совпадениям.

Яндекс патентует механизм для систем рекомендаций (например, Дзен), который определяет оптимальное соотношение (пропорции) различных типов контента (видео, статьи, картинки) для конкретного пользователя. Система сравнивает поведение пользователя (CTR, время просмотра) с поведением всех пользователей и динамически корректирует микс контента: если пользователь смотрит видео больше среднего, система увеличит долю видео в его ленте в заданных пределах.

Яндекс патентует двухступенчатую архитектуру на базе нейронных сетей (Трансформеры/BERT) для эффективного персонализированного ранжирования. Первая ступень анализирует историю поиска пользователя и текущий запрос, создавая единое пользовательское представление. Вторая ступень быстро сопоставляет это представление с множеством документов-кандидатов для генерации персонализированных оценок релевантности. Это позволяет использовать сложные модели в реальном времени.

Google использует адаптивный механизм для сортировки пользовательского контента (UGC), такого как комментарии или посты в социальных сетях, связанных с веб-страницей. Если страница популярна или трендовая («buzzy»), система отдает приоритет самым свежим комментариям. Если страница не является трендовой, система отдает приоритет самым качественным комментариям, основываясь на авторитете автора, длине контента и других сигналах.

Яндекс патентует механизм, позволяющий пропустить стандартную страницу результатов поиска (SERP) и сразу показать пользователю выдачу конкретного вертикального сервиса (например, Яндекс Картинки или Видео). Это происходит, если система с высокой степенью уверенности определяет, что именно этот вертикальный поиск является наилучшим ответом на запрос. Уверенность рассчитывается на основе анализа интента запроса, ключевых слов и исторического поведения пользователей.