Google анализирует рейтинги контента (например, «для взрослых» или «для всех возрастов») в результатах поиска для вычисления «Оценки безопасности» (Safety Score) запроса. Если выдача содержит слишком много нежелательного контента или если безопасные результаты недостаточно релевантны, система может полностью заблокировать запрос или агрессивно отфильтровать выдачу, оставив только подтвержденный безопасный контент.
Автор: Виктор Репин
Яндекс патентует метод динамического определения и отображения уточнений запроса (SSQRs) на SERP. Система анализирует историю успешных («значимых») запросов и группирует их по схожести последующего поведения пользователей (клики по одним и тем же ссылкам). Для каждой поведенческой группы выбирается наиболее популярный запрос, из которого извлекается уникальный термин, предлагаемый пользователю как интерактивное уточнение для фильтрации выдачи.
Google анализирует, какие слова часто появляются вместе в поисковых запросах (совместная встречаемость), чтобы определить, является ли один термин хорошей заменой для другого (синонимом). Кроме того, система оценивает, насколько конкретный контекст (соседние слова) уточняет смысл запроса, и отфильтровывает неинформативные контексты для повышения точности понимания запросов.
Google использует этот механизм для ранжирования контента внутри нативных мобильных приложений, особенно тех, у которых нет веб-версии. Система находит похожие веб-страницы, измеряет степень сходства (Similarity Score) и переносит оценку релевантности (Relevance Score) этих веб-страниц на контент приложения. Это позволяет интегрировать диплинки приложений и ранжировать их наравне с веб-результатами в общей выдаче.
Google персонализирует интерфейс магазинов приложений (например, Google Play), анализируя запросы пользователя с помощью Word Embeddings и расширяя их через Knowledge Graph. Система формирует кластеры рекомендаций, объединяя найденные приложения с теми, которые пользователь устанавливал или открывал совместно (co-activity), а также используя Formal Concept Analysis для группировки по общим атрибутам.
Патент Google описывает архитектуру индексирования, при которой внутренние идентификаторы (DocID) присваиваются документам на основе их важности (например, PageRank). Более авторитетные документы получают приоритетные (меньшие) DocID. Это позволяет поисковой системе физически организовать индекс по важности и быстрее извлекать наиболее авторитетные результаты на этапе ранжирования.
Яндекс патентует метод ускорения A/B тестов. Система использует машинное обучение (Gradient Boosting) для прогнозирования будущего поведения пользователей на основе данных, собранных в начале эксперимента. Это позволяет быстрее оценить долгосрочный эффект от изменений в поиске (например, новых алгоритмов ранжирования) на ключевые метрики вовлеченности, симулируя более длительный эксперимент.
Google использует статистические модели для заполнения пробелов в Knowledge Graph, когда факты отсутствуют (например, предполагая дату рождения человека). Этот патент описывает, как система определяет наиболее влиятельные связанные данные (например, возраст супруга) и генерирует понятное объяснение, чтобы обосновать свое предположение пользователю.
Патент Google, описывающий механизм пользовательского интерфейса (UI) для медиаплатформ. Система отображает интерактивные карточки (Media Interfaces) для текущего контента и динамически подгружает карточки для связанного контента (видео или плейлистов) на основе схожести метаданных и анализа поведения пользователя. Это упрощает навигацию и обнаружение контента, особенно на устройствах с ограниченным экраном.
Патент Google, описывающий систему персонализации поиска на основе явных оценок пользователей (рейтинги, метки, комментарии). Система использует эти данные для изменения порядка результатов в будущих поисках этого конкретного пользователя. Также описан механизм вычисления «персонального рейтинга сайта» на основе оценок отдельных страниц и применения этого рейтинга к страницам того же сайта, которые пользователь еще не оценивал.
Google использует механизм для валидации синонимов, анализируя не только соседние слова в запросе (Adjacent Context), но и слова, расположенные далеко от исходного термина (Floating Context). Это позволяет точнее определять уместность синонима, опираясь на весь контекст запроса, и избегать неверных замен, если контекст их исключает.
Яндекс патентует эффективный метод расчета сложных текстовых факторов (близость слов запроса друг к другу, их совместное наличие в URL/заголовке) в момент выполнения поиска. Система использует предварительно сохраненные в индексе данные о позициях отдельных слов, чтобы динамически вычислить их взаимодействие. Эти данные обрабатываются нейронной сетью для создания мощного сигнала релевантности, который затем используется в основной формуле ранжирования (например, CatBoost).
Google использует механизм для помощи в уточнении широких или неоднозначных запросов. Система анализирует текст документов, попавших в топ выдачи по исходному запросу, и вычисляет частоту встречаемости терминов (Occurrence Count). Наиболее частые или статистически значимые термины предлагаются пользователю как опции (включить/исключить/повысить/понизить) для автоматического переформулирования запроса.
Яндекс патентует метод для систем рекомендаций (например, Дзен), позволяющий прогнозировать, как пользователи будут взаимодействовать с новым контентом, анализируя только его текст. Система обучает модель (Transfer Learning MLA) находить связь между текстом известных статей и их поведенческими метриками (Collaborative Embeddings). Это позволяет эффективно рекомендовать новые материалы сразу после их появления, даже без истории просмотров.
Google использует несколько механизмов для определения музыкального интента. Система анализирует состав поисковой выдачи на предмет наличия авторитетных музыкальных сайтов, сверяет запрос со специализированным индексом текстов песен и использует заранее сформированные белые списки. При подтверждении интента Google активирует Music Answer Box с прямыми ссылками на контент.
Яндекс патентует метод повышения качества ранжирования за счет расчета сложных текстовых факторов в реальном времени. Система использует предварительно сохраненные данные о позициях отдельных слов (query-independent) для динамического вычисления факторов совместной встречаемости и близости слов запроса (query-dependent). Эти динамические факторы обрабатываются нейронной сетью вместе с векторными представлениями слов, а результат используется основной моделью ранжирования (например, CatBoost).
Яндекс патентует метод для повышения точности оценки изменений в поиске (например, новых алгоритмов ранжирования). Система объединяет два типа метрик: интерпретируемые (показывающие направление изменения – лучше/хуже, например DAU) и чувствительные (показывающие магнитуду изменения, например CTR). Это позволяет Яндексу быстрее и точнее определять, какие изменения действительно улучшают взаимодействие пользователей с сервисом.
Патент описывает архитектуру Программируемой поисковой системы (Google CSE). Владельцы тематических сайтов могут передавать поисковой системе «контекстные файлы». Эти файлы содержат инструкции по модификации запроса, выбору коллекций документов для поиска, фильтрации и переранжированию результатов, адаптируя выдачу под свою экспертизу и контекст пользователя.
Google проверяет точность перевода фраз, сравнивая визуальное сходство результатов поиска по картинкам и видео для исходной фразы и ее перевода. Если топовые визуальные результаты похожи и показывают высокое качество взаимодействия, перевод считается валидным. Этот механизм используется для расширения запроса и показа релевантного контента на других языках (Cross-Lingual Information Retrieval).
Google использует метод Longest Common Subsequence (LCS) для идентификации лексически близких слов, таких как словоформы, аббревиатуры и составные слова. Система вычисляет самую длинную общую последовательность символов между двумя терминами и сравнивает ее длину с длиной более длинного термина. Если коэффициент схожести и расстояние редактирования соответствуют порогам, слова считаются кандидатами в синонимы, что улучшает понимание запросов.