Яндекс патентует метод создания краткого изложения текста (например, для сниппетов в SERP) путем анализа самого текста без внешних онтологических словарей. Система выделяет «концептуальные фразы» и оценивает их важность на основе контекстно-независимых (лексическое сходство) и контекстно-зависимых (частота совместного упоминания в предложениях) связей. Предложения, содержащие наиболее важные фразы, выбираются для формирования краткого изложения или для категоризации документа.
Автор: Виктор Репин
Система Google поддерживает актуальность различных коллекций URL (закладки пользователей, история поиска, электронные письма), используя основной поисковый индекс как эталон канонических адресов. Если сохраненный URL устарел, система автоматически заменяет его на актуальную версию. Также описан механизм уведомления владельцев сайтов о неработающих исходящих ссылках.
Патент Google описывает систему поиска похожих изображений, основанную на эмбеддингах. Система проецирует изображения в многомерное пространство признаков, учитывая как визуальное сходство (внешний вид), так и семантическое сходство (контекстный смысл и метаданные). Это позволяет находить релевантные изображения путем векторного поиска.
Яндекс патентует метод автоматического создания тезауруса (базы синонимов, антонимов, гиперонимов и ассоциаций) путем анализа больших массивов текста. Система определяет семантическую связь между словами или фразами, сравнивая контекст, в котором они используются (Similarity и Inclusion), и частоту их появления в одном предложении (Co-occurrence). Это позволяет поисковой системе лучше понимать язык и расширять запросы пользователей.
Яндекс патентует метод кластеризации связанных изображений (например, с одной страницы или визуально похожих) в единый блок на странице результатов поиска (SERP). Позиция всей группы определяется рангом наилучшего изображения внутри нее. Это оптимизирует выдачу и позволяет одному сильному изображению повысить видимость связанных с ним картинок.
Яндекс патентует метод улучшения выдачи Яндекс Картинок путем объединения визуально похожих изображений, найденных на одной веб-странице, в отдельные группы (серии). Система заранее (офлайн) анализирует визуальные характеристики изображений (HOG, цветовые гистограммы) и формирует эти группы в индексе. На выдаче эти серии отображаются как единый, визуально отличимый блок, что упрощает поиск связанных коллекций (например, инструкций или фотоотчетов).
Патент Google описывает систему для анализа контента документа в реальном времени (например, по мере ввода текста пользователем). Система идентифицирует ключевые фактические сущности и контекст их упоминания, а затем отображает релевантные Панели Знаний рядом с документом в среде приложения (например, в текстовом редакторе).
Яндекс патентует механизм отображения иерархических результатов поиска. Стандартный сниппет может быть расширен пользователем по клику для отображения интерактивного контента (например, видеоплеера или карты). Это взаимодействие происходит непосредственно на странице выдачи (SERP), без перехода на сайт-источник и без всплывающих окон.
Яндекс патентует метод определения конкретной задачи пользователя («сценария») на основе запроса и его истории поиска. Система выбирает подходящие вертикальные источники (например, Маркет, Картинки) и автоматически генерирует уточненную переформулировку запроса. Это уточнение уникально для комбинации сценария и источника, позволяя показывать высокорелевантные результаты, часто в виде виджетов или вкладок на SERP.
Яндекс патентует механизм динамического отображения дополнительной, часто интерактивной, информации о сайте прямо на странице результатов поиска (SERP). По команде пользователя (например, клику) стандартный сниппет расширяется или заменяется новым функциональным блоком, позволяя выполнить действие или получить ответ, не покидая страницу поиска.
Google использует систему для борьбы с лично нежелательным контентом (например, «revenge porn»). Система применяет два классификатора: один определяет, является ли контент нежелательным (например, порнографическим), а второй — является ли он любительским. Если контент одновременно нежелательный и любительский, он удаляется из выдачи. Система также проактивно анализирует запросы с низкой популярностью для выявления нового такого контента.
Патент Google, описывающий алгоритмы для оптимизации наборов критериев отбора (преимущественно в рекламных системах). Система использует два ключевых механизма: итеративный выбор критериев с максимальным инкрементальным приростом эффективности (диверсификация) и каноникализацию связанных терминов (Expansion Reversion) для устранения дублирования.
Система ранжирования для специализированного поиска (музыка), которая вычисляет Персональную оценку (на основе истории пользователя) и Публичную оценку (на основе глобальной популярности). Система комбинирует эти оценки для формирования выдачи и использует обратную связь пользователя для динамической корректировки весов факторов (Learning to Rank).
Яндекс патентует систему динамического формирования объектных ответов (Колдунщиков) на SERP. Система определяет интент пользователя, чтобы выбрать и упорядочить компоненты объекта (например, Биография, Фильмография). Ключевой механизм — дополнение этих компонентов ссылками на «наиболее подходящий результат» из органического поиска. Также описывается использование интерактивных вкладок для смены интента и показ связанных объектов из разных доменов.
Яндекс патентует метод обогащения поисковой выдачи для запросов о конкретных сущностях. Система идентифицирует главную сущность запроса, определяет связанные с ней тематические категории («домены объекта») и находит другие семантически связанные сущности внутри этих категорий. Результаты из разных категорий отображаются в структурированном блоке на SERP (например, в Графе Знаний или Колдунщике), который может включать интерактивные фильтры.
Яндекс патентует систему, которая определяет жизненную ситуацию пользователя («Сценарий», например, переезд или командировка) и его местоположение. На основе этих данных система автоматически составляет персонализированный и упорядоченный список релевантных мест (банков, магазинов, госучреждений), необходимых в этой ситуации. Это избавляет пользователя от необходимости выполнять множество ручных поисков.
Google использует механизм для понимания того, что именно пользователь выделяет на экране (текст или изображение). Система идентифицирует конкретную сущность (референт) в выделенном фрагменте, используя контекст (местоположение, историю поиска, окружающий контент). На основе идентифицированной сущности система предлагает пользователю контекстные действия, например, позвонить, построить маршрут или найти отзывы.
Яндекс патентует метод улучшения выдачи Яндекс Картинок путем отображения «Серий» (Групп) изображений. Система заранее (офлайн) находит визуально похожие изображения, расположенные на одной и той же веб-странице, и объединяет их в группу. На поисковой выдаче эти группы отображаются как визуально отличимые блоки (например, несколько миниатюр подряд), позволяя пользователю сразу увидеть коллекцию связанных изображений.
Google использует этот механизм для улучшения релевантности рекламы на странице результатов поиска. Система анализирует контент топовых органических результатов, извлекает из них ключевые сущности (концепции, продукты, бренды) и взвешивает их значимость. Затем эти сущности используются для выбора наиболее подходящих рекламных объявлений, позволяя таргетироваться на семантический контекст выдачи, а не только на ключевые слова запроса.
Яндекс патентует метод анализа контента для автоматического предоставления контекстной информации. Система идентифицирует объекты (сущности) в тексте, определяет их наиболее вероятное значение (устраняет неоднозначность) и рассчитывает оценку значимости (Context Relevancy Score). Для наиболее значимых сущностей система генерирует контекстные карточки (Object Reference Card).