Автор: Виктор Репин

Патент Google описывает технологию автоматического анализа контента веб-страницы для выявления ключевых тем и терминов. Система генерирует релевантные поисковые запросы и динамически встраивает гиперссылки в текст страницы. При клике пользователь перенаправляется на страницу результатов поиска (SERP). Ключевая особенность: система приоритизирует термины с высоким потенциалом дохода от рекламы.

Яндекс патентует метод фильтрации и дедупликации поисковых подсказок и связанных запросов. Система определяет схожесть двух запросов-кандидатов на основе степени пересечения их результатов поиска (SERP Similarity). Если две подсказки ведут на схожие выдачи, система отображает только одну из них (с более высоким рангом), чтобы обеспечить разнообразие предложений для пользователя.

Google использует автоматизированную систему для выбора наиболее репрезентативных изображений бизнеса с его официального сайта. Система предпочитает локальные сайты филиалов, а не общие сайты сетей. Она анализирует структуру сайта для поиска разделов с изображениями, а затем оценивает сами изображения, отдавая предпочтение реальным цветным фотографиям высокого разрешения и отфильтровывая графику, баннеры и нежелательный контент.

Яндекс патентует метод обучения нейронных сетей (типа Трансформер) для генерации кратких ответов (например, для Алисы или быстрых ответов) на основе нескольких сниппетов из выдачи. Ключевая технология — «маска ограничения внимания». Она заставляет модель рассматривать контекст каждого сниппета изолированно, предотвращая смешивание информации из разных источников на этапе анализа, что улучшает качество суммаризации.

Google использует технологию в приложениях для чтения (eReaders), которая автоматически анализирует текст документа (например, электронной книги). Система идентифицирует «потенциально интересные термины» (сущности, концепции) с помощью NLP и словарей, ищет релевантную внешнюю информацию (карты, музыку, определения) и динамически вставляет гиперссылки (linkifies) в текст, не изменяя исходный документ.

Яндекс использует систему аукционов в реальном времени для выбора не только того, какие рекламные объявления показать, но и как именно их расположить. Система перебирает различные шаблоны (макеты SERP) и для каждого подбирает оптимальный набор объявлений, максимизируя общую ценность (доход, релевантность, CTR). Затем выбирается шаблон с наивысшей ценностью, определяя финальный вид рекламных блоков на странице.

Патент Яндекса описывает систему ранжирования задач на краудсорсинговой платформе (например, Толока) для асессоров. Система балансирует между предпочтениями асессоров и необходимостью получить точные ответы, особенно для новых или непопулярных задач. Это позволяет Яндексу собирать высококачественные и разнообразные данные (human evaluation), которые используются для обучения и валидации алгоритмов машинного обучения, включая ранжирование в Поиске.

Яндекс использует машинное обучение для прогнозирования того, насколько интересной будет рекомендуемая статья пользователю (уровень уверенности). В зависимости от этого уровня уверенности система динамически выбирает, как именно отобразить рекомендацию в браузере — от невидимого состояния (низкая уверенность) до крупного, заметного блока (высокая уверенность). Это оптимизирует пользовательский опыт и вовлеченность в рекомендательных системах, таких как Дзен.

Патент Google, описывающий систему монетизации онлайн-карт. Система определяет доступное рекламное пространство в зависимости от того, какая область карты видна пользователю (viewport) и насколько она приближена (zoom level). Рекламодатели делают ставки на показ объявлений, причем ставки и возможность показа могут зависеть от уровня масштабирования. Система проводит аукцион для выбора объявлений, релевантных видимой географической области.

Яндекс патентует метод для улучшения понимания запросов в диалоговых системах (IPA), таких как голосовые помощники. Система решает проблему неоднозначных последующих запросов (например, «А в Лондоне?» после вопроса о погоде). Текущий интент определяется путем комбинирования вероятности самого запроса и вероятности перехода от предыдущего интента к новому, что позволяет поддерживать контекст диалога.

Яндекс применяет систему фильтрации поисковых подсказок (Autocomplete) для удаления нежелательного контента. Если введенный запрос определяется как «потенциально запрещенный», система использует одну из двух логик: блокировку только специфических негативных продолжений (Черный список/Ban Marker) или разрешение только специфических безопасных продолжений (Белый список/Unban Marker). Это обеспечивает гибкий контроль над подсказками в чувствительных темах.

Патент Google описывает систему агрегации товарных предложений от разных продавцов в единый каталог продуктов (например, Google Shopping). Система использует анализ «почти дубликатов» изображений и данные о совместном появлении товаров в результатах поиска (Query Search Result Relationships) для точного сопоставления предложений с продуктами, даже если уникальные идентификаторы (GTIN, UPC) отсутствуют или ошибочны.

Яндекс патентует гибридный метод оценки контента, объединяющий мнения людей-экспертов (асессоров) и алгоритмов машинного обучения (MLA). Система использует Байесовский подход для расчета уровня достоверности результата, учитывая историческую надежность каждого источника. Это позволяет Яндексу масштабировать генерацию данных для обучения ранжирующих моделей (например, Proxima) и фильтрации выдачи (например, SafeSearch) быстрее и дешевле, сохраняя высокую точность.

Патент описывает систему для анализа общественного мнения по заданной теме. Google собирает релевантные интернет-ресурсы (статьи, блоги, отзывы), группирует их по подтемам, определяет важность каждой подтемы (используя просмотры страниц и ранг релевантности) и вычисляет оценку тональности (Sentiment Score). На основе этих данных создается аналитический отчет о восприятии продукта, услуги или события.

Патент Google описывает систему, позволяющую авторам напрямую отправлять контент поисковой системе до или сразу после публикации. Система проверяет новизну контента и может проиндексировать его немедленно, без сканирования URL. Также она использует эти данные для расчета «Original Author Score» — метрики, показывающей, насколько часто автор публикует уникальный контент первым. При обнаружении дубликатов в выдаче система может повысить результат автора с более высоким показателем оригинальности.

Яндекс патентует метод улучшения поисковых подсказок (Autocomplete) с помощью машинного обучения (MLA). Система учится отличать термины, которые просто часто встречаются вместе (парная сочетаемость), от терминов, которые формируют осмысленный запрос в конкретном контексте (групповая сочетаемость). Это позволяет предлагать более точные и релевантные подсказки, которые могут как дополнять, так и предшествовать вводимому пользователем тексту.

Google использует масштабируемый конвейер для автоматического создания мультимедийного контента (Web Stories) о живых событиях в реальном времени. Система обнаруживает важные события, запрашивает медиаданные у поставщиков, персонализирует контент для разных групп пользователей (язык, интересы), автоматически выбирает шаблоны и генерирует визуально богатые истории для распространения через свои платформы.

Google анализирует структуру сайтов для автоматического определения «Visual Leaf Pages» (например, карточек товаров или рецептов), где изображение является основным контентом. Система находит «Hub Pages» (например, категории), которые ссылаются на них, и выявляет общие структурные признаки (шаблоны верстки, URL). Эти шаблоны используются для классификации страниц и повышения их ранжирования в поиске по картинкам для соответствующих запросов.

Google использует контекстные слова в запросе (например, профессию, местоположение) для исправления ошибок в написании имен сущностей (людей, брендов, мест). Система создает индекс ассоциаций между сущностями и их контекстом на основе веб-документов и логов запросов. При получении запроса с ошибкой Google находит наиболее вероятную сущность, соответствующую контексту, и может изменить структуру SERP, выделяя результаты для исправленной сущности в специальный блок.

Патент описывает инфраструктурный механизм для эффективного хранения истории доступа пользователей к контенту. Google использует общие фильтры Блума — компактные вероятностные структуры данных — для отслеживания того, какие результаты пользователь уже посещал. Это позволяет системе модифицировать SERP в реальном времени, например, визуально выделяя или исключая ранее просмотренные результаты.