Автор: Виктор Репин

2018 SERP Индексация Мультимедиа Патенты Google

Как Google индексирует, ранжирует и выбирает действия и AR-контент для Визуального Поиска (Google Lens)

Google сканирует веб-сайты в поисках метаданных, связывающих «цифровые дополнения» (AR-опыт, 3D-модели, действия) с реальными объектами. При визуальном поиске система ранжирует эти дополнения, учитывая не только релевантность и авторитетность источника (Prestige Score), но и глубокий контекст: местоположение пользователя, его профиль (подписки, предпочтения) и технические возможности его устройства.

2011 Индексация Краулинг Патенты Google Свежесть контента

Как Google использует прямые фиды данных от издателей для создания обогащенных результатов поиска (Rich Results) в реальном времени

Google использует систему, позволяющую «зарегистрированным издателям» предоставлять структурированные данные (например, цены, расписания, статус рейсов) отдельно от основного контента. Эта информация обновляется значительно чаще, чем стандартный веб-индекс, и используется для создания обогащенных результатов (Rich Results) с актуальными, «живыми» данными прямо в выдаче, минуя задержки стандартного сканирования.

2024 Колдунщики Метрики качества поиска Обучение моделей Патенты Яндекс

Как Яндекс использует P-tuning для проверки фактов и внутренней согласованности в Карточках Объектов (Knowledge Panels)

Яндекс патентует метод повышения достоверности автоматически сгенерированных сводок (Карточек Объектов). Система проверяет фактическую точность отдельного сниппета, анализируя, подтверждается ли он другими сниппетами в той же сводке (внутренняя согласованность). Для этого используется NLP-модель, эффективно дообученная методом P-tuning, которая выявляет противоречия. Несогласованные факты удаляются из сводки.

2024 Алиса Голосовой поиск Обучение моделей Патенты Яндекс

Как Яндекс использует маскирование внимания для суммаризации нескольких сниппетов при генерации голосовых ответов

Яндекс патентует метод обучения нейросети (ANN) для создания единого краткого ответа (например, для Алисы) путем суммаризации нескольких сниппетов из поисковой выдачи. Ключевая технология — «маска ограничения внимания» (attention-limiting mask). Она заставляет модель оценивать контекст каждого сниппета изолированно, предотвращая смешивание фактов из разных источников при генерации финального ответа.

2014 Knowledge Graph Патенты Google Персонализация Семантика и интент

Как Google использует персональные данные и Knowledge Graph для генерации прямых ответов на сложные запросы

Патент Google описывает механизм хранения личной информации пользователя, полученной из его утверждений (например, «Я съел банан»), в виде структурированных кортежей (tuples). Система объединяет эти персональные данные с информацией из Knowledge Graph (например, содержание калия в банане), чтобы генерировать персонализированные выводы и прямые ответы на сложные вопросы (например, «Достаточно ли я ем калия?»).

2021 Асессоры Качество контента Краудсорсинг Обучение моделей Патенты Яндекс

Как Яндекс очищает данные асессоров от когнитивных искажений для улучшения качества обучения ML-моделей ранжирования

Яндекс патентует метод повышения качества данных, используемых для обучения алгоритмов ранжирования (включая Proxima). Система анализирует оценки, полученные от краудсорсинговых асессоров (например, в Толоке), и выявляет когнитивные искажения, вызванные нерелевантными факторами (позиция на экране, цвет, шрифт). Используя модель машинного обучения, Яндекс отделяет истинную оценку качества от этих искажений, гарантируя, что алгоритмы ранжирования обучаются на чистых данных.

2011 Индексация Мультимедиа Патенты Google Семантика и интент

Как Google использует OCR и анализ структуры для поиска оригинала по фотографии текста

Google использует технологию визуального поиска для идентификации исходного (канонического) документа по изображению (например, фотографии страницы). Система анализирует не только распознанный текст (OCR), но и структурную информацию (верстку, шрифты, расположение), чтобы точно найти оригинальный источник и вернуть его пользователю.

2018 Google Shopping Индексация Мультимедиа Патенты Google

Как Google индексирует и ранжирует интерактивный контент (AR, действия) для визуального поиска (Google Lens)

Патент описывает инфраструктуру визуального поиска Google. Система сканирует веб-ресурсы для обнаружения метаданных о «цифровых дополнениях» (интерактивный контент, AR, действия) и индексирует их, привязывая к объектам реального мира («анкорям»). При визуальном запросе система находит, ранжирует (используя сигналы релевантности и авторитетности) и предлагает пользователю релевантные дополнения, такие как покупка товара, просмотр рейтинга или запуск AR-опыта.

2024 Интент пользователя Патенты Яндекс Поисковые подсказки Семантический поиск

Как Яндекс определяет схожесть поисковых подсказок и удаляет дубликаты на основе схожести результатов поиска (SERP Similarity)

Яндекс патентует метод повышения разнообразия поисковых подсказок и связанных запросов. Система генерирует кандидатов и использует специальную модель (например, DSSM), чтобы предсказать, приведут ли два разных запроса к одинаковым результатам поиска (SERP Similarity). Если результаты предсказываются как схожие, отображается только один из вариантов. Это подтверждает, что схожесть выдачи является для Яндекса эталоном схожести интента.

2015 Антиспам Безопасный поиск Патенты Google

Как Google фильтрует поисковые подсказки (Autocomplete) на основе безопасности контента в результатах поиска

Google анализирует результаты поиска, связанные с потенциальной поисковой подсказкой, и оценивает их безопасность на основе рейтингов контента. Если запрос часто ведет на нежелательный или небезопасный контент (например, для детей), он блокируется и не показывается в Autocomplete. Это механизм фильтрации подсказок, а не ранжирования сайтов.

2021 Метрики качества поиска Обучение моделей Патенты Яндекс Ранжирование

Как Яндекс напрямую оптимизирует метрики качества ранжирования (NDCG, ERR) при обучении ML-моделей (CatBoost) с помощью инъекции шума

Яндекс патентует метод обучения ранжирующих моделей (например, CatBoost), позволяющий напрямую оптимизировать сложные метрики качества (NDCG, ERR), которые обычно не поддаются стандартным методам градиентного бустинга. Для этого в процессе обучения в оценки релевантности добавляется шум, что «сглаживает» метрику и позволяет рассчитать градиент (Policy Gradient). Это позволяет Яндексу эффективнее обучать модели для достижения максимального качества ранжирования.

2008 Knowledge Graph Local SEO Мультимедиа Патенты Google

Как Google использует гео-кластеризацию и визуальный анализ изображений для распознавания и определения популярности достопримечательностей

Google использует двухэтапный процесс для автоматического создания базы данных достопримечательностей из больших коллекций изображений. Сначала изображения группируются по географической близости (гео-кластеризация), а затем внутри этих групп они кластеризуются по визуальному сходству (визуальная кластеризация). Это позволяет системе идентифицировать конкретные объекты, оценивать их популярность по количеству фотографий и уникальных авторов, улучшать понимание запросов и автоматически аннотировать новые изображения.

2020 Local SEO Вертикальный поиск Патенты Яндекс Яндекс Карты

Как Яндекс управляет визуальным приоритетом, плотностью и разрешением коллизий объектов (POI) на Картах

Яндекс патентует метод клиентской отрисовки объектов (POI) на картах, который определяет финальную видимость результатов локального поиска. Система использует ранг объекта и уровень масштабирования для назначения визуального стиля метки. Алгоритм разрешает конфликты наложения (коллизии), понижая детализацию метки, и обеспечивает стабильность интерфейса при прокрутке, предотвращая «мерцание» уже показанных результатов.

2021 Интент пользователя Патенты Яндекс Рекомендательные системы Яндекс Новости

Как Яндекс предсказывает, какие сущности в статье вызовут желание искать дополнительную информацию, и проактивно показывает карточки с ответами

Яндекс патентует систему для новостных агрегаторов, которая анализирует текст статьи и предсказывает вероятность того, что пользователь захочет найти дополнительную информацию об упомянутых объектах (людях, местах). Система обучается на исторических данных о том, как часто пользователи искали объект сразу после прочтения статьи о нем. Если вероятность высока, система автоматически показывает информационную «Карточку Объекта», уменьшая необходимость ручного поиска.

2016 Обучение моделей Патенты Яндекс Поведенческие факторы Ранжирование

Как Яндекс использует механизмы CatBoost для обработки разнотипных данных в ранжировании

Яндекс патентует способ эффективной обработки разнотипных данных (числовых и категориальных) для использования в древовидных моделях машинного обучения (вероятно, CatBoost). Система преобразует эти данные в единый хэшированный комплексный вектор. Это позволяет моделям ранжирования учитывать сложные комбинации факторов, таких как поведение пользователей и характеристики документа, для точного предсказания релевантности или вероятности клика.

2017 Local SEO SERP Патенты Яндекс Яндекс Карты

Как Яндекс использует геолокацию и сценарии пользователя для генерации последовательности интересующих объектов (POI)

Яндекс использует этот метод для понимания контекста пользователя (например, отпуск, переезд или командировка) и его местоположения, чтобы предложить релевантную последовательность интересующих мест (POI). Вместо изолированного ответа на запрос система помогает выполнить многоэтапную задачу, предсказывая следующие релевантные локации или услуги на основе предопределенных сценариев.

2004 Патенты Google Персонализация Поведенческие сигналы

Как Google создает единый индекс активности пользователя путем синхронизации данных между устройствами

Патент Google, описывающий инфраструктуру для сбора и синхронизации «событий» (просмотры веб-страниц, электронные письма, редактирование документов) пользователя на разных устройствах. Это позволяет создать единый индекс активности, доступный для поиска с любого устройства, формируя основу для персонализации поиска.

2017 Интент пользователя Качество контента Патенты Яндекс Семантический поиск

Как Яндекс определяет значение многозначных слов (омонимов) через сравнение грамматических контекстов

Яндекс использует метод для разрешения лексической неоднозначности (Word Sense Disambiguation). Система анализирует грамматическую структуру вокруг многозначного слова (омонима) и ищет однозначное слово, используемое в аналогичной структуре. Затем грамматическая роль (например, часть речи) однозначного слова переносится на омоним. Это позволяет системе понять точное значение слова без использования размеченных вручную корпусов.

2019 Мультимедиа Патенты Google Семантика и интент

Как Google использует фоновое аудио (музыку, звук ТВ) для понимания контекста и уточнения неоднозначных голосовых запросов

Google может анализировать фоновый звук, записанный устройством до или после голосового запроса. Система идентифицирует аудио (например, песню или телепередачу), извлекает связанные сущности и термины из Графа Знаний и использует этот контекст для уточнения неоднозначных запросов, фильтруя или повышая релевантные результаты в выдаче.

2018 SERP Вертикальный поиск Патенты Яндекс Поисковые подсказки

Как Яндекс формирует визуальные поисковые подсказки, балансируя популярность и «скрытый интерес»

Яндекс патентует метод генерации визуальных поисковых подсказок (Image-based search suggestions) с использованием двух независимых моделей ранжирования. Первая фокусируется на частотности (Frequency Parameter). Вторая — на «скрытом интересе» (Hidden Interest Parameter), выявляя неочевидные, но высокорелевантные связи. Финальный список формируется путем смешивания результатов этих двух моделей, при этом система может дополнительно отфильтровывать слишком очевидные подсказки.