Google использует систему для идентификации веб-страниц, основным контентом которых являются изображения (страницы-галереи). Система анализирует количество, размер, расположение изображений и их структуру в DOM-дереве, исключая рекламу и шаблонные элементы. Если страница классифицируется как галерея, Google применяет специальный формат отображения в SERP, который может включать превью изображений и их количество.
Автор: Виктор Репин
Google использует механизм для улучшения информативности сниппетов. Вместо стандартного описания страницы (например, главной), система может создать «синтезированный сниппет». Он формируется путем объединения кратких заголовков важных подразделов этой страницы (часто совпадающих с Sitelinks). Система сравнивает качество разных типов сниппетов и выбирает лучший.
Google использует этот механизм для организации выдачи в поиске по картинкам. Система анализирует визуальное сходство между уже ранжированными изображениями и объединяет их в иерархические кластеры. Для каждого кластера выбирается каноническое изображение (Canonical Image) на основе его исходного ранга или рассчитанной визуальной авторитетности (например, VisualRank). Это определяет, какое изображение будет представлять группу похожих картинок.
Яндекс патентует метод решения проблемы «холодного старта» в рекомендательных системах (например, Дзен). Когда данных для персонализации нового пользователя недостаточно, система анализирует главные страницы доверенных ресурсов. Она предсказывает популярность контента исключительно на основе его визуальной значимости (размер блока, позиция на странице) и рекомендует этот контент вместо персонализированных предложений.
Google использует автоматизированную систему для создания индекса логотипов. Система анализирует логи поисковых запросов, содержащих слово «логотип», собирает соответствующие изображения из выдачи, кластеризует их по визуальному сходству и выбирает лучшее «репрезентативное изображение» на основе популярности и качества. Это позволяет Google распознавать бренды на фотографиях пользователей (например, в Google Lens).
Патент описывает метод обучения моделей машинного обучения (Ordered Boosting), лежащий в основе алгоритма CatBoost. Для предотвращения «утечки данных» и переобучения, система упорядочивает обучающие данные и при расчете качества прогноза использует только «прошлые» примеры. Это позволяет Яндексу создавать более стабильные, точные и устойчивые к манипуляциям модели ранжирования.
Google использует систему для повышения визуального разнообразия в поиске по картинкам. Система заранее (офлайн) анализирует визуальное сходство изображений и объединяет их в группы. Если в результатах поиска появляются два изображения из одной группы (почти дубликаты), система корректирует выдачу, понижая более новую версию и отдавая предпочтение более ранней (оригиналу).
Google использует механизм временно-зависимого хеширования для маршрутизации запросов от фронтенд-серверов к бэкенд-серверам. Запрос направляется на один и тот же сервер в течение определенного временного интервала, что позволяет эффективно использовать кэш. По истечении интервала маршрутизация меняется, что улучшает балансировку нагрузки и защищает систему от целенаправленных атак.
Google использует систему для автоматической классификации видео, которая объединяет знания из двух доменов. Сначала из текстовых веб-документов извлекаются иерархические отношения между общими категориями и конкретными примерами. Затем эти данные комбинируются с классификаторами, обученными распознавать эти конкретные примеры в видео на основе аудиовизуальных признаков. Это позволяет точно классифицировать видео по широким категориям, улучшая поиск и рекомендации.
Патент Google описывает систему управления местоположением на мобильных устройствах, которая хранит две локации: физическое местоположение (GPS) и выбранное пользователем. Система позволяет переключаться между этими контекстами, обновляя список релевантных заведений поблизости. Анализ раскрывает сигналы, которые Google использует для ранжирования локальных заведений, включая популярность, историю пользователя и финансовые транзакции.
Google использует систему для автоматического сбора отзывов с сайтов электронной коммерции и обзорных площадок. Ключевая технология — кластеризация отзывов, относящихся к одному и тому же товару, путем извлечения и анализа идентификаторов (бренд, модель, категория, глобальные идентификаторы) из текста, метаданных и URL. Это позволяет формировать агрегированные данные, такие как средний рейтинг и частотные фразы, для отображения в поиске.
Google анализирует действия пользователя (поисковые запросы, посещения сайтов), чтобы выявить намерение в отношении сущностей (например, продуктов или авиабилетов). Если намерение сильное и происходит значительное изменение (падение цены или изменение доступности), Google проактивно отправляет уведомление со ссылками для завершения действия (например, покупки).
Google использует систему для управления лентами контента (например, Google Discover). Различные серверы агрегируют контент в тематические блоки (Aggregated Content Data Structures) и оценивают их. Затем сервер смешивания выбирает эти блоки, активно балансируя их категории: он повышает оценки блоков из недопредставленных категорий и понижает из слишком частых, чтобы обеспечить заданное разнообразие и соответствие интересам пользователя.
Google патентует систему визуального поиска с распознаванием лиц и логотипов. Доступ к результатам строго ограничивается на основе настроек конфиденциальности субъекта изображения. Патент также описывает механизм автоматического оповещения пользователей или компаний при обнаружении их изображений (лиц или логотипов) на сторонних веб-сайтах, что является инструментом для управления онлайн-репутацией.
Google использует этот механизм для автоматической идентификации и группировки вариантов одного продукта (например, разных цветов или размеров), предлагаемых разными продавцами. Система анализирует заголовки товаров в фидах, выявляет закономерности и создает глобальный каталог вариантов. Для разрешения конфликтов в названиях система выбирает терминологию того продавца, который наиболее полно и последовательно описал все варианты.
Яндекс патентует метод улучшения поисковых подсказок (саджеста) путем учета контекста немедленно предшествующего поиска. Ключевая особенность в том, что клиентское устройство (например, браузер) автоматически извлекает предыдущий запрос (например, из URL текущей страницы выдачи) и передает его серверу при запросе подсказок для следующего запроса. Это позволяет системе предлагать более релевантные уточнения и продолжения поиска.
Google динамически корректирует базовую языковую модель распознавания речи, учитывая контекст пользователя в момент запроса. Система повышает вероятность распознавания слов и фраз, связанных с текущим местоположением пользователя, временем суток, погодой, актуальными новостями и поисковой активностью его социального круга. Это позволяет точнее преобразовывать голосовой ввод в текстовый запрос.
Google использует систему для агрегации отзывов о продуктах или услугах из разных источников. Система кластеризует отзывы по тематикам или аспектам (например, «удобство использования», «доставка»), оценивает качество каждого отзыва (грамматика, длина, ценность слов) и выбирает репрезентативную выборку из разных кластеров. Это позволяет показать пользователю сбалансированный обзор мнений, а не случайный набор отзывов.
Google патентует интерфейс для уточнения визуального поиска. Пользователь загружает изображение, видит результаты и специальное поле для ввода текстового уточнения. Система объединяет изображение и текст в единый мультимодальный запрос (Multimodal Search Query), чтобы точнее понять намерение пользователя и предоставить релевантные результаты разных форматов, включая товары, видео и статьи.
Google использует механизм для предотвращения доминирования одной категории (например, ресторанов) в результатах локального поиска. Система масштабирует оценки: повышает рейтинг лучшего результата (#1) в каждой категории и агрессивно понижает рейтинг последующих результатов (#2, #3 и т.д.) в той же категории. Это гарантирует разнообразие (Diversity) в топе локальной выдачи и Google Maps.