Автор: Виктор Репин

Google анализирует исторические данные о поведении пользователей (например, долгие клики) и атрибуты документов, агрегируя их по схожим шаблонам URL. Если страница новая и не имеет собственных данных, система прогнозирует ее ценность, основываясь на показателях других страниц с аналогичной структурой URL. Это влияет на приоритеты сканирования, индексирования и начальное ранжирование.

Патент описывает, как цифровой ассистент интерпретирует неоднозначные голосовые команды (например, «Поехали туда» или «В тот, что слева»), ссылающиеся на объекты, видимые на экране навигационного приложения. Система получает визуальный контекст из видимой области карты (viewport), анализирует команду с помощью NLP и точно определяет, какой объект имел в виду пользователь, для выполнения действия.

Google использует систему для обработки визуальных запросов (изображений). Изображение одновременно отправляется в несколько специализированных поисковых систем (распознавание лиц, OCR, распознавание объектов, штрих-кодов и т.д.). Система агрегирует, ранжирует результаты и может создать интерактивный документ, выделяя распознанные объекты и связывая их с соответствующими результатами поиска.

Google патентует механизм «ассистированного поиска» для специализированных баз данных (например, магазинов приложений или расширений). Пользователь выделяет контент (текст/изображение) на веб-странице, и система использует его как запрос. Специальный конвертер анализирует выделенное, определяет несколько возможных интентов, оптимизирует их под конкретную базу данных и выполняет параллельный поиск, выдавая сгруппированные результаты.

Патент раскрывает инфраструктуру Google для кэширования результатов поиска и сниппетов. Описан механизм, использующий «метки времени» (datestamps) для проверки актуальности кэшированной информации на основе даты последнего индексирования документа. Если кэшированный сниппет устарел, система извлекает свежую версию из базы данных документов перед показом пользователю, обеспечивая баланс между скоростью и свежестью.

Google анализирует текстовые URL-адреса из журналов поиска, чтобы определить наиболее вероятный способ их произношения (например, facebook.com -> «face book dot com»). Этот процесс использует большие языковые модели для сегментации URL. Полученные данные используются для обучения систем распознавания речи. Когда пользователь произносит URL, система распознает слова и реконструирует текстовый URL для поисковой системы.

Google персонализирует статус доступности локального бизнеса, рассчитывая предполагаемое время прибытия пользователя (текущее время + время в пути). Бизнес помечается как «Открыто сейчас», только если пользователь физически успевает добраться до закрытия. Патент также защищает интерактивные фильтры для динамического переключения между текущим и будущим временем.

Яндекс использует систему для определения оптимального соотношения типов контента (видео, статьи, изображения) в ленте рекомендаций для конкретного пользователя. Система сравнивает, насколько активно пользователь взаимодействует с определенным типом контента (CTR или Dwell Time) по сравнению со средним пользователем. Если вовлеченность выше средней, система увеличивает долю этого типа контента в его персональной ленте в рамках заданных интервалов.

Google использует автоматизированную систему для наполнения детских интерфейсов безопасным и интересным контентом. Система определяет темы, интересующие детей, через Knowledge Graph и внешние источники, рассчитывает «Оценку детской близости» (Children’s Affinity Score) для этих тем, учитывая качество и популярность связанного контента. Затем эти оценки используются для отбора и ранжирования каналов и плейлистов.

Патент Google, описывающий пользовательский интерфейс для создания сложных, модифицируемых запросов, называемых «конвейерами». Этот интерфейс позволяет пользователям последовательно фильтровать наборы документов, используя вывод одного запроса как источник для следующего. Технология разработана для задач электронной обработки данных (e-discovery) и юридического анализа документов.

Google использует систему для оценки важности географических объектов (городов, дорог, зданий) на основе их физических и географических атрибутов, таких как размер, плотность населения, экономическая активность и связность транспортных сетей. Эти оценки (Rank Scores) используются для определения порядка результатов в локальном поиске и выбора объектов для отображения на Картах, независимо от традиционных веб-сигналов, таких как PageRank.

Яндекс патентует метод выявления вредоносных сайтов путем анализа несоответствия между подозрительным автоматизированным трафиком и органической популярностью в поиске. Система анализирует логи браузеров, выявляя автоматические запуски сайтов неизвестными программами («первый запуск»). Если такой сайт имеет низкую видимость, плохие позиции или негативную репутацию в органическом поиске, он классифицируется как вредоносный.

Патент описывает комплексную систему Google для визуального поиска товаров. Система автоматически обрабатывает изображения: отделяет объект от фона (сегментация), выравнивает его, извлекает визуальные признаки (цвет, форма, текстура) и создает цифровые подписи (векторы). Это позволяет пользователям искать похожие товары, используя изображение в качестве запроса (CBIR), уточнять поиск по визуальным характеристикам и находить товары на сторонних сайтах.

Яндекс патентует метод автоматического улучшения своих классификаторов (например, SafeSearch). Система отслеживает аномальные всплески поискового трафика, исходящие из социальных сетей. Если пользователи массово делятся результатом поиска как примером ошибки (например, шок-контент при включенном фильтре), система идентифицирует этот документ, подтверждает ошибку классификации и использует его для переобучения и улучшения алгоритма машинного обучения.

Google анализирует личные данные пользователя (история поиска, email, социальная активность) для построения Персонального Графа Знаний. Этот граф структурирует сущности и связи, значимые для пользователя. Сила связей динамически обновляется: усиливается при повторном взаимодействии (Reinforcement) и ослабевает со временем (Decay). Граф используется для глубокой персонализации результатов поиска и генерации проактивных рекомендаций (например, в Google Discover).

Google анализирует видеоконтент для выявления сущностей (терминов, концепций), которые пользователи, вероятно, захотят найти в поиске. Система использует ML, обученное на реальных поисковых запросах, возникающих во время просмотра видео. Когда сущность упоминается, Google отображает «Карточку сущности» с кратким описанием и изображением прямо в интерфейсе плеера, не прерывая просмотр.

Google использует автоматизированный процесс для категоризации веб-сайтов в иерархическую таксономию. Система анализирует контент для выявления семантических кластеров (групп совместно встречающихся терминов), сопоставляет их с концепциями и определяет наиболее подходящую категорию. Ключевой механизм выбирает самую специфичную (глубокую) категорию в иерархии, которая превышает порог статистической значимости.

Google разрабатывает инфраструктуру для индексации данных напрямую из блокчейнов, фокусируясь на NFT. Система извлекает описания, историю транзакций и сами цифровые активы, следуя по ссылкам в блокчейне. Она оценивает качество и подлинность NFT, дедуплицирует контент и интегрирует проверенные NFT в поисковую выдачу как специализированные результаты.

Google использует модель машинного обучения (например, Support Vector Machine) для анализа изменений между двумя версиями веб-страницы. Система оценивает контентные, структурные (ссылки) и поведенческие (трафик) признаки, чтобы классифицировать обновление как «значимое» или «незначимое». Это позволяет поисковой системе понять, какие обновления требуют внимания (например, для оценки свежести или переиндексации), а какие являются техническим шумом.

Яндекс патентует систему автоматического контроля качества поиска. Система отслеживает аномальные всплески поискового трафика, исходящие из социальных сетей, и анализирует посты пользователей (например, скриншоты выдачи с комментариями об ошибках). Обнаруженные ошибки классификации используются для генерации новых обучающих данных и переобучения алгоритмов машинного обучения (MLA), повышая точность и безопасность выдачи.