Автор: Виктор Репин

2009 Индексация Краулинг Патенты Google Свежесть контента

Как Google использует возраст контента для стабильного обнаружения дубликатов и борьбы с «перекосом сканирования» (Crawl Skew)

Google стабилизирует обнаружение дубликатов, игнорируя новый или часто меняющийся контент (например, рекламу, комментарии). Система сравнивает текущую версию документа с предыдущей, определяет возраст различных частей и вычисляет контрольную сумму (checksum) только на основе стабильного («состарившегося») контента. Это позволяет корректно группировать дубликаты, даже если они были просканированы в разное время.

2018 Мультимедиа Патенты Google

Как Google использует модульную архитектуру (Fetcher/Scorer/Pooler) и мультимодальные данные для поиска семантически похожих изображений

Патент Google раскрывает продвинутую систему поиска похожих изображений. Используя гибкую архитектуру (Fetchers, Scorers, Poolers), система оценивает подобие по множеству признаков, а не только по визуальному совпадению. Она интегрирует мультимодальные данные (изображения, текст, метаданные) для определения семантической и контекстуальной близости, применяя такие методы как Triplet Loss и мультимодальные эмбеддинги.

2016 Мультимедиа Патенты Google

Как Google позволяет пользователям переключаться между ключевыми моментами (Хуками) в VOD-контенте на основе анализа видео и внешних сигналов

Google разработал систему для улучшения навигации по VOD-контенту (Video-on-Demand). Вместо просмотра видео с начала, пользователи могут искать конкретные типы сцен («хуки»). Система идентифицирует эти моменты, используя анализ видео (Video Image Recognition) и внешние сигналы (например, популярность клипов в соцсетях), и позволяет переключаться между разными видео, начиная просмотр сразу с этих ключевых сцен (time-shifting).

2024 Индексация Патенты Google

Как Google ускоряет нейронный поиск, используя выборочные векторные взаимодействия токенов (XTR)

Google патентует архитектуру нейронного поиска (Contextualized Token Retriever или XTR), которая обеспечивает высокую точность за счет анализа взаимодействий на уровне отдельных токенов (как в моделях типа ColBERT), но радикально снижает вычислительные затраты. Система рассчитывает релевантность, используя только предварительно отобранные (Top-K) векторы документа, а не все его векторы, применяя механизм импутации (Imputed Value) для отсутствующих взаимодействий.

2009 Paul Haahr Индексация Патенты Google Свежесть контента

Как Google предварительно вычисляет результаты поиска для ожидаемых запросов, чтобы ускорить выдачу и повысить ее качество

Google использует систему предиктивного поиска для повышения скорости и эффективности. Система прогнозирует, какие запросы пользователи введут в будущем, и заранее вычисляет для них результаты поиска, сохраняя их в специальном «предиктивном кэше». Это позволяет мгновенно обслуживать популярные и трендовые запросы, а также использовать более сложные алгоритмы ранжирования, поскольку вычисления происходят до получения запроса.

2012 Патенты Google Персонализация

Как Google в Autocomplete динамически выбирает между показом общих категорий и конкретных подсказок в зависимости от «завершенности запроса»

Google анализирует «меру завершенности запроса» (Measure of Query Completeness) по мере ввода текста пользователем. Если намерение неясно и существует много вариантов продолжения (низкая завершенность, высокая энтропия), система предлагает общие категории (например, «Регионы», «Бизнесы»). Если намерение становится ясным (высокая завершенность, низкая энтропия), система переключается на конкретные подсказки или сущности.

2022 Антиспам Обучение моделей Патенты Яндекс Поведенческие факторы

Как Яндекс оптимизирует пороги срабатывания для сложных классификаторов, использующих вложенные метрики (например, Клики и Длинные клики)

Яндекс патентует метод для оптимизации порогов срабатывания в системах бинарной классификации (например, спам/не спам, релевантный/нерелевантный), которые используют несколько «вложенных» метрик одновременно. Метод позволяет итеративно подобрать оптимальную комбинацию порогов для всех метрик сразу, чтобы достичь требуемого баланса между точностью (Precision) и полнотой (Recall).

2017 Антикачество Индексация Качество контента Патенты Яндекс

Как Яндекс идентифицирует ключевые элементы на странице (рекламу, логотипы, карты), анализируя код и визуальное отображение после рендеринга

Яндекс патентует метод идентификации объектов на веб-странице (таких как реклама, логотипы, карты) путем анализа их характеристик после рендеринга (размер, положение, стиль) и особенностей исходного кода. Система использует машинное обучение для оценки вероятности того, что элемент является целевым объектом, комбинируя визуальные признаки и анализ кода.

2013 Local SEO Патенты Google Персонализация

Как Google определяет местоположение пользователя, используя историю локаций и IP-адрес, когда GPS недоступен

Google использует систему для аппроксимации текущего местоположения пользователя, когда точные данные (например, GPS) недоступны. Система анализирует исторические данные о локациях (из поиска, карт, IP) и текущий IP-адрес. Найденные локации оцениваются с помощью машинного обучения (регрессионный анализ), и если они формируют кластер, их достоверность повышается. Это позволяет предоставлять локализованные результаты поиска.

Патенты Google Персонализация Поведенческие сигналы

Как Xerox предлагал использовать профили пользователей и сообществ для коллаборативного и персонализированного ранжирования (Патент 1999 г.)

Анализ патента Xerox (1999 г.), описывающего метод персонализации поиска. Система создает профили пользователей и групп (сообществ) на основе анализа документов, которые они ранее оценили. Эти профили (векторы весов терминов) используются для переранжирования стандартной выдачи с помощью сложных формул векторного сходства, чтобы лучше соответствовать контексту и интересам пользователя.

2015 Мультимедиа Патенты Google

Как Google использует распознавание объектов, метаданные и семантическое расширение для глубокого понимания и организации изображений

Google применяет многоуровневую систему аннотирования изображений. Она объединяет метаданные (EXIF), первичное распознавание объектов и контекста (Primary Annotation), а также семантическое расширение меток (Label Expansion). Это позволяет системе понимать сложные запросы на естественном языке, идентифицировать сущности и создавать структурированный индекс для точного поиска.

2022 Индексация Краулинг Патенты Google

Как Google индексирует NFT напрямую из блокчейнов и маркетплейсов для создания специализированного поиска по Web3 активам

Google разрабатывает систему для индексации невзаимозаменяемых токенов (NFT) путем прямого анализа данных из блокчейнов и с веб-страниц (маркетплейсов). Система использует ML-модели для анализа содержания самих цифровых активов, создавая специализированный индекс NFT. Это позволяет поисковой системе верифицировать и отображать NFT в результатах поиска.

2011 Мультимедиа Патенты Google

Как Google автоматически распознает товары в видео и создает интерактивные каталоги для шопинга

Патент описывает, как Google может анализировать медиаконтент (фильмы, ТВ-шоу, видео) для автоматической идентификации показанных в нем товаров или услуг, используя распознавание изображений, речи и текста (субтитров). Система создает динамический каталог, который отображается синхронно с просмотром, предоставляя контекст и ссылки для покупки.

2006 Мультиязычность Патенты Google

Как Google использует языковую статистику для умного добавления акцентов и синонимов в запросы

Google анализирует, как слова пишутся в разных языках (с акцентами, диграфами или транслитерацией), и создает «карту синонимов». При получении запроса система определяет его вероятный язык и статистически выбирает только те варианты написания (синонимы), которые наиболее распространены именно в этом языке, избегая добавления нерелевантных вариантов из других языков.

2015 Мультимедиа Патенты Google

Как Google использует существующие пользовательские плейлисты для генерации автоматических «Миксов» по широким запросам

Google анализирует существующие плейлисты, созданные пользователями, которые релевантны широкому поисковому запросу (например, жанру или теме). Система оценивает качество этих плейлистов на основе их популярности и свежести, а затем агрегирует эти оценки для ранжирования отдельных треков или видео. Лучший контент объединяется в новый автоматический плейлист («Algorithmic Radio» или «Микс»), который отображается в результатах поиска.

2013 Патенты Google Персонализация

Как Google использует активность социального окружения пользователя для определения его интересов и персонализации поиска

Google может определять интересы пользователя не только по его прямым действиям, но и анализируя интересы его социальных связей (друзей, коллег). Если окружение пользователя активно интересуется определенной темой, система повышает оценку интереса (Interest Score) самого пользователя к этой теме. Эта оценка затем используется для переранжирования поисковой выдачи, лент социальных сетей и рекламы.

2011 Мультиязычность Патенты Google

Как Google определяет предпочитаемый язык пользователя, анализируя текст запроса и его местоположение

Google использует механизм для определения языка, на котором пользователь хочет видеть результаты поиска, особенно когда язык запроса отличается от языка региона. Система сравнивает текст запроса с его переводом на местный язык. Чем больше лингвистических различий, тем сильнее сигнал о том, что пользователь предпочитает язык запроса, и выдача переключается на него.

2012 Индексация Краулинг Патенты Google

Как Google использует HTTP-заголовки для извлечения метаданных из не-HTML документов (PDF, DOCX, XLS) во время сканирования

Google использует механизм для получения метаданных о файлах, не являющихся веб-страницами (например, PDF, документы Office). Во время сканирования эти метаданные передаются поисковой системе через специальные HTTP-заголовки. Затем Google преобразует их в эквивалент стандартных META-тегов для индексации, позволяя оптимизировать не-HTML контент так же, как обычные веб-страницы.

2013 Knowledge Graph Патенты Google

Как Google оценивает надежность пользователей для обновления Графа Знаний (Knowledge Graph)

Google использует машинное обучение для оценки надежности пользователей, предлагающих правки для Графа Знаний. Система анализирует профиль пользователя, историю его предыдущих правок, его интересы, уровень экспертизы и активность в других сервисах Google (subsystems), чтобы решить, принимать ли предложенное обновление автоматически.

2007 Патенты Google Поведенческие сигналы

Как Google использует данные о кликах из органического поиска для рекомендации площадок в рекламной сети (Google Ads)

Патент Google, описывающий систему для рекламных платформ (например, Google Ads). Система анализирует логи органического поиска, чтобы определить, какие запросы привели к кликам на конкретные сайты. На основе этой «народной популярности» (folksonomy) система рекомендует рекламодателям релевантные сайты для размещения их объявлений, улучшая контекстный таргетинг.