Автор: Виктор Репин

2013 Мультимедиа Патенты Google

Как Google анализирует контент посадочных страниц и оценивает качество изображений для автоматического создания графических объявлений

Система Google для автоматического преобразования текстовых объявлений в графические. Для определения контекста система глубоко анализирует контент посадочной страницы с помощью кластеризации, а также учитывает текст объявления и ключевые слова для ставок. Затем она подбирает изображения, оценивая их по контекстному соответствию и визуальной привлекательности, и генерирует графическое объявление.

2020 Интент пользователя Патенты Яндекс Поведенческие факторы Поисковые подсказки

Как Яндекс генерирует поисковые подсказки на основе положения курсора в строке запроса

Яндекс патентует метод генерации интерактивных поисковых подсказок (Search Suggest), который учитывает точное положение курсора в поле ввода. Вместо того чтобы просто дописывать запрос в конце, система анализирует, где находится курсор (начало слова, середина, конец запроса и т.д.), и предлагает контекстные действия: вставку нового слова, замену текущего слова или его удаление, основываясь на истории поисковых запросов.

2020 Антиспам Патенты Google

Как Google анализирует исполняемый код для поиска схожих файлов и выявления вариантов вредоносного ПО

Патент Google описывает систему для анализа схожести программного кода на субфайловом уровне. Система изолирует только исполняемые части файла, игнорируя метаданные и ресурсы, разбивает код на логические блоки и хеширует их. Сравнивая хеши, Google может эффективно находить схожие фрагменты кода в разных файлах, что используется для обнаружения вариантов вредоносного ПО или идентификации повторно используемого кода.

2015 Мультиязычность Патенты Google

Как Google использует краудсорсинг переводов, встраивает дополнительный контент и перехватывает трафик локализованных страниц

Патент описывает систему, позволяющую владельцам сайтов согласиться (opt-in) на краудсорсинг высококачественных человеческих переводов своих страниц. Google создает и хранит переведенные копии, встраивает в них дополнительный контент (например, рекламу) и показывает их иностранным пользователям, перехватывая запросы к оригиналу, потенциально делясь доходом с владельцем.

2013 Knowledge Graph Индексация Патенты Google

Как Google создает специализированный индекс для сверхбыстрого поиска по Графу Знаний (включая гео-запросы и диапазоны)

Google использует специализированную инфраструктуру для индексирования и поиска по большим графам данных, таким как Граф Знаний. Патент описывает двухмерную структуру индекса, механизмы предварительного вычисления сложных путей в графе, а также специальные структуры для эффективной обработки диапазонных (числовых) и пространственных (географических или временных) запросов, обеспечивая низкую задержку ответа.

2004 Индексация Мультиязычность Патенты Google

Как Google определяет язык и разбивает на слова слитный текст (например, в доменах или URL)

Google использует статистический метод для интерпретации текста без пробелов (например, доменных имен). Система определяет потенциальные языки, разбивает строку на слова для каждого языка, а затем проверяет, какая комбинация слов (включая варианты с исправлением опечаток) чаще встречается в веб-индексе или поисковых запросах. Это позволяет выбрать наиболее вероятный язык и смысл текста.

2009 Патенты Google Свежесть контента

Как Google выявляет всплески поискового интереса и определяет тренды в реальном времени

Google использует систему для определения «Исключительных запросов» — тем, интерес к которым резко и неожиданно возрастает в короткий промежуток времени (менее 30 минут). Система сравнивает текущую частоту запроса с прогнозируемой моделью, основанной на исторических данных. Если фактическая активность значительно превышает прогноз, запрос помечается как трендовый. Это позволяет выявлять актуальные события, а не просто самые популярные запросы.

2009 Патенты Google Поведенческие сигналы

Как Google тестирует, сравнивает и выбирает лучшие алгоритмы ранжирования с помощью A/B тестов и оценок разнообразия

Патент описывает внутренний фреймворк Google для тестирования и оценки алгоритмов ранжирования (scoring functions). Система выбирает два алгоритма, которые дают максимально разные результаты по одному запросу (Diversity Score), показывает обе выдачи пользователям или асессорам (side-by-side) и агрегирует данные о предпочтениях для составления общего рейтинга самих алгоритмов.

2017 Интент пользователя Патенты Яндекс Поведенческие факторы Поисковые подсказки

Как Яндекс генерирует контекстные поисковые подсказки в зависимости от положения курсора в строке поиска

Яндекс патентует метод генерации поисковых подсказок (саджеста), который учитывает точное положение курсора в строке ввода. В зависимости от того, где находится курсор (в начале, конце запроса или внутри слова), система предлагает разные действия: вставку, замену или удаление термина. Это позволяет пользователям быстрее модифицировать запрос, основываясь на популярных исторических данных поиска.

2011 Мультимедиа Патенты Google

Как Google использует масштабируемый интерфейс (Zoomable UI) и кластеризацию для организации Поиска по картинкам

Google использует систему визуализации для поиска по картинкам, которая группирует похожие изображения на основе визуальных признаков и метаданных и отображает их в масштабируемом 2D-интерфейсе. При отдалении (zoom-out) система показывает меньше репрезентативных (канонических) изображений, часто выбираемых на основе их рейтинга. При приближении (zoom-in) раскрывается больше деталей внутри кластеров.

2006 Краулинг Мультимедиа Патенты Google

Как Google использует кластеризацию форм и краудсорсинг (CAPTCHA) для повышения точности распознавания текста (OCR) в документах и изображениях

Патент описывает систему постобработки OCR, которая повышает точность индексации отсканированных документов и изображений. Google группирует похожие по форме символы в кластеры и сравнивает их, чтобы автоматически выявить и исправить ошибки распознавания (например, путаницу между ‘С’ и ‘G’). Для сложных случаев система может использовать ручную верификацию через CAPTCHA или онлайн-игры.

2012 Knowledge Graph Kumar Mayur Thakur Патенты Google Персонализация

Как Google идентифицирует экспертов в социальных сетях и интегрирует их в результаты поиска по триггерным запросам

Патент Google, описывающий систему идентификации «Авторитетных Пользователей» (экспертов) по различным темам в рамках социальной сети (например, Google+). Система заранее определяет «Триггерные Запросы», которые активируют показ блока с экспертами в SERP. При отображении система также показывает социальный статус этих экспертов относительно пользователя для стимулирования взаимодействия.

2025 Метрики качества поиска Обучение моделей Патенты Яндекс Ранжирование

Как Яндекс улучшает обучение CatBoost с помощью алгоритма SGLB для оптимизации сложных метрик ранжирования

Яндекс подал заявку на патент нового метода обучения моделей на основе деревьев решений (таких как CatBoost) под названием Stochastic Gradient Langevin Boosting (SGLB). Этот метод позволяет эффективнее оптимизировать сложные (невыпуклые) метрики ранжирования, избегая локальных минимумов за счет двойного добавления шума в процессе обучения. Это делает основные алгоритмы ранжирования Яндекса более точными.

2012 Индексация Мультимедиа Патенты Google

Как Google ускоряет поиск похожих изображений, имитируя кластеризацию результатов

Google использует механизм для оптимизации поиска по картинке. Система заранее определяет, какой визуальный признак (измерение) лучше всего имитирует «идеальное» ранжирование, полученное с помощью дорогостоящей кластеризации. Это позволяет быстро группировать похожие изображения в выдаче без выполнения кластеризации в реальном времени.

2012 Local SEO Патенты Google

Как Google анализирует поисковые запросы, разделяя географию пользователя, географию интента и вертикаль рынка

Google использует систему для глубокого анализа логов поисковых запросов. Определяется местоположение пользователя (источник), географическое место, упомянутое в запросе (назначение), и тематическая категория (вертикаль рынка). Эти данные индексируются, позволяя аналитикам и рекламодателям изучать тренды, например, как часто пользователи из США ищут отели в Германии и какие ключевые слова они используют.

2015 Knowledge Graph Индексация Патенты Google Семантика и интент

Как Google строит Корпоративные Графы Знаний с гранулярным контролем доступа для персонализации внутреннего поиска

Патент Google описывает систему для корпоративного поиска (Enterprise Search). Она извлекает сущности и факты из внутренних документов компании, формируя Корпоративный Граф Знаний. Ключевая особенность — применение прав доступа (ACL) не к документу, а к каждому отдельному факту, что обеспечивает безопасность данных при персонализации поиска и работе цифровых ассистентов.

2022 Обучение моделей Патенты Яндекс

Как Яндекс использует стохастическую токенизацию (BPE-Dropout) для обучения своих языковых моделей и повышения их устойчивости

Яндекс патентует метод улучшения обучения NLP-моделей (включая те, что используются в поиске). Метод модифицирует стандартный алгоритм токенизации (BPE), вводя элемент случайности (Dropout). Вместо одного фиксированного способа разделения слова на части (токены), система генерирует множество вариантов во время обучения. Это делает обученные модели более устойчивыми к ошибкам, лучше понимающими морфологию и редкие слова.

2011 Мультимедиа Мультиязычность Патенты Google

Как Google использует местоположение пользователя для улучшения распознавания текста на изображениях и поиска источника контента

Google использует географическое положение пользователя для выбора наиболее подходящей языковой модели при распознавании текста (OCR) на изображениях (визуальных запросах). Это позволяет системе учитывать региональные различия в языке (например, орфографию или терминологию) для более точной интерпретации контента. Цель — найти оригинальный канонический документ, соответствующий тексту на изображении.

2018 Google Shopping Knowledge Graph Патенты Google

Как Google интегрирует платные (спонсируемые) посты из социальных сетей в результаты поиска через аукцион

Система Google для показа релевантных постов из социальных сетей в результатах поиска в качестве рекламы. Система проводит аукцион среди спонсоров (включая авторов и третьих лиц), желающих продвинуть определенные посты. Победители определяются на основе комбинации ставки и релевантности поста запросу и отображаются в специальном блоке на SERP.

2017 Обучение моделей Патенты Яндекс Ранжирование Рекомендательные системы

Как Яндекс автоматически выбирает оптимальные факторы (признаки) для обучения своих ML-алгоритмов

Яндекс патентует метод для автоматического отбора наиболее ценных признаков (Feature Selection) при обучении моделей машинного обучения. Система итеративно оценивает каждый фактор не только по его индивидуальной силе, но и по его синергии (насколько он дополняет другие факторы) и избыточности (насколько он дублирует информацию), используя условную взаимную информацию (CMI).