Автор: Виктор Репин

2006 Ashutosh Garg Индексация Мультимедиа Мультиязычность Патенты Google

Как Google использует продвинутые методы OCR и контекстные языковые модели для распознавания текста на изображениях низкого качества

Google использует передовые технологии OCR для точного извлечения текста из изображений, включая низкокачественные фото с мобильных устройств. Система применяет масштабирование (Super-resolution), многоуровневый анализ (Multi-scale OCR) и контекстно-зависимые языковые модели (например, на основе бизнес-листингов), чтобы обеспечить надежную индексацию визуального контента.

2004 Google Shopping Индексация Патенты Google

Как Google собирает, агрегирует и позволяет искать внутри отзывов о конкретном продукте или услуге

Google использует систему для сбора отзывов из интернета, их автоматической кластеризации по продуктам и предоставления пользователям агрегированной информации. Ключевая особенность — интерфейс, позволяющий искать по тексту отзывов только для выбранного продукта, а также сортировать и фильтровать отзывы по источнику, дате и рейтингу.

2022 Мультимедиа Патенты Google

Как Google интегрирует визуальный поиск (Google Lens) в браузер с помощью выделения области и постоянной боковой панели

Патент описывает механизм бесшовного визуального поиска прямо в браузере. Пользователь может выделить любую область на веб-странице (изображение, часть видео), которая автоматически фиксируется как изображение и отправляется в качестве поискового запроса. Результаты отображаются в специальной устойчивой боковой панели, позволяя изучать находки, не теряя контекста исходной страницы.

2014 Мультимедиа Патенты Google Персонализация

Как Google идентифицирует контент на одном устройстве (например, ТВ) и проактивно отправляет свежие и трендовые результаты поиска на другое (например, смартфон)

Google использует технологию «отпечатков контента» для идентификации того, что пользователь смотрит или слушает на первом устройстве. Система автоматически генерирует связанный поисковый запрос и отправляет на второе устройство «динамические текущие результаты». Приоритет отдается наиболее свежей, часто обновляемой и трендовой информации, создавая новый канал для дистрибуции контента.

2005 Индексация Краулинг Патенты Google Техническое SEO

Как Google динамически приоритизирует сканирование страниц, когда Googlebot отстает от графика

Google использует адаптивную систему управления сканированием. Если краулер не успевает обработать все запланированные URL (отстает от графика), система динамически меняет приоритеты. Вместо хронологического порядка приоритет отдается наиболее важным страницам (на основе Importance Rank/PageRank), чтобы гарантировать свежесть индекса для ключевого контента, даже если другие страницы дольше ждут своей очереди.

2011 Патенты Google Свежесть контента

Как Google определяет запросы, требующие свежего контента (QDF), анализируя темпы создания документов в интернете

Google использует анализ временных меток документов для определения «запросов, ищущих свежесть» (QDF). Система строит временную шкалу публикаций по теме и ищет резкие всплески (события). Если обнаружен значительный недавний всплеск, система повышает в ранжировании документы, созданные после этого события, и понижает более старые результаты.

2011 Knowledge Graph Мультимедиа Патенты Google

Как Google автоматически распознает людей в видео и создает временные метки их появления с помощью социального графа

Google использует технологию для анализа видеоконтента, автоматического обнаружения и распознавания лиц. Система создает «закладки» (временные метки), указывающие, когда конкретный человек появляется и исчезает из кадра. Для идентификации используются данные социального графа, и распознанные лица могут быть связаны с их профилями в социальных сетях, обогащая метаданные видео.

2013 Knowledge Graph Патенты Google

Как Google строит Knowledge Graph, объединяя данные из разных источников, разрешает конфликты фактов и управляет идентификаторами сущностей

Google использует двухфазную систему для построения Knowledge Graph. На первом этапе данные из разных источников (например, Wikipedia, базы данных фильмов, музыкальные каталоги) нормализуются, а сущностям присваиваются глобальные идентификаторы. На втором этапе эти данные объединяются, система устраняет дубликаты и разрешает конфликты фактов, отдавая предпочтение консенсусу источников, и отслеживает происхождение каждой единицы информации.

2023 Индексация Обучение моделей Патенты Яндекс Семантический поиск

Как Яндекс использует семантическую кластеризацию векторов для организации индекса и ускорения поиска (Семантический Шардинг)

Яндекс патентует инфраструктурный метод оптимизации хранения и поиска документов. Система обучает нейросеть генерировать семантические векторы (эмбеддинги) так, чтобы их близость отражала релевантность. Документы с похожими векторами группируются в кластеры (шарды). При поиске система сравнивает вектор запроса только с центрами этих групп, мгновенно определяя нужный шард, что радикально ускоряет извлечение релевантных кандидатов.

2014 Local SEO Патенты Google Семантика и интент

Как Google классифицирует запросы в Картах на общие и конкретные, чтобы управлять показом рекламы

Google анализирует текст запроса, введенного в интерфейсе Карт, на наличие синтаксических индикаторов (запятые, заглавные буквы, названия улиц), чтобы определить, ищет ли пользователь конкретное место или общую категорию. Если запрос классифицируется как конкретный (например, точный адрес), реклама отключается; если как общий (например, «пицца рядом») — реклама включается.

2014 Патенты Google Свежесть контента

Как Google классифицирует страницы как «Динамические» или «Статические» на основе анализа внешних сигналов для адаптации ранжирования

Google использует систему для анализа паттернов активности (например, в социальных сетях), связанных с веб-страницей, чтобы классифицировать ее как «Динамическую» или «Статическую». Эта классификация определяет приоритеты ранжирования: для динамических страниц важна свежесть, а для статических — вовлеченность пользователей. Механизм может применяться как для социальных виджетов, так и в основном поиске.

2013 Мультимедиа Патенты Google

Как Google группирует видео одного события, снятые разными пользователями с разных ракурсов

Патент Google описывает систему для автоматической идентификации и группировки видео, загруженных разными пользователями, которые фиксируют одно и то же реальное событие. Система анализирует метаданные (время, местоположение, направление съемки) и содержимое (аудио, текст), чтобы определить связь между роликами. Это позволяет предложить пользователю просмотр события с разных ракурсов без необходимости ручного поиска.

2015 Мультимедиа Патенты Google

Как Google использует компьютерное зрение для проверки соответствия геолокационных тегов содержанию изображения

Google проверяет автоматически сгенерированные теги изображений, основанные на местоположении (GPS). Система использует распознавание изображений (Computer Vision), чтобы определить, что на самом деле изображено на фотографии, и сравнивает это с тегами, основанными на местоположении. Это гарантирует, что изображения, связанные с определенным местом, действительно показывают это место, повышая точность поиска по картинкам.

2024 Интент пользователя Обучение моделей Патенты Яндекс Семантический поиск

Как Яндекс использует стохастическую токенизацию (BPE-Dropout) для обучения языковых моделей (YATI) и улучшения понимания морфологии

Яндекс патентует метод предобработки текста BPE-Dropout для обучения NLP-моделей. Вместо стандартной детерминированной токенизации (BPE), система случайным образом пропускает некоторые шаги объединения символов в токены во время обучения. Это создает разные варианты сегментации одного и того же слова, что делает языковые модели (используемые в поиске и переводе) более устойчивыми (робастными) и улучшает их понимание структуры языка и редких слов.

2011 Индексация Краулинг Патенты Google Свежесть контента

Как Google оптимизирует график повторного сканирования на основе частоты изменений и важности контента

Google использует адаптивную систему планирования повторного сканирования. Система оценивает, как часто меняется документ (Change Period) и насколько он важен (Importance Rank, например, PageRank). На основе этих данных рассчитывается оптимальная частота сканирования (Crawl Period), которая корректируется для обеспечения свежести индекса и эффективного использования ресурсов.

2021 Local SEO Вертикальный поиск Патенты Яндекс Яндекс Карты

Как Яндекс управляет видимостью, детализацией и стабильностью меток (POI) на Картах в зависимости от ранга и плотности выдачи

Яндекс патентует клиентский метод управления отображением точек интереса (POI) на картах. Система определяет правила отрисовки: топовые результаты получают визуально значимые, детализированные метки, а остальные — упрощенные. При перемещении карты система сохраняет вид уже показанных меток (стабильность) и динамически адаптирует правила для новых POI, учитывая плотность меток и предотвращая наложения (коллизии).

2012 Google Shopping Индексация Мультимедиа Патенты Google

Как Google проверяет ракурс и визуальные характеристики изображений с помощью обобщенных запросов

Google повышает точность поиска по картинкам для запросов, указывающих ракурс (например, «вид сбоку»). Система генерирует более широкий запрос (например, «автомобиль вид сбоку») и использует эти результаты как эталонный набор. Это позволяет проверить, действительно ли результаты по конкретному запросу (например, «Subaru вид сбоку») соответствуют запрошенному ракурсу, и отфильтровать ложные срабатывания.

2004 Local SEO SERP Индексация Патенты Google

Как Google индексирует локальные документы с «расширенной» географией для быстрого поиска по радиусу

Google ускоряет локальный поиск по радиусу, индексируя документы (например, бизнес-листинги) не только по их точному местоположению, но и по всем окружающим географическим областям в пределах заданного диапазона. Это позволяет системе мгновенно находить релевантные результаты в нужной зоне без сложных географических вычислений во время выполнения запроса.

2012 Патенты Google Персонализация

Как Google использует социальный граф пользователя для персонализации локальной выдачи и ранжирования отзывов контактов

Google персонализирует локальные результаты поиска, используя социальный граф пользователя. Если контакты пользователя оставляли отзывы, оценки или загружали фото о бизнесе (сущности), эти сущности повышаются в персональной выдаче. Система также ранжирует контакты по силе связи с пользователем, приоритизируя отображение отзывов от наиболее близких контактов.

2011 Индексация Краулинг Патенты Google

Как Google оптимизирует индекс, сохраняя только те части документов, которые отвечают на запросы пользователей

Google может оптимизировать размер и скорость своего индекса, анализируя, какие части документа использовались для ответа на запросы пользователей. Части, которые редко используются, удаляются из индекса, а сохраняются только наиболее востребованные фрагменты.