Автор: Виктор Репин

2016 Интент пользователя Качество контента Патенты Яндекс Семантический поиск

Как Яндекс автоматически определяет значение многозначных слов (омонимов), используя контекстные аналогии без ручной разметки

Яндекс патентует метод разрешения лексической многозначности (Word Sense Disambiguation), не требующий размеченных вручную корпусов. Система находит многозначное слово (омоним) и анализирует его грамматический контекст. Затем она ищет однозначное слово в аналогичном контексте и переносит его лингвистические характеристики (например, часть речи) с однозначного слова на омоним, определяя его значение.

2013 Мультимедиа Патенты Google Персонализация Семантика и интент

Как Google использует окружающие звуки и изображения (контекст) для ответов на голосовые запросы

Google использует данные окружающей среды (фоновый звук, изображения), полученные с мобильного устройства одновременно с голосовым запросом, чтобы понять контекст. Если пользователь спрашивает «Кто режиссер этого шоу?», система идентифицирует шоу по звуковой дорожке или изображению и дает точный ответ.

2010 Мультиязычность Патенты Google Семантика и интент

Как Google автоматически генерирует правила понимания запросов для разных языков, используя машинный перевод

Патент Google описывает инфраструктурный механизм для масштабирования понимания запросов на разные языки. Система берет существующий паттерн запроса на одном языке (например, английское «{что} near {где}»), находит реальные запросы, соответствующие этому паттерну, переводит их и автоматически выявляет эквивалентную структуру запроса на целевом языке. Это позволяет Google быстрее и точнее интерпретировать структурированные запросы (например, локальный поиск) по всему миру.

2014 Knowledge Graph Мультимедиа Патенты Google Персонализация

Как Google использует темпоральное индексирование сущностей в видео для переписывания запросов в реальном времени

Система Google для автоматической контекстуализации запросов во время просмотра мультимедиа. Google индексирует сущности (людей, объекты) и точное время их появления в контенте. Когда пользователь задает расплывчатый вопрос (например, «Кто это?»), система использует текущий таймкод для идентификации релевантных сущностей, переписывает запрос с контекстом и предоставляет мгновенный ответ, не прерывая воспроизведение.

2015 Google Shopping Индексация Мультимедиа Патенты Google

Как Google индексирует, ищет и отображает интерактивные 3D-модели в результатах поиска

Google разработал систему для индексации и поиска 3D-моделей. Система может автоматически аннотировать части объектов (например, определять «объектив» на камере), изучая их форму и расположение. Это позволяет искать 3D-объекты, используя изображения или другие 3D-модели в качестве запроса. Результаты поиска включают интерактивные 3D-модели, которые можно вращать прямо в выдаче (moveable inline).

2013 Патенты Google Персонализация Семантика и интент

Как Google использует интерактивные шаблоны в подсказках для формирования структурированных запросов

Google может заменять стандартные поисковые подсказки интерактивными шаблонами, когда распознает намерение пользователя выполнить конкретную задачу (например, конвертацию величин, перевод, поиск авиабилетов). Эти шаблоны содержат редактируемые поля (выпадающие списки, поля ввода), позволяя пользователю сформировать точный структурированный запрос прямо в строке поиска перед отправкой.

2013 Knowledge Graph Патенты Google Персонализация Семантика и интент

Как Google использует распознавание сущностей в тексте (например, в email) для отображения персонализированного медиаконтента и социальных действий

Google анализирует текст (например, электронные письма) для идентификации медиа-сущностей (фильмов, книг, музыки). Система автоматически отображает связанный контент, ссылки для покупки и персонализированную информацию, включая активность социальных связей пользователя. Это демонстрирует возможности Google в извлечении сущностей из неструктурированного текста и их связи с действиями и социальным графом.

2019 Local SEO Индексация Мультимедиа Патенты Google

Как Google анализирует изображения (Street View и фото пользователей) для понимания физических атрибутов локаций и рекомендует места для конкретных активностей

Google использует автоматический анализ изображений (например, Street View и фото пользователей) для создания Геосемантического индекса. Этот индекс каталогизирует физические особенности мест (скамейки, деревья, игровые площадки) и связывает их с активностями (чтение, прогулка, отдых с детьми). Это позволяет поисковой системе рекомендовать локации на основе того, что там можно делать и какова там атмосфера, а не только на основе названия или категории бизнеса.

2011 Google Shopping Knowledge Graph Индексация Патенты Google

Как Google использует GTIN, MPN и машинное обучение для определения синонимов брендов в каталоге товаров

Google использует механизм машинного обучения для решения проблемы несогласованности данных в фидах мерчантов. Система анализирует пары товарных предложений с одинаковыми идентификаторами (GTIN, MPN), но разными названиями брендов. Путем расчета метрик схожести (цены, заголовка) и статистического анализа система определяет, являются ли разные названия (например, «HP» и «Hewlett-Packard») синонимами одного и того же бренда для корректной группировки товаров.

2016 Патенты Google Семантика и интент

Как Google использует иерархическое квантование для ускорения поиска по векторному сходству (MIPS)

Этот патент Google описывает инфраструктурную технологию для экстремально быстрого поиска по векторному сходству (Maximum Inner Product Search). Используя иерархическое квантование (комбинацию VQ и PQ) и оптимизацию на уровне CPU, Google может эффективно находить семантически релевантные документы, представленные в виде векторов (embeddings), среди миллиардов кандидатов в реальном времени.

2007 Индексация Мультиязычность Патенты Google

Как Google использует машинное обучение и статистику запросов для разделения составных слов (компаундов)

Google использует систему для анализа и разделения составных слов (компаундов), часто встречающихся в таких языках, как немецкий. Система генерирует различные варианты разделения слова, применяет морфологические изменения и оценивает их, используя статистику из логов поисковых запросов (частотность, совместная встречаемость), данные рекламодателей и анализ анкорных текстов. Модель машинного обучения выбирает наилучший вариант разделения, который затем используется в качестве ключевых слов.

2004 Патенты Google Поведенческие сигналы

Как Google автоматически отслеживает качество поиска с помощью анализа временных рядов и поведения пользователей

Google использует систему автоматического мониторинга для оценки качества результатов поиска и рекламы. Система строит статистические модели (Time Series Models) на основе исторических данных о поведении пользователей (например, CTR на позиции 1, «длинные клики»). Если текущие показатели значительно отклоняются от прогнозируемых значений, система сигнализирует о падении качества и может автоматически инициировать корректирующие действия, например, откат обновлений индекса или кода.

2013 Google Shopping Knowledge Graph Индексация Патенты Google

Как Google использует структурированные фиды данных для связи товаров и услуг с сущностями и прямыми действиями в поиске

Google использует систему обработки структурированных фидов данных (например, от ритейлеров или стриминговых сервисов) для точного сопоставления их инвентаря с конкретными сущностями в Knowledge Graph. Это позволяет генерировать пары «сущность-действие» (например, {Фильм X, Смотреть онлайн}), которые используются для показа интерактивных и транзакционных элементов (таких как кнопки «Купить» или «Смотреть») непосредственно в поисковой выдаче, часто в рамках Knowledge Panel.

2021 SERP Метрики качества поиска Патенты Яндекс Поведенческие факторы

Как Яндекс использует метод «линеаризации» для повышения точности и скорости A/B тестирования метрик поведения пользователей

Яндекс патентует математический метод для оценки результатов A/B тестов. Метод «линеаризации» преобразует сложные поведенческие метрики-отношения (например, клики на запрос) в более простую линейную форму. Это позволяет быстрее, точнее и с меньшими вычислительными затратами определять, действительно ли изменения в поиске улучшают взаимодействие пользователей.

2022 Google Shopping Мультимедиа Патенты Google

Как Google автоматически распознает товары в видео, комбинируя анализ текста и изображений

Google использует мультимодальную систему для идентификации продуктов в контенте (например, видео). Система анализирует метаданные (заголовок, описание, субтитры) и визуальные данные (кадры видео) с помощью отдельных моделей. Затем Fusion Model объединяет эти сигналы для точного определения продукта и его временной метки. Результаты используются для автоматического обогащения метаданных контента и улучшения точности субтитров.

2007 Knowledge Graph Индексация Краулинг Патенты Google

Как Google использует структурные шаблоны и анализ «Edit Distance» для извлечения структурированных данных из веб-страниц

Google использует систему для преобразования неструктурированного контента веб-страниц в структурированные данные. Система обучается на примерах, размеченных вручную, для создания обобщенных структурных шаблонов (Template Trees), учитывающих повторяющиеся или опциональные элементы. Затем новые страницы сравниваются с этими шаблонами с помощью метрики «Edit Distance». При совпадении структуры данные автоматически извлекаются и сохраняются в базу данных для использования в поиске.

2019 Мультимедиа Патенты Google Семантика и интент

Как Google использует контент на экране для распознавания голосовых команд без активационной фразы (Hotword)

Патент Google описывает, как голосовые ассистенты на устройствах с экраном (смартфоны, смарт-дисплеи) определяют, предназначена ли им последующая фраза, даже если пользователь не произнес активационное слово («Ok Google»). Система анализирует, связана ли произнесенная команда с контентом, который в данный момент отображается на дисплее, чтобы поддержать естественный диалог.

2015 Knowledge Graph Мультимедиа Патенты Google Свежесть контента

Как Google фильтрует и отображает прямые трансляции в поиске на основе качества организатора, связанных сущностей и времени

Google использует систему для отображения прямых трансляций (Live Events) в результатах поиска. Система предварительно фильтрует трансляции, рассчитывая Quality Score на основе авторитетности организатора (Organizer Score), популярности связанных сущностей (Entity Score) и качества описания. В выдаче трансляции появляются, только если они связаны с сущностями в запросе, проходят порог качества и начинаются в ближайшее время, причем временной порог адаптируется в зависимости от интента запроса.

2013 EEAT и качество Патенты Google Поведенческие сигналы Семантика и интент

Как Google обрабатывает сложные запросы к базам данных, выполняя только эффективные операции и делегируя ресурсоемкие задачи

Патент описывает инфраструктурный механизм оптимизации нагрузки на серверы баз данных (Datastore Servers). Если запрос требует операций, для которых нет подходящих индексов, сервер выполняет только эффективную (поддерживаемую) часть запроса. Он возвращает промежуточные результаты и описание невыполненных (ресурсоемких) шагов инициатору запроса.

2012 Local SEO SERP Патенты Google Персонализация

Как Google идентифицирует и верифицирует локальные бизнесы для показа карт и адресов в органической выдаче

Google использует этот механизм для улучшения органических результатов. Система определяет, связана ли веб-страница с одним конкретным бизнесом. Затем она верифицирует ее локальную значимость, проверяя, ссылаются ли на нее другие топовые результаты по тому же запросу. Если страница верифицирована, Google дополняет стандартную «синюю ссылку» интерактивными локальными данными, такими как адреса и превью карт.