Индексация

Google использует технологию, позволяющую пользователям уточнять визуальные запросы путем произвольного выделения конкретных деталей на изображении (например, обводя или закрашивая элемент). Система интерпретирует это действие для понимания истинного намерения пользователя. Используя …
Google использует технологию шинглирования (shingling) для анализа больших коллекций документов (например, книг или веб-страниц) с целью выявления идентичных или почти идентичных отрывков текста. Система находит общие последовательности текста, ранжирует их …
Google использует этот механизм для автоматического определения схемы (набора атрибутов) для любой сущности. Анализируя, как различные веб-страницы описывают набор схожих объектов (например, список фильмов), система выявляет новые релевантные характеристики (например, …
Google использует механизм для интерпретации неоднозначных локальных запросов, введенных в одну строку. Система разделяет запрос на множество возможных комбинаций "Что" (объект поиска) и "Где" (локация). Каждая комбинация проверяется путем поиска …
Google использует механизм поиска, принимающий на вход два или более изображения. Система анализирует их для выявления общих атрибутов (стиль, цвет, тип объекта) и генерирует векторные представления (эмбеддинги). Если изображения вводятся …
Google использует запатентованный метод для автоматической генерации описаний документов (сниппетов) в результатах поиска. Система анализирует предложения в документе и ранжирует их на основе наличия трех элементов: самой фразы из запроса, …
Google ранжирует документы (особенно новости), группируя их в тематические кластеры. Система определяет «Золотые источники» (Selected Sources) на основе количества и свежести их оригинального контента в конкретных категориях. Ранжирование документа зависит …
Google использует библиографические данные (название, актеры, длина) для поиска и идентификации конкретных видео на веб-страницах. Система анализирует текст, расположенный рядом с видеоплеером («associated text»), и вычисляет «оценку совпадения» (Occurrence Score), …
Google использует сложные модели машинного обучения для анализа видеоконтента кадр за кадром. Система определяет, какие сущности (объекты, концепции) присутствуют в кадре, и вычисляет вероятность того, насколько они являются центральной темой …
Google использует систему для оценки того, насколько категория (например, "рестораны") релевантна для конкретного местоположения, основываясь на плотности и близости соответствующих бизнесов. Чтобы ускорить этот процесс, система заранее рассчитывает точные оценки …
Google использует автоматизированную систему для обновления своих географических данных путем анализа геокодированного веб-контента, в частности, отзывов о местных компаниях. Система ищет фразы (n-граммы), которые демонстрируют плотную географическую кластеризацию. Если фраза …
Google использует несколько алгоритмов для автоматического определения, является ли бизнес сетевым (имеет много филиалов) и ищет ли пользователь именно его. Система анализирует триггерные слова (например, «адреса»), соотношение локальных и веб-запросов …
Google использует технологию «Визуальных Синсетов» (Visual Synsets) для понимания содержания изображений. Система кластеризует миллиарды картинок сначала по семантическим концепциям (на основе связанных запросов), а затем по визуальному сходству. Каждому кластеру …
Google использует технологию для разрешения смысловой неоднозначности терминов (например, «apple» — фрукт или компания) путем анализа связанной информации и контекста. Система отображает термины на направленный семантический граф, анализирует силу и …
Google использует комплексную систему оценки качества новостных изданий (Source Rank) для корректировки ранжирования статей. Патент описывает множество метрик для определения авторитетности источника, включая оригинальность контента (уникальные именованные сущности), скорость публикации …
Google использует механизм для повышения эффективности сканирования интернета. Для каждого документа создается уникальный отпечаток (fingerprint), например, с помощью Simhash. Если новый документ почти идентичен уже просканированному (их отпечатки отличаются минимально), …
Анализ патента Google, описывающего фундаментальные технологии распознавания контента внутри изображений. Система обнаруживает и идентифицирует людей (используя комбинацию лиц, одежды, времени и местоположения), текст (OCR) и другие объекты. Эта информация индексируется, …
Google использует этот механизм для помощи пользователям в изучении тем, связанных с их исходным запросом. Когда пользователь ищет коллекцию сущностей (например, «Романтические фильмы»), система анализирует связи этих сущностей в Knowledge …
Google измеряет время загрузки страниц у реальных пользователей (RUM) и сегментирует эти данные по странам и типам устройств/браузеров. Если страница загружается медленно для пользователей с характеристиками, схожими с вашими, ее …
Google использует этот механизм для оптимизации своей базы данных путем объединения дублирующихся тематических кластеров документов. Система анализирует метки (labels), присвоенные разным кластерам. Если метки семантически схожи, кластеры объединяются. При этом …