Google использует технологию транскодирования и разделения веб-страниц для ускорения мобильного поиска. Контент первого экрана (Above-The-Fold, ATF) встраивается прямо в страницу результатов поиска (SERP). При клике на результат ATF-контент отображается мгновенно, пока остальная часть страницы (BTF) загружается в фоновом режиме.
Автор: Виктор Репин
Google использует технологию для автоматического определения и маркировки специфических объектов или действий (называемых «объемами») внутри видео. Система анализирует визуальные характеристики, сегментирует видео на пространственно-временные части и использует существующие метаданные всего видео (например, теги или описание) для присвоения высокоточных меток этим конкретным сегментам без ручного вмешательства.
Google использует систему для интеграции блоков с ответами (Answer Boxes), таких как прогноз погоды или определения, непосредственно в интерфейс поисковых подсказок (Autocomplete). Система прогнозирует вероятный полный запрос пользователя (Dominant Query) или анализирует исторические данные, чтобы показать наиболее релевантный ответ еще до того, как пользователь отправит запрос.
Фундаментальный патент (Applied Semantics), описывающий структуру и методы создания Онтологии (Knowledge Graph). Система определяет концепции (сущности) через группы синонимов, устанавливает иерархические и латеральные связи между ними и присваивает этим связям количественную оценку силы (вес). Ключевая особенность — вес является направленным (асимметричным), что позволяет точно рассчитывать семантическое расстояние.
Google использует вероятностную модель для управления неточностью определения местоположения пользователя по IP-адресу. Система рассчитывает и ранжирует вероятности нахождения пользователя в разных локациях. Патент описывает применение настраиваемых порогов (ранга вероятности, уверенности в локации, расстояния) для геотаргетинга контента и механизм обратной связи, который корректирует эти пороги на основе анализа взаимодействий (CTR, конверсии).
Google улучшает свои возможности визуального поиска, анализируя изображения, загружаемые пользователями (query images). Система автоматически добавляет уверенно распознанные пользовательские изображения в свою обучающую базу данных, чтобы лучше распознавать вариации известных объектов. Она также кластеризует нераспознанные изображения для обнаружения совершенно новых объектов и определяет внешние наборы данных, релевантные запросам пользователей, для расширения своей базы знаний.
Google использует механизм для идентификации связанных таблиц («stitchable tables») на разных веб-страницах. Система проверяет семантическую эквивалентность заголовков, извлекает скрытые атрибуты из окружающего контекста (текст, URL) и объединяет все данные в единую, обогащенную таблицу («union table») для лучшего понимания структурированных данных в вебе.
Google применяет многоуровневую систему анализа изображений, комбинируя метаданные (GPS, время), первичное распознавание объектов (Primary Annotation) и вторичные метки, полученные через семантическое и иерархическое расширение (Label Expansion). Это позволяет системе строить глубокое понимание визуального контента, присваивать меткам оценки уверенности (Confidence Scores) и понимать сложные запросы на естественном языке.
Яндекс патентует метод борьбы с манипуляциями рейтингами организаций (например, в Картах или Поиске). Система строит граф связей между организациями на основе общих пользователей, которые их оценивали. Алгоритм ищет плотные группы организаций (полные подграфы), которые массово оцениваются одним и тем же пулом пользователей. Если распределение этих оценок аномально (например, только максимальные или минимальные баллы), система идентифицирует это как скоординированную атаку, помечает пользователей как нарушителей и удаляет их оценки.
Google может анализировать активные нетекстовые данные (изображения или видео), отображаемые на устройстве пользователя в момент ввода запроса. Если запрос неоднозначен (например, содержит местоимения или общие фразы), система извлекает из визуального контента сущности, текст (через OCR) или структурированные данные (QR-коды) и использует их для автоматической модификации запроса, чтобы лучше понять намерение пользователя и предоставить точные результаты или инициировать действия.
Патент раскрывает методы генерации словарей для предиктивного ввода и автодополнения (Google Suggest). Google анализирует популярность терминов и частоту их совместного использования (ко-оккурентность) в глобальных логах поисковых запросов и веб-документах. На основе этих данных система создает динамические, контекстно-зависимые словари, которые используются для ускорения ввода текста и предсказания запросов.
Google повышает точность геолокации, используя систему компьютерного зрения для сравнения изображений с веб-сайтов (например, сайтов недвижимости или бизнеса) с изображениями Street View. Если объекты визуально совпадают, координаты адреса уточняются. Кроме того, система извлекает текст (названия, часы работы) напрямую из Street View с помощью OCR для автоматического обогащения локальных бизнес-листингов.
Google определяет тип устройства пользователя (например, смартфон или умные часы) и на основе этого предполагает его намерение (интент). Система модифицирует исходный запрос, изменяет ранжирование и форматирует результаты, чтобы предоставить наиболее релевантный и удобный ответ для конкретного устройства и контекста использования.
Патент Google описывает систему для интерактивного ТВ, которая идентифицирует просматриваемую программу путем захвата экрана и применения оптического распознавания символов (OCR) к информационным оверлеям (например, ТВ-гиду). Система анализирует извлеченный текст, выделяет ключевые сущности (Noun Phrases) и автоматически генерирует релевантные поисковые запросы, используя метрики приоритета (Proximity Score) для предоставления связанного интернет-контента.
Патент Google описывает механизм показа спонсируемого контента, основанный не на ключевых словах, а на парах «Сущность-Действие» (например, {Фильм, Смотреть онлайн}). Система проводит отдельные аукционы для каждого действия, связанного с сущностью. Визуальное отображение (заметность и позиция) этого контента динамически меняется в зависимости от того, насколько точно запрос пользователя соответствует этому действию.
Google использует глобальный граф сущностей для определения главных тем (Центральных Сущностей) веб-страницы. Система анализирует, как сущности на странице связаны друг с другом на основе статистики их совместного упоминания в вебе (PMI). Сущности, которые изолированы или не имеют исходящих связей в контексте страницы, отбрасываются как периферийные. Этот механизм позволяет точно понять основные темы документа.
Патент Google описывает фундаментальные методы улучшения поиска путем учета лингвистических вариаций. Система автоматически расширяет запросы или индекс, добавляя словоформы (склонения, спряжения), альтернативные написания (орфографические варианты) и различные формы составных слов (слитно, раздельно, через дефис). Это гарантирует, что релевантные документы будут найдены независимо от конкретной формы слова, использованной в запросе или тексте.
Google использует механизм для оценки нового контента от авторов без истории рейтинга. Система идентифицирует атрибуты нового автора (например, email-домен, демографию, членство в группах) и рассчитывает начальный рейтинг на основе существующих оценок других авторов с аналогичными атрибутами. Это позволяет оценить качество контента до получения реальных отзывов пользователей.
Патент описывает, как Google улучшает понимание коротких, неоднозначных или грамматически некорректных текстов, таких как поисковые запросы. Для этого модели обработки языка (NLP) обучаются с использованием аннотаций от системы информационного поиска (IR), например, связей с Knowledge Graph. Это позволяет NLP-системам точнее определять структуру и смысл текста, опираясь на внешние знания о сущностях.
Google использует статистический анализ для интерпретации строк без пробелов (например, URL, доменных имен или слипшихся слов в запросах). Система генерирует различные варианты разделения строки на слова и проверяет, какой из вариантов чаще встречается в индексе веб-документов или в истории поисковых запросов. Наиболее частотный вариант признается правильной интерпретацией.