Автор: Виктор Репин

Google использует классификатор машинного обучения для идентификации «лонгридов» (In-Depth Articles), анализируя не длину или тематику, а стиль написания. Система использует глубокий NLP-анализ для извлечения лингвистических признаков, таких как структура предложений (Parse n-Grams), грамматические функции слов, частота местоимений и пунктуация. Это позволяет выделять в поиске глубокий аналитический контент.

Патент описывает механизм работы Google Autocomplete для сложных или редких запросов. Если система не находит достаточно качественных или популярных подсказок для введенного текста, она переписывает частичный запрос. Это включает классификацию терминов на обязательные и опциональные, удаление менее важных слов или замену слов на синонимы. Это позволяет предложить пользователю релевантные и популярные полные запросы, даже если они не идеально соответствуют тому, что было введено изначально.

Google использует этот механизм для разрешения неоднозначности запросов. Система генерирует несколько возможных интерпретаций (интентов) запроса и создает уточненные запросы для каждой из них. Затем она сравнивает, насколько результаты выдачи по уточненным запросам похожи на результаты по исходному запросу. Та интерпретация, чьи результаты наиболее схожи, признается доминирующим интентом пользователя.

Google использует модель глубокого обучения для анализа изображений, которая не только извлекает визуальные признаки (дескрипторы), но и оценивает их важность с помощью механизма внимания. Это позволяет системе фокусироваться на самых значимых элементах (например, объектах или ориентирах) и игнорировать визуальный шум, повышая точность и эффективность поиска похожих изображений.

Google использует статистическую модель, обученную на известных адресах и названиях организаций, для парсинга неоднозначных картографических запросов. Система сегментирует запрос, присваивает локационные типы и рассчитывает вероятность различных вариантов разделения, чтобы точно определить искомую локацию и объект поиска, особенно в языках без пробелов.

Google использует систему для анализа общих ресурсов (например, научных публикаций) с целью определения и ранжирования связей между сущностями (например, экспертами). Система рассчитывает «оценку соавторства», учитывая количество общих работ, их свежесть, популярность и уникальность авторского состава. Это позволяет определить наиболее значимых коллег эксперта и обогатить его профиль авторитетности.

Google использует систему параллельных поисковых движков (OCR, распознавание лиц, объектов, продуктов) для анализа визуального запроса (изображения). Система создает интерактивный документ, накладывая на исходное изображение визуальные идентификаторы (например, рамки или метки) для распознанных объектов. Эти идентификаторы служат ссылками на конкретные результаты поиска для каждого объекта.

Google использует систему для ранжирования локальной рекламы на мобильных устройствах. Она собирает данные о взаимодействии пользователей (клики, звонки, отзывы, чекины) из множества источников (поиск, карты, соцсети, сторонние приложения, NFC). Эти агрегированные данные, вместе с расстоянием до пользователя, используются моделью машинного обучения для прогнозирования вероятности клика и определения рейтинга рекламы.

Google использует системы для преобразования неструктурированных табличных данных (например, из spreadsheets, HTML-таблиц или продуктовых фидов) в структурированный граф знаний. Патент описывает механизмы импорта таблиц, автоматического создания сущностей и связей, а также процесс сверки (reconciliation) для связи данных с существующими сущностями во внешних графах (Knowledge Graph).

Google использует механизм расчета оценок, при котором вес фактора ранжирования (индикатора) не является фиксированным, а динамически определяется значением самого этого фактора. Это позволяет системе повышать или понижать влияние конкретных сигналов в зависимости от уверенности в их надежности, гарантируя, что наиболее показательные сигналы доминируют в итоговой оценке документа или автора.

Google использует механизм для создания интерактивных блоков ответов (Answer Boxes) на странице результатов поиска. Система отправляет на устройство пользователя не только видимый контент, но и дополнительный (например, данные для других вкладок или временных интервалов). Это позволяет пользователю взаимодействовать с блоком (использовать слайдеры, переключать вкладки) и видеть новый контент мгновенно, без перезагрузки страницы и отправки новых сетевых запросов.

Google использует систему для ранжирования рекомендуемых (дополнительных) видео на платформах типа YouTube. Система учитывает не только релевантность и потенциал монетизации видео, но и «экспериментальные данные» о том, как пользователи взаимодействуют с рекламой в этом видео. Цель — показывать видео, где пользователи с большей вероятностью досмотрят рекламу, максимизируя доход и минимизируя отток пользователей.

Google анализирует, как глаголы и объекты в запросе статистически связаны с именами людей в корпусе документов. Система вычисляет оценку уверенности, что ответ должен содержать имя человека. Если уверенность высока, результаты с именами повышаются в ранжировании; если низка (например, ожидается название организации) — понижаются.

Патент Google описывает систему, которая анализирует контекстную информацию (например, URL или контент страницы, которую пользователь просматривает), предоставленную вместе с поисковым запросом. Система определяет доминирующую тему этого контекста и затем фильтрует или переранжирует результаты поиска, отдавая предпочтение тем, которые соответствуют этой теме. Это позволяет уточнять неоднозначные запросы на основе текущего интереса пользователя.

Google использует механизм для валидации синонимов, применяемых при расширении запросов. Чтобы проверить, является ли кандидат синонимом термина, система переводит оба слова на третий (стандартный) язык, например, английский, и сравнивает наборы полученных переводов. Если переводы совпадают или сильно пересекаются, синоним считается точным, что предотвращает ошибки в понимании запроса и улучшает качество выдачи.

Анализ патента, лежащего в основе Google Authorship. Описан механизм верификации авторства путем создания замкнутого цикла ссылок: от контента к профилю автора (используя атрибуты вроде rel=»author») и обратно от профиля к сайту с контентом (используя атрибуты вроде rel=»contributor-to»). Также описан альтернативный метод через верификацию email-адреса автора.

Яндекс патентует вероятностный метод для определения времени создания веб-страницы, когда явные данные отсутствуют или недостоверны. Система анализирует граф ссылок, исходя из предположения, что страницы склонны ссылаться на контент схожего возраста («свойство новизны») и качества. Дата создания определяется путем поиска времени, которое максимизирует вероятность наблюдаемой структуры ссылок в сети.

Google использует механизм для помощи пользователям в уточнении их поискового намерения. Система анализирует текст веб-страниц в результатах поиска и находит фразы, похожие на исходный запрос или характеризующие документ. Эти фразы затем встраиваются непосредственно в сниппеты как кликабельные предложения для нового поиска, облегчая навигацию и уточнение запроса.

Google патентует механизм «Ассистивного браузинга», который анализирует контент страницы, просматриваемой пользователем в момент ввода запроса. Система использует этот контекст для переписывания запроса и автоматически выбирает наилучший результат (часто с того же сайта), перенаправляя пользователя сразу на целевую страницу, минуя стандартную выдачу (SERP).

Google использует механизм для определения самой важной части страницы по запросу пользователя. Система классифицирует слова запроса на «навигационные» (если они есть в Title или URL) и «информационные». При анализе контента внутри страницы вес «навигационных» слов снижается или обнуляется, позволяя точнее выделить конкретный фрагмент текста, содержащий ответ.