Google анализирует тональность (Sentiment) в текстовых отзывах (структурированных и неструктурированных, например, в блогах) и объединяет эти данные со структурированными рейтингами (звездами) и данными о взаимодействии с пользователем (например, кликами). Система использует машинное обучение, чтобы определить оптимальный вес для каждого сигнала на основе обратной связи от пользователей, формируя итоговый рейтинг сущностей, таких как рестораны или продукты.
Автор: Виктор Репин
Google анализирует, как часто видео появляются вместе в одних и тех же плейлистах (статистика совместного появления), чтобы формировать рекомендации на YouTube. Этот метод позволяет рекомендовать даже малопопулярные видео. Ранжирование основано на частоте совместного появления, близости в плейлисте и схожести времени загрузки видео.
Google использует автоматизированную систему для масштабного расширения своей онтологии (Knowledge Graph). Система анализирует поток поисковых запросов и веб-тексты, используя метод Distant Supervision для изучения шаблонов описания атрибутов. Это позволяет Google извлекать миллионы новых фактов, классифицировать их (например, как числовые или текстовые) и лучше отвечать на длиннохвостые запросы.
Google использует архитектуру, которая объединяет этапы поиска (Retrieval) и ранжирования (Ranking). Сложные модели машинного обучения преобразуются непосредственно в структуру поискового индекса. Это позволяет мгновенно находить и ранжировать контент, используя всю мощь ML-алгоритмов уже на этапе извлечения данных, без запуска моделей в реальном времени.
Google использует механизм для точной интерпретации запросов в специализированных доменах (медиа, товары, музыка). Система создает базу данных сущностей с оценками их популярности (Entity Scores). При получении запроса (текстового или голосового) система сопоставляет термины с этой базой, использует оценки популярности и контекст для разрешения неоднозначностей (через Feasibility Score) и формирует структурированный запрос.
Патент описывает, как Google обрабатывает вопросы о сущностях (людях, местах, компаниях). Система распознает сущность в запросе, определяет запрашиваемый атрибут (например, адрес), извлекает значение этого атрибута из результатов поиска и визуально выделяет ответ на странице выдачи. Это может проявляться как блок готового ответа (Featured Snippet) или выделение информации жирным шрифтом в сниппете.
Патент Google, описывающий инфраструктуру и многоэтапный процесс для сбора ground-truth данных о точках интереса (POI). Система использует полевых сборщиков данных, верификаторов для контроля качества и транскрибаторов. Этот процесс обеспечивает высокую точность данных о локальных компаниях (название, адрес, телефон, часы работы, фото), используемых в Поиске и Картах.
Патент Google описывает систему анализа веб-страницы для выявления ее главных тем («Центральных Сущностей») с помощью глобального Графа Сущностей, основанного на совместной встречаемости терминов. Система отфильтровывает периферийные и неоднозначные темы, генерирует на основе главных тем поисковые запросы и предлагает пользователю категоризированный дополнительный контент (новости, видео, товары).
Google использует метод обратного анализа для понимания намерений пользователей. Анализируя, какие запросы приводят пользователей к одним и тем же документам (Query-Document pairs), система выявляет общие шаблоны (Query Patterns) и строит Граф Шаблонов (Pattern Graph). Это позволяет определить, какие формулировки запросов имеют одинаковый интент, разделять близкие, но разные интенты, и переносить понимание интента между языками с помощью сущностей.
Google использует механизм для определения местоположения веб-страницы, даже если на ней нет адреса. Система находит адрес на других страницах того же сайта (например, в разделе «Контакты») и присваивает его связанным страницам (например, товарам или услугам), анализируя текст ссылок и расстояние в кликах между ними.
Google применяет сложную модель машинного обучения для извлечения фактов из текста. Система анализирует не только контекст, в котором сущность и атрибут упоминаются вместе, но и использует уже известные атрибуты этой сущности, а также атрибуты похожих сущностей из Knowledge Graph. Это позволяет точнее валидировать характеристики сущностей, даже если они нечетко описаны в тексте.
Google использует этот механизм для автоматической классификации сущностей в своей базе знаний (Fact Repository/Knowledge Graph). Система анализирует атрибуты, значения и источники фактов, связанных с сущностью, и применяет модели машинного обучения, чтобы определить ее тип (например, «Человек», «Книга» или «Фильм»), если он неизвестен.
Google определяет семантическую связь между сущностями, строя двудольный граф, который соединяет сущности (например, события, места) с их признаками (например, текстом, анкорами, запросами). Используя алгоритм машинного обучения Label Propagation, система распространяет идентификаторы сущностей по графу. Это позволяет понять, что две сущности связаны, даже если они не имеют общих прямых признаков, но связаны через семантику своих признаков.
Патент Google описывает систему персонализации поиска, которая идентифицирует онлайн-форумы и группы в результатах выдачи. Если социальные контакты пользователя являются участниками этих сообществ, система повышает их в ранжировании и добавляет в сниппет социальные аннотации (имена, фото контактов) и интерактивные элементы (кнопки «Присоединиться» или «Опубликовать»).
Патент Google описывает систему повышения эффективности оценки контента, особенно важную в эпоху генеративного ИИ. Google обучает офлайн-модель имитировать результаты сложной онлайн-модели, но с использованием только внутренних характеристик контента, игнорируя ID и исторические данные. Это позволяет массово и быстро оценивать новый контент офлайн, снижая нагрузку на основные системы ранжирования и ускоряя выдачу.
Google анализирует контент на экране мобильного устройства (или данные с камеры), распознает сущности (люди, места, объекты), определяет наиболее важные из них на основе истории поисковых запросов и предоставляет пользователю «Карточки действий» (Action Cards). Эти карточки содержат факты из Графа Знаний и релевантные действия, такие как звонок, маршрут или переход в приложение через Deep Link.
Google анализирует сущности (Topics/Entities) и их типы, общие для топовых результатов поиска, чтобы определить истинный интент запроса. Если интент подтверждается этим тематическим консенсусом выдачи, система продвигает «авторитетные кандидаты» (например, полные фильмы). Если консенсуса нет, продвижение блокируется для предотвращения показа нерелевантных результатов.
Google использует систему для обогащения пользовательского медиаконтента (например, видео) структурированными метаданными. Система позволяет зрителям предлагать или подтверждать данные (теги в формате ключ-значение), извлекая их также из комментариев. На основе агрегированных ответов и репутации пользователей вычисляется оценка достоверности (Confidence Score), чтобы определить наиболее точную информацию о контенте.
Патент Google описывает метод обучения системы исправлению ошибок фонетического ввода (например, Pinyin для китайского). Система анализирует логи: если пользователи часто вводят фонетическую строку, но редко выбирают предложенные символы, система предполагает ошибку. Затем она вычисляет вероятность («Proximity Measurement») того, какой ввод подразумевался на самом деле, основываясь на схожести произношения и частоте успешных выборов для альтернатив. Это позволяет автоматически корректировать ошибки, вызванные диалектами.
Google использует механизм объединения результатов из Универсального (веб) и Локального поиска. Система идентифицирует авторитетные бизнес-сайты в веб-выдаче и оценивает их по локальным критериям. Затем Локальный блок (Local Pack) переранжируется так, чтобы порядок результатов соответствовал их авторитетности в Универсальном поиске. Это подтверждает, что авторитетность сайта в вебе напрямую влияет на его позиции в Локальном поиске.