Google анализирует визуальное содержимое изображений, которые пользователи чаще всего выбирают в ответ на определенный запрос. На основе этого анализа (наличие лиц, текста, графиков, доминирующих цветов) система определяет категорию запроса (например, «запрос о конкретном человеке» или «запрос на определенный цвет»). Эти категории затем используются для переранжирования будущих результатов поиска, повышая изображения, которые визуально соответствуют выявленному интенту.
Автор: Виктор Репин
Google анализирует контент веб-страницы или приложения, активного на устройстве пользователя, для понимания неоднозначных или диалоговых запросов (например, «когда он родился?»). Система идентифицирует сущности (людей, места, объекты) в активном контенте и переписывает запрос, включая наиболее вероятную сущность, чтобы предоставить точные результаты, основанные на непосредственном контексте просмотра.
Google использует технологию анализа контента на экране устройства (включая видимую и прокручиваемую области, а также историю взаимодействий) для прогнозирования следующего шага пользователя. Система идентифицирует и ранжирует сущности на странице по их визуальной значимости (Prominence) и генерирует релевантные подсказки запросов или действий (например, «Позвонить ему» или «Как туда добраться»), часто используя местоимения.
Google анализирует соседние слова в поисковом запросе для выявления иерархических отношений (например, «Город, Страна» или «Род, Вид»), используя данные таксономии. Система генерирует различные интерпретации запроса, оценивает их на основе шаблонов и местоположения пользователя и использует лучшую интерпретацию для уточнения поиска, улучшая понимание структурированных запросов.
Google использует метод машинного обучения для автоматического понимания и маркировки контента, такого как изображения, видео или текст. Система анализирует обучающий набор данных, выделяет схожие признаки (кластеры) и определяет, какие комбинации признаков (высокоуровневые конъюнкции) лучше всего предсказывают определенные метки. Это позволяет Google распознавать объекты на изображениях или темы в видео независимо от окружающего текста.
Патент описывает систему локального поиска, которая ранжирует результаты не только по расстоянию (Spatial Relevance), но и по социальной значимости (Social Relevance) и релевантности виду деятельности (Activity Relevance). Система анализирует отзывы от людей из социального круга пользователя, учитывая степень их близости и местоположение. Также используется NLP для анализа веб-контента и отзывов, чтобы понять, для каких активностей (например, «романтический ужин» или «детский праздник») подходит заведение.
Google использует механизм для разрешения географической неоднозначности. Если фраза может означать как местоположение, так и нечто иное (например, «Orange»), система анализирует сопутствующие слова в запросе (Location Factor), местоположение пользователя (Origin Factor) и язык (Language Factor). На основе этих сигналов определяется локальный интент, и результаты ранжируются с приоритетом для соответствующего местоположения.
Анализ патента Google, описывающего фундаментальные технологии распознавания контента внутри изображений. Система обнаруживает и идентифицирует людей (используя комбинацию лиц, одежды, времени и местоположения), текст (OCR) и другие объекты. Эта информация индексируется, позволяя пользователям искать изображения по их визуальному содержанию, используя текст или другое изображение в качестве запроса.
Google использует формулу S’ = S * Q^D для корректировки ранжирования. Система определяет, требует ли запрос свежего контента (Q) и насколько свеж и качественен сам документ и его источник (D). Это позволяет экспоненциально повышать новый контент от авторитетных авторов для актуальных тем и понижать устаревший контент.
Google использует этот механизм для помощи пользователям в изучении тем, связанных с их исходным запросом. Когда пользователь ищет коллекцию сущностей (например, «Романтические фильмы»), система анализирует связи этих сущностей в Knowledge Graph (например, кто режиссер, кто актер). На основе этих связей (триплетов) система генерирует и предлагает пользователю новые коллекции для изучения (например, «Актеры романтических фильмов»).
Google измеряет время загрузки страниц у реальных пользователей (RUM) и сегментирует эти данные по странам и типам устройств/браузеров. Если страница загружается медленно для пользователей с характеристиками, схожими с вашими, ее позиции в выдаче могут быть понижены. Система использует пороговые значения, основанные на перцентилях, для определения степени пессимизации.
Патент Google описывает систему коррекции запросов для сложных случаев: редких запросов (long-tail), сложных опечаток и путаницы между сущностями. Если система подозревает неточность термина, она генерирует производные запросы, удаляя или заменяя этот термин. Затем она анализирует результаты этих производных запросов (заголовки, анкоры, URL), чтобы найти правильный термин и скорректировать исходный запрос.
Google использует этот механизм для оптимизации своей базы данных путем объединения дублирующихся тематических кластеров документов. Система анализирует метки (labels), присвоенные разным кластерам. Если метки семантически схожи, кластеры объединяются. При этом система учитывает вес (Weight) кластеров, который может базироваться на ссылках и трафике, чтобы определить финальные метки объединенной темы.
Google использует механизм для автоматического и безопасного наполнения ограниченных индексов (например, YouTube Kids). Система анализирует, что ищут пользователи в ограниченном индексе, находит соответствующие темы в основном индексе, а затем рассчитывает рейтинг доверия (Measurement) для источников (каналов). Рейтинг рассчитывается по формуле, учитывающей среднюю позицию источника в поиске и историю его нарушений. Контент из наиболее надежных источников переносится в ограниченный индекс.
Система Google для анализа и маркировки новостных статей такими типами, как «In-Depth» (Подробный материал), «Opinion» (Мнение), «Most Cited» (Наиболее цитируемый) или «Local Perspective» (Местный источник). Это помогает пользователям выбирать нужный тип контента и влияет на видимость в новостных результатах.
Google использует механизм рекомендаций, который намеренно предлагает пользователям новый опыт, максимально отличающийся от их устоявшихся интересов. Вместо того чтобы предлагать похожие места, система находит пользователей с противоположными вкусами или объекты, наименее похожие на историю пользователя, и рекомендует их для расширения кругозора. Это влияет на Google Maps и персонализированные ленты.
Патент описывает систему автоматизированного тестирования визуальных элементов контента (результатов поиска или рекламы). Google может случайным образом изменять параметры отображения (цвет ссылок, размер шрифта, отступы) в пределах заданного диапазона. Система отслеживает показатели эффективности (например, CTR) для разных вариантов и итеративно сужает диапазон, чтобы найти оптимальный внешний вид, максимизирующий взаимодействие.
Google использует аддитивную модель для разрешения неоднозначности сущностей (например, «Ягуар» — машина или животное). Вместо перемножения вероятностей контекстных признаков, система усредняет их «голоса» (support scores). Это предотвращает ошибки из-за коррелирующих признаков и позволяет точнее определять, какая именно сущность упоминается, опираясь на разнообразный контекст.
Google использует этот механизм для классификации запросов и выбора формата прямого ответа. Система анализирует, присутствуют ли сущности, извлеченные из результатов поиска, в тексте самого запроса. Если найдена новая сущность (которой нет в запросе), она считается ответом (Entity-triggering). Если все сущности уже известны из запроса, система предоставляет текстовое описание (Description-triggering).
Google патентует систему для автоматической категоризации видеоканалов и плейлистов. Система определяет тематику канала, анализируя не только метаданные, но и то, какие видео пользователи смотрят чаще всего и сколько времени проводят на канале (Channel-driven watch time). Видео с низким вовлечением игнорируются, что позволяет точнее классифицировать канал и ранжировать его в поиске по релевантным категориям.