Автор: Виктор Репин

Google использует статистические методы, такие как интервал Уилсона, для оценки качества контента при малом количестве данных (например, голосов или поведенческих сигналов). Для ранжирования используется пессимистическая оценка (нижняя граница доверительного интервала), что обеспечивает стабильность и отдает предпочтение контенту с большим объемом данных. Для определения приоритета тестирования (планирования голосования) используется оптимистическая оценка (верхняя граница), что позволяет быстро выявлять потенциально популярный новый контент.

Анализ патента Google, описывающего механизм ранжирования, который комбинирует внешнюю оценку сайта (Global Ranking) с внутренней оценкой его страниц (Onsite Ranking). Система проверяет, соответствует ли страница, признанная лучшей внутри сайта, общему уровню авторитетности домена. Несоответствие может привести к понижению сайта в выдаче.

Яндекс патентует метод определения «Параметра Полезности» для результатов поиска (как вертикальных вставок, так и органических результатов) путем активного тестирования. Система намеренно показывает результаты на случайных позициях тестовой группе пользователей и анализирует их поведение (клики, время просмотра). Это позволяет найти оптимальное расположение блоков в выдаче, основываясь на их реальной востребованности, а не на исходном ранге.

Google анализирует два типа данных для определения альтернативных товаров: историю кликов в продуктовом поиске (какие запросы ведут к каким товарам) и логи веб-поиска (как часто пользователи вводят сравнительные запросы, например, «Товар А vs Товар Б»). Комбинируя эти данные, система вычисляет вес ассоциации между продуктами, чтобы предлагать пользователям релевантные альтернативы при поиске товаров.

Google использует комбинацию методов для определения того, ищет ли пользователь информацию о медиаконтенте (ТВ-шоу, фильмы). Система анализирует запросы на наличие медиа-терминов, временных указателей, префиксов и использует машинное обучение (включая анализ контекстных векторов) для разрешения неоднозначности. При обнаружении медиа-интента Google формирует специализированную выдачу, включающую списки эпизодов и сетку телепрограммы, вместо стандартных синих ссылок.

Google использует алгоритм для идентификации «Классических видео» на платформах типа YouTube. Система анализирует не абсолютное количество просмотров, а долю видео в общем трафике платформы за день. Если видео стабильно поддерживает значительную долю трафика на протяжении длительного периода, оно получает статус «Классического», что отличает его от вирусного контента с кратковременной популярностью.

Google анализирует данные сенсоров мобильного устройства за определенный период времени, чтобы определить преобладающий способ передвижения пользователя (например, вождение), игнорируя кратковременные остановки. Эта «преобладающая активность» используется для ранжирования локальных подсказок и результатов поиска, отдавая приоритет местам (POI), которые наиболее доступны и релевантны для текущего способа передвижения.

Google отслеживает сущности (люди, места, медиа), упомянутые в недавних запросах пользователя в рамках одной сессии. При вводе нового запроса система предлагает подсказки, комбинируя стандартные шаблоны запросов (например, «погода в $городе») с этими контекстными сущностями. Это позволяет персонализировать автодополнение на основе текущего интереса пользователя.

Google использует систему для объяснения, почему две сущности (например, компании) похожи. Вместо очевидных связей (например, «оба являются ресторанами»), система анализирует все общие черты, отфильтровывает слишком частые и слишком редкие, и выбирает «умеренно уникальные» характеристики (например, «дровяная печь» или «живая музыка»), чтобы предоставить более содержательное описание связи.

Google анализирует агрегированную историю поисковых сессий, чтобы предсказать, какой запрос пользователь введет следующим. Система может выполнить этот предполагаемый запрос (Inferred Action) заранее и встроить его результаты непосредственно в текущую страницу выдачи. Этот механизм часто активируется при показе персональных данных или Панелей знаний и учитывает контекст (время, сезон) и интересы пользователя.

Google динамически определяет предпочитаемую страну пользователя, используя интерфейс поиска (например, google.de) и IP-адрес. Затем система смещает результаты поиска, повышая оценки (Weighting Factor) или позиции (Shifting Factor) контента, связанного с этой страной. Патент раскрывает сигналы, используемые для определения местоположения сайта (ccTLD, IP сервера, география ссылок) и методы агрессивного повышения локальных результатов.

Google анализирует историю пользователя, время, местоположение и другие сигналы для прогнозирования тем, интересующих пользователя в данный момент. Когда пользователь демонстрирует намерение начать поиск (например, открывает страницу поиска), система может проактивно показать релевантный контент или даже перенаправить на нужный ресурс, не дожидаясь ввода запроса.

Google использует систему для идентификации таблиц с упорядоченными данными (рейтингами) на веб-страницах. Система анализирует структуру таблицы и контекст страницы (заголовки, окружающий текст, прошлые запросы), чтобы понять, что именно и по какому критерию ранжируется. Если исходная страница уже занимает высокие позиции, Google может извлечь данные из таблицы и показать их непосредственно в выдаче в виде Featured Snippet, отвечая на запросы о рейтингах и сравнениях.

Google использует модели машинного обучения (например, архитектуру Encoder-Decoder) для анализа контента ресурса и прогнозирования значений критически важных сигналов ранжирования, которые отсутствуют (например, каким был бы анкорный текст ссылок или по каким запросам пользователи кликали бы на ресурс). Эти спрогнозированные сигналы затем используются в ранжировании наравне с реальными данными.

Google использует механизм для корректировки общих рейтингов сущностей (товаров, услуг, компаний) на основе индивидуальных предпочтений пользователя. Система анализирует текстовые отзывы, чтобы выявить характеристики сущности (например, «цена», «скорость обслуживания») и определить их влияние на оценки. Затем, зная профиль предпочтений пользователя, система пересчитывает рейтинг, минимизируя влияние неважных для него факторов и усиливая влияние важных.

Google использует систему для количественной оценки оригинальности контента на уровне сайта. Система анализирует, какая доля контента (n-граммы) на сайте впервые появилась именно на нем, основываясь на дате первого сканирования (Crawl Time Stamp). На основе этого соотношения вычисляется Оценка Оригинальности Сайта (Site Originality Score), которая затем используется как фактор ранжирования для продвижения первоисточников и понижения сайтов-копипастеров.

Google патентует метод улучшения поиска за счет расширения сущностей в запросах и контенте с помощью Knowledge Graph. Система использует курируемые связи (предикаты) для выявления неявной релевантности. Также вводится «дескриптор релевантности» — UI элемент, объясняющий пользователю, почему показан конкретный результат, основываясь на этих связях.

Система идентифицирует цифровой контент по сканированному фрагменту из физического мира, используя не только текст, но и обширный контекст (время, местоположение, историю пользователя). Патент также вводит концепцию «Read Ranking» — отслеживание популярности физических документов на основе того, что люди сканируют, как потенциальный сигнал ранжирования.

Google автоматически генерирует обучающие данные для систем семантического парсинга, анализируя логи запросов и клики пользователей. Система находит запросы с одинаковым интентом, определяя, что пользователи, вводящие разные запросы, в итоге кликают на одни и те же ресурсы. Это позволяет масштабировать понимание естественного языка и точнее определять намерения пользователей.

Google анализирует топовые веб-страницы, ранжирующиеся по запросу, чтобы найти упоминания книг. Система рассчитывает, насколько цитируемые книги релевантны контенту этих страниц (Citation Score) и объединяет это с релевантностью самой страницы запросу (Relevance Score). Это позволяет Google идентифицировать авторитетные книги по теме и подмешивать их в универсальную выдачу, даже если пользователь не искал конкретное название.