Google использует гибридный подход для классификации контента в детальные иерархические категории. Система анализирует, какие запросы (N-граммы) приводят пользователей к кликам на контент из определенных категорий. Эти запросы становятся «подтверждающими» (Supporters) для категории. При анализе нового текста система сопоставляет его N-граммы с этими Supporters и применяет многоуровневую систему взвешивания (включая TF-IDF и бустинг за глубину иерархии) для точной классификации.
Автор: Виктор Репин
Яндекс патентует метод борьбы с фейковыми отзывами путем анализа истории посещений пользователя. Система ищет в истории браузера URL-адреса, соответствующие страницам подтверждения транзакций (например, «Thank you page»). Для этого используются векторные представления (эмбеддинги) и шаблоны URL. Если такой URL найден, пользователь признается реальным покупателем, а его отзыв получает приоритет или пометку «подтвержденный».
Яндекс патентует метод анализа полной истории посещений пользователя (Browsing Log). Система использует машинное обучение (GBDT) для разделения этой истории на «логические сессии», каждая из которых соответствует конкретной задаче или цели пользователя. Для этого анализируется схожесть URL, текстов страниц и временные интервалы между посещениями. Эта информация о текущем намерении используется для адаптации и персонализации результатов поиска.
Google анализирует статистику взаимодействий (кликов) для групп связанных бизнес-листингов (Common Business). Система вычисляет статистически нормальный уровень активности и устанавливает порог (Anomaly Detection Threshold). Резкий всплеск активности выше этого порога (например, на два стандартных отклонения) сигнализирует о наличии фейковых или спамных листингов, созданных для манипуляции локальной выдачей.
Яндекс патентует механизм кросс-ресурсной персонализации. Система собирает данные о взаимодействиях пользователей с одним ресурсом (например, поисковой системой) и использует эту «контекстную информацию» для ранжирования элементов на совершенно другом ресурсе (например, новостном сайте). Это позволяет персонализировать выдачу даже при первом визите, используя машинное обучение для поиска скрытых корреляций между поведением на разных сайтах.
Яндекс патентует метод для систем рекомендаций (например, Видео или Дзен). Система рассчитывает финальный скор схожести (Correspondence Parameter), перемножая количество общих тегов (тематическая близость) на сумму показателей вовлеченности (например, время просмотра) исходного и рекомендуемого объекта. Это усиливает позиции вовлекающего контента в рекомендациях.
Google использует механизм для визуального исследования результатов поиска (например, по картинкам). Система определяет запросы, связанные с исходным, и размещает их результаты в виде «панелей» вокруг центрального результата. Пользователь может перемещаться по этому пространству, при этом система динамически генерирует новые связанные запросы на основе видимых панелей, используя аддитивное взвешивание для создания бесконечного интерфейса исследования тем.
Google анализирует журналы запросов, чтобы определить, как пользователи чаще всего уточняют широкие запросы. Система кластеризирует эти уточнения по темам (например, «кухня», «местоположение»), определяет наиболее разнообразную тему уточнения и предлагает пользователю диалоговую подсказку («Какую кухню вы предпочитаете?»), чтобы быстро сузить результаты поиска в формате диалога.
Google автоматически изучает альтернативные названия и синонимы для сущностей (например, узнает, что «Big Blue» это IBM), анализируя анкорный текст ссылок, ведущих на авторитетные источники фактов об этой сущности. Система фильтрует и обрабатывает эти тексты, учитывая частоту их использования и качество ссылающихся сайтов (например, PageRank), чтобы обогатить базу знаний (Knowledge Graph) и улучшить понимание запросов.
Google патентует метод ранжирования, альтернативный классическому PageRank, который трансформирует расчет авторитетности в задачу поиска кратчайшего пути в веб-графе. Система определяет набор доверенных «Seed» сайтов и измеряет расстояние от них до всех остальных страниц. Чем короче расстояние до нескольких (k) ближайших Seed-сайтов, тем выше ранг страницы. Длина ссылки при этом увеличивается, если у исходной страницы много исходящих ссылок.
Яндекс патентует метод эффективного расчета сложных факторов ранжирования, зависящих от взаимодействия нескольких слов в запросе (например, их близость друг к другу или совместное вхождение в Title/URL). Система использует данные из инвертированного индекса о позициях отдельных слов для динамического вычисления этих факторов на лету. Затем эти данные обрабатываются Нейронной Сетью для генерации комплексного признака ранжирования.
Яндекс патентует метод генерации и отображения интерактивных подсказок (уточнений запроса) на странице результатов поиска. Подсказки генерируются путем анализа прошлых успешных запросов, их группировки на основе поведенческой схожести (клики на общие ресурсы) и выбора наиболее популярных и уникальных терминов. Они отображаются как кликабельные объекты (например, кнопки) вне поисковой строки, позволяя пользователю интерактивно сужать область поиска и видеть историю своих уточнений.
Google рассчитывает «Affinity Score» для мобильных приложений на основе того, как часто и долго пользователь их использует (относительное вовлечение). При поиске с мобильного устройства система повышает в ранжировании результаты (deep links), ведущие в приложения с высоким Affinity Score, делая выдачу более персонализированной.
Google анализирует агрегированные данные о взаимодействиях пользователей с физическими локациями (поисковые запросы, запросы маршрутов, данные GPS, чекины). Система сравнивает активность в конкретном месте с активностью в аналогичных местах («Peer Groups») или с активностью в разные периоды времени. На основе этого сравнения генерируются текстовые описания («популярно у местных», «в тренде», «быстрый перекус»), которые отображаются в результатах поиска и на картах.
Патент Google, описывающий механизм создания Sitelinks (быстрых ссылок). Система анализирует поведение пользователей (клики, время на странице) и другие сигналы качества (входящие ссылки, вероятность конверсии), чтобы определить наиболее полезные внутренние страницы сайта. Эти страницы затем показываются под основным результатом поиска, ускоряя навигацию пользователя.
Google использует механизм для ранжирования и рекомендации источников контента (например, YouTube-каналов или профилей) внутри платформ. Система анализирует, как часто источник упоминается в аннотациях, описаниях и комментариях к контенту, который просматривал пользователь. Ключевым фактором ранжирования является не только количество упоминаний, но и общее число кликов (активаций) по этим ссылкам.
Google определяет, когда неоднозначный запрос (например, «высота Эвереста») на самом деле ищет конкретный ответ. Система сопоставляет запрос с историческими шаблонами поиска (Query Templates). Если этот шаблон связан с явным, валидированным вопросительным шаблоном (например, «какова высота Эвереста?»), Google классифицирует исходный запрос как поиск ответа, что влияет на SERP и показ Featured Snippets.
Google использует методы для оценки свежести документа, когда дата его обновления неизвестна или ненадежна. Система анализирует даты обновления страниц, которые ссылаются на документ, а также историю появления и удаления этих ссылок (Link Velocity). Если на документ ссылаются недавно обновленные страницы или количество ссылок растет, он считается свежим.
Google анализирует навигационную иерархию сайта (DOM), популярность ссылок и глубину разделов для создания интерактивного представления ресурса (расширенных Sitelinks) в SERP. Это позволяет пользователям просматривать ключевые категории и вложенные ссылки через интерфейс вкладок, не покидая страницу результатов поиска.
Яндекс патентует систему автоматического создания «мета-признаков» для улучшения ранжирования. Мета-признак — это относительный фактор, значение которого зависит не только от самого документа, но и от других документов в выдаче по тому же запросу (например, нормализованный CTR относительно среднего значения по SERP). Система генерирует такие признаки, проверяет их эффективность через A/B тесты и внедряет лучшие в основную формулу ранжирования.