Google индексирует контент, просмотренный в нативных мобильных приложениях. Система получает от приложения идентификатор контента, его описание и deep link. Это позволяет Google показывать в результатах поиска прямые ссылки на конкретный контент внутри приложения (если оно установлено), повышая вовлеченность пользователей и видимость приложения в поиске.
Автор: Виктор Репин
Яндекс патентует инфраструктуру для детального логирования и синхронизации поисковых сессий пользователя. Система перехватывает контрольные сообщения между браузером и сервером, сохраняя полную историю взаимодействий (запросы, клики по SERP, навигация, возвраты), включая данные, невидимые для локальной истории браузера. Это обеспечивает непрерывность поиска между устройствами и формирует базу поведенческих данных.
Google идентифицирует универсальные слова-модификаторы (например, «фото», «отзывы», «pdf»), которые пользователи часто добавляют к разным запросам. Если такое слово появляется в сессии, система определяет скрытый интент пользователя. Затем Google переранжирует выдачу, основываясь на том, какие документы исторически предпочитали пользователи с таким же интентом, адаптируя результаты под контекст сессии.
Google использует систему для обнаружения аномальной сетевой активности (кликового спама) путем создания статистических моделей ожидаемого поведения сетевых объектов (IP-адресов, cookies, запросов). Система анализирует множество параметров и выявляет объекты, чье поведение отклоняется от нормы. Активность таких объектов (например, клики по результатам поиска) дисконтируется или полностью игнорируется при ранжировании, что защищает поиск от манипуляций поведенческими факторами.
Google использует статистический анализ текстовых корпусов (преимущественно логов запросов), чтобы определить значение многозначного слова в контексте. Система проверяет, какие альтернативные термины пользователи взаимозаменяют в одинаковых фразах. Если два термина часто заменяют исходное слово в одних и тех же контекстах, они считаются относящимися к одному значению. Это позволяет точнее понимать интент и корректно расширять запрос синонимами.
Патент Google, описывающий интеграцию поисковой системы с социальной сетью (Member Network). Система позволяет пользователям одобрять (Endorse) контент. При поиске система идентифицирует одобрения от связанных пользователей (друзей) и, что критически важно, от пользователей, признанных экспертами в тематике запроса. Эти сигналы доверия и экспертизы используются для значительного повышения одобренных результатов в персонализированной выдаче.
Этот патент раскрывает, как Google анализирует анонимизированные данные о местоположении (пешеходный трафик) для понимания физических локаций. Сравнивая фактические посещения с вместимостью заведения и сегментируя визиты по времени и демографии пользователей, Google рассчитывает оценки качества и специфические характеристики (например, «подходит для детей» или «популярно у пожилых людей»). Эти сигналы затем используются для ранжирования и персонализации результатов локального поиска.
Google использует модель машинного обучения (Reinforcement Learning) для прогнозирования, как показ конкретного результата повлияет на будущую активность пользователя. Если контент (даже кликабельный) снижает долгосрочную вовлеченность, система может его не показать, предпочитая контент, который сохраняет лояльность пользователя к платформе.
Google анализирует историю местоположений пользователей для точной идентификации посещаемых бизнесов, даже при неточных данных GPS. Система ранжирует ближайшие локации, учитывая расстояние, известность бизнеса (Prominence Score), его категорию и время суток. Патент также описывает, как Google использует модели Маркова для прогнозирования будущих посещений на основе прошлых поведенческих паттернов, что позволяет проактивно персонализировать выдачу информации.
Google может отслеживать поведение пользователей (например, время пребывания на странице и клики) и связывать его с конкретными сущностями (продуктами, людьми, темами), идентифицированными через структурированные данные, а не только с URL-адресом. Это позволяет агрегировать метрики вовлеченности для определенной темы на разных страницах и сравнивать эффективность сайтов.
Google использует виртуальные машины для эмуляции мобильных операционных систем. В этой среде запускаются нативные приложения, и система применяет специализированные экстракторы для извлечения контента (текст, изображения, списки) непосредственно перед его рендерингом. Это позволяет индексировать внутренний контент приложений и показывать его в результатах поиска с функцией глубоких ссылок (Deep Linking).
Google прогнозирует оценку качества сайта, анализируя, какие фразы (N-граммы) используются и как часто они распределены по страницам сайта. Система создает «Фразовую модель», изучая известные высококачественные и низкокачественные сайты, а затем применяет эту модель для оценки новых сайтов по их лингвистическим паттернам.
Google использует механизм кластеризации для организации поисковой выдачи, особенно при неоднозначных запросах. Система анализирует, какие внешние страницы одновременно ссылаются на несколько результатов поиска (со-цитирование). На основе этого вычисляется показатель сходства, который учитывает и нормализует популярность страниц, чтобы точно сгруппировать результаты по конкретным темам (например, отделить «Saturn» как планету от «Saturn» как автомобиль).
Яндекс патентует метод создания единого векторного пространства (User Item Space), объединяющего данные о поведении пользователей, текстовый контент и изображения. Система обучается понимать связь между разными типами контента (кросс-модальное отображение) на основе того, как пользователи взаимодействуют с ними в рамках одной сессии. Это позволяет автоматически ассоциировать контент с интересами пользователя без ручной разметки ключевыми словами.
Яндекс патентует многоэтапную систему для генерации прямых ответов (Quick Answers) на запросы. Система использует каскад из трех моделей машинного обучения (включая Трансформеры/BERT) для генерации семантических векторов, расчета релевантности источников и точного извлечения фрагмента ответа (Answer Span). Модели обучаются на исторических данных о поведении пользователей.
Google автоматически создает массивный обучающий набор данных для своих систем семантического анализа (NLP). Система анализирует миллионы веб-страниц, которые ссылаются на авторитетные источники (например, Wikipedia). Анкорный текст этих ссылок рассматривается как высокоточное упоминание сущности, которое затем используется для обучения алгоритмов распознавания сущностей (NER), их типизации и разрешения неоднозначностей.
Яндекс патентует метод ранжирования точек интереса (POI), таких как организации или достопримечательности, на основе их популярности, измеряемой количеством связанных фотографий («Фоторейтинг»). Система агрегирует фотографии, используя не только метаданные (GPS, описание), но и технологию компьютерного зрения для идентификации фотографий объекта, у которых отсутствуют точные метаданные. Большее количество уникальных фотографий от разных пользователей повышает рейтинг объекта в локальном поиске.
Google использует данные о поведении пользователей из логов поиска для обучения моделей эмбеддингов изображений и текста. Система анализирует, какие изображения пользователи кликают по определенным запросам (Query-Image) и какие изображения кликают вместе (Image-Image Co-clicks). Это позволяет ИИ изучить семантическую связь между текстом и визуальным контентом, формируя основу для ранжирования в Google Images и работы визуального поиска Google Lens.
Google анализирует повторяющиеся блоки внутренних ссылок (например, списки товаров). Если текст возле ссылки на исходной странице совпадает с текстом на целевой странице, Google определяет DOM-структуру этого текста и создает шаблон домена. Этот шаблон позволяет автоматически извлекать ключевую информацию (например, цену и характеристики) для сниппетов со всех однотипных страниц сайта, даже без микроразметки.
Патент Google, описывающий метод улучшения ранжирования с помощью анализа «социальных сигналов» (Social Reference Data). Система отслеживает, как часто пользователи делятся контентом (через email, соцсети, блоги, закладки) и сколько раз его просматривают. Ключевой метрикой является нормализованный показатель — соотношение количества шеров к количеству просмотров. Этот фактор используется для переранжирования выдачи или объединяется с традиционными факторами ранжирования.