Автор: Виктор Репин

Патент описывает систему для агрегации пользовательских голосов (за/против) о контенте с множества независимых сайтов через встраиваемые виджеты. Система рассчитывает оценки качества и потенциала контента, используя статистические доверительные интервалы для учета количества голосов и соотношения положительных/отрицательных отзывов. На основе этих оценок формируются кросс-сайтовые рекомендации.

Патент Google описывает инфраструктурную технологию для ускорения поиска Максимального Внутреннего Произведения (MIPS). Этот механизм позволяет эффективно вычислять релевантность для гибридных векторов, которые сочетают плотные данные (например, нейросетевые эмбеддинги для семантики) и разреженные данные (например, ключевые слова или ID сущностей). Система разделяет векторы, применяет специализированные оптимизации к каждой части и использует остаточное переранжирование для повышения точности.

Google использует модель машинного обучения для улучшения ранжирования в поиске по картинкам. Система определяет различные смыслы (senses) неоднозначного запроса (например, «Jaguar» как автомобиль и как животное), проецирует изображения в многомерное пространство признаков и строит гиперплоскости (hyperplanes) для разделения этих смыслов. Итоговый ранг изображения определяется его близостью к любому из релевантных смыслов.

Патент описывает систему для идентификации ключевых терминов (например, названий компаний, локаций, медиа) на любой веб-странице или в сниппете поисковой выдачи. Система динамически встраивает интерактивные гаджеты (Answer Box Gadgets), предоставляющие пользователю мгновенную информацию (например, текущую цену акции или погоду) по клику или наведению, не требуя покидать страницу.

Google обучает классификаторы для автоматической оценки качества видеоконтента, используя данные от людей-асессоров, которые сравнивают пары видеороликов в определенной категории. Система извлекает аудиовизуальные и текстовые признаки и учится предсказывать, какие видео люди сочтут более качественными, что позволяет оценивать контент независимо от количества просмотров.

Google анализирует поведение пользователей для выявления сайтов, принудительно выходящих из фреймов (Frame Busting). Если сайт показывается внутри фрейма (например, в Поиске по картинкам), а пользователи почти не взаимодействуют с обрамляющей страницей Google, система делает вывод о поломке фрейма. Эта информация используется как сигнал для ранжирования изображений или изменения способа отображения результатов.

Яндекс патентует гибридный метод для систем рекомендаций (таких как Яндекс.Дзен), который балансирует скорость и релевантность. Система заранее (офлайн) определяет набор общепопулярного контента. В момент запроса (онлайн) она быстро находит персонально релевантный контент, который не входит в число общепопулярных. Финальная лента формируется путем слияния и ранжирования этих двух наборов.

Google анализирует взаимодействия пользователей — частоту упоминаний друг друга, общие интересы и связи в разных социальных сетях — для расчета показателя «близости» (Affinity). Эта метрика используется для динамической модификации социального графа и повышения в ранжировании контента от социально близких авторов в персонализированной выдаче.

Google использует методы анализа графа данных для выявления «содержательных связей» о сущностях. Сюда входят общие связи между двумя сущностями, редкие комбинации связей, сильные вторичные связи (например, актер снялся в 49 драмах) и уникальные факты (суперлативы, такие как «самый высокий актер»). Эта информация, часто вычисляемая заранее, используется для обогащения поисковой выдачи, например, в Панелях Знаний.

Google автоматически пополняет свой внутренний словарь (лексикон), анализируя логи поисковых запросов и контент в интернете (включая чаты и мессенджеры). Это позволяет системе выявлять новые термины, аббревиатуры, имена собственные и распространенные опечатки. Дополненный лексикон используется для лучшей сегментации (разбивки на слова) сложных строк без пробелов, например, URL-адресов или слитных запросов.

Google использует механизм для улучшения поиска по запросам, содержащим транслитерированные слова (например, русские слова, написанные латиницей). Система выполняет обратную транслитерацию, чтобы определить, какие варианты написания соответствуют одному и тому же слову в исходном языке. Эти варианты считаются синонимами и используются для расширения запроса, гарантируя нахождение релевантных результатов независимо от использованного написания.

Google динамически генерирует поисковые подсказки на основе контента, который пользователь просматривает. Система придает больший вес сущностям и темам, которые находятся непосредственно в видимой области экрана (Viewport), меньший вес тому, что пользователь уже пролистал, и наименьший — контенту, до которого он еще не дошел.

Яндекс патентует метод использования визуальной привлекательности страницы («Appeal Factor») как фактора ранжирования. Система анализирует скриншот страницы с помощью модели машинного обучения (например, нейросети), обученной на оценках асессоров или поведении пользователей (Dwell Time). Цель – понизить в выдаче некачественные, перегруженные рекламой или визуально отталкивающие сайты, даже если они релевантны запросу.

Google патентует метод «IR Adapter» для улучшения работы больших языковых моделей (LLM) в поиске без их полного переобучения. Этот метод позволяет адаптировать фиксированные или закрытые (black-box) LLM, модифицируя их выходные эмбеддинги (векторные представления). Адаптер обучается на конкретных данных о релевантности, повышая точность поиска и сохраняя базовые знания модели.

Патент Google, описывающий механизм, который позволяет пользователям ассоциировать («привязывать») один тип контента (например, веб-статью) с конкретной позицией в индексированном контенте (например, таймкодом в видео). При просмотре видео другие пользователи увидят ссылку на привязанную статью в соответствующий момент.

Google прогнозирует, какой результат поиска пользователь кликнет с наибольшей вероятностью, и инструктирует браузер заранее загрузить эту страницу в фоновом режиме (пререндеринг). Это обеспечивает мгновенное отображение при клике. Патент описывает методы выбора кандидатов, управление процессом в браузере и сбор метрик производительности.

Патент Google описывает систему анализа потокового контента (видео, аудио). Система конвертирует поток в текст и использует методы IR/NLP (TF-IDF, стемминг) для извлечения тем и генерации запросов. Ключевыми особенностями являются явная приоритизация существительных и словосочетаний, а также учет истории контекста для определения смены темы.

Google использует механизм мультимодального поиска, объединяющий данные с камеры и микрофона устройства. Если пользователь задает неоднозначный голосовой запрос (например, «Сколько это стоит?»), система распознает объект в поле зрения камеры и использует его название для уточнения запроса (например, «Сколько стоит [Распознанный Объект]?»), обеспечивая точный ответ.

Google позволяет владельцам сайтов влиять на результаты общего веб-поиска, если запрос отправлен через встроенный интерфейс (например, Google CSE). Система использует «профиль сайта» для повышения результатов, соответствующих контексту источника. Патент также детально описывает метод расчета тематической авторитетности доменов на основе анализа ссылочного графа.

Google использует технологию для создания цифровых отпечатков медиаконтента (аудио, изображений, видео), которые устойчивы к различным трансформациям, таким как изменение скорости воспроизведения или соотношения сторон. Система анализирует относительное расположение ключевых маркеров в сигнале (например, пиков в аудио или краев на изображении), а не их абсолютные значения. Это позволяет Google распознавать контент, даже если он был отредактирован или искажен.