Автор: Виктор Репин

Google улучшает межъязыковой поиск (CLIR), рассматривая ссылки между документами на разных языках как «параллельные корпуса». Анализируя анкорный текст и контент связанных страниц, система уточняет смысл многозначных слов и находит точные переводы терминов. Это позволяет системе лучше понять запрос пользователя и найти релевантные документы на целевом языке.

Патент Google описывает систему управления сканированием и индексированием в условиях ограниченной емкости индекса. Система приоритизирует URL-адреса на основе их показателя «Важности» (Importance Rank, например, PageRank). Когда индекс заполняется, система сканирует только новые важные страницы и удаляет наименее важные, гарантируя, что индекс содержит наиболее авторитетный контент.

Google использует механизм для корректировки лент контента и результатов поиска. Система определяет долю пользователей с общей характеристикой (например, демография или интересы) в сети. Для пользователей, обладающих этой характеристикой, система гарантирует, что контент от их группы будет представлен в выдаче в пропорции, соответствующей их доле в сети. Это достигается путем повышения оценок релевантности и ранжирования контента от этой группы.

Google использует данные из социального графа пользователя для обогащения результатов локального поиска. Когда пользователь ищет место (Point of Interest), система проверяет, кто из его контактов посещал это место (сейчас, недавно или часто) или оставлял о нем отзывы. Эта социальная активность интегрируется напрямую в поисковую выдачу, причем приоритет отдается контактам, с которыми пользователь взаимодействует чаще всего.

Google использует «восходящий» подход для наполнения лент контента (например, Google Discover). Система заранее генерирует множество запросов по теме и оценивает качество их результатов по метрикам свежести (Velocity), вовлеченности (Feedback), точности (Precision) и охвата (Recall). Только лучшие запросы («High-Quality Queries») используются для наполнения ленты пользователя, гарантируя актуальность и интерес контента.

Патент Google описывает систему персонализации Карт, которая классифицирует пользователей на «туристов» и «местных жителей» на основе их профиля и знакомства с территорией. Система анализирует, с какими категориями объектов (POI) взаимодействуют разные группы, и рассчитывает «числовое смещение» (Numerical Bias). Это позволяет динамически изменять уровень масштабирования (Zoom Level), на котором объекты появляются на карте, делая ее более релевантной контексту пользователя.

Google использует систему для динамического извлечения фактов из веб-индекса. Когда поступает фактический запрос, система определяет ожидаемый тип ответа (например, дата, число, имя), анализирует топовые результаты поиска и извлекает соответствующие фразы. Эти фразы нормализуются, оцениваются по частоте, контексту и авторитетности источника, и лучший вариант показывается в виде прямого ответа.

Google использует многоэтапную систему для проверки фактов, извлеченных из интернета. Чтобы факт попал в базу знаний, он должен быть подтвержден несколькими независимыми источниками. Система оценивает распространенность атрибута и достоверность значения, учитывая авторитетность (например, PageRank) источников. Если источник доказал свою надежность, требования к другим его фактам снижаются или отменяются.

Google использует механизм для определения контента, который часто меняется между версиями страницы (транзиентный контент). Сравнивая HTML-структуру и содержимое на всем сайте, система выявляет блоки (Transient Paths), такие как реклама или динамические виджеты. Этот контент игнорируется при индексации, а ссылки в нем не учитываются при расчете PageRank.

Google использует специализированную систему для ранжирования физических событий в определенном месте и времени. Система вычисляет оценку популярности события на основе множества сигналов: количества упоминаний в интернете, кликов на официальную страницу, популярности связанных сущностей (артистов, команд), значимости места проведения и присутствия в общих поисковых запросах о событиях. Затем результаты переранжируются для обеспечения разнообразия, понижая схожие события или события одной категории.

Google анализирует текст отзывов о компаниях для выявления спама в бизнес-листингах. Система ищет стоп-слова (например, «фейк», «не существует»), выявляет нерелевантные термины для категории бизнеса и сравнивает отзывы с базой известного спама. При превышении порога подозрительных сигналов листинг помечается как спам.

Google использует механизм предиктивного кэширования для ускорения работы поисковых подсказок (Autocomplete), особенно на мобильных устройствах. Система заранее отправляет наиболее вероятные подсказки, включая локально-специфичные, на устройство пользователя еще до начала ввода запроса. Это позволяет отображать подсказки мгновенно из локального хранилища, избегая сетевых задержек.

Google анализирует запросы, по которым пользователи ранее переходили на документ. Система классифицирует документ как «новый» или «старый» на основе временных терминов в этих запросах. Кроме того, Google отслеживает сезонные всплески популярности и изменение намерений пользователей с течением времени, чтобы повышать в выдаче своевременный и актуальный контент.

Google постоянно тестирует правила подстановки (синонимы) для расширения запросов. Этот патент описывает механизм оценки эффективности этих правил с помощью анализа поведения пользователей (клики и пропуски результатов). Если пользователи часто пропускают результаты, содержащие подставленный термин, система автоматически удаляет это правило, очищая понимание запросов от нерелевантных синонимов.

Google использует систему для выбора и оценки Featured Snippets. Система анализирует топовые результаты поиска, чтобы предсказать, какие термины должны быть в ответе (Answer Terms). Затем она оценивает отрывки текста, учитывая совпадение с запросом, наличие предсказанных терминов ответа (консенсус топа), качество исходного сайта, форматирование и языковую модель контента.

Google рассчитывает метрику авторитетности для веб-сайтов на основе соотношения количества независимых входящих ссылок к количеству брендовых (референсных) запросов. Сайты, имеющие много независимых ссылок относительно их поисковой популярности, получают преимущество. Напротив, популярные сайты с недостаточным количеством внешних ссылок могут быть понижены в ранжировании по общим запросам.

Google использует инфраструктурное решение для мгновенного расчета сложных метрик схожести (например, Personalized PageRank) в огромных графах связей (например, Документы и Запросы). Система заранее разбивает граф на тематические категории и создает компактные подграфы (Reduction). Это позволяет в реальном времени оценивать тематическую близость контента или интересов пользователей (Aggregation), минуя обработку всего массива данных.

Google использует систему для генерации Featured Snippets (ответных пассажей) в ответ на запросы-вопросы. Система анализирует топовые результаты, разделяя контент на структурированный (таблицы, списки) и неструктурированный (текст). Применяя разные наборы правил для каждого типа контента, система извлекает блоки текста (Passage Units) и формирует из них кандидатов для показа в блоке ответов, после чего оценивает их с помощью комплексного скоринга.

Этот патент подробно описывает, как Google рассчитывает «показатели интереса» (Interest Scores) для Точек Интереса (POI) относительно конкретных географических областей. Система использует исторические взаимодействия пользователей (например, клики по результатам поиска или на картах), чтобы определить, какие предприятия тесно связаны с местностью («местные жемчужины»). Эти показатели используются для локального ранжирования, потенциально отдавая приоритет локально релевантным предприятиям перед национальными сетями.

Google оптимизирует визуальный поиск (например, Google Lens), анализируя, куда пользователь нажимает на изображении. Система направляет основные вычислительные ресурсы (мощные нейросети, детальный OCR) на выбранную область, а остальную часть изображения обрабатывает в экономном режиме. Это позволяет точно определить интересующую пользователя сущность и сформировать релевантные текстовые запросы.