Google использует систему планирования сканирования, которая рассчитывает приоритет для каждого URL. Этот приоритет зависит от авторитетности страницы (PageRank) и частоты изменения ее контента (Content Change Frequency). Система определяет, какие страницы сканировать ежедневно, какие реже, а какие исключить из индекса, чтобы оптимизировать ограниченные ресурсы краулера.
Автор: Виктор Репин
Google патентует систему для глубокого анализа видеоконтента во время его создания. Система синхронизирует несколько потоков: видео докладчика, демонстрацию экрана, аннотации и транскрипцию в реальном времени. Это позволяет индексировать содержание видео, автоматически выделять ключевые моменты и генерировать сводки, делая видеоконтент детально доступным для поиска.
Google использует автоматизированный метод для расширения своей Географической Информационной Системы (GIS). Система анализирует адреса, которые не удалось распознать из-за неизвестного термина (например, названия района). Удалив этот термин, система определяет координаты оставшейся части адреса. Собрав множество таких координат для одного и того же термина, Google вычисляет его географические границы (bounding area) и добавляет новое местоположение в свою базу данных.
Google анализирует глобальные тренды поисковых запросов и сопоставляет их с индивидуальной историей пользователя (посещенные сайты, прошлые запросы, категории интересов). Если популярный запрос соответствует выявленным интересам пользователя, он будет рекомендован. Система также применяет фильтры, исключающие запросы, которые пользователь вводил недавно.
Патент описывает, как Google ранжирует точки интереса (POIs) в локальном поиске, отдавая приоритет рекомендациям от людей из социальных кругов пользователя. Система делит результаты на три уровня: рекомендации друзей, рекомендации других пользователей сервиса и остальные результаты. Внутри каждого уровня результаты сортируются по уровню экспертности автора рекомендации в данной тематике.
Google использует метод классификации запросов, который анализирует не сам текст запроса, а контент (URL, заголовки, сниппеты) страниц, находящихся в топе выдачи по этому запросу. Сравнивая набор терминов из этих результатов с эталонными профилями разных тематик или типов контента (Новости, Видео, Картинки), система определяет интент пользователя и решает, какие вертикали поиска активировать.
Google использует статистический анализ (KL-дивергенцию) для определения «согласованности» (coherence) категорий сущностей (например, «Города»). Если сущности внутри категории часто встречаются в одинаковых контекстах запросов, категория считается согласованной. Это позволяет системе обобщать правила синонимов с популярных сущностей на редкие сущности той же категории, улучшая понимание запросов из «длинного хвоста».
Google использует механизм для точной интерпретации локальных запросов, содержащих неоднозначные слова. Вместо статического удаления стоп-слов система генерирует несколько вариантов разделения запроса на субъект и местоположение. Она тестирует варианты с удалением и сохранением потенциального стоп-слова, выполняет параллельные поиски и выбирает ту интерпретацию, которая дает наилучшие результаты.
Google патентует механизм отображения контекстной информации прямо в выпадающем списке поисковых подсказок (Autocomplete). Система объединяет стандартные предсказания запросов с двумя типами данных: персональными уведомлениями (погода, встречи, новости для локации пользователя) и прямыми ответами на вводимый запрос (определения, факты, часы работы). Это ускоряет доступ к информации еще до перехода на страницу результатов поиска.
Патент Google описывает интерфейс для агрегации контента (например, Google News). Система группирует связанные документы в кластеры и представляет их в виде сворачиваемых блоков. В развернутом виде блок показывает разнообразные типы контента (статьи, видео, мнения, контекст) из разных источников, помогая пользователю всесторонне изучить тему.
Google анализирует контент интерактивных сессий (например, обучающих видео), чтобы определить, какие инструменты и материалы необходимы для выполнения конкретной задачи. Система классифицирует их как «обязательные» или «опциональные» на основе частоты использования в разных видео. Эта информация предоставляется пользователям в поиске и используется для таргетинга релевантной рекламы.
Google использует метод обучения моделей ранжирования, который выходит за рамки одного поискового запроса. Система сравнивает релевантность документа для Запроса А с релевантностью другого документа для Запроса Б, если эти запросы семантически похожи. Это позволяет моделям лучше обобщать сигналы релевантности внутри тематических кластеров и эффективнее определять порядок результатов.
Google использует этот механизм для улучшения поиска, особенно по картинкам. Если пользователь вводит описательный запрос (например, «коричневая собака-пловец»), система распознает конкретные сущности в найденных результатах (например, «Чесапик-бей-ретривер») и отображает их названия как кликабельные элементы. Это позволяет пользователю перейти от общего описания к поиску конкретной сущности.
Google анализирует контент топовых документов по запросу, использует языковые модели для суммаризации отдельных пассажей и кластеризует эти суммаризации для выявления общих тем. Затем поисковая выдача реорганизуется для представления этих тем, позволяя пользователям изучать подтемы (drill-down) и просматривать результаты, категоризированные по этим извлеченным тематикам.
Google использует систему для анализа контента, отображаемого на экране пользователя (например, веб-страницы или приложения). Система определяет ключевые сущности и оценивает их важность на основе визуального представления (шрифт, позиция, частота). Затем она автоматически генерирует невидимые запросы, комбинируя эти сущности, и рекомендует свежие тематические ресурсы (например, новости), релевантные наиболее важным комбинациям.
Google использует систему классификации изображений, чтобы определить, соответствует ли текст, связанный с изображением (например, alt-текст или окружающий контент), его визуальному содержанию. Система обучается распознавать объекты на основе визуальных признаков. Если соответствие подтверждается, изображению присваивается «Метка высокой достоверности» (High Confidence Label). При поиске изображения, имеющие такие метки, получают значительное повышение в ранжировании.
Google использует систему для персонализации новостного контента, анализируя темы (используя Knowledge Graph), местоположения и даты публикации статей. Система создает динамические профили пользователей на основе истории чтения, применяя механизм «затухания» для устаревших интересов. Ранжирование учитывает релевантность, качество источника, популярность (количество просмотров) и свежесть контента.
Google использует комплексный механизм для определения географической релевантности бизнеса. Система комбинирует расстояние до официальных границ региона (полигона), верификацию через почтовый индекс и расстояние до «центра активности» (например, центра города, а не геометрического центра). Это позволяет точнее ранжировать локальные результаты, компенсируя неточности карт и почтового зонирования.
Google совершенствует понимание текста за рамками TF-IDF, анализируя, как часто слова встречаются вместе в корпусе документов (Co-occurrence Consistency). Внутри конкретного документа или запроса система запускает алгоритм типа PageRank, где слова «голосуют» друг за друга на основе этих связей. Это определяет контекстуальный вес каждого слова, выявляя ключевые концепции и снижая вес случайных терминов.
Патент Google описывает систему динамического определения географической «области релевантности» для локального поиска и рекламы. Система учитывает плотность бизнеса в запрошенной категории для конкретного местоположения: в густонаселенных районах область сужается, а в сельской местности — расширяется, часто следуя дорожной сети. Также система может автоматически сужать или расширять категорию бизнеса, чтобы оптимизировать количество результатов.