Индексация

Google использует публичные взаимодействия в социальных сетях для расчета оценки авторитетности автора (User Score). Система строит граф взаимодействий, присваивая разный вес разным действиям: репосты ценятся выше ответов, а ответы выше …
Google использует статистическую модель, обученную на исторических данных (например, CTR/CVR), для переоценки релевантности параметров контента (ключевых слов, тем). Система не оценивает параметры изолированно, а анализирует их взаимодействие и совместную встречаемость …
Google использует систему для индексации контента внутри нативных мобильных приложений (App Indexing). Для этого приложение запускается в виртуальной машине, которая эмулирует операционную систему устройства. Система перехватывает данные, отправляемые в процесс …
Google классифицирует синонимы по степени надежности. Если синоним считается ненадежным или зависящим от контекста (Restricted-Locality Synonym), он вносит вклад в ранжирование, только если находится в документе в непосредственной близости к …
Google анализирует, какие результаты поиска выбирают пользователи, чтобы понять, являются ли последовательные слова в запросе единой фразой (например, "Нью Йорк") или отдельными терминами. Если пользователи преимущественно кликают на результаты, содержащие …
Google использует систему для классификации сайтов по уровню качества и авторитетности в рамках конкретных тематик (Knowledge Domains). Система создает векторные представления (эмбеддинги) сайтов и сравнивает их с эталонными векторами высококачественных …
Google анализирует текст на страницах, ссылающихся на целевой документ, извлекая «Web Quotes». Это не только текст абзаца, окружающего ссылку, но и текст из ближайших заголовков. Эти цитаты ранжируются по качеству …
Google использует масштабную инфраструктуру машинного обучения для понимания семантики. Система анализирует огромные объемы текста (например, поисковые сессии), чтобы автоматически выявить скрытые «концепции» (кластеры связанных слов) и вероятности их взаимодействия. Эта …
Google использует систему для индексации контента нативных мобильных приложений. Для приложений, связанных с веб-сайтами, система проверяет аффилиацию и использует существующие веб-URL для доступа к контенту приложения. Для приложений с кастомными …
Google использует механизм для динамического определения дубликатов в поисковой выдаче. Вместо сравнения документов целиком, система извлекает из них части, наиболее релевантные запросу (сниппеты). Если эти сниппеты у разных документов совпадают …
Google использует итеративный процесс для борьбы с дубликатами при индексировании. Система кластеризует похожие документы, выбирает лучшего представителя из каждого кластера на основе качества и определяет конечную цель его редиректов. Если …
Патент описывает, как Google динамически определяет тематические "режимы поиска" (например, "Вакансии" или "Рецепты") на основе запроса. Система предлагает переключиться в специализированный режим, который использует структурированные данные вместо общего веб-индекса и …
Патент Google описывает фундаментальный механизм эффективного ранжирования контента (документов или рекламы) в масштабе. Система предварительно рассчитывает базовые оценки (Base Scores) на основе атрибутов документа. При получении запроса система быстро корректирует …
Google использует систему для ответа на фактические запросы путем извлечения данных из структурированного контента (таблиц и списков) на высокоранжирующихся страницах. Система сопоставляет термины запроса с атрибутами структуры (строками/столбцами), используя как …
Фундаментальный патент Google, описывающий переход от индексирования слов к индексированию концепций (фраз). Система определяет «хорошие фразы» на основе частотности и их способности прогнозировать появление других фраз (Information Gain). Документы индексируются …
Патент описывает инфраструктуру Google для распределенного вычисления кратчайших путей в веб-графе (триллионы связей). Система определяет расстояние от миллиардов веб-страниц до заранее выбранного набора авторитетных сайтов ("Seeds"). Эти вычисления обеспечивают масштабируемый …
Google использует систему для идентификации таблиц с упорядоченными данными (рейтингами) на веб-страницах. Система анализирует структуру таблицы и контекст страницы (заголовки, окружающий текст, прошлые запросы), чтобы понять, что именно и по …
Google использует модели машинного обучения (например, архитектуру Encoder-Decoder) для анализа контента ресурса и прогнозирования значений критически важных сигналов ранжирования, которые отсутствуют (например, каким был бы анкорный текст ссылок или по …
Google анализирует топовые веб-страницы, ранжирующиеся по запросу, чтобы найти упоминания книг. Система рассчитывает, насколько цитируемые книги релевантны контенту этих страниц (Citation Score) и объединяет это с релевантностью самой страницы запросу …
Google анализирует главные страницы авторитетных новостных сайтов ("Hub Pages"), чтобы определить важность новостных статей. Чем выше и заметнее расположена ссылка на статью (учитывая позицию, размер шрифта, наличие изображений и сниппетов), …