Google оптимизирует вычислительные ресурсы, отслеживая популярность запросов через счетчик использования кэша (Reuse Count). Для редких запросов предоставляется быстрый «стандартный» результат. Если запрос становится популярным (превышает порог), система запускает более ресурсоемкий …
Антиспам
Google использует единую графовую модель для одновременной оценки качества пользовательского контента (например, комментариев или отзывов) и репутации его авторов. В этой модели репутация автора повышает оценку его контента, а качественный …
Google использует систему для определения коммерческого намерения пользователя в реальном времени. Система использует предварительно созданный список коммерческих шаблонов, основанный на данных рекламодателей, анализе логов и выявлении манипулятивных техник (например, доменов …
Google использует механизм для эффективного обнаружения дубликатов и почти дубликатов путем генерации цифровых отпечатков (фингерпринтов) и группировки похожих документов в кластеры. При формировании поисковой выдачи система фильтрует результаты из одного …
Патент описывает систему Google для дополнения стандартных результатов веб-поиска ссылками на релевантные посты в блогах. Система использует многоступенчатую фильтрацию для отсеивания низкокачественных блогов и спама (splogs). Фильтры анализируют количество исходящих …
Патент Google описывает систему повышения качества поиска по нетекстовому контенту (изображения, видео). Система агрегирует текстовые метки (Initial Labels) со всех страниц, где размещен контент. Затем эти метки группируются по схожести …
Патент Google описывает систему ранжирования, учитывающую уровень доверия к сущностям (экспертам, организациям), которые аннотируют или классифицируют контент с помощью «меток» (labels). Система вычисляет «Рейтинг Доверия» (Trust Rank) для этих сущностей …
Патент описывает инфраструктуру Google для создания высокоточных классификаторов. Он включает метод отбора разнообразных обучающих данных (Bootstrapping/Bucketing) и математическую модель (Monotonic Regression) для объединения оценок от разных классификаторов (например, текста, изображений, …
Google использует механизм для оценки качества контента (например, видео), учитывая не только его собственные характеристики, но и качество связанных с ним родительских сущностей (например, плейлиста или канала). Система комбинирует оценки …
Анализ патента, описывающего фундаментальную архитектуру поисковых систем. Система использует модульный подход, где различные факторы (контент, ссылки, структура URL, данные пользователя) оцениваются независимыми модулями. Затем механизм агрегации рангов (Rank Aggregation) объединяет …
Google использует методы для отделения основного содержания страницы от повторяющихся элементов (навигация, футеры, копирайты). Анализируя частоту повторений на сайте, пространственное расположение блоков, окружающий код и цели ссылок, система классифицирует контент …
Google использует механизм улучшения качества поисковой выдачи. Если по исходному запросу в топе ранжируется слишком много низкокачественных сайтов, система находит связанный альтернативный запрос, который возвращает высококачественные результаты. Затем эти результаты …
Google использует методы анализа визуального представления страницы для выявления скрытого контента. Система строит структурное представление документа (DOM) и анализирует свойства элементов (цвет, размер, позиция, Z-index), чтобы определить, виден ли контент …
Google использует систему для обнаружения спама в локальной выдаче (например, в Google Maps). Система сравнивает характеристики бизнес-листингов (названия, адреса, телефоны) из надежных источников (например, официальные справочники) и ненадежных источников (например, …
Google использует комплексную систему для обнаружения дубликатов, которая сравнивает как исходный HTML-код (Fetched Body), так и финальную версию страницы после выполнения JavaScript (Synthetic Body). Система вычисляет множество сигналов сравнения, включая …
Google применяет техники Shingling и Min-Hashing для эффективного сравнения миллионов документов (например, книг или веб-страниц). Система кластеризует похожие документы, а затем детально анализирует сходство на уровне фрагментов, чтобы классифицировать их …
Google применяет метрику BTF-IDF (Blacklist Term Frequency-Inverse Document Frequency) для борьбы со спамом в Картах (Local SEO). Система сравнивает частоту термина в известных спам-листингах (BTF) с тем, насколько редко этот …
Google использует метрику «Proxy Pad Score» для оценки вероятности того, что сайт систематически копирует контент у разных источников. Система анализирует кластеры дубликатов: если документы сайта часто проигрывают по качеству оригиналам …
Патент Google, описывающий систему управления отображением профилей пользователей в поиске. Она оценивает профили по метрикам популярности, качества и социальной близости (Affinity). Система решает, показывать ли блок с профилями, основываясь на …
Google использует метод для эффективного обнаружения почти дубликатов документов. Система генерирует компактный цифровой отпечаток (fingerprint) для каждого документа путем выборки перекрывающихся блоков текста (shingling), вычисления контрольных сумм и их сжатия. …