Антиспам

Google оптимизирует вычислительные ресурсы, отслеживая популярность запросов через счетчик использования кэша (Reuse Count). Для редких запросов предоставляется быстрый «стандартный» результат. Если запрос становится популярным (превышает порог), система запускает более ресурсоемкий …
Google использует единую графовую модель для одновременной оценки качества пользовательского контента (например, комментариев или отзывов) и репутации его авторов. В этой модели репутация автора повышает оценку его контента, а качественный …
Google использует систему для определения коммерческого намерения пользователя в реальном времени. Система использует предварительно созданный список коммерческих шаблонов, основанный на данных рекламодателей, анализе логов и выявлении манипулятивных техник (например, доменов …
Google использует механизм для эффективного обнаружения дубликатов и почти дубликатов путем генерации цифровых отпечатков (фингерпринтов) и группировки похожих документов в кластеры. При формировании поисковой выдачи система фильтрует результаты из одного …
Патент описывает систему Google для дополнения стандартных результатов веб-поиска ссылками на релевантные посты в блогах. Система использует многоступенчатую фильтрацию для отсеивания низкокачественных блогов и спама (splogs). Фильтры анализируют количество исходящих …
Патент Google описывает систему повышения качества поиска по нетекстовому контенту (изображения, видео). Система агрегирует текстовые метки (Initial Labels) со всех страниц, где размещен контент. Затем эти метки группируются по схожести …
Патент Google описывает систему ранжирования, учитывающую уровень доверия к сущностям (экспертам, организациям), которые аннотируют или классифицируют контент с помощью «меток» (labels). Система вычисляет «Рейтинг Доверия» (Trust Rank) для этих сущностей …
Патент описывает инфраструктуру Google для создания высокоточных классификаторов. Он включает метод отбора разнообразных обучающих данных (Bootstrapping/Bucketing) и математическую модель (Monotonic Regression) для объединения оценок от разных классификаторов (например, текста, изображений, …
Google использует механизм для оценки качества контента (например, видео), учитывая не только его собственные характеристики, но и качество связанных с ним родительских сущностей (например, плейлиста или канала). Система комбинирует оценки …
Анализ патента, описывающего фундаментальную архитектуру поисковых систем. Система использует модульный подход, где различные факторы (контент, ссылки, структура URL, данные пользователя) оцениваются независимыми модулями. Затем механизм агрегации рангов (Rank Aggregation) объединяет …
Google использует методы для отделения основного содержания страницы от повторяющихся элементов (навигация, футеры, копирайты). Анализируя частоту повторений на сайте, пространственное расположение блоков, окружающий код и цели ссылок, система классифицирует контент …
Google использует механизм улучшения качества поисковой выдачи. Если по исходному запросу в топе ранжируется слишком много низкокачественных сайтов, система находит связанный альтернативный запрос, который возвращает высококачественные результаты. Затем эти результаты …
Google использует методы анализа визуального представления страницы для выявления скрытого контента. Система строит структурное представление документа (DOM) и анализирует свойства элементов (цвет, размер, позиция, Z-index), чтобы определить, виден ли контент …
Google использует систему для обнаружения спама в локальной выдаче (например, в Google Maps). Система сравнивает характеристики бизнес-листингов (названия, адреса, телефоны) из надежных источников (например, официальные справочники) и ненадежных источников (например, …
Google использует комплексную систему для обнаружения дубликатов, которая сравнивает как исходный HTML-код (Fetched Body), так и финальную версию страницы после выполнения JavaScript (Synthetic Body). Система вычисляет множество сигналов сравнения, включая …
Google применяет техники Shingling и Min-Hashing для эффективного сравнения миллионов документов (например, книг или веб-страниц). Система кластеризует похожие документы, а затем детально анализирует сходство на уровне фрагментов, чтобы классифицировать их …
Google применяет метрику BTF-IDF (Blacklist Term Frequency-Inverse Document Frequency) для борьбы со спамом в Картах (Local SEO). Система сравнивает частоту термина в известных спам-листингах (BTF) с тем, насколько редко этот …
Google использует метрику «Proxy Pad Score» для оценки вероятности того, что сайт систематически копирует контент у разных источников. Система анализирует кластеры дубликатов: если документы сайта часто проигрывают по качеству оригиналам …
Патент Google, описывающий систему управления отображением профилей пользователей в поиске. Она оценивает профили по метрикам популярности, качества и социальной близости (Affinity). Система решает, показывать ли блок с профилями, основываясь на …
Google использует метод для эффективного обнаружения почти дубликатов документов. Система генерирует компактный цифровой отпечаток (fingerprint) для каждого документа путем выборки перекрывающихся блоков текста (shingling), вычисления контрольных сумм и их сжатия. …