Google использует систему для анализа повторного использования аудио и видеофрагментов между видеороликами. На основе этих данных строится "граф видео", который позволяет вычислить оценки схожести между целыми каналами. Эти оценки используются …
Антиспам
Google анализирует компании и объекты, расположенные близко друг к другу (кластеры). Если атрибуты или категория одной компании сильно отличаются от соседей (например, магазин заявляет о публичном доступе в закрытом жилом …
Google оценивает качество и подлинность отзыва, сравнивая его тональность с комментариями того же автора об этом продукте или услуге на внешних платформах (социальные сети, электронная почта, блоги), при условии согласия …
Google использует многофакторную систему для идентификации хостов (Hostnames) или разделов сайтов (Subtrees), которые являются зеркалами друг друга. Система анализирует взвешенные сигналы, включая IP-адреса, редиректы, структуру ссылок, данные WHOIS и степень …
Google использует статистический метод для борьбы со спамом в данных о компаниях (например, в названиях или категориях). Система сравнивает частоту использования фраз в доверенных источниках (где спама нет) с частотой …
Google использует систему анализа слоев пользовательского интерфейса для точного определения, какие элементы контента реально видны пользователю, а какие скрыты перекрывающими элементами (меню, уведомлениями). Это позволяет отфильтровывать ложные сигналы вовлеченности (клики, …
Google борется со спамом в локальной выдаче (например, в Google Maps), группируя ранее отклоненные фейковые бизнес-профили в кластеры на основе общих признаков (телефон, адрес, IP-адрес отправителя). Новые заявки или обновления …
Google использует статистический анализ для борьбы со спамом в названиях компаний (например, в Google Maps). Система анализирует корпус легитимных названий, чтобы понять естественные комбинации слов. Затем для проверяемого названия вычисляется …
Google использует систему для идентификации "spoofy" изображений (сатирических, юмористических или оскорбительных модификаций, таких как мемы). Система сравнивает пары визуально похожих изображений, игнорирует артефакты сжатия и изменения размера, и точно локализует …
Google анализирует поведение сайтов на предмет массовых редиректов на сторонние организации. Сайты, состоящие преимущественно из таких редиректов («Bounce Pads» или Дорвеи), пессимизируются в процессе каноникализации. Это гарантирует, что при наличии …
Google анализирует разницу между полным кодом страницы (DOM) и тем, что фактически видит пользователь (Render Tree). Текст, присутствующий в коде, но невидимый при загрузке (например, скрытый в выпадающих меню, через …
Патент описывает эффективные алгоритмы (Shingling) для создания цифровых отпечатков веб-страниц. Разбивая контент на перекрывающиеся последовательности (шинглы) и выбирая репрезентативное подмножество, Google может быстро сравнивать миллиарды документов для выявления дубликатов, почти …
Google использует систему обнаружения дубликатов видео в реальном времени при загрузке контента. С помощью аудио и видео отпечатков система определяет, является ли новое видео копией существующего, учитывая временную синхронизацию и …
Google анализирует все известные названия (Titles), связанные с локальным бизнесом. Система сравнивает распределение частотности слов в этих названиях с двумя моделями: равномерным распределением (характерно для легитимных данных из разных источников) …
Google использует механизм для повышения эффективности сканирования интернета. Для каждого документа создается уникальный отпечаток (fingerprint), например, с помощью Simhash. Если новый документ почти идентичен уже просканированному (их отпечатки отличаются минимально), …
Google использует систему контроля качества для Программируемых Поисковых Систем (PSE/CSE), где сторонние провайдеры могут влиять на выдачу через контекстные файлы. Система выявляет спам и предвзятость путем офлайн-анализа аннотаций провайдеров и …
Патент Google, описывающий высокоэффективные алгоритмы для поиска всех пар похожих объектов (All-Pairs Similarity Search) в масштабах веба. Система использует селективное индексирование и математические оценки (границы схожести), чтобы избежать полного перебора …
Google использует метод надежного хеширования для идентификации почти дублирующихся медиафайлов (изображений, видео, аудио), даже если они были обрезаны или изменены. Система генерирует устойчивую гистограмму признаков файла, а затем применяет взвешенное …
Патент описывает систему оценки изображений на предмет нежелательного (например, взрослого) контента. Система анализирует не только само изображение и страницу, на которой оно размещено, но и агрегированные статистические данные по другим …
Google использует механизм для защиты своих антиспам-алгоритмов от анализа спамерами, особенно в локальном поиске. К рассчитанной оценке спама (Spam Score) добавляется контролируемый случайный шум. Это делает результаты применения санкций (блокировка …