Антиспам

Патент Google описывает систему оценки контента, основанную на делегировании авторитета. Доверенный источник (Primary Authority) передает количественно измеримый авторитет другим экспертам (Contributing Authorities), которые могут делегировать его дальше. Итоговый рейтинг контента …
Google использует изображения Street View для валидации локальных бизнес-листингов. Система создает «viewcodes», связывая листинг с изображением его физического местоположения. Это используется для обнаружения спама (фейковых адресов), закрытых предприятий и определения …
Google собирает и анализирует историю исправлений, которые пользователи вносят в фактические данные (например, характеристики продуктов или биографические данные). Система классифицирует эти исправления по типу (например, было ли исправление подтверждено ссылкой …
Google использует механизм для динамического определения дубликатов в поисковой выдаче. Вместо сравнения документов целиком, система извлекает из них части, наиболее релевантные запросу (сниппеты). Если эти сниппеты у разных документов совпадают …
Патент Google, описывающий три механизма, основанных на анализе поведения пользователей (selection data). Система использует путь навигации пользователя для генерации новых ключевых слов для рекламы, улучшает гео-таргетинг объявлений на основе предпочтений …
Google патентует систему для оценки и отображения «Рейтинга Легитимности» источников контента, включая сайты в органической выдаче и рекламодателей. Этот рейтинг основан на объективных данных: как долго источник взаимодействует с Google …
Google использует систему для поддержания внутренней согласованности своего репозитория фактов (Knowledge Graph). Система выполняет две ключевые задачи: во-первых, она фильтрует и удаляет факты, соответствующие нежелательным критериям, что может привести к …
Патент описывает инфраструктуру Google для распределенного вычисления кратчайших путей в веб-графе (триллионы связей). Система определяет расстояние от миллиардов веб-страниц до заранее выбранного набора авторитетных сайтов ("Seeds"). Эти вычисления обеспечивают масштабируемый …
Анализ патента Google, описывающего механизм ранжирования, который комбинирует внешнюю оценку сайта (Global Ranking) с внутренней оценкой его страниц (Onsite Ranking). Система проверяет, соответствует ли страница, признанная лучшей внутри сайта, общему …
Google использует систему для количественной оценки оригинальности контента на уровне сайта. Система анализирует, какая доля контента (n-граммы) на сайте впервые появилась именно на нем, основываясь на дате первого сканирования (Crawl …
Google использует статистические модели (например, распределение Пуассона) для анализа внезапных всплесков запросов или индексации новых документов. Система определяет, является ли всплеск результатом реального мирового события (тренд) или случайным шумом/скоординированным спамом. …
Google может заранее определять "Темы запросов" (Query Themes) и назначать для них списки "Предпочтительных" (Favored) и "Нежелательных" (Non-Favored) источников. Если запрос пользователя соответствует теме, система корректирует ранжирование: повышает предпочтительные источники …
Google использует механизм для валидации редких поисковых запросов, чтобы определить, стоит ли добавлять их в поисковые подсказки (Autocomplete). Редкие запросы нормализуются (каноникализируются) и сравниваются с популярными запросами. Если редкий запрос …
Google применяет систему для обнаружения бессмысленного контента (спама), вычисляя «Gibberish Score». Эта оценка состоит из двух частей: «Language Model Score», проверяющего статистическую вероятность того, что текст является естественным языком, и …
Google применяет систему двойной классификации для защиты пользователей от неуместного или оскорбительного контента. Система оценивает, относится ли запрос к «защищенной группе людей» и содержит ли он деликатные термины. Параллельно анализируется, …
Google анализирует текст отзывов о компаниях для выявления спама в бизнес-листингах. Система ищет стоп-слова (например, "фейк", "не существует"), выявляет нерелевантные термины для категории бизнеса и сравнивает отзывы с базой известного …
Google рассчитывает метрику авторитетности для веб-сайтов на основе соотношения количества независимых входящих ссылок к количеству брендовых (референсных) запросов. Сайты, имеющие много независимых ссылок относительно их поисковой популярности, получают преимущество. Напротив, …
Google описывает механизм для точной идентификации авторов контента. Система (например, плагин браузера) отслеживает отправку контента через веб-формы (CMS, комментарии), фиксирует личность пользователя и отправленный текст. Затем Google проверяет, появился ли …
Google создает "гибридный документ" для индексации блогов, объединяя информацию из разных источников: контент поста, данные из RSS/Atom фида, контекст всего блога (например, блогролл) и внешние связанные страницы (например, профиль автора). …
Патент описывает систему (техническую основу Google Authorship), позволяющую авторам связывать контент со своей верифицированной личностью с помощью цифрового "значка" (например, rel="author"). Система сохраняет "отпечаток" (хэш) контента, гарантируя, что он не …