Краулинг

Как Google использует рендеринг страниц для обнаружения скрытого текста и его пессимизации в сниппетах и ранжировании

2012 • Антиспам • Краулинг • Техническое SEO

US9336279B2 2016-05-10 2012-05-07

Google анализирует разницу между полным кодом страницы (DOM) и тем, что фактически видит пользователь (Render Tree). Текст, присутствующий в коде, но невидимый при загрузке (например, скрытый в выпадающих меню, через …

Как Google извлекает структурированные данные путем анализа и запоминания шаблонов DOM-дерева сайта

2012 • Индексация • Краулинг • Семантика и интент

US8954438B1 2015-02-10 2012-05-31

Google использует гибридную систему для извлечения структурированных данных (например, списков эпизодов, треков альбома) с сайтов, даже если они не используют микроразметку. Система сначала применяет эвристики для поиска данных, проверяет их …

Как Google встраивает модели машинного обучения прямо в поисковый индекс для мгновенного и точного ранжирования

2014 • Индексация • Краулинг • Семантика и интент

US20250217356A1 2025-07-03 2014-05-02

Google использует архитектуру, которая объединяет этапы поиска (Retrieval) и ранжирования (Ranking). Сложные модели машинного обучения преобразуются непосредственно в структуру поискового индекса. Это позволяет мгновенно находить и ранжировать контент, используя всю …

Как Google обучает ML-модели «на лету» и индексирует их для генерации прогнозов в поисковой выдаче

2017 • Индексация • Краулинг • Семантика и интент

US20230273923A1 2023-08-31 2017-12-11

Анализ патента Google, описывающего систему генерации ответов на предиктивные запросы. Если стандартный поиск неэффективен, Google может обучить модель машинного обучения «на лету» на основе исторических структурированных данных или использовать предобученную …

Как Google автоматически обновляет свои таксономии и обучает классификаторы, извлекая данные из структуры авторитетных сайтов

2010 • Knowledge Graph • Краулинг • Семантика и интент

US9135361B1 2015-09-15 2010-05-05

Google использует автоматизированную систему для обновления своих внутренних таксономий (иерархий категорий). Система сканирует заранее определенные авторитетные веб-сайты и извлекает категории из их структурированного контента (меню, списки, таблицы). При обнаружении новых …

Как Google использует отпечатки документов (Simhash) для выявления и игнорирования дубликатов на этапе сканирования

2005 • Антиспам • Индексация • Краулинг

US8140505B1 2012-03-20 2005-03-31

Google использует механизм для повышения эффективности сканирования интернета. Для каждого документа создается уникальный отпечаток (fingerprint), например, с помощью Simhash. Если новый документ почти идентичен уже просканированному (их отпечатки отличаются минимально), …

Как Google идентифицирует, классифицирует и помечает сайты с вредоносным ПО (Scumware) в поиске и браузерах

2005 • EEAT и качество • Shumeet Baluja • Безопасный поиск • Краулинг

US8126866B1 2012-02-28 2005-09-30

Google сканирует веб на наличие «Scumware» (вредоносное и нежелательное ПО). Патент описывает, как система различает сайты, которые содержат вредоносный код, и сайты, которые на него ссылаются. Обнаружение угрозы может привести …

Как Google извлекает и ранжирует прямые ответы (факты, даты, сущности) из текста веб-страниц

2005 • Knowledge Graph • Краулинг • Семантика и интент

US8719244B1 2014-05-06 2005-03-23

Google использует систему для извлечения фактов (дат, имен, концепций) и связанных с ними фрагментов предложений из веб-документов. Эти пары индексируются отдельно. В ответ на запрос система находит релевантные факты, ранжирует …

Как Google идентифицирует и устраняет дубликаты статей в агрегаторах контента, сравнивая заголовки и URL

2011 • Краулинг • Ссылки

US20130144847A1 2013-06-06 2011-12-05

Патент Google, описывающий метод дедупликации статей на платформах агрегации контента (таких как Google News). Система нормализует заголовки и сравнивает их, используя расстояние Левенштейна. Одновременно сравниваются URL-адреса связанных ресурсов (например, изображений). …

Как Google использует MinHash и кластеризацию для определения и каноникализации дубликатов вакансий в Google Jobs

2016 • EEAT и качество • Индексация • Краулинг

US20180181609A1 2018-06-28 2016-12-28

Google применяет систему для эффективной дедупликации вакансий из разных источников. Используя алгоритмы MinHash и Jaccard Similarity, система создает цифровые отпечатки объявлений и группирует похожие версии в кластеры. Внутри кластера выбирается …

Как Google определяет частоту сканирования (Crawl Budget) на основе авторитетности (PageRank) и частоты обновления страниц

2004 • EEAT и качество • Краулинг • Свежесть контента

US10621241B2 2020-04-14 2004-05-20

Google использует систему планирования сканирования, которая рассчитывает приоритет для каждого URL. Этот приоритет зависит от авторитетности страницы (PageRank) и частоты изменения ее контента (Content Change Frequency). Система определяет, какие страницы …

Как Google использует теорию информации (энтропию) для автоматического определения канонических URL и игнорирования нерелевантных параметров

2008 • EEAT и качество • Индексация • Краулинг

US9081861B2 2015-07-14 2008-07-21

Google применяет статистический анализ на основе теории информации для определения, какие параметры URL влияют на уникальность контента. Система вычисляет условную энтропию между значениями параметров и отпечатками контента (fingerprints). Это позволяет …

Как Google анализирует структуру DOM для автоматического определения основного контента на странице

2014 • EEAT и качество • Индексация • Краулинг

US9665617B1 2017-05-30 2014-04-16

Google использует сложный алгоритм для анализа DOM-структуры, чтобы отличить основной контент (статьи, посты) от шаблонных элементов (меню, виджеты). Система генерирует стабильный идентификатор (например, CSS-селектор) для контейнеров основного контента. Это позволяет …

Как Google автоматически таргетирует рекламу (Dynamic Search Ads), индексируя контент сайта без использования ключевых слов

2003 • EEAT и качество • SERP • Краулинг

US7647299B2 2010-01-12 2003-06-30

Google использует механизм автоматического таргетинга рекламы (например, Dynamic Search Ads), который не требует ручного ввода ключевых слов. Система сканирует и индексирует веб-сайт рекламодателя, создавая отдельный индекс. При получении запроса Google …

Как Google управляет доступом к настройкам сайта (GSC), позволяет выбирать канонический домен и регулировать скорость сканирования

2006 • EEAT и качество • Краулинг

US8533226B1 2013-09-10 2006-12-27

Патент описывает инфраструктуру Google Search Console для подтверждения владения сайтом. Верифицированные владельцы получают возможность отзывать доступ у других пользователей, указывать предпочитаемый домен (Preferred Domain Name) для консолидации сигналов ранжирования и …

Как Google интегрирует печатные издания (книги, журналы) в основную поисковую выдачу и управляет рекламой в них

2003 • EEAT и качество • Индексация • Краулинг

US7437351B2 2008-10-14 2003-09-30

Патент описывает инфраструктуру Google для оцифровки, индексирования и интеграции печатных изданий (книги, журналы) в результаты поиска наравне с веб-страницами. Он включает механизмы для получения разрешений от издателей (Permission Protocol), совместного …

Как Google нормализует словоформы при индексировании, используя стемминг и «Репрезентативные Токены»

2019 • Индексация • Краулинг • Семантика и интент

US20240370443A1 2024-11-07 2019-12-11

Google оптимизирует поиск, обрабатывая морфологические варианты слов на этапе индексирования. Система определяет основу слова (стемму) и находит ее наиболее частотную форму в интернете («Репрезентативный Токен»). Этот токен добавляется в индекс …

Как Google использует агрессивную каноникализацию и анализ контента для автоматического подбора описаний к рекламным сайтлинкам, в том числе в ответ на голосовые запросы

2013 • Краулинг • Ссылки

US10776435B2 2020-09-15 2013-03-15

Google использует этот механизм для автоматического обогащения рекламных сайтлинков (Ad Sitelinks) текстами из существующих объявлений (Creatives). Система применяет агрессивную каноникализацию URL, включающую активное сканирование и сравнение страниц для удаления незначащих …

Как Google тестирует и выбирает, какие документы включать в индекс, используя инкрементно обновляемую тестовую среду

2012 • EEAT и качество • Индексация • Краулинг

US20140059062A1 2014-02-27 2012-08-24

Патент описывает инфраструктуру Google для оценки различных стратегий отбора документов в индекс. Система поддерживает актуальный набор данных (Query-to-Resource Mapping), периодически добавляя свежий контент и новые запросы. Это позволяет Google сравнивать …

Как Google использует анализ контента для распределения пользовательских вопросов на тематически релевантные сайты

2007 • Краулинг • Семантика и интент

US20080160490A1 2008-07-03 2007-03-22

Патент описывает систему, функционирующую подобно рекламной сети (типа AdSense), но для Q&A. Google анализирует содержание веб-сайтов (издателей) и пользовательские вопросы для определения тематической релевантности. Затем система размещает релевантные вопросы на …