SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE

Индексация в Google: разборы патентов

Детальные разборы патентов Google, связанные с индексацией
  • Ссылки
  • Поведенческие сигналы
  • Антиспам
  • Семантика и интент
  • EEAT и качество
  • SERP
  • Персонализация
  • Индексация
  • Мультимедиа
  • Local SEO
  • Техническое SEO
  • Knowledge Graph
  • Свежесть контента
  • Краулинг
  • Структура сайта
  • Мультиязычность
  • Безопасный поиск
  • Google Shopping
Как Google использует алгоритмы "Shingling" для эффективного обнаружения дубликатов и похожего контента в масштабах веба
Патент описывает эффективные алгоритмы (Shingling) для создания цифровых отпечатков веб-страниц. Разбивая контент на перекрывающиеся последовательности (шинглы) и выбирая репрезентативное подмножество, Google может быстро сравнивать миллиарды документов для выявления дубликатов, почти дубликатов (near-duplicates) и шаблонного контента.
  • US8131751B1
  • 2008-12-03
  • Индексация

Как Google оптимизирует частоту повторного сканирования, прогнозируя вероятность удаления страниц на сайте
Google использует историю сканирования для расчета вероятности удаления страниц, отдельно для разных категорий контента. На основе этой вероятности система оптимизирует расписание повторного сканирования (re-crawling schedule). Цель — найти баланс между затратами ресурсов на сканирование и риском показать пользователю устаревший (удаленный) контент, минимизируя общую функцию «штрафа» (Penalty Function).
  • US8862569B2
  • 2012-01-11
  • Краулинг

  • Индексация

  • Техническое SEO

Как Google индексирует и хранит разные версии документа для отслеживания изменений контента и исторической релевантности
Google использует механизм для архивирования и индексирования различных версий веб-страниц по мере их изменения. Система присваивает каждой версии диапазон дат ее актуальности и сохраняет данные о релевантности (включая фразы и сигналы) именно для этой версии. Это позволяет поисковой системе анализировать историю изменений контента, оценивать частоту обновлений и находить документы, которые были релевантны в определенный прошлый период времени.
  • US7702618B1
  • 2005-01-25
  • Индексация

  • Техническое SEO

  • Свежесть контента

Как Google определяет дублированный и переработанный (spun) контент, анализируя относительный порядок слов
Патент Google, описывающий метод обнаружения похожих или почти дублирующихся документов, устойчивый к локальным изменениям текста (например, замене синонимов или перестановке слов). Вместо анализа последовательных фраз, система анализирует упорядоченные пары слов, которые не обязательно стоят рядом. Это позволяет идентифицировать структурное сходство контента даже при значительном изменении формулировок.
  • US7734627B1
  • 2003-06-17
  • Индексация

  • Антиспам

Как Google объединяет данные о странице, если она находится в разных индексах под разными URL (например, Web и Shopping)
Google использует механизм для сопоставления разных URL, ведущих на одну и ту же страницу, но хранящихся в разных индексах (например, основной веб-индекс и индекс товаров). Система извлекает уникальные идентификаторы (например, SKU) из параметров URL. Если идентификаторы совпадают и контент верифицирован, URL связываются, позволяя Google обогащать результаты в одном индексе данными из другого (например, показ цены в веб-выдаче).
  • US8645355B2
  • 2011-10-21
  • Индексация

Как Google связывает локальные бизнес-данные (адреса и телефоны) с веб-сайтами для показа в результатах поиска
Google использует систему для интеграции локальной информации (адреса, телефоны) непосредственно в основную поисковую выдачу. Система сопоставляет структурированные данные о бизнесе из локальной базы данных с соответствующими URL в веб-индексе, разрешая конфликты и неоднозначности. Это позволяет показывать контактную информацию и ссылки на карты прямо в сниппете результата поиска.
  • US7624101B2
  • 2006-01-31
  • Local SEO

  • Индексация

  • SERP

Как Google обеспечивает стабильность канонических URL при асинхронном сканировании контента (Crawl Skew)
Google использует механизм для стабилизации индекса при обработке дубликатов в условиях неравномерного сканирования (Crawl Skew). Если страница не была пересканирована, система принудительно связывает ее с предыдущим каноническим URL (Previous Representative). Это обеспечивает стабильность выбора каноникалов и предотвращает индексацию устаревших дубликатов.
  • US7836108B1
  • 2008-03-31
  • Индексация

  • Краулинг

  • Техническое SEO

Как Google использует компьютерное зрение для анализа, сегментации и визуального поиска товаров в E-commerce
Патент описывает комплексную систему Google для визуального поиска товаров. Система автоматически обрабатывает изображения: отделяет объект от фона (сегментация), выравнивает его, извлекает визуальные признаки (цвет, форма, текстура) и создает цифровые подписи (векторы). Это позволяет пользователям искать похожие товары, используя изображение в качестве запроса (CBIR), уточнять поиск по визуальным характеристикам и находить товары на сторонних сайтах.
  • US8732030B2
  • 2012-02-16
  • Индексация

  • Мультимедиа

Как Google управляет доступом к настройкам сайта (GSC), позволяет выбирать канонический домен и регулировать скорость сканирования
Патент описывает инфраструктуру Google Search Console для подтверждения владения сайтом. Верифицированные владельцы получают возможность отзывать доступ у других пользователей, указывать предпочитаемый домен (Preferred Domain Name) для консолидации сигналов ранжирования и регулировать предельную скорость сканирования (Crawl Rate Limit) с учетом фактической нагрузки.
  • US8533226B1
  • 2006-12-27
  • Индексация

  • Краулинг

  • Техническое SEO

Как Google определяет основной контент страницы, анализируя визуальную геометрию и расположение элементов после рендеринга
Google анализирует визуальную структуру отрендеренной страницы для идентификации основного контента («Колонки интереса»). Система определяет расположение колонок, исключает выбросы (невидимый или удаленный контент) и вычисляет центральную область. Контент, найденный в этой области, получает повышенный вес при ранжировании, в то время как контент в боковых панелях, футерах и рекламе деприоритизируется.
  • US9753901B1
  • 2013-05-09
  • Индексация

  • Техническое SEO

  • Структура сайта

Как Google индексирует внутренний контент мобильных приложений с помощью виртуальных машин и скрытого текста (App Indexing)
Google использует систему для индексации контента внутри нативных мобильных приложений, который ранее был недоступен для поиска. Система запускает приложение в виртуальной машине, эмулирующей операционную систему устройства, переходит к конкретным экранам или состояниям (environment instances) и извлекает описательные данные. Ключевой особенностью является извлечение текстовых данных, которые разработчики встраивают специально для поисковых систем, но которые не видны пользователю при обычном использовании приложения.
  • US9135346B2
  • 2013-06-07
  • Индексация

  • Техническое SEO

Как Google динамически приоритизирует сканирование страниц, когда Googlebot отстает от графика
Google использует адаптивную систему управления сканированием. Если краулер не успевает обработать все запланированные URL (отстает от графика), система динамически меняет приоритеты. Вместо хронологического порядка приоритет отдается наиболее важным страницам (на основе Importance Rank/PageRank), чтобы гарантировать свежесть индекса для ключевого контента, даже если другие страницы дольше ждут своей очереди.
  • US8666964B1
  • 2005-04-25
  • Краулинг

  • Свежесть контента

  • Индексация

Как Google использует пространственное индексирование (Geohashing) для эффективного локального поиска по радиусу
Google использует метод предварительного расчета географических областей для ускорения локального поиска. Система делит карту на ячейки (используя пространственный индекс, например, Hierarchical Triangular Mesh) и при индексации связывает документ не только с его фактической ячейкой, но и со всеми соседними ячейками в пределах заданного радиуса. Это позволяет мгновенно находить релевантные результаты без сложных геопространственных вычислений во время выполнения запроса.
  • US7801897B2
  • 2004-12-30
  • Индексация

  • Local SEO

Как Google прогнозирует частоту обновления новых страниц для оптимизации краулингового бюджета
Google использует статистический метод для оценки того, как часто будет обновляться новый документ. Система анализирует исторические данные о частоте изменений похожих документов (например, страниц с аналогичной структурой URL или на том же домене), чтобы определить оптимальную частоту сканирования новой страницы. Это позволяет поддерживать свежесть индекса и эффективно расходовать краулинговый бюджет.
  • US20130212100A1
  • 2012-12-26
  • Краулинг

  • Индексация

  • Свежесть контента

Как Google позволяет верифицированным владельцам сайтов управлять скоростью сканирования (Crawl Rate) и выбирать предпочитаемый домен
Анализ патента, лежащего в основе функций Google Search Console. Он описывает механизмы верификации прав собственности, выбора канонического (предпочитаемого) домена для консолидации сигналов и управления скоростью сканирования. Ключевой момент: система увеличивает скорость сканирования только тогда, когда текущий лимит является реальным ограничивающим фактором для краулера.
  • US7599920B1
  • 2006-10-12
  • Краулинг

  • Техническое SEO

  • Индексация

Как Google оптимизирует график повторного сканирования на основе частоты изменений и важности контента
Google использует адаптивную систему планирования повторного сканирования. Система оценивает, как часто меняется документ (Change Period) и насколько он важен (Importance Rank, например, PageRank). На основе этих данных рассчитывается оптимальная частота сканирования (Crawl Period), которая корректируется для обеспечения свежести индекса и эффективного использования ресурсов.
  • US8386459B1
  • 2011-02-22 (Продолжение заявки от 2005-04-25)
  • Краулинг

  • Свежесть контента

  • Техническое SEO

Как Google идентифицирует, классифицирует и помечает сайты с вредоносным ПО (Scumware) в поиске и браузерах
Google сканирует веб на наличие «Scumware» (вредоносное и нежелательное ПО). Патент описывает, как система различает сайты, которые содержат вредоносный код, и сайты, которые на него ссылаются. Обнаружение угрозы может привести к исключению сайта из поиска, понижению в ранжировании или добавлению различных визуальных предупреждений в SERP и браузерных тулбарах.
  • US8126866B1
  • 2005-09-30
  • Безопасный поиск

  • Индексация

  • SERP

Как Google генерирует синонимы во время индексации, извлекая числа из токенов и нормализуя слова с префиксами-стоп-словами
Google может генерировать синонимы для слов непосредственно во время индексации документа, чтобы ускорить обработку запросов. Это включает извлечение числовых значений из буквенно-числовых токенов (например, «42» из «e42PC») и нормализацию слов путем удаления префиксов, являющихся стоп-словами (например, артиклей в арабском языке), используя статистические черные списки для предотвращения ошибок. Оба варианта сохраняются в индексе.
  • US8375042B1
  • 2010-11-09
  • Индексация

  • Мультиязычность

Как Google статистически определяет значимые шаблоны URL (префиксы и суффиксы) для улучшения каноникализации и эффективности сканирования
Google использует статистический метод для анализа больших наборов URL и выявления общих префиксов или суффиксов, которые встречаются чаще, чем ожидалось случайно. Это помогает Google понять структуру URL, сгруппировать похожий контент и определить нерелевантные части URL (например, общие префиксы пути или поддомены), чтобы улучшить каноникализацию и избежать сканирования дублирующегося контента.
  • US8095530B1
  • 2008-07-21
  • Краулинг

  • Техническое SEO

  • Индексация

Как Google использует отпечатки документов (Simhash) для выявления и игнорирования дубликатов на этапе сканирования
Google использует механизм для повышения эффективности сканирования интернета. Для каждого документа создается уникальный отпечаток (fingerprint), например, с помощью Simhash. Если новый документ почти идентичен уже просканированному (их отпечатки отличаются минимально), система помечает его как дубликат, игнорирует его исходящие ссылки и может исключить его из дальнейшей обработки, экономя ресурсы.
  • US8140505B1
  • 2005-03-31
  • Краулинг

  • Индексация

Как Google использует анализ визуального макета страницы для сегментации контента и понимания его иерархии
Google использует метод анализа визуального макета страницы (Visual Layout), чтобы понять её иерархическую структуру, даже если HTML-код (DOM) не отражает её точно. Система анализирует визуальные разрывы (белое пространство) между блоками контента, чтобы сегментировать страницу и точно связать описательный текст с конкретными объектами, например, отзывы с соответствующими локальными компаниями на странице со списком.
  • US7421651B2
  • 2004-12-30
  • Индексация

  • Local SEO

  • Структура сайта

Как Google сегментирует глобальный индекс на региональные части для повышения эффективности и локальной релевантности
Google оптимизирует поисковую инфраструктуру, разделяя индекс на две части. Основной индекс («Replicated Content») содержит глобально важные документы и копируется во все дата-центры. Дополнительно каждый дата-центр получает уникальный «Regional Content» — документы, соответствующие локальному языку и шаблонам запросов. Это повышает эффективность и релевантность для международных пользователей.
  • US8131712B1
  • 2007-10-15
  • Индексация

  • Local SEO

  • Мультиязычность

Как Google динамически определяет страну пользователя и агрессивно повышает локальные результаты в выдаче
Google динамически определяет предпочитаемую страну пользователя, используя интерфейс поиска (например, google.de) и IP-адрес. Затем система смещает результаты поиска, повышая оценки (Weighting Factor) или позиции (Shifting Factor) контента, связанного с этой страной. Патент раскрывает сигналы, используемые для определения местоположения сайта (ccTLD, IP сервера, география ссылок) и методы агрессивного повышения локальных результатов.
  • US7451130B2
  • 2003-06-27
  • Local SEO

  • Персонализация

  • Индексация

Как Google итеративно рендерит веб-страницы, собирая недостающие ресурсы (JS, CSS, изображения) для индексации
Патент описывает инфраструктуру Google для рендеринга веб-страниц в масштабах всего интернета. Вместо того чтобы запрашивать все внешние ресурсы (JS, CSS, изображения) в реальном времени, система использует итеративный подход. Если ресурс не найден в базе данных, процесс рендеринга останавливается, ресурс ставится в очередь на сканирование, и рендеринг перезапускается только после того, как все необходимое будет собрано. Это обеспечивает точное отображение страницы без перегрузки внешних серверов.
  • US8346755B1
  • 2010-05-04
  • Индексация

  • Краулинг

  • Техническое SEO

Как Google использует машинный перевод для поиска контента на иностранных языках (Cross-Language Information Retrieval)
Google использует механизмы Cross-Language Information Retrieval (CLIR) для поиска релевантного контента независимо от языка запроса. Система может перевести запрос пользователя на другие языки и искать в индексах этих языков (Query Translation), либо заранее перевести контент сайтов на язык пользователя (Document Translation). Это позволяет предоставлять пользователю лучшие результаты, даже если они изначально опубликованы на иностранном языке.
  • US7890493B2
  • 2007-07-20
  • Мультиязычность

  • Индексация

Как Google кластеризует и фильтрует похожие товары одного продавца в Google Shopping для повышения разнообразия выдачи
Google использует систему для обнаружения и фильтрации почти дублирующихся товаров в системах онлайн-покупок (например, Google Shopping). Система вычисляет «расстояние» между товарами одного и того же продавца на основе их атрибутов (название, модель, описание, изображение). Похожие товары объединяются в кластеры, и при формировании выдачи система ограничивает количество товаров из одного кластера, чтобы повысить разнообразие продуктов на странице результатов.
  • US9342849B2
  • 2013-09-19
  • Google Shopping

  • SERP

  • Индексация

Как Google улучшает Min-Hash сигнатуры для более точного обнаружения почти дубликатов контента
Google использует усовершенствованный алгоритм Min-Hash для создания цифровых сигнатур контента (веб-страниц, изображений, медиа). Условно используя вторичные перестановки, когда первичный хеш дает мало информации, Google генерирует более надежные и информативные сигнатуры. Это позволяет быстрее и точнее обнаруживать почти дублирующийся контент в процессе индексирования.
  • US8447032B1
  • 2008-03-04
  • Индексация

  • Техническое SEO

Как Google автоматически категоризирует локальный контент и историю пользователя для контекстного поиска по неявным запросам
Патент Google, описывающий технологию для локального (Desktop) или персонализированного поиска. Система отслеживает взаимодействие пользователя с контентом (события) и использует «схемы событий» для автоматической категоризации файлов, электронных писем и истории просмотров. Эти категории затем используются для предоставления релевантных результатов в ответ на неявные запросы, генерируемые системой на основе текущего контекста пользователя.
  • US7788274B1
  • 2004-06-30
  • Персонализация

  • Поведенческие сигналы

  • Local SEO

Как Google автоматически обнаруживает и удаляет идентификаторы сессий из URL для оптимизации сканирования и предотвращения дублирования
Google использует механизм для автоматического обнаружения идентификаторов сессий в URL-адресах во время сканирования. Система анализирует подстроки, которые выглядят случайными и повторяются в нескольких URL с одного сайта. Эти идентификаторы удаляются для создания «чистых» версий URL. Это позволяет поисковой системе распознавать дублирующийся контент и избегать повторного сканирования одних и тех же страниц, оптимизируя краулинговый бюджет.
  • US7886032B1
  • 2003-12-23
  • Краулинг

  • Техническое SEO

  • Индексация

Как Google рассчитывает и использует оценки Mobile-Friendliness для ранжирования результатов и маркировки сайтов
Google рассчитывает Mobile-Friendliness Score, рендеря страницы как мобильное устройство и оценивая такие сигналы, как размер кликабельных элементов, читаемость текста, настройки области просмотра (viewport) и скорость загрузки. Эта оценка используется для повышения позиций удобных для мобильных страниц в мобильном поиске и для добавления метки «Mobile-Friendly» в поисковой выдаче.
  • US20160314215A1
  • 2016-04-20
  • Техническое SEO

  • Индексация

  • 1
  • …
  • 4
  • 5
  • 6
  • 7
  • 8
  • …
  • 10
seohardcore