SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE

Индексация в Google: разборы патентов

Детальные разборы патентов Google, связанные с индексацией
  • Ссылки
  • Поведенческие сигналы
  • Антиспам
  • Семантика и интент
  • EEAT и качество
  • SERP
  • Персонализация
  • Индексация
  • Мультимедиа
  • Local SEO
  • Техническое SEO
  • Knowledge Graph
  • Свежесть контента
  • Краулинг
  • Структура сайта
  • Мультиязычность
  • Безопасный поиск
  • Google Shopping
Как Google индексирует динамический JavaScript-контент (AJAX/SPA), используя рендеринг и анализ URL-фрагментов
Патент Google, описывающий фундаментальный механизм индексирования динамического контента, генерируемого на стороне клиента (JavaScript/AJAX). Система идентифицирует «индексируемые фрагменты» в URL (часть после '#'), выполняет клиентский код для генерации финального состояния страницы (DOM) и преобразует его в статический HTML для индексации. Это основа работы современного сервиса рендеринга (WRS).
  • US8468145B2
  • 2011-11-10
  • Индексация

  • Техническое SEO

  • Краулинг

Как Google рассчитывает значимость сущности в документе (Entity Score) и использует всплески трафика (Traffic Spike Score) для рекомендации контента
Google использует систему для определения того, насколько важна конкретная сущность (человек или бренд) для документа. Система анализирует количество упоминаний, их расположение (заголовок, тело) и упоминания других сущностей для расчета «Entity Score». Этот механизм используется для предложения пользователям контента о них самих для распространения в социальных сетях, а также учитывает «Traffic Spike Score» (всплески трафика) для выявления актуальных документов.
  • US9098502B1
  • 2012-12-27
  • Индексация

  • Семантика и интент

Как Google идентифицирует сайты-трамплины (Bounce Pads/Дорвеи) и исключает их из индекса при выборе канонической версии
Google использует механизм для обнаружения «Bounce Pads» — сайтов, основная цель которых — перенаправление пользователей на другие ресурсы. Система анализирует долю редиректов на сайте (Redirect Score) и разнообразие внешних целей перенаправления (Spam Score). Обнаруженные сайты-трамплины помечаются и исключаются из рассмотрения при выборе канонической (главной) версии страницы среди дубликатов, что предотвращает их попадание в поисковую выдачу.
  • US8037073B1
  • 2008-12-29
  • Индексация

  • Антиспам

  • Техническое SEO

Как Google извлекает ключевые концепции и сущности, анализируя контекст вокруг повторяющихся цитат и отрывков текста
Google анализирует, как одни и те же отрывки текста (например, цитаты) используются в разных документах. Система собирает весь окружающий текст (контекст) вокруг каждого вхождения отрывка и использует статистический анализ (например, TF-IDF), чтобы определить ключевые термины, сущности и концепции, связанные с этим отрывком. Это позволяет связывать документы по смыслу и улучшать навигацию.
  • US9323827B2
  • 2008-01-30
  • Семантика и интент

  • Индексация

  • Knowledge Graph

Как Google сканирует, индексирует и ранжирует контент внутри мобильных приложений для показа в поиске (App Indexing)
Google использует виртуальные машины для эмуляции мобильных операционных систем (например, Android). В этой среде запускаются нативные приложения, и система извлекает текст, изображения и структуру непосредственно из процесса рендеринга контента. Это позволяет индексировать внутренние страницы приложений и показывать их в результатах поиска вместе с веб-страницами, реализуя механизм Deep Linking.
  • US9002821B2
  • 2013-01-16
  • Индексация

  • Краулинг

  • SERP

Как Google использует редиректы, анализ URL и оценку качества для объединения дубликатов и выбора канонической версии
Google использует итеративный процесс для борьбы с дубликатами при индексировании. Система кластеризует похожие документы, выбирает лучшего представителя из каждого кластера на основе качества и определяет конечную цель его редиректов. Если цели редиректов из разных кластеров оказываются дубликатами (например, на основе анализа паттернов URL), исходные кластеры объединяются. Это позволяет консолидировать сигналы и выбрать единую каноническую версию для индекса.
  • US8661069B1
  • 2008-03-31
  • Индексация

  • Техническое SEO

  • Структура сайта

Как Google автоматически определяет и удаляет неважные URL-параметры для каноникализации и эффективного сканирования
Google использует систему для автоматического определения канонической формы URL. Система активно тестирует различные комбинации параметров в URL, чтобы определить, какие из них влияют на контент, а какие нет (например, tracking-коды или session ID). Неважные параметры удаляются с помощью правил перезаписи, что позволяет свести множество дублирующихся URL к единой канонической версии, экономя краулинговый бюджет.
  • US7827254B1
  • 2003-12-31
  • Краулинг

  • Техническое SEO

  • Индексация

Как Google позволяет владельцам сайтов выбирать предпочтительный (канонический) домен для индексации и управлять скоростью сканирования
Патент описывает механизмы Google для решения проблемы дублирования контента, возникающей из-за нескольких эквивалентных доменных имен (например, с WWW и без). Верифицированные владельцы могут указать предпочтительный домен, который Google будет использовать для перезаписи URL-адресов перед индексацией, консолидируя сигналы ранжирования. Патент также описывает интерфейсы для управления верификацией владельцев и контроля скорости сканирования (Crawl Rate).
  • US7930400B1
  • 2006-12-27
  • Индексация

  • Краулинг

  • Техническое SEO

Как Google автоматически сопоставляет десктопные и мобильные URL с помощью распознавания паттернов и анализа контента
Google использует систему для автоматического обнаружения взаимосвязи между десктопными (non-mobile) и мобильными (mobile) версиями страниц, когда используются разные URL. Система анализирует структуру URL, находит общие токены и проверяет схожесть контента. На основе найденных пар генерируются правила (Regular Expressions) для предсказания мобильного URL по десктопному, что улучшает индексацию мобильного контента и корректность выдачи.
  • US8631097B1
  • 2012-10-11
  • Индексация

  • Техническое SEO

  • Структура сайта

Как Google использует гибридный каскад алгоритмов (Shingling и SimHash) для высокоточного обнаружения дубликатов перед индексацией
Google применяет сложный гибридный подход для обнаружения дубликатов и почти дубликатов контента. Система комбинирует каскадное и параллельное применение двух разных алгоритмов (например, Shingling/Broder и SimHash/Charikar), чтобы достичь высокой точности и полноты. Это позволяет эффективно идентифицировать и удалять из индекса страницы с минимальными различиями (порог схожести до 97%), что критически важно для процессов каноникализации.
  • US8015162B2
  • 2006-08-04
  • Индексация

  • Техническое SEO

Как Google обнаруживает точные дубликаты во время сканирования и выбирает каноническую версию на основе PageRank и гистерезиса
Патент Google, описывающий систему (Dupserver) для обнаружения точных дубликатов контента на этапе сканирования. Система использует фингерпринты контента и URL для группировки дубликатов. Каноническая версия выбирается на основе наивысшего независимого от запроса показателя (например, PageRank). Для предотвращения частого переключения канонической версии используется механизм гистерезиса. Также описана обработка 301 и 302 редиректов.
  • US7627613B1
  • 2003-07-03
  • Краулинг

  • Индексация

  • Техническое SEO

Как Google создает цифровые отпечатки контента для выявления почти дубликатов страниц в масштабе интернета
Google использует метод для эффективного обнаружения почти дубликатов документов. Система генерирует компактный цифровой отпечаток (fingerprint) для каждого документа путем выборки перекрывающихся блоков текста (shingling), вычисления контрольных сумм и их сжатия. Сравнивая эти отпечатки с использованием расстояния Хэмминга, Google может быстро определить, являются ли два документа практически идентичными, что критично для каноникализации и экономии ресурсов индекса.
  • US7707157B1
  • 2004-03-25
  • Индексация

  • SERP

Как Google определяет, какие параметры URL влияют на контент, чтобы выбрать канонический URL и оптимизировать краулинг
Google использует систему для статистического анализа динамических URL-адресов и определения того, какие параметры являются значимыми для контента (content-relevant), а какие нет (content-irrelevant). Система группирует URL-адреса, ведущие на одинаковый контент, в «Классы эквивалентности» и выбирает один «Представительский URL» для сканирования и индексации, экономя краулинговый бюджет и решая проблемы дублированного контента.
  • US7680773B1
  • 2005-03-31
  • Техническое SEO

  • Краулинг

  • Индексация

Как Google индексирует и ранжирует контент дополненной реальности и цифровые дополнения для визуального поиска (Google Lens)
Google создал систему для индексации и ранжирования цифровых дополнений (например, AR-контента, купонов, приложений), связанных с реальными объектами. Система сканирует веб-страницы в поисках метаданных, которые связывают эти дополнения с визуальными анкорями (продуктами, изображениями, местами). При визуальном поиске Google ранжирует эти дополнения, используя сигналы престижа (аналог PageRank) и релевантности, чтобы предоставить пользователю наиболее полезный интерактивный опыт.
  • US10878037B2
  • 2018-06-21
  • Индексация

  • Краулинг

  • Мультимедиа

Как Google распознает, согласовывает и упорядочивает сериализованный контент (книги, фильмы) из разрозненных источников
Google использует алгоритмы для анализа информации о контенте (например, книгах, фильмах, сериалах) из множества источников. Система создает записи, кластеризует их для выявления серий, определяет канонические названия серий и отдельных произведений, а затем упорядочивает их последовательность. Это позволяет структурировать разрозненные и противоречивые данные для улучшения поисковой выдачи и формирования Графа Знаний.
  • US9244919B2
  • 2013-02-19
  • Knowledge Graph

  • Семантика и интент

  • Индексация

Как Google использует «Виртуальные часы» и оптимизацию ресурсов для эффективного рендеринга JavaScript-сайтов в масштабах веба
Google использует специализированную архитектуру для рендеринга веб-страниц в пакетном режиме (для индексации). Система применяет «Виртуальные часы», чтобы избежать таймаутов при медленной загрузке ресурсов и ускорить процесс. Также она оптимизирует нагрузку, игнорируя ненужные скрипты (например, аналитику), дедуплицируя ресурсы и используя «Mock Images» (заглушки с размерами) для расчета макета страницы.
  • US9984130B2
  • 2014-10-22
  • Индексация

Как Google использует структуру URL для прогнозирования качества, популярности и поведения пользователей для новых страниц
Google анализирует исторические данные о поведении пользователей (например, долгие клики) и атрибуты документов, агрегируя их по схожим шаблонам URL. Если страница новая и не имеет собственных данных, система прогнозирует ее ценность, основываясь на показателях других страниц с аналогичной структурой URL. Это влияет на приоритеты сканирования, индексирования и начальное ранжирование.
  • US8645367B1
  • 2010-03-08
  • Структура сайта

  • Техническое SEO

  • Индексация

Как Google использует графовое сопоставление для поиска структурированных данных внутри диаграмм и таблиц
Google патентует систему для сопоставления сложных пользовательских запросов (представленных в виде графов) с базовыми моделями данных визуального контента (например, диаграмм или таблиц) на веб-страницах. Это требует от издателей предоставлять свои данные в доступном структурированном формате («Content Metadata Sets»), чтобы поисковая система могла понять и проиндексировать сложные взаимосвязи внутри контента.
  • US9411890B2
  • 2012-06-05
  • Семантика и интент

  • Индексация

  • Техническое SEO

Как Google определяет частоту и приоритет сканирования страниц на основе PageRank, частоты обновления контента и времени с последнего визита
Google использует автоматизированную систему планирования для оптимизации ресурсов сканирования. Для каждого URL рассчитываются оценки приоритета (Scores) на основе его важности (PageRank), исторической частоты изменения контента (Content Change Frequency) и времени, прошедшего с момента последнего сканирования (Age). Это определяет, будет ли страница сохранена в индексе, как часто она будет сканироваться (ежедневно, в реальном времени или редко) и нужно ли загружать ее заново.
  • US7725452B1
  • 2004-05-20
  • Краулинг

  • Индексация

  • Свежесть контента

Как Google изучает новые слова, сленг и опечатки из поисковых запросов и веб-контента для лучшего понимания текста и URL
Google автоматически пополняет свой внутренний словарь (лексикон), анализируя логи поисковых запросов и контент в интернете (включая чаты и мессенджеры). Это позволяет системе выявлять новые термины, аббревиатуры, имена собственные и распространенные опечатки. Дополненный лексикон используется для лучшей сегментации (разбивки на слова) сложных строк без пробелов, например, URL-адресов или слитных запросов.
  • US8051096B1
  • 2004-09-30
  • Семантика и интент

  • Индексация

Как Google обнаруживает и консолидирует зеркальные сайты и разделы, используя взвешенные инфраструктурные, структурные и контентные сигналы
Google использует многофакторную систему для идентификации хостов (Hostnames) или разделов сайтов (Subtrees), которые являются зеркалами друг друга. Система анализирует взвешенные сигналы, включая IP-адреса, редиректы, структуру ссылок, данные WHOIS и степень дублирования контента. Это позволяет Google оптимизировать краулинговый бюджет, избегать индексации дубликатов и консолидировать сигналы ранжирования на канонической версии.
  • US8055626B1
  • 2005-08-09
  • Индексация

  • Краулинг

  • Техническое SEO

Как Google использует атрибуты и метки от владельцев контента для структурирования данных и динамической фильтрации результатов поиска (Google Base)
Патент описывает систему (исторически Google Base), позволяющую владельцам загружать структурированные данные и определять собственные атрибуты (пары имя/значение) и метки. Google индексирует эту информацию и использует наиболее популярные атрибуты для создания динамических фильтров в результатах поиска, позволяя пользователям уточнять запросы. Система также автоматически определяет и продвигает популярные пользовательские атрибуты в статус "основных" для улучшения структуры данных.
  • US20130339338A1
  • 2013-08-23 (Оригинальная заявка 2005-10-23)
  • Индексация

  • SERP

Как Google использует текст внутри изображений (например, Street View) для индексации и ранжирования в локальном и имиджевом поиске
Google извлекает текст непосредственно из изображений (например, названия улиц, вывески бизнесов в Street View), используя передовые методы OCR и улучшения качества (Superresolution). Этот текст ассоциируется с точными географическими координатами (GPS). Это позволяет Google индексировать информацию из реального мира и использовать её для ответа на локальные поисковые запросы и повышения релевантности поиска по картинкам.
  • US8098934B2
  • 2006-06-29
  • Индексация

  • Local SEO

  • Мультимедиа

Как Google использует теорию информации (энтропию) для автоматического определения канонических URL и игнорирования нерелевантных параметров
Google применяет статистический анализ на основе теории информации для определения, какие параметры URL влияют на уникальность контента. Система вычисляет условную энтропию между значениями параметров и отпечатками контента (fingerprints). Это позволяет автоматически игнорировать нерелевантные параметры (например, session ID, трекинг-коды), определять канонический URL и оптимизировать краулинговый бюджет.
  • US9081861B2
  • 2008-07-21
  • Техническое SEO

  • Краулинг

  • Индексация

Как Google оптимизирует краулинговый бюджет, динамически изменяя частоту сканирования на основе популярности, значимых изменений контента и ошибок сервера
Google использует систему планирования сканирования для оптимизации ресурсов. Система динамически рассчитывает интервал сканирования для каждого ресурса, учитывая его популярность (например, количество подписчиков), частоту «значимых» изменений контента (особенно в визуально важных блоках) и состояние доступности (ошибки сервера). Это позволяет чаще сканировать важный и обновляемый контент и сокращать ресурсы на неизменный или недоступный контент.
  • US8868541B2
  • 2011-01-21
  • Краулинг

  • Техническое SEO

  • Индексация

Как Google решает, когда переводить запрос пользователя и показывать результаты на другом языке, сравнивая релевантность и распознавая сущности
Google анализирует запрос пользователя, переводит его на другой язык (например, английский) и сравнивает релевантность результатов в обоих языках. Если контент на иностранном языке значительно релевантнее, система подмешивает его в выдачу. При этом учитываются локальные и иностранные сущности в запросе, а также качество автоматического перевода.
  • US20090083243A1
  • 2008-09-22
  • Мультиязычность

  • Семантика и интент

  • SERP

Как Google использует HTTP-заголовки для извлечения и индексации метаданных из не-HTML документов (PDF, DOC и т.д.)
Google использует механизм для индексации метаданных файлов, не являющихся HTML (например, PDF, Word, Excel). Во время сканирования метаданные (автор, тема, заголовок) могут передаваться от веб-сервера через специальный HTTP-заголовок. Поисковая система извлекает эти данные, преобразует их в виртуальные META-теги и использует для индексации, улучшая понимание этих форматов.
  • US9582588B2
  • 2012-12-20
  • Индексация

  • Краулинг

  • Техническое SEO

Как Google использует языковую статистику для умного добавления акцентов и синонимов в запросы
Google анализирует, как слова пишутся в разных языках (с акцентами, диграфами или транслитерацией), и создает "карту синонимов". При получении запроса система определяет его вероятный язык и статистически выбирает только те варианты написания (синонимы), которые наиболее распространены именно в этом языке, избегая добавления нерелевантных вариантов из других языков.
  • US7475063B2
  • 2006-04-19
  • Мультиязычность

  • Семантика и интент

  • Индексация

Как Google использует мобильные Sitemaps для выбора правильного краулера и оптимизации сканирования
Патент Google, описывающий механизм использования специализированных карт сайта (Sitemaps) для мобильного контента. Система позволяет вебмастерам указывать формат мобильных страниц (например, XHTML, WML). На основе этой информации Google выбирает соответствующий краулер (User-Agent) для корректного сканирования и индексирования мобильной версии сайта. Патент также детально описывает инфраструктуру обработки Sitemaps, включая использование метаданных (Priority, ChangeFreq, LastMod) для управления приоритетом и частотой сканирования.
  • US7653617B2
  • 2006-05-01
  • Краулинг

  • Индексация

  • Техническое SEO

Как Google использует лингвистический анализ для расширения запросов и индекса с помощью словоформ, составных слов и вариантов написания
Патент Google описывает фундаментальные методы улучшения поиска путем учета лингвистических вариаций. Система автоматически расширяет запросы или индекс, добавляя словоформы (склонения, спряжения), альтернативные написания (орфографические варианты) и различные формы составных слов (слитно, раздельно, через дефис). Это гарантирует, что релевантные документы будут найдены независимо от конкретной формы слова, использованной в запросе или тексте.
  • US20050149499A1
  • 2003-12-30
  • Индексация

  • 1
  • …
  • 3
  • 4
  • 5
  • 6
  • 7
  • …
  • 10
seohardcore