SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE

Индексация в Google: разборы патентов

Детальные разборы патентов Google, связанные с индексацией
  • Ссылки
  • Поведенческие сигналы
  • Антиспам
  • Семантика и интент
  • EEAT и качество
  • SERP
  • Персонализация
  • Индексация
  • Мультимедиа
  • Local SEO
  • Техническое SEO
  • Knowledge Graph
  • Свежесть контента
  • Краулинг
  • Структура сайта
  • Мультиязычность
  • Безопасный поиск
  • Google Shopping
Как Google оптимизирует скорость и точность векторного поиска (MIPS) с помощью локального ортогонального разложения (LOD)
Патент Google, описывающий инфраструктурный метод повышения точности семантического поиска (Maximum Inner Product Search). Система использует технику Local Orthogonal Decomposition (LOD) для более эффективного сжатия (квантования) векторных эмбеддингов. Это позволяет быстрее и точнее находить документы, семантически схожие с запросом пользователя, улучшая работу систем типа Neural Matching.
  • US11354287B2
  • 2019-12-16
  • Семантика и интент

  • Индексация

Как Google индексирует контент, который не может прочитать, получая метаданные напрямую от сторонних приложений и серверов
Google использует механизм для индексации данных, хранящихся на сторонних серверах или в проприетарных форматах, которые поисковая система не может обработать напрямую. Вместо сканирования исходных данных система получает от третьей стороны готовый для индексации текст или HTML-метаданные, представляющие этот контент. Это позволяет сделать данные доступными для поиска через систему Google, соблюдая при этом контроль доступа и ограничения на размер метаданных.
  • US9262420B1
  • 2012-04-23
  • Индексация

  • Техническое SEO

Как Google извлекает даты и локации из контента для отображения результатов на карте и временной шкале
Google извлекает даты и географические локации непосредственно из контента веб-страниц. Это позволяет системе визуализировать результаты поиска на интерактивной временной шкале и на карте, даже если запрос не содержал явных указаний на время или место. Пользователи могут использовать эти визуализации для навигации и уточнения запросов, а сниппеты могут фокусироваться вокруг извлеченных фактов.
  • US10509817B2
  • 2017-02-06 (Продолжение заявки от 2006-09-29)
  • Индексация

  • Краулинг

  • SERP

Как Google индексирует, ищет и отображает интерактивные 3D-модели в результатах поиска
Google разработал систему для индексации и поиска 3D-моделей. Система может автоматически аннотировать части объектов (например, определять «объектив» на камере), изучая их форму и расположение. Это позволяет искать 3D-объекты, используя изображения или другие 3D-модели в качестве запроса. Результаты поиска включают интерактивные 3D-модели, которые можно вращать прямо в выдаче (moveable inline).
  • US9916345B1
  • 2015-02-11
  • Индексация

  • Мультимедиа

  • SERP

Как Google стандартизирует словоформы в индексе для ускорения поиска и повышения полноты выдачи
Google повышает эффективность поиска, обрабатывая словоформы (например, «голосовать» и «голосование») на этапе индексирования, а не во время выполнения запроса. Система определяет корень слова (стемму), выбирает наиболее частотную «репрезентативную» форму и сохраняет в индексе как исходное слово, так и этот вариант. Это позволяет быстрее находить все релевантные документы без необходимости перебирать варианты слов в момент поиска.
  • US11423029B1
  • 2019-12-11 (Продолжение заявки от 2010-11-09)
  • Индексация

Как Google рассчитывает оценку качества и количества видео на домене (Domain Video Score) для приоритизации индексирования и ранжирования
Google использует систему для оценки доменов, размещающих видеоконтент, рассчитывая метрику Domain Video Score. Эта оценка учитывает как количество видео на сайте (известных и прогнозируемых), так и их качество (на основе метрик вовлеченности, таких как Long Clicks). Этот балл используется для определения приоритета индексирования видео и служит сигналом ранжирования, особенно для нового контента.
  • US8407207B1
  • 2011-05-12
  • Индексация

  • Техническое SEO

  • Краулинг

Как Google заложил основу протокола Sitemaps для автоматической генерации и уведомления о списках URL
Этот фундаментальный патент описывает механизм, позволяющий веб-серверам автоматически генерировать Sitemaps (списки URL с метаданными, такими как дата изменения, частота обновления и приоритет), используя данные из файловой системы, логов доступа или CMS. Система также автоматически уведомляет поисковые системы о наличии обновленного Sitemap, решая проблемы неполного покрытия краулинга и повышая его эффективность.
  • US7801881B1
  • 2005-06-30
  • Краулинг

  • Техническое SEO

  • Индексация

Как Google приоритизирует сканирование, управляет краулинговым бюджетом и повторно использует контент
Google использует распределенную систему планирования для оптимизации сканирования. Приоритет URL определяется их важностью (Page Importance/PageRank) и специальными коэффициентами (Boost Factor). Система фильтрует постоянно недоступные страницы и решает, загружать ли контент заново или использовать кэшированную версию (Reuse), основываясь на истории изменений и важности страницы.
  • US8042112B1
  • 2004-06-30
  • Краулинг

  • Свежесть контента

  • Индексация

Как Google оптимизирует индекс, сохраняя только те части документов, которые отвечают на запросы пользователей
Google может оптимизировать размер и скорость своего индекса, анализируя, какие части документа использовались для ответа на запросы пользователей. Части, которые редко используются, удаляются из индекса, а сохраняются только наиболее востребованные фрагменты.
  • US8655886B1
  • 2011-03-25
  • Индексация

  • Техническое SEO

Как Google учитывает объем трафика для загрузки страницы при ранжировании, особенно для пользователей с лимитированным интернетом
Google может измерять объем данных, необходимый для полной загрузки веб-страницы (включая HTML, изображения, скрипты). Этот показатель используется как условный сигнал ранжирования: более "легкие" страницы могут получать преимущество, особенно если система определяет, что пользователь находится в сети с ограниченной пропускной способностью или лимитированным тарифным планом.
  • US9201929B1
  • 2013-08-09
  • Техническое SEO

  • Индексация

Как Google использует механизм внимания для выбора ключевых визуальных элементов на изображениях для улучшения поиска по картинкам
Google использует модель глубокого обучения для анализа изображений, которая не только извлекает визуальные признаки (дескрипторы), но и оценивает их важность с помощью механизма внимания. Это позволяет системе фокусироваться на самых значимых элементах (например, объектах или ориентирах) и игнорировать визуальный шум, повышая точность и эффективность поиска похожих изображений.
  • US10402448B2
  • 2017-06-28
  • Мультимедиа

  • Индексация

Как Google индексирует контент внутри мобильных приложений и формирует сниппеты для App Deep Linking
Google использует виртуальную машину для запуска и рендеринга нативных мобильных приложений с целью извлечения контента, отображаемого на экранах (Application Pages). Система также анализирует установочный пакет приложения (Application Package File) для извлечения иконки и отображаемого имени. Эти данные объединяются для создания информативных результатов поиска (Deep Links), ведущих непосредственно на конкретный контент внутри приложения.
  • US9881095B2
  • 2015-06-23
  • Индексация

  • SERP

Как Google автоматически генерирует правила нормализации слов и поиска вариантов с помощью суффиксных деревьев
Google использует статистические методы и структуру данных «суффиксное дерево» для автоматического создания правил изменения окончаний слов (стемминга и генерации вариантов). Система анализирует наблюдаемые пары слов, обобщает их до правил и использует алгоритмы оптимизации, чтобы определить, когда эти правила применимы, а когда нет. Это обеспечивает точность обработки языка даже для редких слов.
  • US8352247B2
  • 2012-04-23
  • Индексация

Как Google использует стабильность сигналов авторства для идентификации и исключения неавторского контента из специализированного индекса
Google отслеживает историю изменений данных об авторстве (имя автора, ссылки на профили) на веб-странице. Если авторство меняется слишком часто, система определяет, что это не статья одного автора (например, главная страница сайта или агрегатор), и исключает её из специализированной базы данных авторского контента. Это подчеркивает важность стабильных сигналов для E-E-A-T.
  • US20150127624A1
  • 2013-11-01
  • EEAT и качество

  • Индексация

  • Антиспам

Как Google извлекает структурированные данные путем анализа и запоминания шаблонов DOM-дерева сайта
Google использует гибридную систему для извлечения структурированных данных (например, списков эпизодов, треков альбома) с сайтов, даже если они не используют микроразметку. Система сначала применяет эвристики для поиска данных, проверяет их точность путем сравнения с другими источниками, а затем анализирует DOM-дерево сайта, чтобы запомнить шаблон расположения этих данных. Это позволяет Google эффективно извлекать информацию, понимая структуру HTML-шаблонов сайта.
  • US8954438B1
  • 2012-05-31
  • Структура сайта

  • Индексация

Как Google использует метаданные для поиска дубликатов, объединения версий документов и консолидации сигналов ранжирования
Патент описывает, как Google идентифицирует различные версии одного и того же документа (например, научных статей) путем генерации, нормализации и сравнения нескольких идентификаторов на основе метаданных (автор, название, дата). Это позволяет Google объединять дубликаты в кластеры и консолидировать сигналы ранжирования, такие как общее количество цитирований.
  • US8316292B1
  • 2005-11-18
  • Индексация

  • Техническое SEO

Как Google разбирает изображения на части для визуального поиска товаров (e.g., Google Lens)
Система Google для визуального поиска товаров, которая анализирует изображения, извлекая глобальные и локальные признаки (цвет, форма, текстура). Патент описывает, как это позволяет пользователям искать похожие товары, выделяя конкретные части объекта (например, узор на сумке или форму каблука), используя технологию, лежащую в основе Google Lens.
  • US9008435B2
  • 2012-09-14
  • Мультимедиа

  • Индексация

  • Google Shopping

Как Google использует сравнение DOM и Render Tree для обнаружения и девальвации скрытого текста при генерации сниппетов и ранжировании
Google использует механизм для точного определения, какой текст на веб-странице виден пользователю при загрузке, а какой скрыт. Система сравнивает весь код страницы (DOM Tree) с тем, что фактически отображается (Render Tree). Обнаруженный скрытый текст (например, в меню, скрытый через CSS или цветом фона) получает понижающий коэффициент (Weighting Factor), что снижает вероятность его попадания в сниппет и может влиять на оценку страницы.
  • US8639680B1
  • 2012-05-07
  • Техническое SEO

  • Индексация

  • SERP

Как Google использует нейронные сети для создания «прощающих» хешей и эффективного поиска похожего мультимедийного контента
Google использует метод машинного обучения для создания «прощающих» (forgiving) хеш-функций. Этот механизм позволяет эффективно находить похожий или почти идентичный контент (аудио, изображения, видео) в огромных базах данных. Система группирует похожие элементы вместе, даже если они имеют небольшие различия, что критически важно для выявления около-дубликатов и масштабируемого поиска мультимедиа.
  • US7831531B1
  • 2007-06-21
  • Индексация

  • Мультимедиа

Как Google позволяет вебмастерам обновлять структурированные данные в индексе по требованию, минуя стандартное сканирование
Google использует механизм, позволяющий авторизованным владельцам сайтов напрямую отправлять структурированные данные (например, цены, наличие товара) в поисковый индекс. Этот процесс происходит по требованию ("unscheduled update sequence"), значительно быстрее стандартного сканирования, и позволяет передавать приватные данные, недоступные публично на сайте.
  • US20150112961A1
  • 2012-09-18
  • Индексация

  • Техническое SEO

  • Краулинг

Как Google использует обработку естественного языка для поиска информации в личной истории пользователя (браузер, почта)
Google может распознавать запросы на естественном языке (включая голосовые), которые ищут ранее просмотренный контент (например, «найди рецепт, который я читал на телефоне»). Система ищет ответ не в общем веб-индексе, а в личной истории пользователя (история браузера, электронная почта), используя фильтры по теме, времени или устройству, извлеченные из запроса.
  • US10515076B1
  • 2017-01-31
  • Семантика и интент

  • Персонализация

  • Индексация

Как Google определяет галереи изображений на странице, анализируя равномерность их расположения в HTML-структуре
Google анализирует логическую структуру веб-страницы для идентификации галерей изображений. Система вычисляет расстояния между изображениями в макете документа. Если изображения распределены равномерно (имеют одинаковые интервалы), система классифицирует их как галерею. Эта классификация используется для применения особых правил ранжирования в поиске по картинкам.
  • US7788258B1
  • 2004-06-21
  • Индексация

  • Структура сайта

  • Мультимедиа

Как Google анализирует веб-формы и фильтры для эффективного сканирования «Глубокого интернета» (Deep Web)
Google использует метод для эффективного сканирования контента, скрытого за веб-формами (Deep Web). Вместо перебора всех возможных комбинаций полей ввода система определяет, какие поля являются «информативными» — то есть, изменение каких полей приводит к генерации страниц с существенно различным контентом. Это позволяет индексировать уникальный контент, избегая дубликатов и экономя ресурсы сканирования.
  • US8484566B2
  • 2007-10-15
  • Краулинг

  • Индексация

Как Google помогает пользователям найти правильную языковую версию страницы, исправляя ошибки маршрутизации
Система определяет языковые предпочтения пользователя и сравнивает их с языком посещаемой веб-страницы. Если страница отображается не на предпочтительном языке из-за ошибки маршрутизации (например, из-за геолокации), и существует альтернативная версия на нужном языке, система предлагает пользователю перейти на нее или автоматически перенаправляет его.
  • US9251223B2
  • 2013-02-26
  • Мультиязычность

  • Персонализация

  • Индексация

Как Google использует машинное обучение для обнаружения дубликатов, анализируя контент до и после рендеринга
Google использует комплексную систему для обнаружения дубликатов, которая сравнивает как исходный HTML-код (Fetched Body), так и финальную версию страницы после выполнения JavaScript (Synthetic Body). Система вычисляет множество сигналов сравнения, включая основанные на контексте запроса (сниппеты), и использует модель машинного обучения для определения вероятности того, что страницы являются дубликатами.
  • US20140188919A1
  • 2007-02-14
  • Индексация

  • SERP

  • Краулинг

Как Google объединяет дубликаты изображений в кластеры и индексирует их как единое целое для улучшения визуального поиска
Google оптимизирует визуальный поиск, группируя почти идентичные изображения (измененный размер, обрезка) в единый кластер. Система индексирует не отдельные картинки, а совокупность всех визуальных признаков ("визуальных слов") из всех вариантов в кластере. Это повышает эффективность индекса и гарантирует согласованность результатов при поиске по изображению.
  • US8923626B1
  • 2012-06-25
  • Индексация

  • Мультимедиа

Как Google объединяет разные URL в один результат, если они ведут на одну и ту же страницу (например, при мобильных редиректах)
Google использует механизм дедупликации для повышения разнообразия выдачи. Если несколько разных URL в результатах поиска перенаправляют пользователя на одну и ту же целевую страницу (например, из-за редиректа на мобильную версию, страницу входа или главную страницу), Google объединяет эти функциональные дубликаты в один замещающий результат.
  • US10007731B2
  • 2012-09-12
  • SERP

  • Техническое SEO

  • Индексация

Как Google предлагает использовать номера версий контента для генерации в Sitemap, если реальная дата изменения недоступна
Патент описывает метод для генерации Sitemaps на сайтах, где фактическое время последнего изменения контента недоступно (например, для данных в БД). Система сравнивает текущий номер версии контента с версией на момент прошлой генерации Sitemap. Если версия изменилась, в тег устанавливается текущее время, что гарантирует повторное сканирование обновленного контента краулером.
  • US7865497B1
  • 2008-02-21
  • Краулинг

  • Техническое SEO

  • Индексация

Как Google позволяет разработчикам и SEO-специалистам мгновенно увидеть превью сниппета в выдаче до индексации
Google предоставляет инструмент, который использует актуальную логику обработки контента поисковой системы для генерации «предсказанного результата поиска» (сниппета) в изолированной среде. Это позволяет мгновенно увидеть, как страница будет выглядеть в выдаче (включая разные стили, например, для мобильных устройств и десктопов), без необходимости ждать её сканирования и добавления в основной продакшн-индекс.
  • US11170014B2
  • 2016-12-29
  • SERP

  • Техническое SEO

  • Индексация

Как Google эффективно вычисляет совместную встречаемость (co-occurrence) терминов в больших наборах структурированных данных с помощью HyperLogLog
Патент Google описывает инфраструктурный метод для эффективного расчета корреляции (степени пересечения) между различными поисковыми терминами в больших базах данных. Используя алгоритм HyperLogLog (HLL), система может быстро оценить, как часто два термина встречаются вместе, потребляя минимум памяти. Эта технология ориентирована на анализ структурированных данных и Business Intelligence (BI).
  • US11341147B1
  • 2020-12-11
  • Индексация

  • Семантика и интент

  • 1
  • …
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
seohardcore