SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE

Индексация в Google: разборы патентов

Детальные разборы патентов Google, связанные с индексацией
  • Ссылки
  • Поведенческие сигналы
  • Антиспам
  • Семантика и интент
  • EEAT и качество
  • SERP
  • Персонализация
  • Индексация
  • Мультимедиа
  • Local SEO
  • Техническое SEO
  • Knowledge Graph
  • Свежесть контента
  • Краулинг
  • Структура сайта
  • Мультиязычность
  • Безопасный поиск
  • Google Shopping
Как Google индексирует и ранжирует AR-контент и действия в результатах визуального поиска (Google Lens)
Патент описывает систему Google для визуального поиска, которая позволяет находить и предоставлять пользователям «цифровые дополнения» (например, AR-контент, действия, информацию) в ответ на изображение реального мира. Система сканирует интернет в поисках метаданных о доступных дополнениях, индексирует их, связывая с визуальными анкорями (объектами, текстом, кодами), и ранжирует их в ответ на визуальный запрос пользователя.
  • US10579230B2
  • 2018-06-21
  • Индексация

  • Мультимедиа

  • Краулинг

Как Google группирует варианты товаров (цвет, размер) от разных продавцов, анализируя заголовки и структуру данных
Google использует этот механизм для автоматической идентификации и группировки вариантов одного продукта (например, разных цветов или размеров), предлагаемых разными продавцами. Система анализирует заголовки товаров в фидах, выявляет закономерности и создает глобальный каталог вариантов. Для разрешения конфликтов в названиях система выбирает терминологию того продавца, который наиболее полно и последовательно описал все варианты.
  • US8700494B2
  • 2011-09-06
  • Google Shopping

  • Индексация

Как Google использует распознавание лиц для индексирования видео и понимания связей между людьми
Google использует систему для автоматического обнаружения, отслеживания и распознавания лиц в видеоконтенте. Это позволяет индексировать видео не только по метаданным, но и по конкретным людям, присутствующим в кадре. Система может определять сегменты с участием конкретного человека, даже если он временно покидал кадр, а также строить графы взаимодействий, показывая, кто с кем появлялся в видео. Это критически важно для понимания содержания видео и Video SEO.
  • US8401252B2
  • 2010-12-20
  • Индексация

  • Мультимедиа

  • Knowledge Graph

Как Google использует цифровые отпечатки контента для автоматического выявления и исправления орфографических ошибок в метаданных
Google использует технологию цифровых отпечатков (fingerprinting) для идентификации идентичного контента (например, видео, аудио, изображений), загруженного разными пользователями. Сравнивая метаданные (заголовки, теги) этих идентичных файлов, система автоматически выявляет распространенные опечатки и орфографические ошибки. Это позволяет улучшить полноту поисковой выдачи, связывая разные варианты написания.
  • US8458156B1
  • 2012-05-18
  • Индексация

  • Мультимедиа

Как Google использует Min-Hashing и Shingling для выявления дубликатов и классификации взаимосвязей между документами в большом корпусе
Google применяет техники Shingling и Min-Hashing для эффективного сравнения миллионов документов (например, книг или веб-страниц). Система кластеризует похожие документы, а затем детально анализирует сходство на уровне фрагментов, чтобы классифицировать их взаимосвязь: являются ли они идентичными, переформатированными версиями или содержат перекрывающийся текст.
  • US8527516B1
  • 2012-02-24
  • Индексация

Как Google идентифицирует перемещенный контент при сравнении версий веб-страниц во время индексации
Google использует итеративный алгоритм сравнения (например, LCS) для анализа изменений между старой и новой версиями веб-страницы. Система не просто определяет добавленный или удаленный контент, но и точно идентифицирует блоки, которые были перемещены в другое место. Используя метрику «Information Content», Google отличает существенные изменения контента от реорганизации макета.
  • US8121989B1
  • 2008-03-07
  • Индексация

Как Google эффективно индексирует и ранжирует повторяющиеся события для персонального и структурированного поиска
Google использует специализированный метод для индексации повторяющихся событий. Система создает единый документ, разделяя общую информацию (название, описание) и уникальные детали каждого случая (дата, исключения). Для ранжирования применяется двухэтапный процесс: быстрая аппроксимация частоты события для первичной оценки и детальный анализ точного времени для финального скоринга.
  • US9760600B2
  • 2014-01-14
  • Индексация

Как Google использует гибридную классификацию и OCR для извлечения ответов из личных фотографий пользователя
Google использует систему для ответа на текстовые запросы (например, «Сколько я потратил в ресторане?») путем анализа личной библиотеки изображений. Система предварительно классифицирует фотографии (например, чеки, меню, пейзажи), используя распознавание объектов и текста (OCR). Это позволяет быстро найти нужную информацию в релевантной категории и представить ответ в виде обрезанного изображения или аудиосообщения.
  • US10740400B2
  • 2018-08-28
  • Индексация

  • Мультимедиа

  • Семантика и интент

Как Google тестирует и выбирает, какие документы включать в индекс, используя инкрементно обновляемую тестовую среду
Патент описывает инфраструктуру Google для оценки различных стратегий отбора документов в индекс. Система поддерживает актуальный набор данных (Query-to-Resource Mapping), периодически добавляя свежий контент и новые запросы. Это позволяет Google сравнивать разные алгоритмы индексации через A/B тесты и оценку асессорами, чтобы определить, какая стратегия обеспечивает более качественную выдачу.
  • US20140059062A1
  • 2012-08-24
  • Индексация

  • Свежесть контента

Как Google использует Топ-N терминов и URL-паттерны для быстрой кластеризации похожих страниц на сайте
Google использует эффективный метод (O(n)) для группировки структурно похожих документов на веб-сайте. Система определяет страницы, у которых совпадают наиболее весомые термины (Топ-N), используя метрику Modified TF-IDF, смещенную в сторону шаблонного текста (boilerplate). Затем находится общий шаблон в их URL-адресах. Это позволяет быстро кластеризовать большие объемы контента для анализа структуры сайта и оптимизации индексирования.
  • US8200670B1
  • 2008-10-31
  • Индексация

  • Структура сайта

  • Техническое SEO

Как Google использует векторный поиск (ANN) и многоэтапное ранжирование (L1/L2/L3) для нахождения похожих объектов
Этот патент описывает архитектуру поисковой системы (на примере 3D-моделей), которая критически важна для понимания современного веб-поиска. Google применяет векторный поиск (ANN) для быстрого отбора кандидатов (L1) и многоэтапное ранжирование (L2/L3), используя разные наборы признаков и составные функции оценки на каждом этапе для повышения эффективности и точности.
  • US8606774B1
  • 2010-05-18
  • Индексация

Как Google определяет главный объект на изображении, анализируя его размер, центральное положение и видимость
Google использует систему компьютерного зрения для определения основного предмета на изображении, содержащем несколько объектов. Система ранжирует распознанные объекты, отдавая предпочтение тем, которые крупнее по размеру, расположены ближе к центру кадра и меньше перекрываются другими элементами. Это напрямую влияет на индексацию и ранжирование в Google Images и Google Lens.
  • US9135305B2
  • 2011-03-23
  • Мультимедиа

  • Индексация

Как Google использует репрезентативные наборы и Min-Hash для дедупликации видео и аудио в результатах поиска
Google использует масштабируемую систему для борьбы с дублированным и частично дублированным медиаконтентом (видео, аудио). Вместо сравнения всех файлов между собой, система создает компактные «репрезентативные наборы» для каждого элемента, используя фингерпринтинг и хеширование (Min-Hash). При получении запроса система сравнивает эти наборы для быстрого выявления дубликатов и выбора одной канонической версии для показа в выдаче.
  • US10152479B1
  • 2014-08-01
  • Мультимедиа

  • SERP

  • Индексация

Как Google индексирует, ранжирует и структурирует события по времени и местоположению, обеспечивая темпоральное разнообразие
Патент Google, описывающий систему поиска событий, которая фильтрует результаты по времени и месту. Система разделяет запрошенный временной интервал (например, неделю) на сегменты (например, дни) и ранжирует лучшие события отдельно для каждого сегмента. Это предотвращает доминирование популярных событий одного дня и гарантирует видимость релевантных результатов на протяжении всего интервала.
  • US7647353B2
  • 2006-11-14
  • Индексация

  • Краулинг

  • Local SEO

Как Google извлекает и может отображать оригинальный дизайн (стили) контента в сниппетах поисковой выдачи
Google разработал систему для отображения текстовых сниппетов в поисковой выдаче с сохранением их оригинального стиля (шрифт, размер, форматирование) из исходного документа. Для этого система создает отдельные индексы для текста и стилей. Это позволяет пользователям оценить визуальный контекст, важность контента и эстетику сайта непосредственно в SERP, влияя на выбор результата.
  • US10311114B2
  • 2014-11-03
  • SERP

  • Индексация

  • Техническое SEO

Как Google отслеживает возраст отдельных фрагментов контента на странице и отличает существенные обновления от незначительных правок
Google использует систему для определения даты первой публикации отдельных фрагментов контента (например, предложений или абзацев). Система сегментирует контент и отслеживает его историю в «Карте дат» (Date Map). Используя нечеткое сравнение (Edit Distance) и нормализацию, система игнорирует незначительные правки и точно датирует только существенные обновления контента.
  • US8332408B1
  • 2010-08-23
  • Свежесть контента

  • Индексация

  • Техническое SEO

Как Google использует взвешенную оценку метаданных для выявления дубликатов контента без анализа самих файлов
Патент Google описывает метод идентификации субстантивных дубликатов (например, товаров, видео или сущностей в разных форматах) исключительно путем сравнения их метаданных. Система нормализует данные, вычисляет взвешенную оценку сходства с учетом важности разных атрибутов и помечает контент как дублирующийся, если оценка превышает порог. Этот механизм критичен для согласования сущностей (Entity Reconciliation) в системах Google.
  • US8266115B1
  • 2011-01-14
  • Индексация

Как Google использует структурные разрывы (смены сцен и тишину) для идентификации дубликатов видео и организации видео-поиска
Google использует систему фингерпринтинга видео, которая анализирует не пиксели, а временные метки структурных разрывов — смены сцен (shot boundaries) и моменты тишины (silent points). Это позволяет идентифицировать дубликаты или похожий контент даже при различиях в кодировании, разрешении или частоте кадров, что используется для удаления нарушений авторских прав и организации результатов видео-поиска.
  • US8611422B1
  • 2007-06-19
  • Мультимедиа

  • Индексация

Как Google идентифицирует дубликаты и защищенный авторским правом видеоконтент с помощью 3D-отпечатков
Google использует технологию трехмерных цифровых отпечатков для управления большими видеобиблиотеками (например, YouTube). Система анализирует пространственные (внутри кадра) и временные (между кадрами) характеристики видео, создавая уникальный идентификатор. Это позволяет эффективно обнаруживать дубликаты и защищенный контент, даже если видео было изменено (сжато, обрезано, перекодировано).
  • US8094872B1
  • 2007-05-09
  • Индексация

  • Мультимедиа

Как Google позволял сторонним провайдерам внедрять специализированные результаты в выдачу по подписке пользователя (Google Subscribed Links)
Патент описывает систему (известную как "Google Subscribed Links"), позволяющую сторонним поставщикам контента определять шаблоны запросов и предоставлять структурированные данные (DataObjects) через XML-фиды. Если запрос пользователя соответствовал шаблону и пользователь был подписан на этого провайдера, система внедряла специализированный ответ непосредственно на страницу результатов поиска.
  • US7593939B2
  • 2007-03-30
  • SERP

  • Индексация

  • Персонализация

Как Google анализирует одежду на изображениях для визуального поиска, игнорируя лица и фон
Google использует систему для визуального поиска похожих товаров. Система обнаруживает лицо на изображении, удаляет фон и участки кожи, чтобы изолировать предмет одежды. Затем, используя размер лица для нормализации масштаба, извлекаются небольшие фрагменты текстуры. Они обрабатываются нейронной сетью для классификации узора (игнорируя цвет) и создается цветовая гистограмма. Это позволяет находить визуально похожие товары.
  • US8873838B2
  • 2013-03-14
  • Мультимедиа

  • Google Shopping

  • Индексация

Как Google предварительно вычисляет результаты поиска для ожидаемых запросов, чтобы ускорить выдачу и повысить её качество
Google использует систему предиктивного поиска для повышения скорости и эффективности. Система прогнозирует, какие запросы пользователи введут в будущем, и заранее вычисляет для них результаты поиска, сохраняя их в специальном «предиктивном кэше». Это позволяет мгновенно обслуживать популярные и трендовые запросы, а также использовать более сложные алгоритмы ранжирования, поскольку вычисления происходят до получения запроса.
  • US20100318538A1
  • 2009-06-12
  • Индексация

Как Google использует многоуровневую архитектуру индекса (Standard и Extended) для баланса скорости, стоимости и полноты поиска
Патент Google описывает архитектуру поиска с двумя уровнями индексации. Standard Index (основной, быстрый) содержит авторитетные документы (высокий PageRank) и обрабатывает большинство запросов. Extended Index (дополнительный, медленный) содержит менее важные или редкие документы. Система обращается к Extended Index только тогда, когда в Standard Index недостаточно качественных результатов, обеспечивая баланс скорости и максимального охвата.
  • US7174346B1
  • 2003-09-30
  • Индексация

Как Google определяет сайты, использующие Session ID в URL, для оптимизации краулинга и борьбы с дубликатами
Google использует механизм для автоматического обнаружения сайтов, которые встраивают идентификаторы сессий (Session ID) в URL. Система скачивает страницу дважды и сравнивает внутренние ссылки. Если большая часть ссылок меняется (из-за разных ID), система генерирует правила для "очистки" URL. Это позволяет избежать повторного сканирования одного и того же контента и предотвращает заполнение индекса дубликатами.
  • US7886217B1
  • 2003-09-29
  • Краулинг

  • Техническое SEO

  • Индексация

Как Google анализирует рендеринг страницы (DOM и CSS) для обнаружения скрытого текста и ссылок
Google использует методы анализа визуального представления страницы для выявления скрытого контента. Система строит структурное представление документа (DOM) и анализирует свойства элементов (цвет, размер, позиция, Z-index), чтобы определить, виден ли контент пользователю. Это позволяет обнаруживать и игнорировать манипуляции (спам), такие как текст цветом фона или позиционирование за пределами экрана.
  • US8392823B1
  • 2009-08-25
  • Антиспам

  • Структура сайта

  • Индексация

Как Google позволяет вебмастерам создавать собственные поисковые подсказки (Autocomplete) для внутреннего поиска по сайту
Google предоставляет инфраструктуру, позволяющую владельцам сайтов определять собственные поисковые подсказки для функции поиска на их ресурсах. Вебмастера загружают данные, связывая вводимые пользователем термины (N-граммы) с желаемыми подсказками. Система индексирует эти данные и предоставляет инструмент (например, плагин или API), который в реальном времени отображает эти кастомные подсказки при вводе запроса пользователем на сайте.
  • US20120278308A1
  • 2009-12-30
  • Индексация

Как Google масштабирует поиск похожих объектов (например, изображений или дубликатов) с помощью распределенных деревьев поиска
Патент описывает инфраструктурное решение Google для поиска ближайших соседей (наиболее похожих объектов) в огромных наборах данных, которые не помещаются на одном сервере. Система использует структуру "Parallel Hybrid Spill Tree" для распределения данных по нескольким машинам, что позволяет выполнять эффективный и быстрый поиск дубликатов или схожего контента в масштабах всего интернета.
  • US7539657B1
  • 2006-02-01
  • Индексация

Как Google объединяет результаты поиска по приложениям с веб-версией и без нее, используя универсальную оценку ранжирования
Google разделяет нативные приложения на две группы: те, у которых есть соответствующий веб-ресурс, и те, у которых его нет (app-only). Каждая группа ранжируется отдельно с использованием разных сигналов. Затем система рассчитывает «Универсальную оценку ранжирования» (Universal Ranking Score) на основе позиции приложения в своем списке, что позволяет справедливо объединить эти списки в единую поисковую выдачу.
  • US10268732B2
  • 2015-06-29
  • Индексация

  • SERP

Как Google использует префиксный индекс для формирования подсказок URL и запросов в Autocomplete
Google использует систему интерактивных подсказок (Autocomplete), которая предлагает как завершение запроса, так и прямые URL-адреса по мере ввода пользователем префикса. Система заранее создает индекс, анализируя популярные сайты и связывая префиксы с наиболее релевантными URL на основе анкорных текстов, заголовков, доменных имен и поисковых запросов пользователей.
  • US10592573B1
  • 2017-08-21
  • Индексация

  • SERP

Как Google индексирует печатные издания (книги, журналы) и модифицирует рекламу в них для показа в поиске
Патент описывает технологию, лежащую в основе Google Books и Google Scholar. Он раскрывает, как Google сканирует печатные материалы, делает их доступными для поиска наравне с веб-страницами и управляет авторскими правами через протокол разрешений. Ключевой аспект патента — механизмы модификации оригинальной печатной рекламы путем ее замены на обновленную цифровую рекламу или добавления интерактивных гиперссылок.
  • US9684676B1
  • 2008-09-08
  • Индексация

  • SERP

  • 1
  • …
  • 6
  • 7
  • 8
  • 9
  • 10
seohardcore