SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE

Индексация в Google: разборы патентов

Детальные разборы патентов Google, связанные с индексацией
  • Ссылки
  • Поведенческие сигналы
  • Антиспам
  • Семантика и интент
  • EEAT и качество
  • SERP
  • Персонализация
  • Индексация
  • Мультимедиа
  • Local SEO
  • Техническое SEO
  • Knowledge Graph
  • Свежесть контента
  • Краулинг
  • Структура сайта
  • Мультиязычность
  • Безопасный поиск
  • Google Shopping
Как Google использует "визуальные слова" и геометрические данные для эффективного поиска похожих изображений
Патент Google, описывающий инфраструктуру поиска по изображениям. Система разбивает изображения на "визуальные слова" (признаки) и использует инвертированный индекс (posting lists) для быстрого поиска совпадений. Ключевая особенность — хранение геометрических данных (положение признаков) прямо в индексе, что позволяет быстро рассчитывать визуальное сходство и проверять пространственное расположение элементов на лету.
  • US20150169740A1
  • 2012-08-23
  • Индексация

  • Мультимедиа

Как Google анализирует оглавления и визуальную верстку для понимания структуры документа и повышения веса заголовков в ранжировании
Google использует технологию для автоматического определения оглавления (TOC) в цифровых документах (книгах, PDF). Система извлекает названия разделов из TOC и сопоставляет их с заголовками в основном тексте, используя машинное обучение, анализ шрифта и верстки, а также ограничения порядка. Это позволяет Google понять структуру документа и увеличить вес ранжирования для идентифицированных заголовков разделов.
  • US8549008B1
  • 2008-11-12
  • Индексация

  • Техническое SEO

Как Google использует квантование векторов для ускорения и масштабирования поиска (особенно Neural Matching)
Google использует метод квантования векторов для ускорения поиска и снижения потребления памяти. Этот метод разбивает большие векторы (например, эмбеддинги страниц и запросов) на части (субпространства) и аппроксимирует их значения с помощью "кодовых книг". Это позволяет выполнять быстрый поиск максимального внутреннего произведения (MIPS), что критично для работы систем векторного поиска, таких как Neural Matching, в масштабах веба.
  • US10255323B1
  • 2015-10-08
  • Индексация

  • Семантика и интент

Как Google выбирает и показывает изображения людей рядом с ссылками в результатах поиска
Google анализирует запросы, содержащие имена людей. Система изучает изображения на страницах, попавших в топ выдачи, и использует filename, alt-text и метаданные, чтобы найти фотографию именно этого человека. Выбранное изображение затем отображается рядом с соответствующей ссылкой в SERP для улучшения пользовательского опыта.
  • US8538943B1
  • 2008-07-24
  • SERP

  • Мультимедиа

  • Индексация

Как Google обнаруживает неавторизованное использование контента (текст, изображения, видео, аудио), сохраняя конфиденциальность
Система позволяет владельцам контента загружать образцы (текст, изображения, видео, аудио) и проверять, существуют ли совпадения в индексах Google, включая веб-индекс и пользовательские базы данных. Система сообщает о факте наличия совпадения, не раскрывая источник напрямую, и может предоставить зашифрованный идентификатор для дальнейшего расследования.
  • US20080288509A1
  • 2007-05-16
  • Индексация

  • Мультимедиа

Как Google использует двухуровневую кластеризацию для борьбы с дубликатами и обеспечения разнообразия доменов в выдаче
Google применяет систему двухэтапной кластеризации документов для организации индекса. Система группирует похожий контент, но применяет строгое ограничение на втором этапе: в итоговый кластер может входить не более одного представителя от каждого домена. Это предотвращает избыточную кластеризацию (over-clustering), помогает эффективнее управлять дубликатами и обеспечивает разнообразие сайтов в результатах поиска.
  • US9053417B2
  • 2012-12-13
  • Индексация

  • SERP

Как Google тестирует изменения в критериях индексации без перестроения всего индекса
Google использует систему для эффективного тестирования и оценки различных критериев отбора ресурсов для включения в индекс. Вместо затратного перестроения индекса для каждого эксперимента, система симулирует, как разные процессы отбора повлияют на выдачу. Это позволяет сравнивать гипотетические индексы с помощью A/B тестов или асессоров, ускоряя разработку и улучшение качества индекса.
  • US8489604B1
  • 2010-10-26
  • Индексация

  • SERP

Как Google индексирует и контролирует доступ к частям приватных документов в персональном поиске
Google использует механизм для индексирования приватного контента (например, фото или файлов), доступного группе пользователей. Если часть документа (например, тег на фото) ограничена для подгруппы, система добавляет специальный индикатор. При поиске система проверяет этот индикатор, чтобы показывать ограниченную часть только авторизованным пользователям.
  • US20140344952A1
  • 2013-12-17
  • Индексация

  • Персонализация

Как Google идентифицирует сайты, поддерживающие удаление контента, и ускоряет обновление индекса после запроса на удаление
Google разработал систему для идентификации контент-провайдеров, которые поддерживают стандартизированный процесс удаления контента (например, по DMCA или законам о приватности). Поисковая система обнаруживает эту возможность через Sitemap или проверку URL, помечает такие результаты в выдаче специальным индикатором и может ранжировать их выше. После запроса пользователя на удаление, система ускоряет повторное сканирование сайта и обновление индекса.
  • US8510286B1
  • 2011-11-21
  • Индексация

  • Краулинг

  • SERP

Как Google использует спецификации от издателей для обработки, индексирования и показа цифровых книг (Google Books)
Этот патент описывает инфраструктуру Google для приема оцифрованных книг и журналов. Он определяет «Спецификацию контента» (XML-файл), предоставляемую издателями, которая содержит метаданные, структуру тома и явные инструкции по индексированию (например, гранулярность на уровне страниц или глав). Это позволяет Google точно обрабатывать контент, не полагаясь на эвристический анализ.
  • US8447748B2
  • 2008-07-11
  • Индексация

  • Техническое SEO

Как Google использует трехэтапную систему фингерпринтинга (Content ID) для обнаружения дубликатов видео и аудио
Google использует масштабируемую систему для обнаружения полных или частичных совпадений в видео и аудио контенте. Система генерирует компактные цифровые отпечатки (фингерпринты) и применяет трехэтапный процесс: быстрый поиск кандидатов с помощью Locality-Sensitive Hashing (LSH), точная классификация с использованием машинного обучения и объединение результатов. Это позволяет идентифицировать контент даже при изменении качества или скорости воспроизведения.
  • US8238669B2
  • 2008-07-16
  • Мультимедиа

  • Индексация

Как Google реконструирует дискуссионные треды для обогащения поисковой выдачи
Google идентифицирует, когда результат поиска является частью дискуссионного треда (форума, блога). Система реконструирует весь тред, находя другие его страницы, даже если они не попали в выдачу. Затем извлекается агрегированная статистика (количество постов, авторов, дата последней активности), которая отображается в сниппете, предоставляя пользователю интегрированное представление дискуссии.
  • US8402021B2
  • 2009-07-31
  • SERP

  • Индексация

  • Краулинг

Как Google индексирует реальный мир через носимые устройства для создания персональной поисковой истории (Lifelogging)
Google патентует систему для записи и индексации реального опыта пользователя с помощью мобильных и носимых устройств (например, очков). Система автоматически захватывает аудио и видео, распознает объекты, лица и звуки, и создает персональную, доступную для поиска базу данных («историю опыта»). Это позволяет пользователю искать информацию о том, что он видел или слышал.
  • US9087058B2
  • 2012-06-11
  • Индексация

  • Персонализация

  • Мультимедиа

Как Google разделяет визуальные паттерны (Shape) и их интенсивность (Gain) для точного и быстрого поиска похожих изображений
Google использует метод квантования "Shape-Gain" для повышения точности и скорости поиска похожих изображений. Система разделяет векторы признаков на направление (Shape/Форма, определяющее визуальный паттерн) и магнитуду (Gain/Усиление, определяющее интенсивность). Раздельное кодирование этих компонентов позволяет создавать более точные компактные коды (хэши) для эффективного сравнения миллиардов изображений.
  • US20150169644A1
  • 2013-01-03
  • Мультимедиа

  • Индексация

Как Google отличает реальные тренды (QDF) от спама и шума при всплесках активности
Google использует статистические модели (например, распределение Пуассона) для анализа внезапных всплесков запросов или индексации новых документов. Система определяет, является ли всплеск результатом реального мирового события (тренд) или случайным шумом/скоординированным спамом. Это позволяет фильтровать ложные тренды и точно определять темы, заслуживающие приоритета свежего контента (QDF).
  • US20140081973A1
  • 2012-09-14
  • Свежесть контента

  • Антиспам

  • Индексация

Как Google синхронизирует начальный ракурс 3D-моделей в поиске с наиболее релевантными 2D-изображениями
Google использует механизм для обеспечения визуальной согласованности между 3D-моделями и 2D-изображениями в результатах поиска. Система определяет наиболее релевантное 2D-изображение по запросу и алгоритмически подбирает начальный ракурс (Initial Viewing Angle) 3D-модели так, чтобы он визуально соответствовал этому 2D-эталону. Это определяет, как пользователь впервые увидит 3D-объект в выдаче.
  • US9372871B2
  • 2012-10-09
  • Мультимедиа

  • SERP

  • Индексация

Как Google использует статистический анализ текста для автоматического сопоставления отсканированных книг с библиотечными каталогами (Google Books)
Патент описывает инфраструктурный процесс Google для каталогизации оцифрованных документов (Google Books). Система статистически сравнивает текст книги, полученный через OCR (особенно страницу авторских прав), с базой библиотечных метаданных. Используя вероятностный анализ, который придает больший вес редким терминам, система находит наилучшее совпадение и связывает структурированные данные (автор, название, ISBN) с отсканированным контентом.
  • US8510312B1
  • 2007-09-28
  • Индексация

Как Google непрерывно обновляет свой индекс и освобождает место, используя систему хранения "Treadmilling" (Беговая дорожка)
Анализ инфраструктурного патента Google, описывающего высокоэффективную систему управления хранилищем данных (Tokenspace Repository). Патент раскрывает механизм "Treadmilling", который позволяет Google постоянно обновлять документы в индексе и эффективно удалять старые версии, восстанавливая дисковое пространство без остановки обработки поисковых запросов. Это основа для обеспечения свежести и масштабируемости поиска.
  • US7617226B1
  • 2006-02-10
  • Свежесть контента

  • Индексация

  • Техническое SEO

Как Google адаптировал поисковый индекс для обработки неоднозначных запросов с кнопочных телефонов (WAP/T9)
Google разработал метод для обработки поисковых запросов с устройств с ограниченным вводом, таких как кнопочные телефоны. Система создает вторичный "неоднозначный" индекс (например, числовой), который отражает раскладку клавиатуры устройства. Это позволяет напрямую сопоставлять неоднозначный ввод пользователя (например, последовательность цифр) с терминами в индексе, не требуя уточнения каждой буквы.
  • US6529903B2
  • 2000-12-26
  • Индексация

Как Google объединяет основной индекс и свежие изменения пользователя для персонализированного поиска
Google использует механизм для уменьшения задержки между изменением контента пользователем и его появлением в поиске. Система отслеживает изменения (добавления, удаления, модификации), сделанные пользователем, и объединяет их с результатами основного индекса. Это гарантирует, что пользователь может немедленно найти контент, который он только что изменил, даже если основной индекс еще не обновился.
  • US7818324B1
  • 2007-11-14
  • Персонализация

  • Свежесть контента

  • Индексация

Как Google определяет момент полной загрузки мобильного приложения для его сканирования и индексации
Google использует систему для эффективного сканирования контента мобильных приложений (App Indexing). Вместо фиксированных таймаутов система отслеживает жизненный цикл активности, потребление памяти и сетевые запросы приложения в эмуляторе. Когда эти показатели стабилизируются, Google определяет, что приложение загружено, и начинает сканирование контента.
  • US9348671B1
  • 2015-07-23
  • Индексация

  • Краулинг

Как Google сравнивает изображения документов, анализируя геометрическое расположение слов без распознавания текста (OCR)
Google использует метод для сравнения изображений текстовых страниц (например, сканов книг или PDF), который не зависит от языка и качества текста. Система определяет положение слов и создает "сигнатуры" на основе углов и расстояний до соседних слов. Это позволяет эффективно находить дубликаты страниц или идентифицировать документ по фотографии, анализируя только его визуальную структуру.
  • US8151186B1
  • 2011-09-08
  • Индексация

Как Google объединял локальные результаты (файлы, email) с веб-результатами на стороне клиента (Google Desktop)
Патент описывает архитектуру клиентского приложения (например, Google Desktop), которое индексирует локальные данные пользователя. Система перехватывает веб-запрос, параллельно выполняет поиск по локальному индексу и объединяет локальные результаты с результатами из глобального веб-индекса в едином интерфейсе, разделяя их по типам контента.
  • US7437353B2
  • 2003-12-31
  • Local SEO

  • Индексация

  • Персонализация

Как Google использует мониторинг настроек доступа (ACL) для быстрой индексации публичного контента из облачных сервисов и социальных сетей
Google использует систему для эффективного обнаружения контента в облачных сервисах (например, Google Drive, социальные сети), который стал публичным. Вместо ожидания краулера система отслеживает изменения в настройках доступа (ACL). Когда контент становится публичным, его URL немедленно добавляется в список (например, Sitemap) и передается поисковой системе для индексации. Когда контент снова становится приватным, он удаляется из списка для деиндексации.
  • US9239931B2
  • 2012-10-19
  • Индексация

  • Техническое SEO

  • Краулинг

Как Google обрабатывает и индексирует отсканированные или нетекстовые документы для персонального архивирования и поиска
Система Google для управления персональными или корпоративными документами. Она преобразует изображения документов (сканы, PDF, JPEG) в текст с помощью OCR, назначает метаданные (вручную или через шаблоны) и сохраняет их в базу данных для последующего поиска и извлечения.
  • US20080162602A1
  • 2006-12-28
  • Индексация

Как Google использует фингерпринтинг и распределенные вычисления для эффективного поиска дубликатов видео и аудио в огромных масштабах
Патент Google описывает инфраструктурный механизм для эффективного поиска дубликатов или похожих аудио- и видеофайлов в огромных базах данных. Система использует технику Locality Sensitive Hashing (LSH) и распределенную сортировку (например, MapReduce) для быстрого сопоставления «пробных» видео с «эталонными», что позволяет находить совпадения без медленного попарного сравнения всех файлов.
  • US8625033B1
  • 2010-02-01
  • Мультимедиа

  • Индексация

Как Google использует двухэтапное аудио-фингерпринтинг для эффективного поиска дубликатов аудио и видео контента в масштабе
Google использует масштабируемую систему для идентификации полных дубликатов аудиоконтента. Система создает двухчастный дайджест (фингерпринт): компактный «Index Hash» для быстрого поиска потенциальных совпадений и подробный «Verification Hash» для точного подтверждения. Это позволяет эффективно управлять миллиардами аудио- и видеофайлов, что критично для платформ типа YouTube и Google Podcasts.
  • US8953811B1
  • 2012-04-18
  • Мультимедиа

  • Индексация

Как Google определяет момент полной загрузки нативного приложения для его сканирования и индексации (App Indexing)
Google использует механизм для точного определения момента, когда нативное мобильное приложение полностью загрузило и отобразило контент. Система последовательно отслеживает завершение всех внешних сетевых запросов и состояние бездействия (idle) внутренних потоков приложения. Это гарантирует, что сканирование контента (App Indexing) начинается только тогда, когда экран приложения полностью сформирован.
  • US9513961B1
  • 2014-04-02
  • Индексация

  • Краулинг

Как Google оптимизирует локальный поиск на мобильных устройствах с помощью числового индексирования
Патент описывает метод повышения эффективности поиска локальных данных (например, контактов) на мобильных устройствах. Система заранее преобразует алфавитно-цифровые данные в числовой индекс, основываясь на раскладке клавиатуры (аналогично T9). Это позволяет устройству быстро находить совпадения при вводе запроса, экономя вычислительные ресурсы и заряд батареи. Патент фокусируется на производительности устройства, а не на алгоритмах веб-поиска.
  • US8775407B1
  • 2007-11-12
  • Local SEO

  • Индексация

Как Google оптимизирует управление правами доступа (ACL) в индексе для ускорения персонализированного и приватного поиска
Система Google оптимизирует обработку списков контроля доступа (ACL) для приватного контента. Для повышения производительности система балансирует между размером индекса и сложностью запроса, динамически решая, хранить ли разрешения для целой группы (Group Restrict) или развернуть их в индивидуальные разрешения (Searcher Restrict), основываясь на размере группы и активности пользователя.
  • US9165079B1
  • 2012-09-06
  • Индексация

  • Персонализация

  • Техническое SEO

  • 1
  • …
  • 7
  • 8
  • 9
  • 10
seohardcore