Индексация в Google: разборы патентов

Детальные разборы патентов Google, связанные с индексацией

Как Google использует всплески локальных запросов для быстрого обнаружения и индексации новых бизнесов

Google анализирует логи локальных поисковых запросов для обнаружения новых бизнесов. Система отслеживает термины, отсутствующие в текущей базе данных. Если частота использования такого термина в определенном регионе резко возрастает по сравнению с историческим уровнем, система идентифицирует его как название нового бизнеса и инициирует процесс его проверки (включая анализ отзывов) и добавления в индекс.

US9218420B1
2013-02-26

Local SEO
Индексация
Поведенческие сигналы

Как Google использует клики пользователей для генерации альтернативных запросов и автоматической разметки изображений

Google анализирует исторические данные о том, какие запросы приводили к кликам по конкретному изображению. Эти запросы используются как автоматические метки (labels) для индексации и как предлагаемые альтернативные запросы при взаимодействии пользователя с этим изображением в выдаче. Система позволяет уточнять поиск на основе коллективного поведения и переносить метки между визуально похожими изображениями.

US20150161175A1
2008-02-08

Индексация
Поведенческие сигналы
Семантика и интент

Как Google использует сущности, качество организатора и интент запроса для ранжирования прямых трансляций в поиске

Google использует систему для идентификации и оценки качества прямых трансляций (live events). Качество определяется на основе репутации организатора и популярности связанных сущностей. При обработке запроса система анализирует интент пользователя и время до начала события. Если трансляция качественная, связана с сущностями в запросе и начнется скоро (порог зависит от интента), она может быть показана в специальном блоке поисковой выдачи.

US10621191B2
2015-06-08

Семантика и интент
SERP
EEAT и качество

Как Google вычисляет «Proxy Pad Score» для обнаружения сайтов, копирующих чужой контент, и пессимизирует их при каноникализации

Google использует механизм для борьбы с сайтами, которые массово копируют контент (Proxy Pads). Система анализирует, как часто контент сайта проигрывает дубликатам с других сайтов по метрикам качества. На основе этого вычисляется «Proxy Pad Score». Если оценка плохая, сайт пессимизируется на этапе индексации при выборе канонической версии, снижая вероятность попадания скопированного контента в индекс.

US8874565B1
2008-12-29

Антиспам
Индексация
Техническое SEO

Как Google анализирует поисковые запросы, разделяя географию пользователя, географию интента и вертикаль рынка

Google использует систему для глубокого анализа логов поисковых запросов. Определяется местоположение пользователя (источник), географическое место, упомянутое в запросе (назначение), и тематическая категория (вертикаль рынка). Эти данные индексируются, позволяя аналитикам и рекламодателям изучать тренды, например, как часто пользователи из США ищут отели в Германии и какие ключевые слова они используют.

US20160041999A1
2012-07-23

Индексация
Семантика и интент
Local SEO

Как Google использует историю браузера пользователя для персонализации и переранжирования результатов поиска

Google использует локально сохраненную историю посещений пользователя для изменения стандартной поисковой выдачи. Система отслеживает, какие документы пользователь посещал ранее, как часто и как долго. При последующих поисках ранее посещенные сайты агрессивно повышаются в выдаче или добавляются в нее, обеспечивая персонализированный результат, основанный на предыдущем поведении пользователя.

US7730054B1
2003-09-30

Персонализация
Поведенческие сигналы
SERP

Как Google использует специфические сигналы (частоту постинга, рекламу и популярность) для оценки качества блогов и борьбы с автоматизированным контентом

Google разработал систему для ранжирования блогов, которая вычисляет независимую от запроса Оценку Качества (Quality Score). Эта оценка учитывает сигналы популярности (подписки, CTR), авторитетности (Pagerank, ссылки), а также выявляет спам-паттерны: автоматизированную частоту и размер постов, расположение рекламы и ссылочные схемы. Финальный рейтинг определяется комбинацией этой оценки качества и стандартной релевантности.

US8244720B2
2005-09-13

EEAT и качество
Антиспам
Индексация

Как Google генерирует поисковые подсказки, анализируя метаданные (Title и Description) авторитетных сайтов и проверяя их грамматику

Google расширяет поисковые подсказки (Autocomplete) за пределы исторических логов, анализируя метаданные документов, такие как заголовки (Title). Система извлекает фразы, проверяет их грамматическую корректность с помощью NLP (POS-tagging) и добавляет в базу подсказок. Приоритет отдается фразам, полученным с авторитетных страниц (высокий Document Score), что позволяет предлагать качественные запросы, даже если их еще никто не искал.

US9195706B1
2013-03-01

Семантика и интент
EEAT и качество
Индексация

Как Google использует закладки, историю посещений и поведение пользователей для персонализации поиска и таргетинга рекламы

Патент Google, описывающий фундаментальный механизм персонализации поиска. Система объединяет результаты из глобального индекса с результатами из персонального индекса пользователя (закладки, аннотации, история посещений). Ранжирование корректируется на основе явных оценок пользователя и неявных поведенческих сигналов (частота визитов, время на сайте). Эти же данные используются для таргетинга рекламы.

US7523096B2
2003-12-03

Персонализация
Поведенческие сигналы
SERP

Как Google определяет тематическую авторитетность источников ("каналов") и агрессивно продвигает их свежий контент

Google идентифицирует "каналы" (сайты, блоги, разделы), которые исторически создают высококачественный контент по определенным темам. Система рассчитывает тематическую авторитетность, учитывая качество контента и сфокусированность канала. Когда авторитетный канал публикует новый контент по своей теме, Google может агрессивно повысить его в выдаче, даже если у контента еще нет ссылок или поведенческих сигналов.

US8874558B1
2012-09-11

EEAT и качество
Свежесть контента
Индексация

Как Google использует языковые модели и анализ «набивки запросами» (Query Stuffing) для выявления и пессимизации спамного и сгенерированного контента

Google применяет систему для обнаружения бессмысленного контента (спама), вычисляя «Gibberish Score». Эта оценка состоит из двух частей: «Language Model Score», проверяющего статистическую вероятность того, что текст является естественным языком, и «Query Stuffing Score», который выявляет неестественное скопление реальных пользовательских запросов на странице. Ресурсы с низким баллом понижаются в выдаче или удаляются из индекса.

US8554769B1
2009-06-17

Антиспам
SERP
EEAT и качество

Как Google использует историю местоположений пользователя для поиска чужих фотографий, сделанных в том же месте и в то же время

Google может использовать историю местоположений устройства пользователя (GPS-логи или чекины) для поиска в интернете фотографий, сделанных другими людьми в тех же местах и в то же время. Система находит изображения с соответствующими метаданными (геокоординаты и время съемки) и предлагает их пользователю.

US9165017B2
2011-09-29

Персонализация
Мультимедиа
Индексация

Как Google обогащает оцифрованные документы (например, книги), автоматически находя и встраивая связанный веб-контент

Google улучшает представление оцифрованных документов (книг, статей), определяя их атрибуты (автор, название) и автоматически выполняя веб-поиск связанной информации (обзоров, биографий). Эта информация затем представляется вместе с исходным документом на «Справочной странице» (Reference Page), иногда путем прямого извлечения данных с релевантных веб-сайтов.

US8386453B2
2004-09-30

Индексация
Ссылки
Семантика и интент

Как Google использует упоминания бренда в вебе (Webscore) для определения популярности и ранжирования локальных бизнесов

Google рассчитывает метрику «Webscore» для локальных компаний, основанную на количестве упоминаний их названия в интернете. Эта оценка используется для определения «Популярности» (Prominence) бизнеса и влияет на ранжирование в локальном поиске, часто отдавая предпочтение известным компаниям перед теми, что просто находятся ближе. Алгоритм учитывает длину названия и корректирует оценки для сетевых бизнесов.

US8122013B1
2006-01-27

Local SEO
EEAT и качество
SERP

Как Google использует архитектуру нейронных сетей «Two-Tower» для семантического поиска и оценки контента

Google использует модель с двумя отдельными нейронными сетями (Two-Tower Model) для понимания семантической релевантности между запросами и контентом. Одна сеть обрабатывает запрос, другая — контент, преобразуя их в векторы (embeddings). Релевантность определяется близостью этих векторов, а не совпадением ключевых слов. Эта архитектура позволяет Google предварительно вычислять векторы для всего контента во время индексации, обеспечивая быстрый семантический поиск в реальном времени.

US11188824B2
2017-03-31

Семантика и интент
Индексация

Как Google определяет, какие последовательности слов являются значимыми фразами, используя структуру документа и оценку подфраз

Патент описывает алгоритм для автоматического извлечения миллионов значимых фраз (концепций) из корпуса документов. Система анализирует семантические границы в тексте (заголовки, пунктуацию, форматирование) и применяет механизм оценки подфраз (Devolution). Это позволяет отличить устоявшиеся словосочетания от случайных комбинаций слов и построить индекс на основе концепций, а не только отдельных терминов.

US8166045B1
2007-03-30

Индексация
Семантика и интент

Как Google использует фразовую индексацию и многоуровневую архитектуру (Primary/Secondary Index) для масштабирования поиска и определения тематической релевантности

Google использует архитектуру множественных индексов (Primary и Secondary) для эффективной индексации миллиардов документов на основе фраз. Система определяет связанные фразы с помощью показателя Information Gain и использует эти данные для ранжирования. Primary Index хранит только наиболее релевантные документы в порядке ранжирования, в то время как Secondary Index хранит остальные, оптимизируя хранение и скорость.

US7567959B2
2005-01-25

Индексация
Семантика и интент

Как Google идентифицирует и игнорирует шаблонный контент (Boilerplate) для фокусировки на основном содержании страницы

Google использует методы для отделения основного содержания страницы от повторяющихся элементов (навигация, футеры, копирайты). Анализируя частоту повторений на сайте, пространственное расположение блоков, окружающий код и цели ссылок, система классифицирует контент как шаблонный (boilerplate) и исключает его из индексации или значительно понижает его вес.

US8041713B2
2004-03-31

Индексация
Техническое SEO
Структура сайта

Как Google создает поисковый индекс для NFT и интегрирует блокчейн (Web3) в результаты поиска

Google разрабатывает инфраструктуру для индексации данных напрямую из блокчейнов, фокусируясь на NFT. Система извлекает описания, историю транзакций и сами цифровые активы, следуя по ссылкам в блокчейне. Она оценивает качество и подлинность NFT, дедуплицирует контент и интегрирует проверенные NFT в поисковую выдачу как специализированные результаты.

US20240305482A1
2022-07-18

Индексация
Краулинг
Техническое SEO

Как Google извлекает факты напрямую из веб-страниц для формирования прямых ответов (Featured Snippets / Answer Boxes)

Google использует систему для динамического извлечения фактов из веб-индекса. Когда поступает фактический запрос, система определяет ожидаемый тип ответа (например, дата, число, имя), анализирует топовые результаты поиска и извлекает соответствующие фразы. Эти фразы нормализуются, оцениваются по частоте, контексту и авторитетности источника, и лучший вариант показывается в виде прямого ответа.

US8655866B1
2011-02-10

Индексация
Семантика и интент
SERP

Как Google позволяет пользователям "привязывать" веб-контент к конкретным моментам в видео или аудио

Патент Google, описывающий механизм, который позволяет пользователям ассоциировать ("привязывать") один тип контента (например, веб-статью) с конкретной позицией в индексированном контенте (например, таймкодом в видео). При просмотре видео другие пользователи увидят ссылку на привязанную статью в соответствующий момент.

US9288121B2
2012-10-03

Индексация
Мультимедиа
Ссылки

Как Google использует Information Gain для автоматического определения значимых фраз и построения семантических связей между ними

Google использует статистический метод для автоматического определения «значимых» фраз в корпусе документов. Система анализирует частоту употребления, форматирование (например, анкорный текст) и совместную встречаемость фраз. Используя метрику Information Gain, система выявляет фразы, которые предсказывают появление других фраз, формируя семантические кластеры. Это позволяет поисковой системе понимать контент на уровне концепций, а не отдельных слов.

US7580921B2
2004-07-26

Семантика и интент
Индексация

Как Google индексирует, верифицирует и ранжирует действия (Actions) на сайтах и в приложениях для выполнения задач пользователя

Google индексирует не только контент, но и действия (Actions), которые можно выполнить на сайте или в приложении (например, «Слушать», «Забронировать»). Система определяет тип действия и необходимые параметры, проверяет (Verification) работоспособность действия и использует эту информацию (Action Score) для ранжирования, чтобы отвечать на запросы, подразумевающие выполнение задачи.

US10013496B2
2015-06-18

Индексация
Семантика и интент
Техническое SEO

Как Google вычисляет семантическую схожесть контента с помощью векторов тем и косинусного сходства

Google использует механизм для эффективного определения семантической схожести документов. Система генерирует «Сигнатуру Документа» — вектор, состоящий из абстрактных тем (Topics) и весов (Weights), показывающих значимость каждой темы. Схожесть вычисляется путем сравнения этих векторов с использованием Косинусного Сходства (Cosine Similarity), что позволяет системе понимать тематические взаимосвязи в масштабе.

US8886648B1
2012-01-31

Семантика и интент
Индексация

Как Google использует структурированные данные для борьбы с дублированием страниц с одинаковыми сущностями (например, фасеты и сортировки)

Google анализирует структурированные данные (например, Schema.org) на веб-страницах, чтобы определить, какие сущности (товары, объекты) на них представлены. Если несколько страниц, особенно с одного сайта, содержат одинаковый набор сущностей (например, листинги с разной сортировкой), Google идентифицирует их как дубликаты. Система понижает или удаляет эти дубликаты из выдачи для повышения разнообразия результатов.

US20140280084A1
2013-03-15

Семантика и интент
SERP
Индексация

Как Google использует связанные фразы и Information Gain для автоматической кластеризации и организации поисковой выдачи

Патент описывает комплексную систему перехода от индексации слов к индексации фраз. Google определяет статистическую связь между фразами с помощью меры Information Gain. Эти данные используются для автоматической организации поисковой выдачи в тематические кластеры (таксономию), группируя результаты по наиболее частым связанным фразам.

US7426507B1
2004-07-26

Индексация
SERP
Семантика и интент

Как Google использует семантические сигнатуры на основе фраз для выявления и удаления дубликатов контента

Google использует механизм для обнаружения дубликатов и почти дубликатов контента. Система анализирует, какие семантически связанные фразы (related phrases) содержатся в документе. Затем она выбирает несколько ключевых предложений с наибольшей концентрацией этих фраз для создания уникальной сигнатуры документа. Если сигнатуры двух документов совпадают, они считаются дубликатами и удаляются из индекса или поисковой выдачи.

US7711679B2
2004-07-26

Семантика и интент
Индексация
SERP

Как Google кластеризует документы на разных языках для улучшения поиска и выявления переводов

Google использует метод для объединения документов на разных языках в общие тематические кластеры. Все документы переводятся на единый базовый язык, затем анализируются ключевые слова, и на этой основе формируются кластеры. Это позволяет находить релевантные результаты независимо от языка запроса и определять, являются ли два документа переводом друг друга.

US8639698B1
2012-07-16

Мультиязычность
Индексация
Семантика и интент

Как Google использует окружающие слова для исправления опечаток в названиях брендов, продуктов и именах людей в запросах

Google создает базу данных, связывающую имена сущностей (бренды, люди, продукты) со словами, которые часто появляются рядом с ними (контекст). Когда пользователь допускает опечатку в имени, Google использует другие слова в этом запросе как контекстные подсказки, чтобы найти наиболее вероятную подразумеваемую сущность, учитывая её популярность, силу связи с контекстом и вероятность конкретной опечатки.

US8402032B1
2011-03-24

Индексация
Семантика и интент
Knowledge Graph

Как Google стандартизирует и расширяет географическую релевантность сайтов на соседние локации

Google использует систему Семантических Геотокенов для стандартизации упоминаний местоположений на веб-страницах. Система не только определяет точное местоположение, но и ассоциирует ресурс с соседними географическими областями. Это позволяет сайту ранжироваться по запросам в близлежащих локациях, даже если они явно не упомянуты на странице.

US8949277B1
2010-12-30

Семантика и интент
Local SEO
Индексация