Как Google анализирует оглавления и визуальную верстку для понимания структуры документа и повышения веса заголовков в ранжировании

DETERMINING SECTION INFORMATION OF A DIGITAL VOLUME (Определение информации о разделах цифрового тома)

US8549008B1
Google LLC
2008-11-12
2013-10-01

Google использует технологию для автоматического определения оглавления (TOC) в цифровых документах (книгах, PDF). Система извлекает названия разделов из TOC и сопоставляет их с заголовками в основном тексте, используя машинное обучение, анализ шрифта и верстки, а также ограничения порядка. Это позволяет Google понять структуру документа и увеличить вес ранжирования для идентифицированных заголовков разделов.

Какую проблему решает

Патент решает проблему отсутствия структурной и семантической метаинформации в оцифрованных документах (Digital Volumes), таких как сканированные книги или неразмеченные PDF-файлы. Когда документ представляет собой просто последовательность страниц (часто изображений), поисковой системе сложно понять его внутреннюю организацию (главы, разделы). Это ухудшает навигацию для пользователя и снижает способность системы находить и ранжировать релевантные фрагменты контента.

Что запатентовано

Запатентована система автоматического определения информации о разделах (Section Information). Суть изобретения заключается в использовании машинного обучения для идентификации страниц оглавления (TOC), извлечении из них ссылок на разделы и последующем точном сопоставлении этих ссылок с фактическими заголовками в теле документа. Для выбора наилучших соответствий система учитывает текстовое сходство, визуальное оформление (шрифт, верстка) и строгие ограничения порядка (Ordering Constraints).

Как это работает

Система работает в несколько этапов:

Обработка (OCR): Из документа извлекается текст, информация о шрифтах и верстке (layout).
Идентификация TOC: Classifier Module, обученный с помощью машинного обучения, анализирует признаки страниц для выявления оглавления.
Извлечение фраз: Из TOC извлекаются потенциальные названия разделов.
Поиск и Оценка: Система ищет эти фразы в основном тексте. Каждому совпадению присваивается Match Score. Оценка повышается, если фраза визуально выделена (крупный шрифт, пробелы) (Claim 4).
Выбор лучших совпадений: Система выбирает наилучшую последовательность совпадений, которая максимизирует общий Match Score и удовлетворяет Ordering Constraints (разделы в тексте должны идти в том же порядке, что и в TOC).
Применение: Полученная структура используется для создания кликабельных ссылок в TOC и для повышения веса (weighting) идентифицированных заголовков при поиске (Claim 6).

Актуальность для SEO

Высокая. Хотя патент изначально ориентирован на Google Books (подан в 2008), описанные в нем принципы фундаментальны для современного информационного поиска. Понимание внутренней структуры длинных документов критически важно для таких технологий, как Passage Ranking (ранжирование фрагментов). Методы анализа структуры, основанные на визуальной верстке (Claim 4) и использовании заголовков как сигналов ранжирования (Claim 6), остаются крайне актуальными в 2025 году.

Важность для SEO

Патент имеет значительное влияние на SEO (7.5/10), особенно для длинных форм контента и PDF. Он предоставляет прямое доказательство того, что Google использует визуальные сигналы для идентификации структуры (Claim 4) и использует идентифицированные заголовки разделов (Section Headings) как сигнал ранжирования, присваивая им больший вес (Claim 6). Это подчеркивает критическую важность четкой семантической и визуальной иерархии документа.

Термины и определения

Classifier Module (Модуль классификации): Компонент системы, использующий машинное обучение для определения того, какие страницы документа являются страницами оглавления (TOC pages).
Digital Volume (Цифровой том): Цифровое представление контента, например, оцифрованная книга, PDF или журнал. Может состоять из изображений страниц.
Match Score (Оценка совпадения): Метрика, указывающая на вероятность того, что найденная в тексте фраза является заголовком раздела. Зависит от качества текстового совпадения, шрифта и верстки (layout).
Normalized Phrase (Нормализованная фраза): Фраза, извлеченная из TOC, из начала и конца которой удалены числа (номера страниц или глав).
OCR (Optical Character Recognition): Оптическое распознавание символов. Технология для извлечения текста, шрифтов и данных о верстке из изображений.
Ordering Constraints (Ограничения порядка): Ключевое правило, согласно которому заголовки в теле документа должны появляться примерно в том же порядке, что и соответствующие им ссылки в оглавлении.
Section Heading (Заголовок раздела): Название раздела, появляющееся в теле документа в начале этого раздела. Идентифицируется системой как Best Matching Phrase.
Section Reference (Ссылка на раздел): Название раздела, указанное в оглавлении (TOC). Идентифицируется системой как Extracted Phrase.
Word Index (Индекс слов): Структура данных для быстрого поиска точных или приблизительных (для учета ошибок OCR) совпадений слов в документе.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод определения информации о разделах.

Определение страниц оглавления (TOC) с помощью классификатора. Классификатор использует машинное обучение и генерирует оценку точности классификации.
Извлечение фраз (Extracted Phrases) из TOC.
Идентификация совпадающих фраз (Matching Phrases) в теле документа (допускается приблизительное совпадение).
Определение наилучших совпадающих фраз (Best Matching Phrases). Выбор основан на порядке следования фраз в TOC и в тексте (Ordering Constraints).
Генерация информации о разделах: заголовков (Section Headings) и их начального местоположения.

Claim 3 и 4 (Зависимые): Детализируют механизм расчета Match Scores. Это критически важные пункты для понимания сигналов.

Система рассчитывает Match Scores. Эти оценки основаны на схожести слов (Claim 3). Кроме того, оценки основаны на шрифте или верстке (font or layout) совпадающих фраз в документе (Claim 4). Это подтверждает использование визуальных признаков для идентификации структуры.

Claim 5 (Зависимый): Описывает применение для навигации.

Представление документа пользователю с кликабельными ссылками из TOC к соответствующим заголовкам разделов.

Claim 6 (Зависимый): Описывает критически важное применение для поиска и ранжирования.

Определение результатов поиска по запросу в цифровом томе. Присвоение результатам поиска, содержащим идентифицированные заголовки разделов (Section Headings), большего веса (weighting more heavily), чем другим результатам.

Где и как применяется

Изобретение применяется преимущественно на этапе индексирования для глубокого анализа структуры документа.

CRAWLING – Сканирование и Сбор данных
Система получает сырые данные цифрового тома (изображения страниц или PDF) и выполняет первичную обработку (OCR) для извлечения текста и данных о верстке.

INDEXING – Индексирование и извлечение признаков
Это основной этап применения патента. Система анализирует полученные данные для определения структуры документа:

Идентификация TOC pages с помощью Classifier Module.
Извлечение Section References из TOC.
Создание Word Index основного текста.
Поиск и оценка Matching Phrases в тексте с учетом шрифта и верстки (Claim 4).
Определение Best Matching Phrases (структуры разделов).
Сохранение информации о разделах и аннотирование идентифицированных заголовков для последующего взвешивания.

RANKING – Ранжирование
На этом этапе Search Module использует предварительно вычисленную информацию о разделах. При обработке запроса система применяет логику из Claim 6: если результат поиска содержит идентифицированный Section Heading, этому результату присваивается больший вес.

Входные данные:

Цифровой том (изображения страниц или PDF).
Данные OCR: текст, информация о шрифтах (размер), информация о верстке (положение текста, пробелы).

Выходные данные:

Структурированная информация о разделах (заголовки, начальные страницы).
Улучшенный индекс документа, в котором заголовкам присвоен повышенный вес.

На что влияет

Типы контента: Наибольшее влияние оказывается на длинные формы контента (long-form content), такие как научные статьи, руководства, книги, объемные PDF-документы, где присутствует четкая структура и оглавление.
Структура документа: Влияет на способность системы сегментировать контент на логические блоки, что улучшает понимание иерархии контента и может способствовать лучшему ранжированию фрагментов (Passage Ranking).

Когда применяется

Условия применения: Алгоритм применяется во время индексации документов, для которых система способна извлечь текст и данные о верстке.
Триггеры активации: Идентификация страниц, похожих на оглавление, с помощью ML-классификатора. Если TOC не найден, патент упоминает альтернативный метод: поиск фраз с необычно большим размером шрифта в документе.

Пошаговый алгоритм

Этап 1: Подготовка данных

Получение текстовой информации: Выполнение OCR для извлечения текста, шрифтов и данных о верстке.
Классификация страниц оглавления: Использование обученного классификатора для идентификации TOC pages.
Извлечение фраз: Обработка TOC pages построчно для извлечения потенциальных Section References. Нормализация фраз (удаление номеров страниц).
Создание индекса слов: Индексация основного текста документа с поддержкой нечеткого поиска.

Этап 2: Поиск и оценка соответствий

Идентификация совпадающих фраз: Поиск извлеченных фраз в основном тексте с помощью индекса.
Расчет оценок соответствия (Match Scores): Для каждой найденной фразы рассчитывается оценка. Оценка повышается при высокой текстовой схожести, а также если фраза имеет крупный шрифт и окружена пробелами (визуальные признаки заголовка).

Этап 3: Определение структуры

Определение наилучших соответствий: Выбор одного соответствия для каждой извлеченной фразы. Цель — максимизировать суммарный Match Score при соблюдении Ordering Constraints (порядок в тексте должен соответствовать порядку в TOC).
Постобработка: Объединение смежных наилучших соответствий, которые, вероятно, являются частью одного многострочного заголовка.
Сохранение информации о разделах: Запись найденных заголовков и их местоположения.

Этап 4: Применение (Во время поиска)

Презентация: Отображение документа с навигационными ссылками из TOC к разделам.
Поиск: При обработке поискового запроса по документу, результатам, содержащим идентифицированные заголовки разделов, придается больший вес (Claim 6).

Какие данные и как использует

Данные на входе

Система использует данные, извлеченные из документа (часто с помощью OCR), и фокусируется на следующих факторах:

Контентные факторы: Текст страниц оглавления и основного тела документа. Сравнение текстовой схожести между Section Reference и Section Heading.
Структурные факторы: Порядок следования фраз в TOC и порядок следования потенциальных заголовков в основном тексте. Это критически важный фактор (Ordering Constraints).
Визуальные факторы (Верстка и Оформление):
- Размер шрифта (Font Size): Фразы с большим размером шрифта считаются более вероятными кандидатами на роль заголовка (используется в Match Score).
- Верстка (Layout) и Пробелы (Whitespace): Положение текста на странице и окружающее пространство. Используется как для идентификации TOC, так и для расчета Match Score.

Какие метрики используются и как они считаются

Match Distance (Расстояние совпадения): Метрика для приблизительного поиска слов (например, расстояние Левенштейна). Используется для обработки ошибок OCR.
Match Score (Оценка совпадения): Комплексная метрика для оценки качества совпадения. Рассчитывается на основе:
- Текстового сходства (обратно пропорционально Match Distance).
- Визуальных признаков (шрифт и верстка, Claim 4).
- Совпадения местоположения с ожидаемым номером страницы (если он был в TOC).
Ordering Constraints (Ограничения порядка): Условие, используемое для выбора логически последовательного набора наилучших соответствий.
Classifier Score (Оценка классификатора): Оценка уверенности ML-модели в том, что страница является оглавлением.
Weighting (Взвешивание): В патенте прямо указано применение повышенного веса (weighting... more heavily) к идентифицированным заголовкам разделов при поиске (Claim 6).

Google активно реконструирует внутреннюю структуру документов: Патент демонстрирует сложный механизм для понимания того, как документ сегментирован на разделы, используя оглавление как дорожную карту, даже при отсутствии семантической разметки.
Важность визуальных сигналов (Visual Prominence): Это ключевой вывод. Патент явно указывает (Claim 4), что размер шрифта и верстка (layout) используются как сигналы для идентификации заголовков. Визуально выделенный текст с большей вероятностью будет интерпретирован как важный структурный элемент.
Заголовки как фактор ранжирования (Claim 6): Самый важный вывод для SEO. Патент прямо утверждает, что идентифицированные заголовки разделов (Section Headings) получают больший вес в результатах поиска. Это подтверждает, что заголовки являются сильным сигналом релевантности.
Использование ML для анализа верстки: Google применяет обученные классификаторы (машинное обучение) для определения функции различных частей страницы (например, идентификация оглавления) на основе комплексных визуальных и текстовых признаков.
Порядок и согласованность критичны: Ordering Constraints играют центральную роль. Система ожидает, что структура документа будет логичной и последовательной.

Best practices (это мы делаем)

Принципы патента применимы к общей SEO-стратегии, особенно в отношении структуры контента, визуального представления и оптимизации PDF.

Использование четких и описательных заголовков: Поскольку Section Headings получают повышенный вес в ранжировании (Claim 6), критически важно использовать заголовки, которые точно отражают содержание раздела и содержат релевантные ключевые фразы.
Соблюдение визуальной иерархии (Visual Hierarchy): Убедитесь, что визуальное представление контента соответствует его семантической структуре (H1-H6). Важные заголовки должны визуально выделяться (больший размер шрифта, больше свободного пространства). Это помогает алгоритмам, анализирующим визуальную верстку (Claim 4), правильно интерпретировать важность элементов.
Включение оглавления (TOC) для длинного контента: Для лонгридов создавайте TOC (например, с помощью анкорных ссылок). Это предоставляет системе четкую карту структуры контента, которую она обучена распознавать.
Обеспечение точного соответствия TOC и заголовков: Текст в оглавлении (Section Reference) должен точно или очень близко соответствовать тексту фактического заголовка (Section Heading) в теле документа.
Оптимизация PDF-документов: При работе с PDF уделяйте особое внимание созданию четкого оглавления и последовательному использованию стилей заголовков. Алгоритм идеально подходит для анализа таких документов.

Worst practices (это делать не надо)

Расхождение визуальной и семантической иерархии: Использование CSS для того, чтобы сделать незначительный текст визуально похожим на важный заголовок, или наоборот (например, делать H1 маленьким, а H4 огромным). Это может запутать алгоритмы, которые учитывают визуальные признаки.
Плоская визуальная структура: Создание "стены текста", где заголовки визуально не отличаются от основного текста. Это снижает их потенциальный Match Score и затрудняет идентификацию структуры.
Несогласованность заголовков и TOC: Если оглавление ссылается на разделы с одними названиями, а в тексте используются совершенно другие заголовки, система не сможет надежно определить структуру документа.
Нарушение логического порядка: Хаотичное расположение разделов или непоследовательное использование заголовков затрудняет работу алгоритмов, основанных на Ordering Constraints.

Стратегическое значение

Патент подтверждает, что Google не полагается исключительно на семантическую разметку (HTML-теги). Система способна интерпретировать визуальные сигналы для понимания иерархии контента. Это согласуется с развитием алгоритмов анализа макета страницы (Page Layout) и подчеркивает важность качественного UX/UI дизайна и четкой структуры. Понимание структуры также является необходимой предпосылкой для технологий типа Passage Ranking (ранжирования фрагментов).

Практические примеры

Сценарий: Оптимизация длинного руководства (Ultimate Guide) на сайте

Анализ структуры: Убедиться, что руководство разбито на логические разделы с четкой иерархией (H1 -> H2 -> H3).
Оптимизация заголовков: Переписать заголовки H2/H3 так, чтобы они были информативными и содержали релевантные запросы, так как им может быть присвоен больший вес (Claim 6).
Внедрение TOC: Создать в начале документа кликабельное оглавление (TOC) с анкорными ссылками на заголовки H2.
Обеспечение соответствия: Убедиться, что текст пунктов в TOC дословно совпадает с текстом соответствующих заголовков H2 в статье.
Проверка визуального оформления: Убедиться, что заголовки H2 визуально крупнее и имеют большие отступы, чем основной текст, чтобы повысить их потенциальный Match Score (Claim 4).
Ожидаемый результат: Система Google с большей вероятностью распознает структуру руководства. Заголовки H2 получат повышенный вес при ранжировании. Фрагменты статьи могут лучше ранжироваться в Passage Ranking.

Применим ли этот патент к обычным веб-страницам, или он только для Google Books?

Патент в первую очередь описывает обработку "Цифровых томов" (книг, PDF). Однако базовые технологии — идентификация структуры, распознавание оглавлений и использование заголовков для ранжирования (Claim 6) — являются фундаментальными для информационного поиска. Высока вероятность, что аналогичные механизмы используются Google для анализа структуры длинных веб-страниц и PDF-файлов в основном веб-поиске.

Что означает Claim 6: "присвоение большего веса" заголовкам разделов?

Это прямое подтверждение того, что заголовки являются фактором ранжирования. Если система идентифицировала фразу как заголовок раздела (Section Heading), то при поиске по этой фразе или связанным терминам документ (или данный раздел документа) получит бустинг в ранжировании. Это подчеркивает необходимость использования релевантных и информативных заголовков.

Насколько важна визуальная верстка и размер шрифта?

Они очень важны для идентификации заголовков. Согласно патенту (Claim 4), визуальные признаки (шрифт и верстка) используются при расчете Match Score. Кандидаты на роль заголовка, которые выделены крупным шрифтом и окружены пробелами, получают более высокую оценку. Это говорит о том, что Google учитывает визуальное представление контента при его структурном анализе.

Как Google определяет, что является оглавлением (TOC)?

Система не просто ищет слова "Оглавление". Патент описывает использование сложного Classifier Module, обученного с помощью машинного обучения. Этот классификатор анализирует множество признаков, включая текст, шрифт, верстку и паттерны, характерные для TOC (например, множество строк, заканчивающихся цифрами).

Что такое "Ordering Constraints" и почему они важны?

Ordering Constraints (Ограничения порядка) — это правило, требующее, чтобы заголовки в основном тексте шли в том же порядке, что и ссылки на них в оглавлении. Это позволяет системе выбрать правильные совпадения из множества кандидатов и гарантирует логичность структуры. Для SEO это подчеркивает важность поддержания четкой и последовательной структуры контента.

Нужно ли, чтобы текст в TOC точно совпадал с заголовком раздела?

Желательно стремиться к точному совпадению. Однако система допускает приблизительные совпадения (approximate matches) для обработки опечаток или ошибок OCR. Тем не менее, чем точнее совпадение, тем выше будет Match Score и надежнее идентификация структуры.

Как этот патент связан с Passage Ranking (ранжированием фрагментов)?

Патент напрямую связан с предпосылками для Passage Ranking. Чтобы эффективно ранжировать отдельные фрагменты (пассажи) документа, поисковая система должна сначала понять его структуру и определить границы разделов. Описанный механизм как раз решает эту задачу, идентифицируя разделы и их заголовки.

Что делать, если в документе нет оглавления?

Патент упоминает альтернативный подход для таких случаев. Система может проанализировать статистический профиль всех размеров шрифтов в документе и идентифицировать фразы с необычно большим размером шрифта как потенциальные заголовки разделов. Это еще раз подчеркивает важность визуального оформления.

Влияет ли этот механизм на обработку PDF-файлов?

Да, безусловно. PDF-файлы часто представляют собой "Цифровые тома", которым не хватает структурной метаинформации. Этот патент описывает, как Google анализирует содержимое и верстку PDF (используя OCR при необходимости), чтобы понять его структуру, улучшить навигацию и ранжирование контента из PDF.

Стоит ли использовать анкорные ссылки в оглавлении на веб-странице?

Да. Хотя патент описывает автоматическое создание ссылок после анализа (Claim 5), наличие явных анкорных ссылок на веб-странице предоставляет более четкий и надежный сигнал о связи между пунктом оглавления и соответствующим разделом. Это улучшает UX и помогает поисковым системам понять структуру страницы.

Как Google использует многоэтапное ранжирование и автоматическое расширение запросов для повышения релевантности выдачи

Google использует многоэтапную систему ранжирования для эффективной оценки сложных сигналов, таких как близость терминов, атрибуты (заголовки, шрифты) и контекст. Система также автоматически анализирует топовые результаты, чтобы найти дополнительные термины для расширения исходного запроса (Relevance Feedback), улучшая релевантность в последующих итерациях поиска.

US8407239B2
2013-03-26

Семантика и интент

Как Google использует статистический анализ текста для автоматического сопоставления отсканированных книг с библиотечными каталогами (Google Books)

Патент описывает инфраструктурный процесс Google для каталогизации оцифрованных документов (Google Books). Система статистически сравнивает текст книги, полученный через OCR (особенно страницу авторских прав), с базой библиотечных метаданных. Используя вероятностный анализ, который придает больший вес редким терминам, система находит наилучшее совпадение и связывает структурированные данные (автор, название, ISBN) с отсканированным контентом.

US8510312B1
2013-08-13

Индексация

Как Google использует категоризацию контента и запросов для уточнения релевантности и ранжирования результатов

Google использует систему для улучшения ранжирования, комбинируя стандартную текстовую релевантность с оценкой соответствия категории. Система определяет, насколько сильно документ принадлежит к определенным категориям и насколько сильно запрос соответствует этим же категориям. Если и документ, и запрос сильно совпадают по категории, результат получает повышение в ранжировании. Это особенно важно для E-commerce и контента с четкой структурой.

US7814085B1
2010-10-12

Семантика и интент
SERP

Как Google генерирует визуальные превью страниц в выдаче, используя "разрывы страницы" и масштабирование релевантного контента

Google использует систему для создания визуальных превью страниц (Page Previews) в результатах поиска. Система оценивает релевантность контента, учитывая близость ключевых слов и тип контента (например, пессимизируя сноски). Для показа наиболее важных, но разрозненных участков используются "разрывы страницы" (Page Tears). Ключевой контент также может отображаться в увеличенном масштабе для читаемости, помогая пользователю оценить формат страницы до клика.

US8954427B2
2015-02-10

SERP
Семантика и интент

Как Google идентифицирует первоисточник текста на изображении, анализируя OCR и структуру верстки (Structural Information)

Google использует эту технологию для обработки визуальных запросов (например, фотографий текста). Анализируя как распознанный текст (OCR), так и его точную верстку (шрифт, расположение, размеры — структурную информацию), Google идентифицирует оригинальный авторитетный источник (канонический документ). Это позволяет найти точное издание или формат, гарантируя совпадение не только содержания, но и внешнего вида.

US8811742B2
2014-08-19

Мультимедиа
EEAT и качество

Как Google использует клики по изображениям для определения схожести запросов и картинок (Поведенческая схожесть)

Google анализирует поведение пользователей в поиске по картинкам, чтобы определить схожесть двух запросов (или двух изображений). Если пользователи часто кликают на одни и те же изображения в ответ на разные запросы, эти запросы считаются похожими. Этот механизм (Коллаборативная фильтрация) позволяет находить связи независимо от языка или типа запроса (текст/изображение) и используется для генерации рекомендаций.

US8280881B1
2012-10-02

Поведенческие сигналы
Семантика и интент
Мультимедиа

Как Google использует поведение пользователей для определения синонимичности фраз в запросах, связанных с сущностями

Google анализирует поведение пользователей (клики по результатам поиска), чтобы определить, означают ли разные фразы одно и то же, когда они связаны с одним типом сущности (например, «достопримечательности в <Город>» против «места для посещения в <Город>»). Если пользователи кликают на одни и те же документы для разных фраз, система считает эти фразы эквивалентными, что помогает Google понимать синонимы и улучшать результаты поиска.

US10073882B1
2018-09-11

Семантика и интент
Поведенческие сигналы

Как Google автоматически дополняет запросы пользователя терминами из его недавней истории поиска для уточнения интента

Google использует механизм для улучшения релевантности результатов путем анализа недавней истории поиска пользователя. Если текущий запрос похож на предыдущие, система определяет ключевые контекстные термины, которые часто повторялись в истории (устойчивый интент), но отсутствуют в текущем запросе. Эти термины автоматически добавляются к запросу, чтобы предоставить более точные и персонализированные результаты.

US9449095B1
2016-09-20

Семантика и интент
Персонализация
Поведенческие сигналы

Как Google ранжирует сущности (книги, фильмы, людей), анализируя тематичность и авторитетность их упоминаний в вебе

Google использует механизм для оценки значимости конкретных сущностей (например, изданий книг или фильмов). Система анализирует, как эти сущности упоминаются на релевантных веб-страницах, учитывая уверенность распознавания (Confidence) и то, насколько страница посвящена именно этой сущности (Topicality). Эти сигналы агрегируются с учетом авторитетности и релевантности страниц для расчета итоговой оценки сущности, которая затем корректирует ее ранжирование в поиске.

US20150161127A1
2015-06-11

Семантика и интент
EEAT и качество
SERP

Как Google генерирует интерактивные и иерархические Sitelinks на основе структуры и популярности разделов сайта

Google анализирует навигационную иерархию сайта (DOM), популярность ссылок и глубину разделов для создания интерактивного представления ресурса (расширенных Sitelinks) в SERP. Это позволяет пользователям просматривать ключевые категории и вложенные ссылки через интерфейс вкладок, не покидая страницу результатов поиска.

US9348846B2
2016-05-24

Структура сайта
SERP
Ссылки

Как Google использует "ложные пропуски" (Fake Skips) для точной оценки качества своих правил синонимов

Google анализирует поведение пользователей для оценки качества синонимов, используемых при переписывании запросов. Патент вводит метрику "Fake Skip" (Ложный пропуск). Она фиксируется, если пользователь пропустил результат с синонимом, но кликнул на результат ниже, который также содержит этот синоним и исходный термин. Это позволяет точнее калибровать систему синонимов и не пессимизировать хорошие правила из-за неоднозначного поведения пользователей.

US8909627B1
2014-12-09

Поведенческие сигналы
Семантика и интент
SERP

Как Google определяет и ранжирует вертикали поиска (Web, Images, News, Local) на основе интента запроса и профиля пользователя

Патент описывает фундаментальный механизм Универсального Поиска (Universal Search). Система генерирует результаты из разных индексов (Web, Картинки, Новости, Карты) и вычисляет «Оценку Вероятности» (Likelihood Value) для каждой категории. Эта оценка определяет, какая вертикаль наиболее релевантна интенту запроса. Для расчета используются как агрегированные данные о поведении всех пользователей по схожим запросам, так и индивидуальный профиль пользователя.

US7966309B2
2011-06-21

Семантика и интент
Персонализация
SERP

Как Google определяет язык поискового запроса, используя язык интерфейса, статистику слов и поведение пользователей

Google использует вероятностную модель для точной идентификации языка поискового запроса. Система комбинирует три ключевых фактора: статистику частотности слов в разных языках, язык интерфейса пользователя (например, Google.fr) и исторические данные о том, на какие результаты пользователи кликали ранее. Это позволяет корректно обрабатывать многоязычные и неоднозначные запросы для применения правильных синонимов и стемминга.

US8442965B2
2013-05-14

Мультиязычность
Поведенческие сигналы

Как Google извлекает сущности из активности пользователя для запуска проактивных (имплицитных) поисковых запросов

Анализ патента Google, описывающего метод идентификации «именованных сущностей» (людей, тем, фраз) путем мониторинга действий пользователя, таких как электронная почта, просмотр веб-страниц и набор текста. Система использует эти сущности для проактивного запуска фоновых поисковых запросов (имплицитных запросов), релевантных текущему контексту пользователя, часто с использованием персонализированных данных.

US9009153B2
2015-04-14

Персонализация
Семантика и интент
Поведенческие сигналы

Как Google рассчитывает тематическую популярность (Topical Authority) документов на основе поведения пользователей

Google использует данные о посещаемости и навигации пользователей для расчета популярности документов. Система классифицирует документы и запросы по темам, а затем вычисляет популярность документа внутри каждой конкретной темы (Per-Topic Popularity). Эта метрика используется как сигнал ранжирования, когда тема запроса пользователя соответствует теме документа.

US8595225B1
2013-11-26

Поведенческие сигналы
Семантика и интент
SERP