SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google использует статистический анализ текста для автоматического сопоставления отсканированных книг с библиотечными каталогами (Google Books)

AUTOMATIC METADATA IDENTIFICATION (Автоматическая идентификация метаданных)
  • US8510312B1
  • Google LLC
  • 2007-09-28
  • 2013-08-13
  • Индексация
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Патент описывает инфраструктурный процесс Google для каталогизации оцифрованных документов (Google Books). Система статистически сравнивает текст книги, полученный через OCR (особенно страницу авторских прав), с базой библиотечных метаданных. Используя вероятностный анализ, который придает больший вес редким терминам, система находит наилучшее совпадение и связывает структурированные данные (автор, название, ISBN) с отсканированным контентом.

Описание

Какую проблему решает

Патент решает проблему трудоемкого ручного процесса связывания структурированных метаданных (название, автор, издатель, ISBN) с большими объемами оцифрованных печатных материалов (книги, журналы), например, в рамках проекта Google Books. Цель — автоматизировать идентификацию правильной библиографической записи для конкретного отсканированного документа, обеспечивая масштабируемость и устойчивость к ошибкам оптического распознавания текста (OCR).

Что запатентовано

Запатентована система статистического сопоставления неструктурированного текста, полученного в результате OCR, со структурированными записями метаданных (например, библиотечными каталогами). Ядром изобретения является вероятностная модель для оценки совпадений, которая придает значительно больший вес совпадению редких терминов и фраз. Система оптимизирована для анализа ключевых страниц, таких как страница авторских прав (Copyright Page).

Как это работает

Система работает в несколько этапов:

  • Сбор данных: Документ сканируется, выполняется OCR. Система часто фокусируется на Copyright Page.
  • Сравнение: Текст сравнивается с базой данных метаданных (Metadata Database).
  • Вероятностный анализ: Рассчитывается вероятность случайного появления каждой фразы (w) в корпусе документов (p(w)) и в корпусе метаданных (q(w)).
  • Оценка (Scoring): Совпадения оцениваются на основе этих вероятностей. Редкие термины дают более высокий вклад в оценку.
  • Оптимизация: Используются методы выбора только наиболее информативных слов (Top-K, используя Score Upper Bound) и учета только максимальных совпадающих фраз (Maximal Matching Phrases), чтобы избежать двойного учета вложенных фраз.
  • Связывание: Запись метаданных с наивысшей оценкой (т.е. наименее вероятное случайное совпадение) связывается с документом.

Актуальность для SEO

Средняя. Технология является фундаментальной для проектов массовой оцифровки, таких как Google Books и Google Scholar. Хотя методы NLP эволюционировали с 2007 года, описанные в патенте принципы Information Retrieval (статистическая значимость, анализ редкости фраз, схожесть с IDF) остаются крайне актуальными для задач точной идентификации и сопоставления данных в больших масштабах.

Важность для SEO

Минимальное влияние (Инфраструктура, 2/10). Патент описывает внутренние процессы Google по каталогизации отсканированных книг. Он не имеет прямого отношения к ранжированию веб-страниц в основном поиске и не дает прямых рекомендаций для SEO. Однако он полезен для понимания того, как Google использует статистические методы для анализа текста, определения уникальности контента на основе редкости терминов и связывания неструктурированного контента со структурированными данными.

Детальный разбор

Термины и определения

Copyright Page (Страница авторских прав)
Страница документа (книги), содержащая ключевую идентификационную информацию: издателя, дату, автора, ISBN, данные каталогизации (CIP data). Основной источник текста для сопоставления.
Maximal Matching Phrases (Максимальные совпадающие фразы)
Механизм оптимизации оценки. Если совпадает длинная фраза (например, "John Wiley & Sons"), система учитывает только ее и игнорирует вклад ее подфраз (например, "John Wiley") для этой же записи, чтобы избежать завышения оценки из-за дублирования.
Metadata Database (База данных метаданных)
Хранилище структурированных записей (Metadata Records) о документах, полученных из внешних источников (библиотеки, издатели).
OCR (Optical Character Recognition)
Оптическое распознавание символов. Процесс конвертации сканов текста в машиночитаемый формат.
p(w)
Вероятность нахождения слова или фразы (w) в случайно выбранном документе из всего корпуса отсканированных документов.
q(w)
Вероятность нахождения слова или фразы (w) в случайно выбранной записи из всего корпуса метаданных.
S(M) (Score)
Итоговая оценка для набора совпадений (M). Рассчитывается на основе p(w) и q(w). Высокий балл указывает на низкую вероятность случайного совпадения.
Score Upper Bound (Верхняя граница оценки)
Максимально возможная оценка, которую может получить фраза, исходя из ее вероятности p(w) и предполагая максимальную редкость в базе метаданных. Используется для выбора наиболее информативных фраз (Top-K Optimization).

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод автоматической идентификации метаданных.

  1. Система получает текст документа.
  2. Текст сравнивается с контентом множества записей метаданных.
  3. Выбираются записи, где есть совпадения с текстом документа.
  4. Каждая выбранная запись оценивается (Scoring). Процесс оценки включает:
    • Расчет первой вероятности (q(w)): вероятность появления общих фраз в корпусе метаданных.
    • Расчет второй вероятности (p(w)): вероятность появления общих фраз в корпусе документов.
    • Оценка записи на основе обеих вероятностей.
  5. Выбранные записи ранжируются на основе оценок.
  6. Сохраняется связь между исходным документом и записями с наивысшим рейтингом.

Ядро изобретения — использование статистической значимости терминов одновременно в двух разных коллекциях для надежной идентификации.

Claim 7 (Зависимый от 6): Уточняет метод расчета оценки (Score). Оценка рассчитывается путем суммирования логарифмов рассчитанных вероятностей p(w) и q(w) для каждой совпадающей фразы.

Claim 8 (Зависимый): Вводит концепцию Maximal Matching Phrases. Оценка производится только на основе набора максимальных совпадающих фраз, то есть тех фраз, которые не являются подфразами других совпадающих фраз в этом же наборе.

Claim 12 (Зависимый от 11): Описывает метод оптимизации (Top-K) путем выбора наиболее информативных слов/фраз.

  1. Для каждой фразы рассчитывается p(w).
  2. Рассчитывается максимальная возможная оценка (Score Upper Bound) на основе p(w).
  3. Список фраз сортируется по убыванию этой максимальной оценки.
  4. Система проходит по отсортированному списку для идентификации наиболее информативных слов/фраз, которые затем используются для сравнения.

Где и как применяется

Патент описывает инфраструктурный процесс, применяемый для организации специфических корпусов данных, таких как Google Books или Google Scholar.

CRAWLING – Сканирование и Сбор данных
На этом этапе происходит физическое сканирование документов (книг) и выполнение OCR для получения сырого текста. Также собираются данные из внешних источников (библиотек) для Metadata Database.

INDEXING – Индексирование и извлечение признаков
Основное применение патента. Система анализирует сырой текст и выполняет сопоставление (Reconciliation) с базой метаданных. Это процесс обогащения данных (Data Enrichment), который позволяет связать отсканированный контент со структурированными атрибутами (автор, название и т.д.).

Входные данные:

  • OCR-текст документа (особенно Copyright Page).
  • Коллекция записей метаданных (Metadata Records).
  • Статистика частотности слов/фраз по обоим корпусам (документы и метаданные).

Выходные данные:

  • Ассоциация (связь) между отсканированным документом и наиболее релевантной записью в Metadata Database.

На что влияет

Патент чисто технический и описывает внутренние процессы Google без прямых рекомендаций для SEO.

  • Конкретные типы контента: Влияет исключительно на организацию и каталогизацию оцифрованных печатных изданий (книги, журналы). Не влияет на ранжирование веб-сайтов в основном поиске Google.
  • Языковые ограничения: Патент утверждает, что статистический метод является языконезависимым (Language-Agnostic). Ранжирование записей не зависит от того, обрабатывается ли коллекция на одном языке или мультиязычная коллекция.

Когда применяется

  • Условия применения: Алгоритм применяется в процессе обработки (индексации) после того, как новый документ был отсканирован и прошел этап OCR. Он используется для идентификации этого документа и его каталогизации.

Пошаговый алгоритм

Этап 1: Подготовка и предварительная обработка

  1. Захват и OCR: Получение изображений документа и распознавание текста.
  2. Идентификация ключевой страницы: Определение Copyright Page (например, по наличию "ISBN", "Library of Congress" или символа ©).
  3. Извлечение терминов: Идентификация всех слов и фраз на ключевой странице.

Этап 2: Оптимизация выбора информативных фраз (Top-K Selection) (FIG. 7)

  1. Расчет p(w) и Верхней границы: Для каждой фразы рассчитывается p(w) (редкость в документах) и Score Upper Bound (максимально возможная оценка, предполагая максимальную редкость в метаданных).
  2. Сортировка: Создается список фраз, отсортированный по Score Upper Bound.
  3. Итеративный отбор и пересчет: Система проходит по списку сверху вниз.
    • Если точная оценка для фразы неизвестна, система запрашивает q(w) (редкость в метаданных), рассчитывает точную оценку S(w).
    • Обновляются верхние границы для всех подфраз текущей фразы (если применимо).
    • Список пересортировывается.
  4. Завершение отбора: Процесс повторяется, пока не будет выбрано K наиболее информативных фраз.

Этап 3: Сопоставление и Оценка (FIG. 8, FIG. 6)

  1. Идентификация кандидатов: Поиск записей метаданных, которые содержат выбранные K информативных фраз.
  2. Обработка Максимальных фраз (Maximal Matching Phrases): Фразы сортируются по возрастанию длины. Система итеративно удаляет записи из списков совпадений подфраз, если эти же записи присутствуют в списке совпадений родительской (более длинной) фразы. Это гарантирует, что учитывается только самая длинная совпадающая фраза.
  3. Расчет итоговой оценки (Scoring): Для каждой записи метаданных рассчитывается итоговая оценка S(M) на основе оставшихся максимальных фраз. Формула:

Выводы

  1. Инфраструктурный фокус (Google Books/Scholar): Патент описывает внутренние процессы Google для каталогизации оцифрованного контента и не содержит прямых рекомендаций для веб-SEO.
  2. Статистическая значимость и редкость терминов: Ключевой механизм идентификации основан на редкости терминов (концепция, схожая с IDF). Совпадение по редким фразам считается гораздо более надежным индикатором идентичности, чем совпадение по частым словам.
  3. Сопоставление сущностей (Entity Reconciliation): Патент демонстрирует надежный статистический метод для связывания зашумленного неструктурированного текста (OCR) со структурированными данными (библиографические записи).
  4. Оптимизация для масштабирования: Патент уделяет значительное внимание эффективности обработки миллионов документов с помощью двух ключевых техник:
    • Top-K Informative Words: Выбор только наиболее информативных (редких) слов с использованием Score Upper Bound для минимизации запросов к базе данных.
    • Maximal Matching Phrases: Предотвращение завышения оценок из-за вложенных совпадений (учет только самых длинных фраз).
  5. Устойчивость к ошибкам и языковая независимость: Статистический подход устойчив к ошибкам OCR и не зависит от языка документа.

Практика

Патент является инфраструктурным и не дает прямых практических выводов для SEO-продвижения стандартных веб-сайтов. Однако он раскрывает важные принципы информационного поиска, полезные для понимания подходов Google к анализу контента.

Best practices (это мы делаем)

  • Использование уникальных идентификаторов и точных названий: Патент подчеркивает, что редкие термины имеют наибольшую ценность для идентификации. Это подтверждает важность использования точных и уникальных идентификаторов (GTIN, ISBN, SKU, точные названия брендов и продуктов) в контенте и микроразметке, так как они обладают высокой статистической значимостью.
  • Использование Статистически Невероятных Фраз (SIPs): В SEO это подтверждает важность использования уникальных, специфичных для темы фраз (Statistically Improbable Phrases), которые выделяют ваш контент на фоне остального корпуса интернета.
  • Четкость Именованных Сущностей (Named Entities): Оптимизация Maximal Matching Phrases показывает важность распознавания полных фраз. Убедитесь, что ключевые сущности (имена, организации) на ваших страницах представлены последовательно и в полной форме.
  • Стратегическая важность структурированных данных: Патент демонстрирует сложность извлечения метаданных из текста. Предоставляя Google готовые структурированные данные (Schema.org), мы облегчаем системе задачу идентификации и категоризации контента.

Worst practices (это делать не надо)

  • Использование только общих терминов: Контент, состоящий только из высокочастотных общих фраз, имеет низкую информативность для идентификации его уникальности, как показывает этот патент.
  • Разделение устойчивых фраз и названий: Непоследовательное использование названий или разделение устойчивых фраз может помешать системам распознать Maximal Phrase, снижая уверенность в идентификации сущности.

Стратегическое значение

Патент демонстрирует способность Google к масштабному сопоставлению (Reconciliation) разрозненных и зашумленных наборов данных с использованием статистических методов. Хотя здесь это применяется к книгам, эта же фундаментальная способность используется для понимания сущностей (Entities) и их связей в Knowledge Graph. Это подтверждает стратегическую важность управления данными о сущностях и обеспечения их согласованности.

Практические примеры

Практических примеров применения для веб-SEO нет. Патент относится к инфраструктуре Google Books. Ниже приведен пример работы механизма в его контексте.

Сценарий: Сопоставление книги в Google Books

  1. Документ: Отсканирована книга. OCR извлекает фразы со страницы авторских прав: "A Walk in the Park", "John Smith", "1999", "ABC Publishing Company".
  2. Анализ редкости:
    • "1999" — частое (высокие p(w) и q(w)), низкая ценность.
    • "John Smith" — средняя частотность, средняя ценность.
    • "A Walk in the Park" и "ABC Publishing Company" — редкие (низкие p(w) и q(w)), высокая ценность. Система выбирает их как Top-K информативные фразы.
  3. Сопоставление и Оценка: Система ищет записи в базе метаданных. Запись, содержащая все эти элементы, получит наивысший балл S(M), так как вероятность случайного совпадения всех редких фраз крайне мала.
  4. Результат: Отсканированный документ точно связывается с правильной записью каталога.

Вопросы и ответы

Влияет ли этот патент на ранжирование моего сайта в веб-поиске Google?

Нет, этот патент не влияет на ранжирование веб-сайтов. Он описывает внутренний процесс, используемый Google для каталогизации отсканированных физических документов (например, в Google Books). Он предназначен для сопоставления OCR-текста с библиотечными записями, а не для оценки качества или релевантности веб-страниц.

Что такое p(w) и q(w) и почему они важны?

p(w) – это вероятность найти фразу (w) в корпусе документов, а q(w) – вероятность найти ее в корпусе метаданных. Они критически важны для оценки статистической значимости совпадения. Совпадение по редкой фразе (низкие p(w) и q(w)) вносит гораздо больший вклад в общую оценку, чем совпадение по часто встречающемуся слову.

Похож ли описанный метод скоринга на TF-IDF?

Да, концептуально он очень похож. Использование логарифмов вероятностей p(w) и q(w) функционально похоже на компонент IDF (Inverse Document Frequency). Оба метода придают больший вес терминам, которые реже встречаются в корпусе, считая их более информативными для идентификации или ранжирования документа.

Что такое «Максимальные совпадающие фразы» (Maximal Matching Phrases)?

Это техника для предотвращения завышения оценки из-за вложенных совпадений. Например, если совпала фраза "John Wiley & Sons", система учтет вклад только этой длинной фразы и проигнорирует вклад ее подфраз ("John", "Wiley", "John Wiley") для этой же записи. Это обеспечивает более точную оценку релевантности.

Зачем система выбирает только «наиболее информативные» слова (Top-K Optimization)?

Это делается для повышения эффективности и скорости работы в масштабе. Вместо обработки всех слов система определяет, какие слова потенциально внесут наибольший вклад в оценку (самые редкие), используя метрику Score Upper Bound. Обработка только этих ключевых слов (например, Топ-50) позволяет быстро найти лучшее совпадение, экономя вычислительные ресурсы.

Как система справляется с ошибками OCR при сопоставлении?

Система устойчива к ошибкам OCR благодаря статистическому подходу. Она не ищет точного совпадения всего текста, а оценивает совокупность всех совпадающих фраз. Ошибки в некоторых словах компенсируются статистически значимыми совпадениями в других, правильно распознанных фразах документа. Также упоминается возможность учета распространенных замен OCR.

Какую пользу Senior SEO специалист может извлечь из этого патента?

Основная польза — это понимание того, как Google использует статистическую редкость для идентификации контента и сопоставления сущностей (Entity Reconciliation). Это подтверждает стратегическую важность использования уникальных идентификаторов, точных названий сущностей и специфичной терминологии (Статистически Невероятных Фраз) в контенте.

Почему система фокусируется именно на странице авторских прав (Copyright Page)?

Эта страница обычно содержит наиболее плотную и надежную идентификационную информацию о документе, такую как полное название, имя автора, издателя, год публикации, ISBN и данные каталогизации (CIP data). Это делает ее идеальным источником данных для сопоставления с библиотечными записями.

Может ли эта технология использоваться для обнаружения плагиата или нарушения авторских прав в вебе?

В патенте упоминается такая возможность как одно из альтернативных применений. Описанный механизм статистического сопоставления может быть адаптирован для сравнения веб-документов с защищенными авторским правом текстами для выявления значительных совпадений и потенциального нарушения авторских прав.

Подтверждает ли этот патент важность использования Schema.org?

Косвенно, да. Патент решает сложную задачу: извлечение структурированных метаданных из неструктурированного (и зашумленного) текста. Предоставляя Google готовые структурированные данные через Schema.org, мы избавляем поисковую систему от необходимости выполнять подобный сложный анализ для понимания базовых атрибутов страницы или сущности.

Похожие патенты

Как Google автоматически распознает и связывает отсканированные книги с их библиографическими данными (ISBN, автор, название)
Патент описывает инфраструктурный процесс Google для оцифровки печатных изданий (например, Google Books). Система сканирует документ, ищет идентификаторы (ISBN, ISSN) на странице авторских прав или в штрихкоде, сверяет их с базами данных метаданных и автоматически связывает текст документа с его библиографическим описанием для последующего поиска.
  • US8495061B1
  • 2013-07-23
  • Индексация

Как Google индексирует печатные издания (книги, журналы) и модифицирует рекламу в них для показа в поиске
Патент описывает технологию, лежащую в основе Google Books и Google Scholar. Он раскрывает, как Google сканирует печатные материалы, делает их доступными для поиска наравне с веб-страницами и управляет авторскими правами через протокол разрешений. Ключевой аспект патента — механизмы модификации оригинальной печатной рекламы путем ее замены на обновленную цифровую рекламу или добавления интерактивных гиперссылок.
  • US9684676B1
  • 2017-06-20
  • Индексация

  • SERP

Как Google обогащает оцифрованные документы (например, книги), автоматически находя и встраивая связанный веб-контент
Google улучшает представление оцифрованных документов (книг, статей), определяя их атрибуты (автор, название) и автоматически выполняя веб-поиск связанной информации (обзоров, биографий). Эта информация затем представляется вместе с исходным документом на «Справочной странице» (Reference Page), иногда путем прямого извлечения данных с релевантных веб-сайтов.
  • US8386453B2
  • 2013-02-26
  • Индексация

  • Ссылки

  • Семантика и интент

Как Google анализирует оглавления и визуальную верстку для понимания структуры документа и повышения веса заголовков в ранжировании
Google использует технологию для автоматического определения оглавления (TOC) в цифровых документах (книгах, PDF). Система извлекает названия разделов из TOC и сопоставляет их с заголовками в основном тексте, используя машинное обучение, анализ шрифта и верстки, а также ограничения порядка. Это позволяет Google понять структуру документа и увеличить вес ранжирования для идентифицированных заголовков разделов.
  • US8549008B1
  • 2013-10-01
  • Индексация

  • Техническое SEO

Как Google сравнивает изображения документов, анализируя геометрическое расположение слов без распознавания текста (OCR)
Google использует метод для сравнения изображений текстовых страниц (например, сканов книг или PDF), который не зависит от языка и качества текста. Система определяет положение слов и создает "сигнатуры" на основе углов и расстояний до соседних слов. Это позволяет эффективно находить дубликаты страниц или идентифицировать документ по фотографии, анализируя только его визуальную структуру.
  • US8151186B1
  • 2012-04-03
  • Индексация

Популярные патенты

Как Google использует навигационные запросы, консенсус кликов и анкорных текстов для определения глобального качества сайта
Google анализирует потоки запросов, чтобы определить, когда пользователи ищут конкретный сайт (навигационный интент). Если запрос явно указывает на документ (через подавляющее большинство кликов пользователей или доминирование в анкор-текстах), этот документ получает «баллы качества». Эти баллы используются как глобальный сигнал качества, повышая ранжирование сайта по всем остальным запросам.
  • US7962462B1
  • 2011-06-14
  • Поведенческие сигналы

  • Ссылки

  • SERP

Как Google рассчитывает оценку авторитетности сайта, используя соотношение Независимых Ссылок и Брендовых Запросов
Google рассчитывает метрику авторитетности для веб-сайтов на основе соотношения количества независимых входящих ссылок к количеству брендовых (референсных) запросов. Сайты, имеющие много независимых ссылок относительно их поисковой популярности, получают преимущество. Напротив, популярные сайты с недостаточным количеством внешних ссылок могут быть понижены в ранжировании по общим запросам.
  • US8682892B1
  • 2014-03-25
  • Ссылки

  • EEAT и качество

  • SERP

Как Google использует контекст пользователя для генерации неявных поисковых запросов и проактивного показа результатов
Система Google отслеживает контекст пользователя в реальном времени (набираемый текст, открытые документы, письма). На основе этого контекста автоматически генерируются множественные неявные запросы. Система объединяет результаты из разных источников (локальных и глобальных) и проактивно показывает их пользователю, используя поведенческие данные (клики) для улучшения релевантности.
  • US7664734B2
  • 2010-02-16
  • Поведенческие сигналы

  • Персонализация

  • Семантика и интент

Как Google использует атрибуты пользователей и показатели предвзятости (Bias Measures) для персонализации ранжирования
Google анализирует, как разные группы пользователей (сегментированные по атрибутам, таким как интересы или демография) взаимодействуют с документами. Система вычисляет «показатель предвзятости» (Bias Measure), который показывает, насколько чаще или реже определенная группа взаимодействует с документом по сравнению с общей массой пользователей. При поиске Google определяет атрибуты пользователя и корректирует ранжирование, повышая или понижая документы на основе этих показателей предвзятости.
  • US9436742B1
  • 2016-09-06
  • Персонализация

  • Поведенческие сигналы

  • SERP

Как Google персонализирует сниппеты и заголовки в выдаче на основе истории поиска и интересов пользователя
Google может динамически изменять сниппеты и заголовки (Title) результатов поиска, чтобы выделить ту часть контента на странице, которая соответствует известным интересам пользователя (история поиска, демография, недавний контекст). Это позволяет сделать представление выдачи более персонализированным, не обязательно изменяя ранжирование документов.
  • US9235626B2
  • 2016-01-12
  • Персонализация

  • SERP

  • Семантика и интент

Как Google создает мгновенные интерактивные результаты на SERP, предварительно загружая и персонализируя скрытый контент
Google использует механизм для создания интерактивных блоков ответов (Answer Boxes), таких как Погода или Панели Знаний. Система отправляет пользователю не только видимый результат, но и дополнительный скрытый контент («карточки»), выбранный на основе истории взаимодействий пользователя. При взаимодействии с блоком (свайп или клик) дополнительный контент отображается мгновенно, без отправки нового запроса на сервер.
  • US9274683B2
  • 2016-03-01
  • SERP

  • Персонализация

  • Поведенческие сигналы

Как Google использует социальный граф и активность друзей для персонализации и переранжирования результатов поиска
Google использует данные из социального графа пользователя и активность его контактов (лайки, шеры, комментарии, плейлисты) для изменения ранжирования результатов поиска. Контент, одобренный социальным окружением, повышается в выдаче и сопровождается аннотациями, объясняющими причину повышения и указывающими на свежесть социального действия.
  • US8959083B1
  • 2015-02-17
  • Персонализация

  • Поведенческие сигналы

  • SERP

Как Google выбирает предлагаемые запросы, анализируя вероятность завершения поиска и коммерческую ценность
Google использует графовую модель для анализа поисковых сессий пользователей. Система определяет, какие уточняющие запросы чаще всего приводят к завершению поиска (становятся «финальным пунктом назначения»). Эти запросы считаются обладающими наибольшей «полезностью» (Utility) и предлагаются пользователю в качестве подсказок или связанных запросов. Система также учитывает коммерческий потенциал этих запросов и может показывать для них релевантные рекламные блоки.
  • US8751520B1
  • 2014-06-10
  • SERP

  • Поведенческие сигналы

  • Семантика и интент

Как Google выбирает Sitelinks, анализируя визуальное расположение и структуру DOM навигационных меню
Google использует механизм для генерации Sitelinks путем рендеринга страницы и анализа DOM-структуры. Система определяет визуальное расположение (координаты X, Y) гиперссылок и группирует их на основе визуальной близости и общих родительских элементов. Sitelinks выбираются исключительно из доминирующей группы (например, главного меню), а ссылки из других групп игнорируются.
  • US9053177B1
  • 2015-06-09
  • SERP

  • Ссылки

  • Структура сайта

Как Google извлекает готовые ответы из авторитетных источников для формирования Featured Snippets
Google использует систему для предоставления прямых ответов на естественном языке (в виде абзацев или списков) на запросы с четким намерением. Система заранее анализирует авторитетные источники, извлекает пары «заголовок-текст», соответствующие популярным шаблонам вопросов, и сохраняет их в специальной базе данных. При получении соответствующего запроса система извлекает готовый ответ из этой базы и отображает его в выдаче.
  • US9448992B2
  • 2016-09-20
  • Семантика и интент

  • EEAT и качество

  • Индексация

seohardcore