SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google анализирует текст вокруг ссылки (Rare Words) для борьбы со спамом и определения шаблонных ссылок

RANKING BASED ON REFERENCE CONTEXTS (Ранжирование на основе контекстов ссылок)
  • US8577893B1
  • Google LLC
  • 2004-03-15
  • 2013-11-05
  • Антиспам
  • Ссылки
  • Семантика и интент
  • Техническое SEO
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Google использует механизм для оценки качества ссылок, выходящий за рамки анкорного текста. Система анализирует редкие слова (rare words) в тексте, непосредственно окружающем ссылку, чтобы определить её уникальный контекст. Ранжирование улучшается при наличии разнообразия этих контекстов. Ссылки с повторяющимся контекстом (спам, Google-бомбинг или шаблонные/сквозные ссылки) идентифицируются и дисконтируются.

Описание

Какую проблему решает

Патент решает проблему искусственного завышения рангов документов с помощью манипулятивных ссылочных техник. Он направлен на противодействие:

  • Ссылочному спаму (Link-based spamming): Использование ссылочных ферм или покупка ссылок для увеличения ранга.
  • Анкорному спаму (Anchor text spamming): Массовое использование одинакового анкорного текста для ассоциации документа с нужным запросом.
  • Бомбингу (Bombing): Скоординированное создание большого количества ссылок с определенным текстом для манипуляции выдачей (например, Google bombing).
  • Шаблонным ссылкам (Standard frames/Boilerplate): Искусственное завышение рангов из-за повторяющихся сквозных ссылок (например, в футере или боковом меню) на крупных сайтах.

Цель — улучшить качество поиска путем снижения влияния неестественных или повторяющихся ссылочных паттернов.

Что запатентовано

Запатентована система ранжирования документов, основанная на анализе контекста ссылок (reference context), указывающих на документ. Вместо того чтобы полагаться только на анкорный текст или авторитетность ссылающегося сайта, система анализирует текст, непосредственно окружающий ссылку. Контекст определяется путем идентификации редких слов (rare words) слева и справа от ссылки и создания уникального идентификатора (context identifier) для этой комбинации. Документы ранжируются на основе разнообразия этих контекстов и анализа распределения их частотности.

Как это работает

Ключевой механизм заключается в определении контекста ссылки и использовании этой информации для ранжирования:

  1. Идентификация ссылки: Система находит ссылку в документе А, указывающую на документ Б.
  2. Анализ окружения: Анализируется «окно» текста слева и справа от ссылки (например, 5 или 15 слов).
  3. Определение редких слов: В этих окнах идентифицируются наиболее редкие слова (rare words) на основе их частотности во всем корпусе документов (например, используя IDF).
  4. Создание идентификатора контекста: Редкие слова из левого и правого окна хешируются для создания уникального context identifier (фингерпринта).
  5. Агрегация контекстов: Для документа Б собирается список всех уникальных контекстов и подсчитывается частота каждого (context count).
  6. Ранжирование: Документ Б ранжируется на основе этого списка. Учитывается разнообразие контекстов. Анализируется распределение частот: если один контекст встречается аномально часто (например, 10 000 раз против 10 раз у других), он помечается как подозрительный (спам или шаблонная ссылка) и дисконтируется. Также анализируется история распределения для выявления внезапных манипуляций.

Актуальность для SEO

Высокая. Анализ ссылочного профиля и борьба с манипулятивными ссылочными техниками остаются критически важными для Google. Хотя методы анализа текста эволюционировали с 2004 года, фундаментальные принципы, изложенные в этом патенте — анализ околоссылочного текста, оценка разнообразия контекстов и выявление неестественных паттернов для дисконтирования спама и шаблонных ссылок — по-прежнему актуальны.

Важность для SEO

Патент имеет высокое значение для SEO-стратегий, особенно в области линкбилдинга. Он демонстрирует, что Google оценивает не только наличие ссылки и её анкор, но и то, как именно ссылка интегрирована в контент. Это делает рискованными стратегии, создающие ссылки с однотипным окружением (PBN с одинаковыми шаблонами, массовый спам, сквозные ссылки). Если контекст ссылки идентичен у множества ссылок, их вес дисконтируется.

Детальный разбор

Термины и определения

Context Count (Счетчик контекста)
Количество раз, когда определенный Context Identifier встречается среди всех ссылок, указывающих на документ.
Context Identifier (Идентификатор контекста)
Уникальный идентификатор (например, фингерпринт или хеш), созданный на основе комбинации редких слов (rare words), найденных слева и справа от ссылки. Представляет собой уникальный контекст конкретной ссылки.
Distribution of Context Counts (Распределение счетчиков контекстов)
Анализ частоты встречаемости различных контекстов для документа. Используется для выявления статистических аномалий (спама или boilerplate).
Distribution History (История распределения)
Анализ изменения распределения Context Counts во времени. Используется для выявления внезапных всплесков ссылочной активности (например, Google Bombing).
Inverse Document Frequency (IDF)
Один из упомянутых методов для определения редкости слова. Чем реже слово встречается в корпусе документов, тем выше его IDF и тем более "редким" оно считается.
Left/Right Window (Левое/Правое окно)
Определенное количество слов (в патенте приводятся примеры 5 или 15 слов), расположенных непосредственно слева и справа от ссылки в тексте документа.
List of Contexts (Список контекстов)
Список всех уникальных Context Identifiers для документа и соответствующих им Context Counts.
Rare Word/Phrase (Редкое слово/фраза)
Слово или фраза в околоссылочном тексте, которое встречается относительно нечасто в общем корпусе документов. Патент уточняет, что это должны быть «настоящие» слова, встречающиеся минимальное количество раз (например, 50) на разных документах, чтобы отсеять случайный набор символов.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает базовый механизм определения контекста ссылки.

  1. Система идентифицирует ссылку в первом документе, указывающую на второй документ.
  2. Анализируется первая порция текста слева от ссылки.
  3. Анализируется вторая порция текста справа от ссылки.
  4. Идентифицируется первое редкое слово (first rare word) в левой порции на основе частоты его встречаемости в наборе документов (корпусе).
  5. Идентифицируется второе редкое слово (second rare word) в правой порции на основе частоты его встречаемости в корпусе.
  6. Создается идентификатор контекста (context identifier), основанный только на первом и втором редких словах.
  7. Второй документ ранжируется на основе этого идентификатора контекста.

Ядром изобретения является метод определения контекста ссылки путем изоляции и комбинирования наиболее редких слов из её непосредственного окружения слева и справа.

Claim 3 (Зависимый от 1): Уточняет, что создание context identifier происходит путем хеширования (hashing) первого и второго редких слов.

Claim 5 (Зависимый от 4): Уточняет, что ранжирование основано на общем количестве (т.е. разнообразии) идентификаторов контекста.

Claim 7 и 8 (Зависимые): Описывают механизм противодействия спаму/шаблонам через анализ распределения (distribution).

  1. Ранжирование основывается на анализе распределения context counts.
  2. Идентифицируется один из идентификаторов контекста на основе этого анализа (например, тот, у которого аномально высокий счетчик).
  3. Ранжирование второго документа происходит с уменьшением влияния (reducing an impact) этого идентификатора контекста.

Это ключевой механизм для дисконтирования шаблонных ссылок или результатов Google-бомбинга.

Claim 9 (Зависимый от 6): Уточняет, что ранжирование основано на истории распределения (history of distribution) счетчиков контекста. Это позволяет выявлять внезапные всплески активности.

Где и как применяется

Изобретение применяется на этапах индексирования и ранжирования.

CRAWLING – Сканирование и Сбор данных
Система собирает контент ссылающихся страниц, необходимый для последующего анализа контекста ссылок.

INDEXING – Индексирование и извлечение признаков
Это основной этап применения патента. Во время индексирования система выполняет следующие действия:

  • Извлечение ссылок и околоссылочного текста (Left/Right Windows).
  • Использование глобальной статистики по корпусу (например, IDF или хэш-таблицы частот) для определения rare words.
  • Идентификация самых редких слов вокруг каждой ссылки.
  • Создание Context Identifiers путем хеширования.
  • Компиляция и сохранение List of Contexts и Context Counts для каждого целевого URL.

RANKING – Ранжирование
На этапе ранжирования система использует предварительно рассчитанные данные из List of Contexts в качестве одного из сигналов:

  • Оценка разнообразия контекстов.
  • Анализ распределения (Distribution Analysis) для выявления и дисконтирования спама или шаблонных ссылок.
  • Анализ истории распределения (Distribution History Analysis) для выявления манипуляций.

Входные данные:

  • Текст ссылающегося документа.
  • Идентифицированная ссылка (Target URL).
  • Статистика частотности слов по всему корпусу документов (для определения редкости).

Выходные данные:

  • List of Contexts для целевого URL (набор Context Identifiers и Context Counts).
  • Компонент оценки ранжирования (Ranking Score), основанный на анализе этого списка.

На что влияет

  • Ссылочные факторы: Патент напрямую влияет на то, как Google интерпретирует и взвешивает входящие ссылки. Он снижает эффективность ссылок, которые выглядят неестественно из-за повторяющегося контекста.
  • Конкретные типы контента и структуры сайтов: Сильное влияние на сайты, использующие обширные шаблонные системы навигации (например, крупные E-commerce сайты, порталы). Внутренние и внешние ссылки в футерах, сайдбарах или других boilerplate-элементах будут иметь идентичный контекст, что приведет к их дисконтированию.
  • Специфические запросы и ниши: Влияет на запросы и ниши, которые подвержены манипуляциям через анкорный спам, использование PBN или Google-бомбинг.

Когда применяется

  • Условия работы: Алгоритм применяется при обработке любой идентифицированной ссылки во время индексации и при расчете ранжирования документа, на который есть входящие ссылки.
  • Триггеры активации (Дисконтирование): Механизм дисконтирования активируется, когда анализ распределения (distribution analysis) Context Counts выявляет статистические аномалии. Например, если один контекст имеет счетчик 30 000, а остальные контексты — 15, 8 и 3. Также триггером является резкое изменение в истории распределения (distribution history) — например, внезапный рост счетчика одного контекста с 20 до 18 000.

Пошаговый алгоритм

Процесс ранжирования документа на основе контекстов ссылок:

  1. Парсинг документа: Система анализирует документ-источник.
  2. Идентификация ссылки: В документе обнаруживается ссылка, указывающая на целевой документ (Target URL).
  3. Анализ околоссылочного текста: Определяются окна текста слева (Left Window) и справа (Right Window) от ссылки (например, по 5 слов).
  4. Идентификация редких слов: В каждом окне идентифицируется наиболее редкое слово (rare word). Редкость определяется на основе глобальной статистики корпуса (например, IDF).
  5. Создание идентификатора контекста: Редкое слово из левого окна и редкое слово из правого окна комбинируются (например, путем хеширования) для создания уникального Context Identifier.
  6. Создание списка контекстов (Агрегация): Context Identifier добавляется в List of Contexts для целевого URL. Если такой идентификатор уже существует, его счетчик (Context Count) увеличивается. Этот шаг повторяется для всех ссылок в корпусе.
  7. Анализ списка контекстов: Система анализирует итоговый список:
    • Оценивается разнообразие контекстов (количество уникальных идентификаторов).
    • Анализируется распределение счетчиков (distribution of context counts) для выявления аномалий.
    • Анализируется история распределения (distribution history).
  8. Ранжирование документа: Целевой документ ранжируется на основе результатов анализа. Контексты с аномально высокими счетчиками дисконтируются (их влияние уменьшается), а высокое разнообразие контекстов может повысить оценку.

Какие данные и как использует

Данные на входе

  • Контентные факторы: Критически важным является текст, непосредственно окружающий ссылку (Left/Right Window). Патент также упоминает, что анкорный текст может быть использован для определения контекста, но основное внимание уделяется именно окружающему тексту.
  • Глобальные данные корпуса: Статистика частотности слов во всем индексе (Inverse Document Frequency или аналогичные метрики) необходима для определения "редкости" слов.
  • Временные факторы: История появления ссылок и изменений Context Counts используется для анализа истории распределения (distribution history).

Какие метрики используются и как они считаются

  • Word Rarity (Редкость слова): Определяется с использованием IDF или путем анализа хэш-таблицы с частотностью слов в корпусе. Система может устанавливать порог минимальной частотности, чтобы отсеять не-слова (например, слово должно встретиться минимум 50 раз в корпусе).
  • Context Identifier (Идентификатор контекста): Вычисляется путем применения хеш-функции к комбинации самого редкого слова из левого окна и самого редкого слова из правого окна.
  • Context Count (Счетчик контекста): Простое подсчитывание количества вхождений конкретного Context Identifier.
  • Context Diversity (Разнообразие контекстов): Общее количество уникальных Context Identifiers, связанных с документом.
  • Distribution Analysis (Анализ распределения): Статистический анализ Context Counts для выявления выбросов (outliers). Например, выявление контекста с частотой 10 000 при медиане 10.
  • Historical Distribution Analysis (Анализ истории распределения): Сравнение текущего распределения с предыдущими временными периодами для обнаружения резких изменений.

Выводы

  1. Разнообразие контекстов как сигнал качества: Большое количество уникальных Context Identifiers (высокое разнообразие) является положительным сигналом ранжирования. Это указывает на естественность ссылочного профиля. Разнообразие важнее простого количества ссылок.
  2. Активное противодействие повторяющимся контекстам: Система специально разработана для выявления и дисконтирования (уменьшения влияния) ссылок с идентичным контекстом. Это напрямую направлено против ссылочного спама, Google-бомбинга и шаблонных (сквозных) ссылок.
  3. Критическая важность околоссылочного текста: Текст, окружающий ссылку, используется не только для определения тематической релевантности, но и как ключевой элемент для валидации естественности самой ссылки.
  4. Редкие слова определяют контекст: Контекст ссылки определяется не всеми словами вокруг неё, а наиболее редкими (rare words) в непосредственной близости. Фокус на редких словах позволяет создать точный «отпечаток» контекста и эффективно различать уникальное окружение от шаблонного.
  5. Анализ распределения для выявления аномалий: Google анализирует статистическое распределение контекстов ссылок. Аномально высокая частота одного контекста является триггером для его дисконтирования.
  6. Использование временных данных: Анализ истории распределения контекстов (Distribution History) позволяет системе обнаруживать и реагировать на внезапные манипулятивные кампании.

Практика

Best practices (это мы делаем)

  • Стремиться к контекстуальному линкбилдингу: Приоритет следует отдавать ссылкам, которые естественно интегрированы в тело уникального контента (editorial links). Эти ссылки с наибольшей вероятностью будут иметь уникальный Context Identifier.
  • Обеспечивать разнообразие околоссылочного текста: При проведении аутрич-кампаний или гостевого постинга убедитесь, что ссылки размещаются в разных частях контента и окружены разным текстом. Избегайте шаблонных формулировок при размещении ссылок.
  • Использовать информативные термины рядом со ссылками: Поскольку контекст определяется редкими словами, важно, чтобы текст рядом со ссылкой был насыщенным, релевантным и конкретным, а не общим или «водянистым».
  • Оптимизировать внутреннюю перелинковку: Хотя шаблонные ссылки (меню, футер) необходимы для навигации, для передачи веса наиболее важны внутренние ссылки из основного контента. Старайтесь делать их контекстуальными и разнообразными, избегая повторяющихся блоков ссылок с одинаковым окружением на разных страницах.

Worst practices (это делать не надо)

  • Использование PBN или ссылочных сетей с одинаковыми шаблонами: Если ссылки размещаются в одинаковых местах или в статьях, сгенерированных по одному шаблону (spun content), их околоссылочный текст будет схожим. Это приведет к генерации одинаковых Context Identifiers и последующему дисконтированию.
  • Массовый анкорный спам и Google-бомбинг: Попытки манипулировать выдачей путем создания большого количества ссылок с одинаковым окружением будут обнаружены через анализ распределения Context Counts или Distribution History.
  • Чрезмерное использование сквозных ссылок (Sitewide/Boilerplate): Размещение ссылок в футере или сайдбаре на тысячах страниц. Эти ссылки будут иметь идентичный контекст и аномально высокий Context Count, что приведет к их дисконтированию согласно патенту.
  • Покупка ссылок в шаблонных блоках: Ссылки, размещенные в стандартных блоках (например, «Наши партнеры» или «Спонсоры»), часто имеют повторяющийся контекст и низкую ценность.

Стратегическое значение

Этот патент является одним из фундаментальных документов, описывающих, как Google перешел от простого подсчета ссылок к сложному анализу их качества и естественности. Он подтверждает, что качество интеграции ссылки в контент имеет решающее значение. Стратегически, это означает, что SEO-специалисты должны фокусироваться на получении естественных редакционных ссылок, которые по своей природе обладают высоким разнообразием контекстов. Любые масштабируемые методы линкбилдинга, приводящие к однородности контекстов, несут высокие риски.

Практические примеры

Сценарий 1: Дисконтирование шаблонной ссылки (Сквозная ссылка в футере)

  1. Ситуация: Крупный сайт (100 000 страниц) имеет ссылку на ваш сайт в футере.
  2. Анализ контекста: Текст слева от ссылки всегда "О нас | Контакты |", текст справа всегда "| Политика конфиденциальности | Условия".
  3. Определение Rare Words: Система определяет наиболее редкие слова в этом окружении (например, "Контакты" и "конфиденциальности").
  4. Context Identifier: Создается идентификатор (например, Hash("Контакты"+"конфиденциальности") = 123).
  5. Анализ распределения: Для вашего URL система видит, что идентификатор 123 имеет Context Count = 100 000, в то время как другие контексты имеют счетчики 5-10.
  6. Результат: Идентификатор 123 помечается как аномалия (шаблонная ссылка/boilerplate) и его влияние на ранжирование значительно снижается.

Сценарий 2: Оценка качественной редакционной ссылки

  1. Ситуация: Авторитетный блогер пишет уникальный обзор вашего продукта и ставит ссылку в середине текста.
  2. Анализ контекста: Текст вокруг ссылки: "...тестирование показало впечатляющую производительность. Мы рекомендуем Продукт XYZ для профессионального использования. Перейдем к анализу эргономики..."
  3. Определение Rare Words: Редкие слова (в окне 5 слов) слева — "производительность", справа — "эргономики" (предположим, что это самые редкие слова).
  4. Context Identifier: Создается идентификатор (например, Hash("производительность"+"эргономики") = 456).
  5. Анализ распределения: Этот идентификатор уникален (Context Count = 1).
  6. Результат: Ссылка учитывается с полным весом, так как её контекст уникален. Это увеличивает общее разнообразие контекстов и положительно влияет на ранжирование.

Вопросы и ответы

Как этот патент влияет на ценность сквозных ссылок (из футера или сайдбара)?

Патент напрямую объясняет, почему сквозные (boilerplate) ссылки часто имеют низкую ценность. Так как они расположены в шаблонных блоках, текст слева и справа от них идентичен на всех страницах. Это приводит к генерации одного и того же Context Identifier с очень высоким Context Count. Система идентифицирует это как аномальное распределение и дисконтирует (снижает влияние) этих ссылок.

Означает ли это, что анкорный текст больше не важен?

Нет, анкорный текст по-прежнему важен как сигнал релевантности. Однако этот патент показывает, что Google не полагается исключительно на него. Система валидирует ссылку через анализ окружающего её текста (Left/Right Window), чтобы подтвердить контекст и оценить естественность. Если контекст ссылки признан спамным или шаблонным, даже оптимизированный анкор не поможет.

Как именно определяется "редкое слово" (Rare Word)?

Редкость определяется на основе частоты встречаемости слова во всем корпусе документов (индексе Google). Часто используется метрика Inverse Document Frequency (IDF). Чем реже слово встречается в интернете, тем оно "редче". Патент также упоминает фильтрацию: чтобы считаться "настоящим" словом, оно должно встретиться хотя бы минимальное количество раз (например, 50), чтобы отсеять опечатки или случайные символы.

Что такое Context Identifier и зачем он нужен?

Context Identifier — это, по сути, цифровой отпечаток (фингерпринт) или хеш, созданный из комбинации самых редких слов слева и справа от ссылки. Он позволяет системе быстро и эффективно сравнивать контексты миллионов ссылок. Вместо того чтобы хранить и сравнивать целые предложения, система хранит и сравнивает эти компактные идентификаторы для оценки разнообразия и выявления повторов.

Как этот патент помогает бороться с Google Bombing?

Google Bombing — это скоординированная акция по размещению большого количества ссылок за короткое время. Патент описывает механизм анализа истории распределения контекстов (Distribution History). Внезапное появление тысяч ссылок с одинаковым или похожим контекстом будет обнаружено как временная аномалия, и эти ссылки будут помечены как подозрительные и дисконтированы.

Влияет ли этот механизм на внутреннюю перелинковку?

Да, принципы применимы и к внутренним ссылкам. Если внутренние ссылки размещены в шаблонных блоках навигации или в повторяющихся фрагментах контента, они также могут быть дисконтированы из-за идентичного контекста. Для эффективной внутренней перелинковки рекомендуется размещать контекстные ссылки в уникальном теле документа.

Как SEO-специалист может увеличить разнообразие контекстов входящих ссылок?

Необходимо фокусироваться на получении естественных редакционных ссылок. Когда разные авторы на разных сайтах ссылаются на ваш контент по собственному желанию, они естественным образом используют разный язык и размещают ссылки в разных контекстах. Избегайте методов линкбилдинга, где вы полностью контролируете размещение и окружение ссылки, так как это часто приводит к однообразию.

Может ли этот механизм помочь Google обнаружить PBN или сети сайтов?

Да. Если PBN использует одинаковые шаблоны или структуру контента, ссылки, размещенные в этой сети, могут иметь очень похожие или идентичные Context Identifiers, даже если текст немного отличается. Если система обнаруживает, что множество сайтов генерируют ссылки с одинаковыми контекстами, это может сигнализировать о неестественной связи между ними или об использовании автоматизированных методов размещения.

Как система определяет, что распределение Context Counts является подозрительным?

Система ищет статистические аномалии или выбросы в данных. Например, если документ имеет 5 разных контекстов со следующими счетчиками: 30 000, 15, 8, 5, 3. Контекст со счетчиком 30 000 явно выбивается из общего распределения. Патент предполагает, что такие аномалии часто являются результатом спама или использования шаблонных ссылок, и предлагает снижать их влияние.

Всегда ли размер окна (Window Size) составляет 5 слов?

Патент приводит 5 слов в качестве примера, но также упоминает возможность использования большего или меньшего количества слов (например, 15 слов). Точный размер окна, используемый Google в продакшене, не указан, но принцип остается тем же: анализируется непосредственное окружение ссылки.

Похожие патенты

Как Google использует контент вокруг ссылок (вне анкора) для генерации «Синтетического Описательного Текста» и ранжирования вашего сайта
Google может генерировать «Синтетический Описательный Текст» для страницы, анализируя контент и структуру сайтов, которые на нее ссылаются. Система создает структурные шаблоны для извлечения релевантного текста (например, заголовков или абзацев рядом со ссылкой), который затем используется как мощный сигнал ранжирования. Этот механизм позволяет лучше понять содержание страницы, особенно если традиционный анкорный текст низкого качества или отсутствует.
  • US9208233B1
  • 2015-12-08
  • Ссылки

  • Семантика и интент

  • Индексация

Как Google использует внутренние ссылки и структуру DOM для генерации шаблонов сайта и извлечения структурированных сниппетов
Google анализирует повторяющиеся блоки внутренних ссылок (например, списки товаров). Если текст возле ссылки на исходной странице совпадает с текстом на целевой странице, Google определяет DOM-структуру этого текста и создает шаблон домена. Этот шаблон позволяет автоматически извлекать ключевую информацию (например, цену и характеристики) для сниппетов со всех однотипных страниц сайта, даже без микроразметки.
  • US9971746B2
  • 2018-05-15
  • Структура сайта

  • SERP

  • Ссылки

Как Google извлекает, обрабатывает и индексирует анкорный текст, контекст и атрибуты входящих ссылок для ранжирования целевых страниц
Фундаментальный патент, описывающий инфраструктуру Google для обработки ссылок. Система извлекает анкорный текст, окружающий контекст и атрибуты форматирования (аннотации) из исходных страниц и инвертирует эти данные в структуру "Sorted Anchor Map". Это позволяет индексировать целевую страницу по тексту ссылок, указывающих на нее, используя эту внешнюю информацию как сигнал релевантности.
  • US7308643B1
  • 2007-12-11
  • Ссылки

  • Индексация

  • Техническое SEO

Как Google определяет язык и языковую релевантность страницы, анализируя контекст входящих и исходящих ссылок
Google использует контекст входящих и исходящих ссылок для определения языковой релевантности ресурса. Система анализирует язык анкоров, URL, контент ссылающихся и целевых страниц, а также качество ссылок и тип страницы (например, «языковой шлюз»). Это позволяет точно идентифицировать релевантные языки, даже если на самой странице мало текста.
  • US9098582B1
  • 2015-08-04
  • Ссылки

  • Мультиязычность

  • Семантика и интент

Как Google намеренно задерживает или искажает изменения в ранжировании для выявления SEO-манипуляций
Google использует механизм для борьбы со спамом, который вносит временные задержки и неожиданные колебания в ранжирование документа после изменения его факторов. Вместо немедленного применения нового рейтинга система использует "Функцию перехода ранга". Это делается для того, чтобы запутать спамеров и проанализировать их реакцию на неожиданные изменения (например, падение позиций вместо ожидаемого роста), выявляя таким образом манипуляции.
  • US8244722B1
  • 2012-08-14
  • Антиспам

  • SERP

  • Техническое SEO

Популярные патенты

Как Google решает, показывать ли прямой ответ, анализируя частоту использования естественного языка в исторических запросах о факте
Google анализирует исторические данные о том, как пользователи ищут конкретный факт. Если они часто используют естественный язык (например, «какая высота у Эйфелевой башни»), система считает, что пользователи действительно ищут этот факт. На основе этого рассчитывается «Оценка поиска фактов» (Fact-Seeking Score). Эта оценка используется как сигнал ранжирования, чтобы решить, нужно ли показывать прямой ответ (Factual Answer) и насколько высоко его разместить в результатах поиска.
  • US9396235B1
  • 2016-07-19
  • Семантика и интент

  • SERP

  • Поведенческие сигналы

Как Google автоматически превращает текст на странице в ссылки на результаты поиска для монетизации контента
Патент Google описывает технологию автоматического анализа контента веб-страницы для выявления ключевых тем и терминов. Система генерирует релевантные поисковые запросы и динамически встраивает гиперссылки в текст страницы. При клике пользователь перенаправляется на страницу результатов поиска (SERP). Ключевая особенность: система приоритизирует термины с высоким потенциалом дохода от рекламы.
  • US7788245B1
  • 2010-08-31
  • Ссылки

  • SERP

  • Семантика и интент

Как Google идентифицирует экспертов на основе их активности и позволяет фильтровать выдачу по их контенту
Google использует систему для идентификации людей (членов социальной сети), тесно связанных с темой запроса, на основе их активности (посты, взаимодействия, репосты) и квалификации. Система отображает этих людей в специальных блоках (Display Areas) рядом с результатами поиска, позволяя пользователям просматривать их профили или фильтровать выдачу, чтобы увидеть только контент, созданный, одобренный или прокомментированный этими экспертами.
  • US9244985B1
  • 2016-01-26
  • EEAT и качество

  • Поведенческие сигналы

  • SERP

Как Google генерирует интерактивные и иерархические Sitelinks на основе структуры и популярности разделов сайта
Google анализирует навигационную иерархию сайта (DOM), популярность ссылок и глубину разделов для создания интерактивного представления ресурса (расширенных Sitelinks) в SERP. Это позволяет пользователям просматривать ключевые категории и вложенные ссылки через интерфейс вкладок, не покидая страницу результатов поиска.
  • US9348846B2
  • 2016-05-24
  • Структура сайта

  • SERP

  • Ссылки

Как Google использует контекст и анализ офлайн-поведения (Read Ranking) для соединения физических документов с цифровыми копиями
Система идентифицирует цифровой контент по сканированному фрагменту из физического мира, используя не только текст, но и обширный контекст (время, местоположение, историю пользователя). Патент также вводит концепцию «Read Ranking» — отслеживание популярности физических документов на основе того, что люди сканируют, как потенциальный сигнал ранжирования.
  • US20110295842A1
  • 2011-12-01
  • Поведенческие сигналы

  • Персонализация

  • Семантика и интент

Как Google определяет популярность и ранжирует физические события (концерты, выставки) в локальной выдаче
Google использует специализированную систему для ранжирования физических событий в определенном месте и времени. Система вычисляет оценку популярности события на основе множества сигналов: количества упоминаний в интернете, кликов на официальную страницу, популярности связанных сущностей (артистов, команд), значимости места проведения и присутствия в общих поисковых запросах о событиях. Затем результаты переранжируются для обеспечения разнообразия, понижая схожие события или события одной категории.
  • US9424360B2
  • 2016-08-23
  • Local SEO

  • Поведенческие сигналы

Как Google использует атрибуты пользователей и показатели предвзятости (Bias Measures) для персонализации ранжирования
Google анализирует, как разные группы пользователей (сегментированные по атрибутам, таким как интересы или демография) взаимодействуют с документами. Система вычисляет «показатель предвзятости» (Bias Measure), который показывает, насколько чаще или реже определенная группа взаимодействует с документом по сравнению с общей массой пользователей. При поиске Google определяет атрибуты пользователя и корректирует ранжирование, повышая или понижая документы на основе этих показателей предвзятости.
  • US9436742B1
  • 2016-09-06
  • Персонализация

  • Поведенческие сигналы

  • SERP

Как Google использует машинное обучение и поведенческие данные для прогнозирования полезности документов и решает, что включать в поисковый индекс
Google использует модель машинного обучения для определения, какие документы включать в поисковый индекс. Модель обучается на исторических данных о кликах и показах, чтобы предсказать будущую «оценку полезности» (Utility Score) документа. Документы ранжируются по этой оценке, а также с учетом других факторов (например, PageRank, стоимость индексации, свежесть, квоты), и лучшие из них попадают в индекс.
  • US8255386B1
  • 2012-08-28
  • Индексация

  • Поведенческие сигналы

Как Google использует консенсус анкорных текстов для определения авторитетных источников и проверки фактов в Knowledge Graph
Google определяет, является ли веб-страница авторитетным источником о конкретной сущности (Entity), анализируя все анкорные тексты входящих ссылок. Система находит консенсусное описание (Center of Mass). Если оно совпадает с именем сущности и это имя присутствует в заголовке страницы, документ используется как эталон для проверки (Corroboration) фактов в базе знаний Google (Fact Repository).
  • US9208229B2
  • 2015-12-08
  • Knowledge Graph

  • Ссылки

  • EEAT и качество

Как Google динамически формирует Панели Знаний, выбирая блоки информации на основе истории поисковых запросов пользователей
Google использует гибридный подход для создания структурированных страниц о сущностях (например, Панелей Знаний). Система анализирует исторические данные о том, что пользователи чаще всего ищут об этой сущности или её классе. На основе этого анализа динамически выбираются блоки информации (например, «Награды», «Саундтрек»), которые дополняют стандартный набор данных, позволяя автоматически адаптировать выдачу под актуальные интересы аудитории.
  • US10110701B2
  • 2018-10-23
  • Knowledge Graph

  • Поведенческие сигналы

  • Персонализация

seohardcore