SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google изучает новые слова, сленг и опечатки из поисковых запросов и веб-контента для лучшего понимания текста и URL

METHODS AND SYSTEMS FOR AUGMENTING A TOKEN LEXICON (Методы и системы для дополнения лексикона токенов)
  • US8051096B1
  • Google LLC
  • 2004-09-30
  • 2011-11-01
  • Семантика и интент
  • Индексация
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Google автоматически пополняет свой внутренний словарь (лексикон), анализируя логи поисковых запросов и контент в интернете (включая чаты и мессенджеры). Это позволяет системе выявлять новые термины, аббревиатуры, имена собственные и распространенные опечатки. Дополненный лексикон используется для лучшей сегментации (разбивки на слова) сложных строк без пробелов, например, URL-адресов или слитных запросов.

Описание

Какую проблему решает

Патент решает проблему обработки текстовых строк, в которых отсутствуют явные разделители (пробелы), что затрудняет их сегментацию (segmentation) на отдельные лексические единицы (токены). Это критично для обработки URL-адресов, доменных имен или слитных запросов. Сложность возрастает, когда текст содержит элементы, отсутствующие в стандартных словарях: опечатки, аббревиатуры, сленг, неологизмы или имена собственные.

Что запатентовано

Запатентована система для автоматического дополнения (augmenting) лексикона токенов. Суть изобретения — использование нередактируемых источников данных, таких как логи поисковых запросов (search logs), веб-страницы, диалоги в мессенджерах (instant messaging dialogs) и чатах (chat sessions), для выявления новых или уникальных токенов. Эти токены добавляются в лексикон, что улучшает способность системы распознавать их при парсинге сложных строк.

Как это работает

Система функционирует следующим образом:

  • Сбор данных: Система анализирует логи запросов и интернет-контент.
  • Идентификация и фильтрация: Выявляются потенциальные новые токены. Ключевым фильтром является частота встречаемости (frequency). Если токен появляется достаточно часто (превышает threshold frequency), он считается валидным.
  • Дополнение лексикона: Валидные токены добавляются в базу данных (lexicon data storage). Лексикон может быть онтологией (ontology), где новый токен (например, опечатка) связывается с его корректным или предпочтительным написанием.
  • Применение: При получении новой строки без пробелов (например, URL), система использует дополненный лексикон для её корректной сегментации и интерпретации.

Актуальность для SEO

Средняя/Высокая. Фундаментальная задача адаптации к эволюции языка, новым терминам и опечаткам остается критически важной (Высокая актуальность). Однако конкретные методы реализации, описанные в патенте (подача 2004 г.), вероятно, устарели (Средняя актуальность). Современные NLP-модели (BERT, MUM) используют более продвинутые методы токенизации и векторные представления, но базовые принципы использования пользовательских данных для обучения сохраняются.

Важность для SEO

Влияние на SEO умеренное (5.5/10). Это инфраструктурный патент, описывающий базовые процессы NLP (обработки естественного языка) на этапах Indexing и Query Understanding, а не алгоритмы ранжирования. Он важен для понимания того, как Google учится распознавать новые бренды, терминологию и опечатки, а также как система обрабатывает URL-адреса, но не дает прямых рекомендаций для повышения позиций.

Детальный разбор

Термины и определения

Token (Токен)
Лексическая единица. Может быть словом, акронимом, аббревиатурой, именем собственным, географическим названием, биржевым тикером или другим символьным выражением (включая опечатки).
Lexicon (Лексикон)
База данных или набор идентифицированных токенов. Используется системой для распознавания токенов при парсинге новых строк символов.
Ontology (Онтология)
В контексте патента — продвинутая форма лексикона, где токены связаны с концептами, значениями и другими токенами. Например, опечатка связана с правильным написанием слова.
Segmentation (Сегментация)
Процесс разделения строки символов (особенно без пробелов) на составляющие её токены.
Search Log (Лог поисковых запросов)
Запись поисковых запросов пользователей. Ключевой источник нередактируемых данных для выявления новых токенов и распространенных опечаток.
Internet Article (Интернет-статья)
Источник контента для извлечения токенов. Включает веб-страницы, электронные письма, сообщения мессенджеров (IM), чаты.
Threshold Frequency (Порог частоты)
Минимальное количество раз, которое токен должен появиться в источнике данных, чтобы быть добавленным в лексикон. Служит фильтром от шума.
Segmentation Engine (Механизм сегментации)
Программный компонент, отвечающий за разбор строк и управление лексиконом.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает метод пополнения лексикона на основе поисковых запросов.

  1. Система получает и парсит строку символов без разделителей, выделяя первый токен.
  2. Этот токен ищется в логах ранее полученных поисковых запросов.
  3. Определяется частота (frequency) его появления в логах.
  4. Проверяется, превышает ли частота установленный порог (threshold level).
  5. Если ДА, токен сохраняется в хранилище данных лексикона (lexicon data storage).
  6. Хранилище является онтологией (ontology), которая связывает опечатку (misspelling) или альтернативное написание с правильным или предпочтительным написанием.

Claim 6 (Независимый пункт): Описывает метод пополнения лексикона на основе интернет-контента (internet-accessible article).

  1. Система идентифицирует и парсит строку символов без разделителей в интернет-статье (веб-страница, чат и т.д.).
  2. Определяется частота появления токена (либо внутри статьи, либо по количеству разных статей, где он встречается).
  3. Проверяется, превышает ли частота соответствующий порог.
  4. Если ДА, токен сохраняется в лексиконе (онтологии), где связываются варианты написания.

Claim 11 (Независимый пункт): Описывает процесс пополнения лексикона и его применение для коррекции доменных имен.

  1. Идентифицируется токен (Первый токен) из множества ранее полученных поисковых запросов.
  2. Проверяется, включен ли он уже в лексикон (онтологию) И встречается ли он с частотой выше пороговой.
  3. На основе этой проверки идентифицируется Второй токен, который является правильным или альтернативным написанием Первого токена. (Примечание: В описании патента упоминается использование Spell Checker для этой цели).
  4. Первый токен добавляется в лексикон с ассоциацией ко Второму токену.
  5. Система получает новую строку без разделителей, содержащую доменное имя (domain name).
  6. Часть этой строки сопоставляется с Первым токеном (опечаткой) с помощью лексикона.
  7. Сопоставленная часть заменяется на Второй (исправленный) токен.

Где и как применяется

Изобретение является частью инфраструктуры обработки естественного языка (NLP) и применяется на ранних этапах обработки текста.

INDEXING – Индексирование и извлечение признаков

  • Пополнение лексикона: Анализ сканированного веб-контента (Internet Articles) для выявления новых терминов, сленга, имен собственных.
  • Токенизация контента: Использование дополненного лексикона для корректного разбора текста страниц, особенно UGC (User-Generated Content).
  • Сегментация URL: Разбор URL-адресов на семантические составляющие для извлечения сигналов.

QUNDERSTANDING – Понимание Запросов

  • Пополнение лексикона: Анализ логов поисковых запросов (Search Logs) для выявления распространенных опечаток, аббревиатур и новых запросов.
  • Токенизация и Нормализация запросов: В реальном времени лексикон используется для сегментации слитных запросов и исправления опечаток (замена Токена 1 на Токен 2 согласно онтологии).

Входные данные:

  • Логи поисковых запросов.
  • Интернет-контент (веб-страницы, чаты, IM).
  • Строки без разделителей (URL, доменные имена).

Выходные данные:

  • Дополненный лексикон (Онтология).
  • Сегментированные и нормализованные текстовые строки.

На что влияет

  • Специфические запросы: Улучшает обработку запросов с опечатками, сленгом, новыми брендами и аббревиатурами, а также слитных запросов.
  • Конкретные типы контента: Повышает качество анализа неформального контента (UGC, форумы, чаты).
  • Технические факторы (URL): Напрямую влияет на способность системы сегментировать и понимать семантику URL-адресов (ЧПУ).
  • Конкретные ниши: Влияет на быстро развивающиеся тематики (технологии, развлечения), где постоянно появляется новая лексика.

Когда применяется

  • Дополнение лексикона (Офлайн/Фоновый режим): Происходит постоянно при обработке логов и контента. Триггер для добавления — превышение Threshold Frequency.
  • Применение лексикона (Онлайн): В реальном времени при обработке поискового запроса или при индексировании документа. Также применяется при неудачной попытке разрешить доменное имя (например, при ошибке ввода URL пользователем).

Пошаговый алгоритм

Процесс А: Дополнение Лексикона (Офлайн/Фоновый режим)

  1. Доступ к источникам: Система получает доступ к Search Log или Internet Article.
  2. Идентификация кандидатов: Идентификация строк символов как потенциальных токенов.
  3. Фильтрация по частоте: Подсчет частоты встречаемости кандидата в источнике.
  4. Проверка порога: Сравнение частоты с Threshold Frequency. Токены ниже порога отбрасываются.
  5. Дополнительная фильтрация (Опционально): Проверка минимальной длины или набора символов.
  6. Определение связей (Онтология): Для прошедших фильтрацию токенов определяется корректное написание (например, с помощью Spell Checker).
  7. Добавление в лексикон: Токен добавляется в Lexicon Data Storage с ассоциацией к его корректной версии.

Процесс Б: Применение Лексикона (Онлайн)

  1. Получение строки: Система получает строку без разделителей (например, доменное имя "hoffmanamplifilers").
  2. Сегментация: Segmentation Engine парсит строку, используя дополненный лексикон. Распознает токены "hoffman" и "amplifilers" (если последний был добавлен ранее).
  3. Нормализация (Коррекция): Если распознанный токен имеет ассоциацию в онтологии, система может заменить его. Например, "amplifilers" заменяется на "amplifiers".
  4. Вывод: Предоставление сегментированной и нормализованной строки ("hoffman amplifiers") для дальнейшей обработки.

Какие данные и как использует

Данные на входе

  • Поведенческие факторы (Search Logs): Логи поисковых запросов. Основной источник данных о реальном языке пользователей, включая опечатки и новые слова.
  • Контентные факторы (Internet Articles): Веб-страницы, архивы почтовых рассылок, диалоги в мессенджерах (IM) и чатах. Источник для изучения сленга, имен собственных и уникальной терминологии.
  • Технические факторы: Доменные имена и URL. Выступают как объекты для сегментации и коррекции.

Какие метрики используются и как они считаются

  • Threshold Frequency (Пороговая частота): Ключевая метрика для фильтрации. Токен должен появиться минимальное количество раз в источнике, чтобы быть добавленным в лексикон. Это предотвращает загрязнение лексикона случайными ошибками.
  • Минимальное количество символов: Опциональный фильтр, отсеивающий слишком короткие токены.
  • Набор символов (Character Set): Опциональный фильтр, ограничивающий токены определенным набором символов.
  • Ассоциации в онтологии: Связи между токенами (например, misspelling -> correct spelling). Могут устанавливаться с помощью внешних инструментов, таких как Spell Checker.

Выводы

  1. Динамическая адаптация к языку: Google не полагается на статические словари. Система автоматически и непрерывно изучает язык, анализируя, как люди ищут (Search Logs) и что они пишут в интернете (Web Content, включая чаты и IM).
  2. Частота как валидатор значимости: Система использует частоту встречаемости (Threshold Frequency) как доказательство значимости нового токена или опечатки. Распространенные ошибки будут изучены, а случайные — отфильтрованы.
  3. От токенизации к пониманию (Онтология): Цель не просто распознать токен, но и связать его с правильным написанием или концептом. Система строит онтологию, что является основой для семантического понимания и нормализации текста.
  4. Улучшение обработки URL: Описанный механизм критически важен для сегментации URL-адресов на семантические составляющие (важно для ЧПУ) и для обработки ошибок при вводе доменных имен.
  5. Инфраструктурное значение: Патент описывает фундаментальный механизм обработки языка (NLP), который необходим для корректной работы этапов индексирования и понимания запросов.

Практика

Best practices (это мы делаем)

  • Использование естественного языка и терминологии аудитории: Используйте отраслевой сленг, новые термины или аббревиатуры, если они общеприняты вашей аудиторией. Патент показывает, что Google стремится изучить эти токены через анализ веб-контента и запросов. Если термин часто используется, он попадет в лексикон.
  • Популяризация бренда и новых терминов (Стратегия запуска): Для новых брендов критически важно обеспечить их частое упоминание в интернете и стимулировать поисковые запросы. Это гарантирует, что Google быстро добавит название в свой лексикон (преодолев Threshold Frequency) и научится правильно его распознавать, включая типичные опечатки.
  • Использование ЧПУ (Человекопонятных URL): Патент подтверждает, что Google имеет специальные механизмы (Segmentation Engine) для разбора URL на токены. Использование ЧПУ с ключевыми словами, разделенными дефисами, облегчает этот процесс и позволяет системе корректно извлекать семантические сигналы из адреса страницы.
  • Анализ реальных запросов (GSC): Изучайте отчеты по поисковым запросам, чтобы понять точные формулировки, включая распространенные опечатки. Это подтверждает важность соответствия контента реальному языковому поведению.

Worst practices (это делать не надо)

  • Искусственная оптимизация под опечатки (Misspelling Optimization): Попытки оптимизировать страницы под редкие или искусственные опечатки неэффективны. Система фильтрует токены по частоте. Если опечатка не является распространенной в реальных данных, она не будет добавлена в лексикон.
  • Использование нечитаемых или слитных URL: Использование длинных URL с параметрами или слитное написание слов в URL (например, /brandxamplifiler/ вместо /brandx-amplifier/) затрудняет сегментацию. Не стоит полагаться на то, что Google идеально разберет сложную строку.
  • Игнорирование UGC: Не стоит чрезмерно модерировать пользовательский контент только из-за наличия сленга или опечаток. Этот контент является источником данных для Google, и система способна его интерпретировать.

Стратегическое значение

Патент подтверждает стратегическую важность NLP для Google и его способность динамически адаптироваться к эволюции языка. Для SEO это означает, что долгосрочная стратегия должна фокусироваться на семантической релевантности и точном соответствии лексикону и интенту целевой аудитории. Система стремится понимать естественный язык во всех его проявлениях, включая несовершенства.

Практические примеры

Сценарий 1: Вывод нового бренда на рынок

  1. Задача: Убедиться, что Google быстро распознает новый бренд "XyzWidget" и его частую опечатку "XysWidget".
  2. Действия: Активная PR-кампания для обеспечения упоминаний (Internet Articles) и стимулирование поискового спроса (Search Logs).
  3. Как работает Google: Система видит частое появление "XyzWidget". Частота превышает порог, токен добавляется в лексикон. Затем система фиксирует частую опечатку "XysWidget" в логах. Она также добавляется в лексикон и связывается с правильным написанием "XyzWidget" в онтологии.
  4. Результат: Когда пользователь вводит запрос или URL с опечаткой "XysWidget", Google распознает этот токен и корректно интерпретирует (и, возможно, исправляет) его как "XyzWidget".

Сценарий 2: Сегментация URL (ЧПУ)

  1. Ситуация: Интернет-магазин использует URL /products/brandx-amplifier/.
  2. Как работает механизм: Segmentation Engine получает URL. Даже если рассматривать его как строку без явных пробелов, система использует лексикон, чтобы разбить его на токены "brandx" и "amplifier".
  3. Результат: Google точнее понимает содержание страницы по URL, используя извлеченные токены как семантические сигналы.

Вопросы и ответы

Как система определяет, является ли неизвестное слово новым термином или случайной опечаткой?

Ключевым фактором является частота (Frequency). Система анализирует, как часто этот токен встречается в логах поисковых запросов и в контенте интернета. Если частота превышает установленный порог (Threshold Frequency), система считает токен валидным и добавляет его в лексикон. Случайные однократные опечатки этот порог не преодолеют.

Откуда Google берет данные для изучения новых слов и опечаток?

Патент выделяет два основных источника. Первый — это логи поисковых запросов (Search Logs), отражающие реальное поведение пользователей. Второй — это интернет-контент (Internet Articles), включающий веб-страницы, а также нетрадиционные источники, такие как чаты и мессенджеры, полезные для изучения сленга и имен собственных.

Что такое Лексикон и Онтология в контексте этого патента?

Лексикон (Lexicon) — это база данных известных системе токенов (слов, аббревиатур). Онтология (Ontology) — это более сложная структура, где токены не просто хранятся, но и связаны между собой. Например, в онтологии опечатка "amplifiler" будет связана с правильным словом "amplifier".

Стоит ли оптимизировать сайт под опечатки (misspellings)?

Целенаправленная оптимизация под редкие опечатки неэффективна, так как они не пройдут фильтр частоты. Если же опечатка очень распространена, Google, скорее всего, изучит её и автоматически свяжет с правильным написанием через онтологию. Лучшая стратегия — фокусироваться на правильном написании и естественном языке.

Подтверждает ли этот патент важность использования ЧПУ (человекопонятных URL)?

Да. Патент сфокусирован на сегментации строк без разделителей, и URL являются основным примером. Наличие Segmentation Engine означает, что Google активно пытается разобрать URL на составляющие токены для понимания его смысла. ЧПУ облегчают этот процесс, позволяя системе корректно извлекать семантические сигналы из адреса страницы.

Как этот механизм помогает в E-commerce?

Он помогает системе быстрее изучать и корректно распознавать названия новых брендов, моделей товаров и покупательский сленг. Благодаря этому улучшается обработка запросов по товарам, даже если они содержат ошибки или сокращения. Также это улучшает сегментацию URL карточек товаров.

Влияет ли этот механизм напрямую на ранжирование?

Напрямую нет. Это патент об инфраструктуре (Indexing и Query Understanding). Однако, улучшая понимание запроса — распознавая новые термины и исправляя опечатки — система может точнее определить интент пользователя и подобрать более релевантные документы, что косвенно влияет на качество поиска.

Что происходит, когда я ввожу доменное имя с ошибкой?

Патент описывает сценарий (Claim 11), когда после неудачной попытки разрешить доменное имя система может применить этот механизм. Она возьмет введенную строку (например, "hoffmanamplifilers"), использует дополненный лексикон для её сегментации ("hoffman" + "amplifilers") и исправит её ("hoffman" + "amplifiers"), чтобы предложить пользователю правильный вариант.

Может ли Google научиться понимать сленг из игровых чатов или форумов?

Да. Патент явно упоминает чаты (chat sessions) и диалоги в мессенджерах (instant messaging dialogs) как источники данных. Если определенный сленг используется достаточно часто в доступном для индексации контенте, он будет добавлен в лексикон Google.

Насколько актуальны эти методы, учитывая развитие нейронных сетей типа BERT и MUM?

Современные модели (BERT, MUM) используют более сложные методы понимания языка (например, subword tokenization) и менее зависимы от явных лексиконов в том виде, как описано в патенте 2004 года. Однако базовые задачи — распознавание новых сущностей, обработка опечаток и сегментация URL — остаются актуальными. Вероятно, описанные методы были заменены или дополнены нейросетевыми аналогами, но принципы остались схожими.

Похожие патенты

Как Google использует контекст поисковой сессии для исправления ошибок и уточнения запросов пользователя
Google использует механизм для интеллектуального исправления ошибок в запросах (опечаток или неверно употребленных слов), опираясь на контекст текущей поисковой сессии. Вместо стандартного исправления по словарю, система анализирует предыдущие запросы пользователя, чтобы понять его намерение, и предлагает вариант исправления, который соответствует теме поиска.
  • US7953746B1
  • 2011-05-31
  • Семантика и интент

  • Персонализация

Как Google стандартизирует словоформы в индексе для ускорения поиска и повышения полноты выдачи
Google повышает эффективность поиска, обрабатывая словоформы (например, «голосовать» и «голосование») на этапе индексирования, а не во время выполнения запроса. Система определяет корень слова (стемму), выбирает наиболее частотную «репрезентативную» форму и сохраняет в индексе как исходное слово, так и этот вариант. Это позволяет быстрее находить все релевантные документы без необходимости перебирать варианты слов в момент поиска.
  • US11423029B1
  • 2022-08-23
  • Индексация

Как Google использует контекст запроса для исправления опечаток и понятийных ошибок, анализируя результаты поиска по оставшимся словам
Google использует механизм для исправления сложных, редких или понятийно ошибочных запросов. Если система идентифицирует потенциально неточный термин (опечатку или перепутанное название), она временно удаляет его и выполняет поиск по оставшимся словам. Затем анализируется контент найденных страниц (заголовки, анкоры, URL), чтобы определить правильный термин для замены, обеспечивая релевантную выдачу даже при ошибках пользователя.
  • US8868587B1
  • 2014-10-21
  • Семантика и интент

Как Google генерирует синонимы во время индексации, извлекая числа из токенов и нормализуя слова с префиксами-стоп-словами
Google может генерировать синонимы для слов непосредственно во время индексации документа, чтобы ускорить обработку запросов. Это включает извлечение числовых значений из буквенно-числовых токенов (например, «42» из «e42PC») и нормализацию слов путем удаления префиксов, являющихся стоп-словами (например, артиклей в арабском языке), используя статистические черные списки для предотвращения ошибок. Оба варианта сохраняются в индексе.
  • US8375042B1
  • 2013-02-12
  • Индексация

  • Мультиязычность

Как Google обучается распознавать синонимы, анализируя текст сниппетов в результатах поиска
Google использует текст сниппетов для улучшения систем понимания запросов. Анализируя, какие слова часто появляются в сниппетах релевантных или кликабельных результатов, система выявляет потенциальные синонимы для исходных ключевых слов. Это позволяет автоматически расширять будущие запросы, включая эти синонимы для повышения полноты выдачи.
  • US20140358904A1
  • 2014-12-04
  • Семантика и интент

  • SERP

Популярные патенты

Как Google использует паттерны просмотра пользователей (co-visitation) для определения связанности документов и улучшения поиска
Google использует систему для определения того, насколько тесно связаны два документа, основываясь на агрегированных данных о поведении пользователей. Система рассчитывает вероятность того, что пользователь просмотрит Документ B в течение определенного времени после того, как Документ А был показан ему в результатах поиска. Эти данные используются для персонализации выдачи, предложения рекомендаций и улучшения релевантности на основе контекста сессии пользователя.
  • US8447760B1
  • 2013-05-21
  • Поведенческие сигналы

  • Персонализация

  • Семантика и интент

Как Google алгоритмически определяет и верифицирует языковые версии страниц, анализируя ссылки, контент и частоту обновлений
Google использует систему для автоматической идентификации связанных версий контента (например, переводов). Система анализирует ссылки между страницами и ищет «индикаторы связи» (названия языков в анкорах или флаги). Обнаруженная связь затем верифицируется с помощью машинного перевода и сравнения контента, а также анализа частоты обновлений. Это позволяет Google показывать пользователю наиболее подходящую языковую или региональную версию в поиске.
  • US8892596B1
  • 2014-11-18
  • Мультиязычность

  • Ссылки

  • SERP

Как Google использует данные о кликах разных групп пользователей (популяций) для локализации и персонализации ранжирования
Google адаптирует результаты поиска, анализируя, как разные группы пользователей (популяции), определяемые по местоположению, языку или демографии, взаимодействуют с выдачей. Система рассчитывает «Сигнал Популяции» (Population Signal) на основе исторических кликов группы и корректирует ранжирование. Также используется механизм сглаживания для компенсации нехватки данных по конкретным группам.
  • US7454417B2
  • 2008-11-18
  • Персонализация

  • Поведенческие сигналы

  • SERP

Как Google выбирает каноническую (основную) версию документа, основываясь на авторитетности источника и полноте контента
Google использует систему для выбора канонической (основной) версии документа среди его дубликатов. Система присваивает «приоритет авторитетности» каждой версии, основываясь на источнике (например, официальный издатель) и праве публикации. Основной версией выбирается та, которая имеет высокий авторитет и является полной. При отсутствии идеального варианта выбирается версия с наибольшим объемом информации (например, самая длинная или с наибольшим PageRank).
  • US8095876B1
  • 2012-01-10
  • EEAT и качество

  • Техническое SEO

  • Ссылки

Как Google фильтрует поведенческие сигналы, используя совместимость языков и стран пользователей
Google уточняет ранжирование, анализируя, откуда (страна) и на каком языке (язык пользователя) поступали исторические клики по документу. Если эти характеристики считаются «несовместимыми» с текущим пользователем, поведенческие сигналы (клики) от этих групп могут быть исключены или понижены в весе. Это предотвращает искажение релевантности данными от кардинально отличающихся аудиторий.
  • US8498974B1
  • 2013-07-30
  • Поведенческие сигналы

  • Мультиязычность

  • Персонализация

Как Google снижает влияние ссылок с аффилированных сайтов и PBN для борьбы с манипуляциями в ранжировании
Патент Google описывает систему ранжирования, которая идентифицирует группы сайтов под общим контролем (аффилированные узлы или PBN). Система резко снижает вес ссылок внутри такой группы и ограничивает общее влияние группы на другие сайты, учитывая только одну, самую сильную ссылку от всей группы. Также описывается механизм "Доверенных авторитетов", чьи ссылки передают максимальный вес независимо от количества исходящих ссылок.
  • US8719276B1
  • 2014-05-06
  • Антиспам

  • Ссылки

  • Техническое SEO

Как Google алгоритмически вычисляет и ранжирует экспертов по темам на основе анализа их контента
Google использует систему для автоматического определения экспертности авторов (Identities) в конкретных темах (Topics). Система анализирует корпус документов, оценивая, насколько сильно автор связан с документом (Identity Score) и насколько документ релевантен теме (Topic Score). Эти оценки перемножаются и суммируются по всем документам, формируя итоговый рейтинг экспертности автора в данной области.
  • US8892549B1
  • 2014-11-18
  • EEAT и качество

  • Семантика и интент

Как Google использует нормализованные сигналы удовлетворенности пользователей для переранжирования выдачи и управления краулингом/индексацией
Google анализирует вовлеченность пользователей (полезность), сравнивая фактическую удовлетворенность (Good Utilization Events) с ожидаемой вовлеченностью для данной позиции ранжирования. На основе этого рассчитывается Correction Factor для повышения документов, превосходящих ожидания, и понижения тех, которые им не соответствуют. Эта система также влияет на приоритеты сканирования и решения об индексации.
  • US9223897B1
  • 2015-12-29
  • Поведенческие сигналы

  • Индексация

  • Техническое SEO

Как Google использует время просмотра (Watch Time) и поведение пользователей для расчета независимой от запроса оценки качества видео
Google рассчитывает независимый от запроса сигнал качества (Q) для видео, анализируя корреляции между поведенческими метриками: временем просмотра, рейтингами и количеством просмотров. Система использует математические функции (Predictor и Voting) для моделирования качества и определения достоверности данных, а также активно фильтрует спам в рейтингах. Этот сигнал Q затем используется для ранжирования видео в поиске.
  • US8903812B1
  • 2014-12-02
  • Поведенческие сигналы

  • SERP

  • Антиспам

Как Google ранжирует и рекомендует источники контента (каналы, профили) на основе внутренних ссылок, аннотаций и кликов по ним
Google использует механизм для ранжирования и рекомендации источников контента (например, YouTube-каналов или профилей) внутри платформ. Система анализирует, как часто источник упоминается в аннотациях, описаниях и комментариях к контенту, который просматривал пользователь. Ключевым фактором ранжирования является не только количество упоминаний, но и общее число кликов (активаций) по этим ссылкам.
  • US9235625B2
  • 2016-01-12
  • Ссылки

  • Поведенческие сигналы

  • Мультимедиа

seohardcore