SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google автоматически выявляет новые термины и классифицирует их по темам для создания специализированных словарей

DOMAIN DICTIONARY CREATION BY DETECTION OF NEW TOPIC WORDS USING DIVERGENCE VALUE COMPARISON (Создание доменных словарей путем обнаружения новых тематических слов с использованием сравнения значений дивергенции)
  • US7983902B2
  • Google LLC
  • 2007-08-23
  • 2011-07-19
  • Семантика и интент
  • Мультиязычность
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Google использует статистические методы для обновления языковых моделей. Система обнаруживает новые слова и фразы, анализируя снижение энтропии (неопределенности) в текстах. Затем она определяет тематику этих слов, сравнивая частоту их употребления в конкретной теме с частотой в общем корпусе (анализ дивергенции). Это позволяет автоматически создавать специализированные "доменные словари" для лучшего понимания контента.

Описание

Какую проблему решает

Патент решает две взаимосвязанные задачи в области обработки естественного языка (NLP):

  1. Обнаружение новых слов (New Word Detection): Как автоматически идентифицировать новые слова, фразы или термины, появляющиеся в языке, особенно в языках без пробелов (например, китайском), где сложно определить границы слов.
  2. Создание доменных словарей (Domain Dictionary Creation): Как автоматически классифицировать слова (как новые, так и существующие) по конкретным тематическим областям (доменам) для повышения точности языковых моделей, машинного перевода и систем ввода текста (IME).

Система направлена на улучшение понимания языка путем статистического определения того, какие термины являются специфичными для определенных тем.

Что запатентовано

Запатентована система автоматического обновления тематических (доменных) словарей. Изобретение включает механизм для идентификации Topic Words (слов, определяющих тему) с использованием статистического показателя, называемого Divergence Value (Значение дивергенции). Система сравнивает распределение слова в тематическом корпусе документов с его распределением в общем корпусе. Если значение дивергенции кандидата превышает пороговое значение, установленное на основе уже известных тематических слов, кандидат добавляется в соответствующий доменный словарь. Также описан механизм обнаружения новых слов с использованием анализа Энтропии (Information Gain).

Как это работает

Система работает в несколько этапов:

  • Кластеризация документов: Документы из общего корпуса классифицируются по темам (например, с использованием TF-IDF и K-means) для создания тематических корпусов (Topic Document Corpus).
  • Обнаружение новых слов (Опционально): Система может идентифицировать новые слова в корпусе, используя анализ снижения энтропии (Entropy) или Information Gain. Если включение последовательности символов как нового слова снижает общую неопределенность языковой модели, она признается словом.
  • Установка порога дивергенции: Система анализирует слова, уже находящиеся в доменном словаре, и вычисляет их Divergence Value — меру того, насколько частота слова в теме отличается от частоты в общем корпусе. На основе этих значений устанавливается пороговое значение (Topic Divergence Value).
  • Оценка кандидатов: Для слова-кандидата (нового или существующего, но не классифицированного) вычисляется его Candidate Topic Word Divergence Value.
  • Классификация: Если значение дивергенции кандидата превышает пороговое значение, он идентифицируется как Topic Word и добавляется в доменный словарь.

Актуальность для SEO

Высокая. Понимание тематической специфичности слов и идентификация сущностей являются ядром современных поисковых систем. Методы, описанные в патенте (анализ энтропии и дивергенции), лежат в основе того, как Google строит языковые модели, понимает контекст и определяет тематическую авторитетность. Автоматическое выявление новой терминологии и ее классификация критически важны для поддержания актуальности поиска.

Важность для SEO

Патент имеет высокое стратегическое значение для SEO (8/10). Он описывает конкретные статистические механизмы, которые Google может использовать для определения того, какие слова и фразы являются определяющими для конкретной темы или ниши. Это напрямую влияет на оценку релевантности и тематического авторитета (Topical Authority). Понимание концепции Divergence Value подчеркивает важность использования точной, специфичной для отрасли терминологии (включая жаргон и новые термины) для ранжирования в специализированных нишах.

Детальный разбор

Термины и определения

Candidate Topic Word (Слово-кандидат в тему)
Слово (новое или существующее), которое еще не включено в тематический словарь данной темы и оценивается на предмет принадлежности к ней.
Candidate Topic Word Divergence Value (Значение дивергенции слова-кандидата)
Статистическая мера (R), рассчитываемая для слова-кандидата. Показывает, насколько распределение этого слова в тематическом корпусе отличается от его распределения в общем корпусе.
Centroid (Центроид)
Вектор, представляющий центр кластера документов в тематическом пространстве. Используется в процессе кластеризации для определения принадлежности документа к теме.
Development Corpus (Корпус разработки)
Часть корпуса текстов, используемая для оценки качества языковой модели и подсчета фактических частот (D(w)) при обнаружении новых слов.
Divergence Value (Значение дивергенции)
Общий термин для статистической меры, используемой для определения тематичности слова. Основан на соотношении вероятности слова в теме (Pd(w)) к вероятности слова в общем корпусе (P(w)).
Domain Dictionary / Topic Dictionary (Доменный/Тематический словарь)
Специализированный словарь, содержащий слова и фразы, относящиеся к определенной теме (например, словарь спортивных терминов).
Entropy (Энтропия)
Мера неопределенности в корпусе текстов. Используется для обнаружения новых слов: если добавление нового слова в модель снижает энтропию, это указывает на его значимость.
Information Gain (IG) (Прирост информации)
Величина, на которую снижается энтропия при внесении изменений в модель (например, при добавлении нового слова). Связан с концепцией Энтропии.
New Word (Новое слово)
Последовательность символов или существующих слов, которая статистически ведет себя как единая лексическая единица (слово) и ранее не была известна системе.
TF-IDF (Term Frequency/Inverse Document Frequency)
Статистическая мера, используемая для оценки важности слова в контексте документа. Используется для создания векторов документов при кластеризации.
Topic Divergence Value (Пороговое значение дивергенции темы)
Пороговое значение (S или T), основанное на значениях дивергенции уже известных тематических слов. Используется как эталон для оценки кандидатов.
Topic Document Corpus (Тематический корпус документов)
Набор документов из общего корпуса, которые были классифицированы как относящиеся к определенной теме.
Training Corpus (Обучающий корпус)
Часть корпуса текстов, используемая для построения языковой модели и расчета базовых вероятностей слов (P(w)).

Ключевые утверждения (Анализ Claims)

Патент охватывает два основных процесса: создание доменных словарей (основной фокус Claims) и обнаружение новых слов (описанное как метод генерации кандидатов).

Claim 1 (Независимый пункт): Описывает основной процесс создания доменного словаря.

  1. Система определяет Topic Divergence Value (пороговое значение S). Это значение пропорционально отношению распределения известного тематического слова в Topic Document Corpus к его распределению в общем Document Corpus.
  2. Система определяет Candidate Topic Word Divergence Value (значение R) для слова-кандидата. Кандидат определяется как слово, которое еще *не* находится в тематическом словаре данной темы.
  3. Система определяет, является ли кандидат New Topic Word, основываясь на сравнении R и S.

Claim 3 (Зависимый от 1): Уточняет, как рассчитывается пороговое значение (S).

  1. Выбираются существующие тематические слова.
  2. Для каждого из них рассчитывается индивидуальное значение дивергенции (Q).
  3. Пороговое значение (S) определяется на основе центральной тенденции (например, среднего значения) этих индивидуальных значений Q.

Claim 5 (Зависимый от 1): Уточняет условие принятия решения. Кандидат признается новым тематическим словом, если его значение дивергенции (R) больше порогового значения (S).

Claim 8 (Зависимый от 1): Включает механизм обнаружения новых слов как способ получения кандидатов для Claim 1.

  1. Определяются частоты слов в Training Corpus и Development Corpus.
  2. Рассчитывается мера энтропии для кандидата (Candidate Word Entropy Measure).
  3. Рассчитывается мера энтропии для существующих слов, составляющих кандидата (Existing Word Entropy Measure).
  4. Если мера энтропии кандидата превышает меру энтропии существующих слов (что указывает на снижение общей энтропии системы при принятии кандидата как слова), кандидат определяется как Candidate Topic Word (т.е. новое слово, готовое к классификации).

Где и как применяется

Изобретение относится к фундаментальным процессам обработки языка и построения языковых моделей.

INDEXING – Индексирование и извлечение признаков
Основной этап применения. В ходе индексирования контента система выполняет несколько ключевых задач, описанных в патенте:

  1. Сегментация и обнаружение новых слов: Анализ контента для определения границ слов (особенно в языках без пробелов) и выявление новой терминологии с использованием анализа энтропии.
  2. Кластеризация контента: Анализ документов и их группировка по темам (создание Topic Document Corpus). Это включает расчет TF-IDF и определение центроидов тем.
  3. Построение языковых моделей и словарей: Расчет вероятностей слов в общем и тематических корпусах. Вычисление Divergence Values и автоматическое обновление Domain Dictionaries.

QUNDERSTANDING – Понимание Запросов
Результаты работы системы (обновленные доменные словари) используются на этом этапе. Когда пользователь вводит запрос, система использует эти словари для лучшего понимания интента и тематики запроса, особенно если он содержит новую или узкоспециализированную терминологию.

Входные данные:

  • Общий корпус документов (Word Corpus / Document Corpus).
  • Существующие словари (включая базовые и тематические).

Выходные данные:

  • Идентифицированные новые слова.
  • Обновленные и расширенные тематические словари (Domain Dictionaries).
  • Языковые модели с обновленными вероятностями слов.

На что влияет

  • Конкретные ниши или тематики: Наибольшее влияние оказывается на специализированные ниши (медицина, финансы, технологии, спорт), где часто используется специфическая терминология и появляются новые термины (например, YMYL-тематики).
  • Типы контента: Влияет на анализ любого текстового контента, особенно на контент, богатый терминологией (статьи, обзоры, техническая документация).
  • Языковые ограничения: Особое внимание уделяется языкам без явных разделителей слов (китайский, японский, корейский), но механизмы обнаружения новых терминов и тематической классификации применимы ко всем языкам, включая русский и английский.

Когда применяется

  • Триггеры активации (Обнаружение новых слов): Активируется, когда система обрабатывает новый контент и встречает последовательности символов/слов, которые могут образовывать новую лексическую единицу. Критерий активации — потенциальное снижение энтропии (Information Gain).
  • Триггеры активации (Тематическая классификация): Активируется для слов-кандидатов (новых или неклассифицированных). Критерий активации — превышение порога Divergence Value для конкретной темы.
  • Временные рамки: Процессы выполняются офлайн или в ходе регулярного обновления индексов и языковых моделей (ежедневно, еженедельно).

Пошаговый алгоритм

Система состоит из двух основных процессов.

Процесс А: Обнаружение новых слов (New Word Detection)

  1. Подготовка данных: Разделение корпуса на Training Corpus (для расчета вероятностей P) и Development Corpus (для подсчета фактических вхождений D).
  2. Построение языковой модели: Обучение языковой модели (например, N-gram) на Training Corpus для получения базовых вероятностей слов.
  3. Идентификация кандидата: Выбор последовательности существующих слов (например, x и y) в качестве кандидата в новое слово (x,y).
  4. Сбор статистики: Подсчет вхождений кандидата D(x,y) и его составляющих D(x), D(y) в Development Corpus. Получение вероятностей P(x,y), P(x), P(y) из Training Corpus.
  5. Расчет первой меры энтропии (V1): Вычисление значения, связанного с энтропией, если (x,y) считается единым словом.
  6. Расчет второй меры энтропии (V2): Вычисление значения, связанного с энтропией, если x и y считаются отдельными словами (с учетом корректировки вероятностей).
  7. Сравнение и принятие решения: Сравнение V1 и V2. Если V1 > V2 (что эквивалентно снижению общей энтропии H' < H), кандидат (x,y) признается новым словом.

Процесс Б: Создание доменных словарей (Topic Word Identification)

  1. Кластеризация документов: Группировка документов из общего корпуса в тематические кластеры (например, с использованием итеративного процесса K-means с TF-IDF векторами и центроидами). Создание Topic Document Corpus для каждой темы.
  2. Выбор эталонных слов: Выбор существующих слов из тематического словаря.
  3. Расчет эталонных дивергенций (Q): Для каждого эталонного слова (w) вычисление его Divergence Value (Q) на основе его вероятности в теме (Pd(w)) и в общем корпусе (P(w)).
  4. Определение порога (S): Вычисление центральной тенденции (например, среднего) значений Q для определения порогового значения темы (Topic Divergence Value, S).
  5. Выбор кандидата: Выбор слова-кандидата (Wc), который еще не находится в словаре этой темы (может быть словом из Процесса А).
  6. Расчет дивергенции кандидата (R): Вычисление Divergence Value (R) для кандидата на основе Pd(Wc) и P(Wc).
  7. Сравнение и классификация: Сравнение R и S. Если R > S (или масштабированного порога T), кандидат Wc признается тематическим словом и добавляется в словарь.

Какие данные и как использует

Данные на входе

Патент фокусируется исключительно на статистическом анализе текстовых данных.

  • Контентные факторы: Используются частоты слов (word frequencies) и последовательности слов (N-grams) в больших корпусах текстов (веб-документы, электронные коммуникации, логи запросов). Анализируется совместная встречаемость слов.

Другие типы факторов (ссылочные, поведенческие, технические и т.д.) в данном патенте не упоминаются.

Какие метрики используются и как они считаются

Система использует метрики из теории информации и статистики.

Метрики для обнаружения новых слов:

  • P(w) (Probability): Вероятность слова в Training Corpus.
  • D(w) (Count): Количество вхождений слова в Development Corpus.
  • Entropy (H) (Энтропия): Мера неопределенности корпуса. Формула:

Выводы

  1. Автоматическое расширение лексикона: Google использует статистические методы (анализ энтропии и Information Gain) для автоматического обнаружения новых слов и фраз, которые ведут себя как единое целое. Это позволяет системе адаптироваться к изменениям в языке без ручного вмешательства.
  2. Тематичность определяется через дивергенцию: Ключевой вывод патента — слово принадлежит к теме не потому, что оно часто используется, а потому, что его использование в этой теме непропорционально выше, чем в общем корпусе. Метрика Divergence Value математически фиксирует эту разницу в распределении.
  3. Существование "Доменных словарей": Патент прямо указывает на создание и поддержку специализированных Domain Dictionaries. Это подтверждает, что Google имеет списки терминов, которые он считает определяющими для различных ниш.
  4. Статистический порог для авторитетности: Чтобы слово было признано тематическим, оно должно преодолеть порог (Topic Divergence Value), установленный на основе уже известных авторитетных терминов в этой области. Это создает статистический барьер для включения общих или нерелевантных слов.
  5. Фундаментальная роль кластеризации контента: Процесс зависит от способности системы предварительно кластеризировать документы по темам (используя TF-IDF, центроиды). Качество этой кластеризации напрямую влияет на качество создаваемых словарей.

Практика

Best practices (это мы делаем)

  • Использование точной, доменной терминологии: Необходимо использовать специфическую лексику, жаргон и точные названия сущностей, характерные для вашей ниши. Концепция Divergence Value показывает, что система ищет слова, которые непропорционально часто встречаются в вашей теме по сравнению с общим вебом. Если вы говорите о финансах, используйте "Нетрадиционные акции" (Non-tradable shares), а не просто "акции".
  • Быстрое принятие новой терминологии: Так как система автоматически обнаруживает новые слова (New Word Detection), важно отслеживать и оперативно внедрять в контент новую терминологию, появляющуюся в вашей отрасли. Это позволит вашему сайту стать частью тематического корпуса, на котором система обучается.
  • Обеспечение консистентности фраз (Phrase Consistency): Механизм обнаружения новых слов на основе энтропии лучше работает, когда фразы используются консистентно. Если определенный термин состоит из нескольких слов, старайтесь использовать его в устоявшейся форме, чтобы система распознала его как единую лексическую единицу.
  • Глубокое погружение в тему (Topical Depth): Создавайте контент, который охватывает весь спектр терминологии в нише. Чем больше специфических терминов (которые могут быть классифицированы как Topic Words) вы используете естественно в контексте, тем выше вероятность того, что ваш контент будет признан тематически релевантным.

Worst practices (это делать не надо)

  • Использование слишком общего языка: Написание контента на общие темы с использованием общеупотребительной лексики не поможет системе классифицировать ваш сайт как экспертный в узкой нише. Общие слова имеют низкое значение Divergence Value для специализированных тем.
  • Искусственное насыщение терминами (Keyword Stuffing): Попытки манипулировать частотой терминов могут быть неэффективны. Система использует вероятностные модели и сравнивает распределения (Divergence), а не просто сырые частоты. Неестественное распределение терминов вряд ли будет соответствовать распределению в авторитетном тематическом корпусе.
  • Игнорирование специфики языка: Недооценка того, как система может объединять слова в новые термины (анализ энтропии). Например, игнорирование устоявшихся словосочетаний в пользу отдельных ключевых слов может привести к тому, что система не распознает ключевые концепции.

Стратегическое значение

Этот патент подтверждает стратегический курс Google на глубокое понимание контента через статистический анализ языка и тематическую классификацию. Для SEO-специалистов это означает, что построение Тематического Авторитета (Topical Authority) требует не просто большого количества контента, но и использования правильного, специфического языка, который соответствует Domain Dictionaries Google. Стратегия контента должна быть направлена на демонстрацию экспертности через лексику, соответствующую ожиданиям системы для данной ниши.

Практические примеры

Сценарий: Классификация термина в финансовой нише

  1. Задача: Определить, является ли термин "Антидемпинг" (Anti-dumping) финансовым термином.
  2. Кластеризация: Google уже имеет кластер финансовых документов (Topic Document Corpus) и общий корпус (Document Corpus).
  3. Установка порога (S): Google анализирует существующие финансовые термины, например, "Чистая прибыль" (Net profit) и "ФРС" (FED). Он вычисляет их Divergence Values (Q) и устанавливает средний порог S=5.0 (условное значение).
  4. Анализ кандидата (R): Система анализирует "Антидемпинг". Она обнаруживает, что он часто встречается в финансовом корпусе (Высокий Pd(w)), но относительно редко в общем корпусе (Низкий P(w)).
  5. Расчет: Вычисляется Divergence Value (R) для "Антидемпинг", например, R=6.2.
  6. Результат: Так как R (6.2) > S (5.0), термин "Антидемпинг" классифицируется как финансовый термин и добавляется в финансовый Domain Dictionary. Сайты, использующие этот термин в правильном контексте, получат преимущество в релевантности по финансовым запросам.

Вопросы и ответы

Что такое "Divergence Value" простыми словами и почему это важно для SEO?

Divergence Value — это показатель того, насколько слово является "специализированным" для определенной темы. Он растет, если слово часто встречается в документах по этой теме и одновременно редко встречается в интернете в целом. Для SEO это критически важно, так как показывает, что для доказательства экспертности в нише нужно использовать именно ту лексику, которая имеет высокое значение дивергенции для этой ниши, а не общеупотребительные слова.

Патент говорит о "Domain Dictionaries". Значит ли это, что у Google есть фиксированные списки ключевых слов для каждой темы?

Да, патент описывает процесс автоматического создания и обновления таких списков (Domain Dictionaries или Topic Dictionaries). Это не фиксированные списки, составленные вручную, а динамически обновляемые наборы терминов, которые статистически определены как принадлежащие к определенной теме. Задача SEO-специалиста — убедиться, что контент сайта использует лексику из соответствующего доменного словаря.

Как работает механизм обнаружения новых слов на основе энтропии?

Энтропия — это мера неопределенности. Система анализирует корпус текста. Если рассмотрение последовательности слов (например, "apple" и "pie") как единого термина ("apple pie") снижает общую неопределенность (энтропию) языковой модели, значит, эта последовательность несет дополнительную информацию и является самостоятельной лексической единицей (новым словом или термином). Это позволяет системе автоматически выявлять устоявшиеся словосочетания и новые понятия.

Применяется ли этот патент только к языкам без пробелов, таким как китайский?

Хотя патент упоминает языки без пробелов как основной пример сложности при сегментации слов, описанные механизмы универсальны. Обнаружение новых терминов (например, новых названий брендов, технологий или устоявшихся фраз) и их тематическая классификация с помощью Divergence Value применимы ко всем языкам, включая русский и английский.

Как я могу использовать концепцию дивергенции для улучшения своего контента?

Сосредоточьтесь на использовании точной, специфичной для отрасли терминологии. Изучите язык, который используют эксперты и авторитетные источники в вашей нише. Вместо общих фраз используйте специализированные термины, жаргон и точные названия сущностей. Это повысит вероятность того, что система идентифицирует ваш контент как высокорелевантный для данной темы, так как ваша лексика будет иметь высокое значение дивергенции.

Что такое кластеризация документов, упомянутая в патенте, и как она влияет на процесс?

Кластеризация — это процесс группировки документов по темам (например, с использованием TF-IDF и K-means). Это первый шаг в создании доменных словарей. Система должна сначала определить, какие документы относятся к теме (создать Topic Document Corpus), чтобы затем проанализировать, какие слова используются в этих документах. Качество этой предварительной кластеризации напрямую влияет на точность определения тематических слов.

Как система определяет порог (Threshold) для включения слова в тематический словарь?

Система не использует фиксированный порог. Она берет слова, которые уже находятся в тематическом словаре (эталонные слова), вычисляет их индивидуальные значения дивергенции (Q), а затем определяет центральную тенденцию (например, среднее значение) этих показателей. Это среднее значение (S) становится порогом, который должен преодолеть кандидат, чтобы быть включенным в словарь.

Может ли слово принадлежать к нескольким доменным словарям?

Патент не исключает этого. Процесс оценки Divergence Value выполняется для каждой темы отдельно. Если слово имеет достаточно высокое значение дивергенции для нескольких тем (например, слово "Суд" может иметь высокое значение как для темы "Юриспруденция", так и для темы "Новости"), оно может быть включено в несколько доменных словарей.

Как этот патент связан с концепцией E-E-A-T?

Он предоставляет один из технических механизмов для оценки Экспертизы (Expertise). Использование точной, доменной терминологии, которая соответствует Domain Dictionaries Google, является сильным сигналом наличия экспертизы в данной области. Если лексика сайта слишком общая (низкая дивергенция), это может указывать на недостаток глубины и экспертизы.

Стоит ли мне специально оптимизировать текст под снижение энтропии?

Специально оптимизировать под энтропию сложно, но можно следовать лучшим практикам: использовать устоявшиеся словосочетания консистентно, не разбивать термины, состоящие из нескольких слов, без необходимости. Это поможет системе правильно идентифицировать ключевые фразы и сущности в вашем тексте как единое целое.

Похожие патенты

Как Google вычисляет схожесть документов, используя значимость слов, их описательность и распознавание фраз
Google использует алгоритм для определения схожести документов, который превосходит традиционный TF-IDF. Система вычисляет Оценку Значимости (Prominence Score) и Оценку Описательности (Descriptiveness Score) для отдельных слов и фраз. Учитывается, где именно на странице расположены термины и насколько информативными они являются в целом. Это позволяет точнее определять релевантность и тематическую близость контента.
  • US7958136B1
  • 2011-06-07
  • Семантика и интент

Как Google использует гибридную классификацию и данные о кликах пользователей для точного определения тематики контента
Google использует многоэтапный процесс для классификации контента в детальные иерархические категории. Система комбинирует традиционные методы классификации с анализом поисковых запросов и кликов пользователей (подтвержденных результатов поиска). Это позволяет точно определить узкоспециализированную тематику документа, фильтруя нерелевантные категории и взвешивая релевантность на основе TF-IDF и глубины иерархии.
  • US8145636B1
  • 2012-03-27
  • Семантика и интент

  • Поведенческие сигналы

Как Google использует оценку новизны (Novelty Score) для ранжирования новостей и блогов, отдавая приоритет первоисточникам
Google анализирует темпоральную последовательность документов (например, новости по одной теме) для выявления нового контента. Система идентифицирует «информационные фрагменты» (сущности, факты) и их взаимодействия. Документы, которые первыми вводят важные фрагменты или значительно дополняют существующие, получают более высокую оценку новизны (Novelty Score) и ранжируются выше, вытесняя вторичный контент.
  • US7451120B1
  • 2008-11-11
  • Свежесть контента

  • SERP

  • Семантика и интент

Как Google извлекает ключевые концепции и сущности, анализируя контекст вокруг повторяющихся цитат и отрывков текста
Google анализирует, как одни и те же отрывки текста (например, цитаты) используются в разных документах. Система собирает весь окружающий текст (контекст) вокруг каждого вхождения отрывка и использует статистический анализ (например, TF-IDF), чтобы определить ключевые термины, сущности и концепции, связанные с этим отрывком. Это позволяет связывать документы по смыслу и улучшать навигацию.
  • US9323827B2
  • 2016-04-26
  • Семантика и интент

  • Индексация

  • Knowledge Graph

Как Google анализирует мнения и общественное восприятие тем в интернете путем кластеризации контента и измерения тональности
Патент описывает систему для анализа общественного мнения по заданной теме. Google собирает релевантные интернет-ресурсы (статьи, блоги, отзывы), группирует их по подтемам, определяет важность каждой подтемы (используя просмотры страниц и ранг релевантности) и вычисляет оценку тональности (Sentiment Score). На основе этих данных создается аналитический отчет о восприятии продукта, услуги или события.
  • US8423551B1
  • 2013-04-16
  • Семантика и интент

Популярные патенты

Как Google использует структуру сайта и анкорные тексты для извлечения Сущностей из шумных заголовков (Title)
Google использует метод для точного определения основного объекта (Сущности) веб-страницы, когда заголовок (Title) содержит лишнюю информацию (брендинг, рубрики). Система анализирует заголовки похожих страниц на том же сайте (Peer Documents) и анкорные тексты, ссылающиеся на них. Выявляя повторяющиеся шаблоны (префиксы и суффиксы) в заголовках, Google отделяет название Сущности от шума.
  • US7590628B2
  • 2009-09-15
  • Семантика и интент

  • Структура сайта

  • Ссылки

Как Google выбирает модель визуальной релевантности для сложных запросов в Поиске по картинкам
Google решает проблему ранжирования изображений для сложных или редких запросов, для которых нет специализированной модели релевантности. Система тестирует существующие модели, созданные для частей запроса (подзапросов), и выбирает ту, которая лучше всего соответствует поведению пользователей (кликам) по исходному запросу. Это позволяет улучшить визуальную релевантность в Image Search.
  • US9152652B2
  • 2015-10-06
  • Поведенческие сигналы

  • Мультимедиа

  • Семантика и интент

Как Google объединяет разные стратегии и поведенческие данные для генерации и выбора лучших альтернативных запросов
Google использует архитектуру, которая одновременно применяет множество стратегий (расширение, уточнение, синтаксис, анализ сессий) для генерации альтернативных запросов. Система оценивает качество этих вариантов с помощью показателей уверенности, основанных на поведении пользователей (например, длительности кликов) и критериях разнообразия. Лучшие альтернативы предлагаются пользователю, часто с превью результатов, чтобы помочь уточнить поиск.
  • US7565345B2
  • 2009-07-21
  • Поведенческие сигналы

  • SERP

Как Google генерирует «синтетический анкорный текст», анализируя структуру и контекст ссылающихся страниц
Google анализирует структурно похожие страницы, ссылающиеся на различные ресурсы. Определяя, где известные поисковые запросы (Seed Queries) появляются в структуре этих ссылающихся страниц (например, в заголовках или Title), Google создает шаблоны. Эти шаблоны затем используются для извлечения текста из аналогичных мест на других страницах, создавая «синтетический описательный текст» (аналог анкорного текста) для целевых ресурсов. Это улучшает ранжирование, даже если фактический анкорный текст низкого качества.
  • US9208232B1
  • 2015-12-08
  • Ссылки

  • Структура сайта

  • Семантика и интент

Как Google персонализирует поисковую выдачу, анализируя историю кликов и поведение пользователя на сайте
Google использует механизм для персонализации поисковой выдачи на основе истории взаимодействия пользователя с результатами поиска. Система отслеживает, какие сайты пользователь выбирает, как долго он на них остается (Dwell Time), частоту и контекст выбора. Основываясь на этих данных, предпочитаемые пользователем ресурсы повышаются в ранжировании при его последующих запросах.
  • US9037581B1
  • 2015-05-19
  • Персонализация

  • Поведенческие сигналы

  • SERP

Как Google использует вероятностные модели и анализ пользовательского выбора (кликов) для обучения систем ранжирования
Патент Google описывает метод эффективного ранжирования контента (видео или результатов поиска) с использованием парных сравнений. Система моделирует качество как вероятностное распределение и оптимизирует сбор данных. Этот механизм может применяться для интерпретации кликов в поисковой выдаче как сигналов предпочтения, учитывая позицию результата и доверие к пользователю.
  • US8688716B1
  • 2014-04-01
  • SERP

  • Поведенческие сигналы

Как Google автоматически определяет связанные домены (например, международные версии сайта) и переранжирует их для повышения локальной релевантности и разнообразия выдачи
Google использует автоматическую систему для идентификации доменов, принадлежащих одной организации (аффилированных доменов), анализируя ссылки между ними и сходство их имен (SLD). Когда в результатах поиска появляется несколько таких доменов, система может понизить или поменять местами их позиции. Это делается для того, чтобы показать пользователю наиболее локально релевантную версию сайта и увеличить разнообразие организаций в топе выдачи.
  • US9178848B1
  • 2015-11-03
  • Local SEO

  • SERP

  • Ссылки

Как Google использует поведение пользователей для определения синонимичности фраз в запросах, связанных с сущностями
Google анализирует поведение пользователей (клики по результатам поиска), чтобы определить, означают ли разные фразы одно и то же, когда они связаны с одним типом сущности (например, «достопримечательности в <Город>» против «места для посещения в <Город>»). Если пользователи кликают на одни и те же документы для разных фраз, система считает эти фразы эквивалентными, что помогает Google понимать синонимы и улучшать результаты поиска.
  • US10073882B1
  • 2018-09-11
  • Семантика и интент

  • Поведенческие сигналы

Как Google ранжирует сущности (например, людей с одинаковыми именами) с помощью кластеризации, контекстной авторитетности и персонализации
Google использует систему двухуровневого ранжирования для обработки неоднозначных запросов (например, имен людей). Сначала ресурсы группируются в кластеры, представляющие разные сущности. Ресурсы внутри кластера ранжируются на основе их качества и авторитетности внутри этого кластера. Затем сами кластеры ранжируются с учетом релевантности запросу и сильной персонализации (социальные связи и местоположение пользователя).
  • US8645393B1
  • 2014-02-04
  • Персонализация

  • Семантика и интент

  • SERP

Как Google динамически повышает порог качества для результатов поиска по «рискованным» запросам
Google оценивает «риск» поискового запроса, анализируя общее качество топовых результатов. Если запрос часто привлекает спам, кликбейт или нежелательный контент (особенно видео), система динамически повышает минимальный порог качества. Контент, не соответствующий этому повышенному стандарту, понижается в выдаче, при этом учитываются такие сигналы, как показатель просмотров (Watch Rate).
  • US11609949B2
  • 2023-03-21
  • Антиспам

  • SERP

  • Поведенческие сигналы

seohardcore