SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google использует лингвистический анализ для расширения запросов и индекса с помощью словоформ, составных слов и вариантов написания

SYSTEMS AND METHODS FOR IMPROVING SEARCH QUALITY (Системы и методы улучшения качества поиска)
  • US20050149499A1
  • Google LLC
  • 2003-12-30
  • 2005-07-07
  • Индексация
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Патент Google описывает фундаментальные методы улучшения поиска путем учета лингвистических вариаций. Система автоматически расширяет запросы или индекс, добавляя словоформы (склонения, спряжения), альтернативные написания (орфографические варианты) и различные формы составных слов (слитно, раздельно, через дефис). Это гарантирует, что релевантные документы будут найдены независимо от конкретной формы слова, использованной в запросе или тексте.

Описание

Какую проблему решает

Патент решает фундаментальную проблему систем информационного поиска: пропуск релевантных документов, которые не содержат точных терминов, указанных в запросе, но содержат их лингвистические варианты. Стандартные системы могут игнорировать документы с другими словоформами (например, множественное число вместо единственного), альтернативными написаниями или разными формами составных слов (например, с дефисом или без). Изобретение улучшает полноту поиска (Recall), автоматически учитывая эти вариации.

Что запатентовано

Запатентована система улучшения качества поиска путем автоматического учета лингвистических вариаций: compound words (составные слова), inflectional forms (словоформы) и orthographic variations (орфографические варианты). Система может применять эти данные двумя основными способами: путем расширения запроса пользователя (Query Expansion) перед поиском или путем расширения индекса (Index Expansion) во время индексации документов.

Как это работает

Система использует три ключевых лингвистических метода:

  • Обработка составных слов: Учет вариантов написания (слитно, через дефис, раздельно).
  • Обработка словоформ: Учет грамматических форм (падежи, числа, времена).
  • Обработка орфографических вариаций: Учет альтернативных допустимых написаний слова.

Данные о вариациях собираются заранее путем анализа корпуса документов или использования внешних ресурсов (словарей, лингвистических анализаторов). При выполнении поиска система либо модифицирует запрос, добавляя все варианты через логическое OR (Query Expansion), либо ищет исходный запрос по индексу, в который уже включены все варианты (Index Expansion). При расширении запроса исходным терминам может присваиваться больший вес.

Актуальность для SEO

Высокая. Патент описывает фундаментальные процессы обработки естественного языка (NLP) в поиске, такие как нормализация и лемматизация. Хотя конкретные методы реализации, описанные в патенте (основанные на правилах и словарях), сегодня дополнены или заменены более сложными нейросетевыми подходами (например, векторными представлениями), сама задача учета лингвистических вариаций остается центральной для этапов INDEXING и QUNDERSTANDING.

Важность для SEO

Влияние на понимание базовых принципов поиска – критическое (8.5/10). Патент объясняет механизм, благодаря которому Google способен понимать разные формы слов как эквивалентные. Для SEO это означает снижение необходимости оптимизации контента под каждую конкретную словоформу или вариант написания. Это подчеркивает важность семантического соответствия интенту, а не механического точного вхождения ключевых слов.

Детальный разбор

Термины и определения

Compound words (Составные слова)
Слова, образованные путем соединения двух или более основ. В контексте патента – это слова, которые могут писаться слитно (AB), через дефис (A-B) или раздельно (A B).
Inflectional forms (Словоформы / Инфлексии)
Различные грамматические формы одного и того же слова, выражающие падеж, род, число, время и т.д. (например, «кошка», «кошки», «кошке»).
Orthographic variations (Орфографические вариации)
Альтернативные допустимые варианты написания одного и того же слова, часто возникающие из-за диалектов или реформ правописания.
Query Expansion (Расширение запроса)
Процесс дополнения исходного запроса пользователя лингвистическими вариантами перед выполнением поиска по стандартному индексу.
Index Expansion (Расширение индекса)
Процесс добавления лингвистических вариантов термина непосредственно в индекс во время обработки документа. Поиск выполняется по расширенному индексу без изменения запроса.
Word form analyzer (Анализатор словоформ)
Программный инструмент (например, морфологический анализатор), используемый для определения корневой формы слова и генерации его словоформ.
Corpus (Корпус документов)
Набор документов (например, веб-страниц), используемый для анализа частотности и выявления лингвистических закономерностей.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод расширения запроса (Query Expansion).

  1. Система получает запрос.
  2. Выполняется проверка, включает ли запрос: (A) Составной термин, (B) Термин из набора словоформ, и/или (C) Термин из набора альтернативных написаний.
  3. Если ДА, запрос автоматически расширяется путем включения альтернативных представлений составного термина, соответствующих словоформ и/или альтернативных написаний.
  4. Поиск в базе данных выполняется с использованием расширенного запроса.
  5. Результаты возвращаются пользователю.

Claim 11 (Независимый пункт): Описывает альтернативный метод расширения индекса (Index Expansion).

  1. Идентифицируется набор терминов, связанных с документом.
  2. Этот набор расширяется путем дополнительного ассоциирования с документом: альтернативных написаний, альтернативных представлений составных терминов и/или дополнительных словоформ.
  3. Документ индексируется с использованием этого расширенного набора терминов.

Claim 14 (Независимый пункт): Описывает офлайн-метод генерации списка составных слов.

  1. Выполняется поиск слов с дефисом в первом наборе документов (корпусе).
  2. Выполняется поиск соответствующих слов без дефиса в этом же корпусе.
  3. Генерируется набор ассоциаций между словами с дефисом и соответствующими словами без дефиса.

Claim 18 (Зависимый от 14): Описывает применение списка составных слов для дефисации (удаления переносов) при индексировании.

  1. В документе обнаруживается слово с дефисом (например, перенос строки в PDF/PS файлах).
  2. Выполняется поиск этого слова в сгенерированном наборе ассоциаций (из Claim 14).
  3. Если слово НЕ найдено в наборе (т.е. это не известное составное слово, а просто перенос), дефис удаляется (de-hyphenating).
  4. Документ индексируется с использованием слова без дефиса.

Где и как применяется

Изобретение является фундаментальной частью лингвистической обработки и затрагивает два ключевых этапа поиска.

INDEXING – Индексирование и извлечение признаков

На этом этапе происходят как офлайн, так и онлайн процессы:

  • Офлайн-процессы: Система анализирует Corpus документов или использует внешние ресурсы (словари, Word form analyzer) для генерации баз данных составных слов, словоформ и орфографических вариантов.
  • Онлайн-процессы (Index Expansion): Если используется подход Index Expansion, то при индексации документа система не только извлекает имеющиеся термины, но и генерирует все их лингвистические варианты и добавляет их в индекс, ассоциируя с данным документом. Также на этом этапе применяется механизм дефисации (Claim 18) для улучшения точности индексации, особенно для форматов PDF/PS.

QUNDERSTANDING – Понимание Запросов

  • Онлайн-процессы (Query Expansion): Если используется подход Query Expansion, система получает запрос пользователя, идентифицирует термины и использует предварительно сгенерированные базы данных для расширения запроса. Исходный термин заменяется дизъюнкцией (логическим OR) всех его вариантов. В патенте упоминается возможность присвоения разных весов: исходным терминам — выше, а добавленным вариантам — ниже. Расширенный запрос передается на этап RANKING.

RANKING – Ранжирование

На этом этапе система выполняет поиск, используя либо расширенный запрос (из QUNDERSTANDING), либо стандартный запрос, но по расширенному индексу (из INDEXING).

На что влияет

  • Все типы контента и запросов: Механизм применяется универсально для улучшения понимания языка.
  • Языковые особенности: Наибольшее влияние оказывается на языки с богатой морфологией (например, русский, финский), где количество словоформ велико, а также на языки с большим количеством составных слов (например, немецкий, который используется в примерах патента) или нестабильной орфографией.
  • Конкретные форматы контента: Особое влияние на точность индексирования PDF и Postscript (PS) документов благодаря механизму дефисации (Claim 18).

Когда применяется

Алгоритм применяется постоянно. Это не специализированный алгоритм для особых случаев, а базовая функциональность обработки естественного языка, применяемая к большинству документов во время индексации и/или к большинству запросов во время их обработки.

Пошаговый алгоритм

Алгоритм состоит из офлайн-подготовки и онлайн-обработки (которая может быть реализована через Query Expansion или Index Expansion).

Процесс А: Предварительная подготовка (Офлайн)

Пример для составных слов:

  1. Идентификация корпуса: Выбор набора документов для анализа.
  2. Поиск слов с дефисом: Сканирование корпуса и извлечение всех hyphenated words.
  3. Поиск соответствующих слов без дефиса: Поиск в корпусе non-hyphenated версий этих же слов.
  4. Генерация кандидатов: Создание списка пар (слово с дефисом, слово без дефиса).
  5. Фильтрация: Ограничение списка только теми парами, которые встречаются с частотой выше предопределенного порога.
  6. Сохранение: Создание базы данных ассоциаций.

Пример для словоформ:

  1. Идентификация корпуса.
  2. Применение анализатора: Использование Word form analyzer для получения соответствий «словоформа -> корень».
  3. Фильтрация: Удаление маппингов для редких слов (например, встречающихся менее чем в 100 документах).
  4. Инвертирование: Получение соответствий «корень -> набор словоформ».
  5. Сохранение: Создание базы данных словоформ.

Процесс Б: Обработка запроса (Query Expansion)

  1. Получение запроса от пользователя.
  2. Лингвистическое расширение: Сравнение терминов запроса с базами данных (из Процесса А). Добавление вариантов (составных, словоформ, орфографических) к запросу, возможно с присвоением более низкого веса.
  3. Сравнение: Выполнение поиска расширенного запроса по индексу.
  4. Возврат результатов.

Процесс В: Обработка индекса (Index Expansion)

  1. Расширение индекса (во время индексации): При обработке документа его термины сравниваются с базами данных (из Процесса А). Все лингвистические варианты добавляются в индекс и ассоциируются с документом. Также выполняется дефисация переносов строк.
  2. Получение запроса от пользователя.
  3. Сравнение: Выполнение поиска исходного запроса по расширенному индексу.
  4. Возврат результатов.

Какие данные и как использует

Данные на входе

  • Контентные факторы: Текст документов (используется для генерации лингвистических баз данных путем анализа корпуса и для индексации). Текст пользовательских запросов.
  • Технические факторы: Форматы документов (PDF, PS) учитываются при обработке дефисов (переносов строк) во время парсинга и индексирования.
  • Системные и Внешние данные:
    • Словари (могут использоваться для генерации словоформ и орфографических вариантов).
    • Данные о правилах орфографии (например, данные о реформе правописания).
    • Выходные данные Word form analyzer (лингвистического анализатора).

Какие метрики используются и как они считаются

  • Частота встречаемости (Frequency): Используется в офлайн-процессах для фильтрации генерируемых лингвистических данных.
    • При генерации списка составных слов список ограничивается парами, которые встречаются с частотой не ниже предопределенной (predefined frequency).
    • При генерации словоформ могут использоваться только те слова, которые появляются в определенном количестве документов.
  • Весовые коэффициенты (Weightings): Упоминается возможность присвоения разных весов терминам при Query Expansion. Исходным терминам запроса может присваиваться более высокий вес, а добавленным вариантам — более низкий, для поддержания точности поиска.
  • Методы анализа текста: Применяется Word form analyzer для морфологического анализа и получения соответствий между инфлективными формами и корнями слов (word-root mappings).

Выводы

  1. Фундаментальное значение лингвистического анализа в поиске: Патент демонстрирует, что уже на ранних этапах развития Google поиск строился не на простом точном совпадении строк, а на понимании базовых лингвистических связей между словами (морфология, орфография, словообразование).
  2. Улучшение полноты (Recall) и Точности (Precision): Главная цель описанных механизмов — максимизировать количество найденных релевантных документов (Recall). Для сохранения точности (Precision) может использоваться взвешивание терминов, отдавая приоритет исходному запросу.
  3. Гибкость реализации: Google запатентовал оба основных подхода к решению этой проблемы — Query Expansion и Index Expansion. Это позволяет системе выбирать наиболее эффективный метод для конкретного языка или типа данных.
  4. Комбинация статистики и правил: Система использует как статистический анализ корпуса (для выявления составных слов по частоте), так и лингвистические правила/словари (для морфологии и орфографии).
  5. Улучшение точности индексации (Дефисация): Помимо расширения, патент описывает важный механизм дефисации (удаления переносов строк) при индексировании, что повышает качество самого индекса, особенно для форматов PDF/PS.

Практика

Best practices (это мы делаем)

  • Фокус на семантике и интенте, а не на точных вхождениях: Не нужно пытаться использовать в тексте все возможные словоформы ключевого слова (склонения, спряжения, числа). Система автоматически распознает их как эквивалентные благодаря механизмам, описанным в патенте.
  • Использование естественного языка: Пишите тексты естественно, используя те словоформы и варианты написания, которые грамматически и стилистически уместны в данном контексте. Не жертвуйте читабельностью ради включения конкретных формулировок.
  • Консистентность в написании брендов и терминов: Хотя система распознает орфографические варианты общеупотребительных слов, для собственных брендов или новых терминов важно придерживаться консистентного написания, чтобы сформировать правильную ассоциацию.
  • Качественное форматирование PDF: Если вы публикуете PDF-документы, убедитесь, что текст из них корректно извлекается. Хотя Google имеет механизмы дефисации (Claim 18), лучше минимизировать потенциальные ошибки парсинга на своей стороне.

Worst practices (это делать не надо)

  • Переоптимизация словоформами (Keyword Stuffing): Включение в текст всех возможных склонений и спряжений ключевого слова. Это делает контент неестественным, ухудшает читабельность и не дает преимуществ в ранжировании, так как система уже учитывает эти формы автоматически.
  • Создание дублирующего контента под разные словоформы: Создание отдельных страниц, оптимизированных под минимально отличающиеся формы запроса (например, единственное и множественное число, или разные варианты написания составного слова). Система агрегирует их в один интент, что может привести к каннибализации трафика.
  • Игнорирование правильного написания в надежде на автоисправление: Хотя система учитывает орфографические варианты, использование корректного и современного написания повышает доверие пользователей и авторитетность контента (E-E-A-T).

Стратегическое значение

Этот патент подтверждает давний и последовательный приоритет Google на понимание естественного языка, а не простое сопоставление текста. Описанные методы являются фундаментом для перехода от лексического поиска к семантическому. Для долгосрочной SEO-стратегии это означает, что инвестиции должны направляться на создание качественного контента, отвечающего на интент пользователя, а не на манипуляции с плотностью и формой ключевых слов.

Практические примеры

Сценарий: Оптимизация статьи о покупке автомобиля

  1. Задача: Написать статью, релевантную запросам «купить автомобиль», «покупка автомобиля», «купить авто».
  2. Неправильный подход (до учета патента): Попытаться включить в текст точные фразы: «Если вы хотите купить автомобиль... При покупке автомобиля важно... Мы поможем купить авто».
  3. Правильный подход (с учетом патента): Написать естественный текст: «Планируете покупку автомобиля? В нашем руководстве мы расскажем, как выбрать и купить подержанное авто с максимальной выгодой».
  4. Как работает Google: Система применяет Inflectional forms expansion. Слово «автомобиль» расширяется до (автомобиль OR автомобиля OR автомобилю...). Слово «купить» расширяется до (купить OR покупка...).
  5. Результат: Google понимает, что все эти термины эквивалентны в контексте данного интента. Ранжирование будет зависеть от качества контента, а не от использования конкретной словоформы.

Вопросы и ответы

Нужно ли мне использовать все склонения и спряжения ключевого слова в тексте для лучшего ранжирования?

Нет, это не требуется и может быть расценено как переоптимизация (Keyword Stuffing). Благодаря механизмам обработки Inflectional forms, описанным в патенте, Google автоматически понимает различные грамматические формы одного и того же слова. Сосредоточьтесь на естественности языка и семантическом раскрытии темы.

Влияет ли использование дефиса в составных словах (например, «интернет-магазин» против «интернет магазин») на ранжирование?

Патент описывает механизм обработки Compound words, который специально предназначен для учета различных вариантов написания (слитно, раздельно, через дефис). Система стремится интерпретировать эти варианты как эквивалентные. Рекомендуется использовать написание, соответствующее современным правилам языка, но различия в дефисации не должны критически влиять на ранжирование.

Что такое «расширение индекса» (Index Expansion) и как оно отличается от «расширения запроса» (Query Expansion)?

При Query Expansion система модифицирует запрос пользователя на лету, добавляя варианты слов, и ищет по стандартному индексу. При Index Expansion система заранее, во время индексации документа, добавляет все варианты слов в сам индекс. В этом случае запрос пользователя не меняется, но поиск ведется по обогащенному индексу. Оба метода достигают одной цели, но на разных этапах.

Как Google генерирует список словоформ и вариантов написания?

Патент предлагает несколько методов. Для словоформ используется Word form analyzer (лингвистический анализатор) или словари. Для составных слов анализируется большой корпус документов (Corpus) для выявления часто встречающихся пар (например, с дефисом и без). Для орфографических вариантов используются внешние данные (например, правила орфографических реформ) или словари.

Заменили ли современные нейронные сети (BERT, MUM) этот механизм?

Современные нейронные сети не столько заменили, сколько усовершенствовали этот механизм. Модели типа BERT и MUM понимают контекст и семантическую близость слов на гораздо более глубоком уровне, чем методы, основанные на словарях и правилах. Однако базовая лингвистическая обработка (нормализация, лемматизация) по-прежнему является важной частью NLP-конвейера.

Как этот патент влияет на сбор семантического ядра?

Он упрощает сбор ядра, позволяя группировать запросы, отличающиеся только словоформами или написанием, в единый кластер. Не нужно собирать все возможные морфологические варианты ключа. Важнее сосредоточиться на сборе LSI-терминов и синонимов, которые раскрывают тему шире.

Что такое дефисация при индексировании, упомянутая в патенте (Claim 18)?

Это процесс удаления дефисов, которые возникли из-за переноса строки в исходном документе (особенно часто в PDF-файлах). Система проверяет, является ли слово с дефисом известным составным словом. Если нет, она предполагает, что это перенос, удаляет дефис и индексирует слово слитно, что повышает точность индекса.

Может ли расширение запроса привести к снижению точности поиска?

Да, это потенциальный риск. Механическое добавление вариантов может привести к включению нерелевантных результатов (например, если словоформа является омонимом). Патент упоминает решение этой проблемы: присвоение разных весов (weightings). Исходным терминам запроса дается больший вес, чем добавленным вариантам, что помогает сохранить точность.

Применяются ли эти методы к русскому языку?

Да, безусловно. Русский язык обладает богатой морфологией (большое количество Inflectional forms) и особенностями в образовании составных слов. Для эффективного поиска на русском языке применение подобных лингвистических механизмов является критически важным.

Упоминается ли в патенте обработка синонимов?

Патент фокусируется строго на словоформах, составных словах и орфографических вариантах. Хотя в тексте упоминается, что эти техники могут применяться в комбинации с другими, такими как "расширение синонимами" (synonym expansion), сам механизм работы с синонимами в данном патенте не описывается и не является предметом изобретения.

Похожие патенты

Как Google стандартизирует словоформы в индексе для ускорения поиска и повышения полноты выдачи
Google повышает эффективность поиска, обрабатывая словоформы (например, «голосовать» и «голосование») на этапе индексирования, а не во время выполнения запроса. Система определяет корень слова (стемму), выбирает наиболее частотную «репрезентативную» форму и сохраняет в индексе как исходное слово, так и этот вариант. Это позволяет быстрее находить все релевантные документы без необходимости перебирать варианты слов в момент поиска.
  • US11423029B1
  • 2022-08-23
  • Индексация

Как Google определяет язык запроса, используя язык интерфейса и статистику по словам для добавления правильных диакритических знаков
Google использует механизм для точного определения языка, на котором пользователь вводит запрос, особенно когда слова неоднозначны или не содержат диакритических знаков. Система анализирует язык интерфейса пользователя и статистику использования слов в разных языках. Это позволяет Google понять, какие диакритические знаки (например, акценты) следует добавить к запросу, чтобы найти наиболее релевантные документы на правильном языке.
  • US8762358B2
  • 2014-06-24
  • Мультиязычность

  • Семантика и интент

Как Google улучшает результаты поиска, подбирая похожие "идеальные" запросы из логов и структурированных данных
Google идентифицирует запросы, которые стабильно показывают высокое вовлечение пользователей (CTR, долгие клики), и генерирует синтетические запросы из структурированных данных (например, частотного анкорного текста). Когда пользователь вводит похожий, но потенциально плохо сформулированный запрос, Google использует эти "аугментирующие запросы" для предоставления более качественных и релевантных результатов.
  • US9128945B1
  • 2015-09-08
  • SERP

  • Поведенческие сигналы

  • EEAT и качество

Как Google использует языковую статистику для умного добавления акцентов и синонимов в запросы
Google анализирует, как слова пишутся в разных языках (с акцентами, диграфами или транслитерацией), и создает "карту синонимов". При получении запроса система определяет его вероятный язык и статистически выбирает только те варианты написания (синонимы), которые наиболее распространены именно в этом языке, избегая добавления нерелевантных вариантов из других языков.
  • US7475063B2
  • 2009-01-06
  • Мультиязычность

  • Семантика и интент

  • Индексация

Как Google использует контекст запроса для исправления опечаток и понятийных ошибок, анализируя результаты поиска по оставшимся словам
Google использует механизм для исправления сложных, редких или понятийно ошибочных запросов. Если система идентифицирует потенциально неточный термин (опечатку или перепутанное название), она временно удаляет его и выполняет поиск по оставшимся словам. Затем анализируется контент найденных страниц (заголовки, анкоры, URL), чтобы определить правильный термин для замены, обеспечивая релевантную выдачу даже при ошибках пользователя.
  • US8868587B1
  • 2014-10-21
  • Семантика и интент

Популярные патенты

Как Google обучается на поведении пользователя для персонализации весов источников в поисковой выдаче
Google использует сигналы интереса пользователя (клики, время просмотра) для динамической корректировки весов различных источников данных (например, ключевых слов, тем, типов контента). Система определяет, какие источники наиболее полезны для конкретного пользователя, и повышает их значимость при ранжировании последующих результатов поиска, тем самым персонализируя выдачу.
  • US8631001B2
  • 2014-01-14
  • Персонализация

  • Поведенческие сигналы

  • SERP

Как Google использует социальные связи для обнаружения ссылочного спама и накрутки кликов
Google может анализировать связи между владельцами сайтов в социальных сетях, чтобы оценить независимость ссылок между их ресурсами. Если владельцы тесно связаны (например, друзья), ссылки между их сайтами могут получить меньший вес в ранжировании, а клики по рекламе могут быть классифицированы как спам (накрутка).
  • US8060405B1
  • 2011-11-15
  • Антиспам

  • Ссылки

  • SERP

Как Google использует данные о кликах разных групп пользователей (популяций) для локализации и персонализации ранжирования
Google адаптирует результаты поиска, анализируя, как разные группы пользователей (популяции), определяемые по местоположению, языку или демографии, взаимодействуют с выдачей. Система рассчитывает «Сигнал Популяции» (Population Signal) на основе исторических кликов группы и корректирует ранжирование. Также используется механизм сглаживания для компенсации нехватки данных по конкретным группам.
  • US7454417B2
  • 2008-11-18
  • Персонализация

  • Поведенческие сигналы

  • SERP

Как Google динамически переоценивает значимость факторов ранжирования, основываясь на их надежности в контексте конкретной выдачи
Google использует механизм для повышения качества ранжирования путем анализа надежности (Trustworthiness) различных факторов, влияющих на позицию документа. Если система обнаруживает значительную разницу в надежности сигналов среди результатов поиска, она снижает влияние менее достоверных факторов. Это гарантирует, что документы, получившие высокие оценки за счет ненадежных или легко манипулируемых сигналов, не будут ранжироваться выше документов с более достоверными показателями качества и релевантности.
  • US9623119B1
  • 2017-04-18
  • EEAT и качество

  • Поведенческие сигналы

  • SERP

Как Google использует фразы и тематические кластеры из истории пользователя для персонализации результатов поиска
Google может строить модель интересов пользователя, анализируя семантически значимые фразы и тематические кластеры в контенте, который пользователь потребляет (просматривает, сохраняет, печатает). При последующих запросах система повышает в ранжировании те документы, которые содержат фразы, одновременно релевантные запросу и присутствующие в профиле интересов пользователя.
  • US7580929B2
  • 2009-08-25
  • Персонализация

  • Семантика и интент

  • Поведенческие сигналы

Как Google фильтрует поведенческие сигналы, используя совместимость языков и стран пользователей
Google уточняет ранжирование, анализируя, откуда (страна) и на каком языке (язык пользователя) поступали исторические клики по документу. Если эти характеристики считаются «несовместимыми» с текущим пользователем, поведенческие сигналы (клики) от этих групп могут быть исключены или понижены в весе. Это предотвращает искажение релевантности данными от кардинально отличающихся аудиторий.
  • US8498974B1
  • 2013-07-30
  • Поведенческие сигналы

  • Мультиязычность

  • Персонализация

Как Google планировал использовать социальные связи, сети доверия и экспертизу для персонализации и переранжирования поисковой выдачи
Google запатентовал метод использования данных из социальных сетей («member networks») для влияния на ранжирование. Пользователи могли явно одобрять («endorse») результаты поиска. Эти одобрения показывались другим связанным пользователям (друзьям или людям, ищущим экспертное мнение) и использовались для переранжирования выдачи, добавляя персонализированный слой доверия.
  • US8825639B2
  • 2014-09-02
  • Персонализация

  • EEAT и качество

  • Поведенческие сигналы

Как Google извлекает, обрабатывает и индексирует анкорный текст, контекст и атрибуты входящих ссылок для ранжирования целевых страниц
Фундаментальный патент, описывающий инфраструктуру Google для обработки ссылок. Система извлекает анкорный текст, окружающий контекст и атрибуты форматирования (аннотации) из исходных страниц и инвертирует эти данные в структуру "Sorted Anchor Map". Это позволяет индексировать целевую страницу по тексту ссылок, указывающих на нее, используя эту внешнюю информацию как сигнал релевантности.
  • US7308643B1
  • 2007-12-11
  • Ссылки

  • Индексация

  • Техническое SEO

Как Google рассчитывает репутационную значимость организаций и людей, используя данные из внешних источников для ранжирования
Google использует систему для оценки репутации и престижа сущностей (например, организаций или людей). Система не полагается только на предоставленные данные, а активно ищет «Дополнительные Аспекты» из внешних источников (например, профессиональные сети, СМИ). На основе этих данных рассчитываются две метрики: «Репутационная Значимость» (престиж относительно аналогов) и «Двустороннее Соответствие» (взаимная привлекательность), которые используются для ранжирования результатов поиска и рекомендаций.
  • US10878048B2
  • 2020-12-29
  • EEAT и качество

  • SERP

  • Knowledge Graph

Как Google использует время пребывания на странице (Dwell Time) для оценки качества и корректировки ранжирования
Google анализирует продолжительность визитов пользователей на страницы из результатов поиска (Dwell Time). Система рассчитывает метрику, сравнивающую количество «длинных кликов» (длительных визитов) с общим количеством кликов для конкретного документа по конкретному запросу. Этот показатель используется как сигнал качества, независимый от позиции в выдаче, для повышения или понижения документа в ранжировании.
  • US8661029B1
  • 2014-02-25
  • Поведенческие сигналы

  • SERP

seohardcore