SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google использует анкорный текст входящих ссылок для определения синонимов и псевдонимов сущностей в Knowledge Graph

LEARNING SYNONYMOUS OBJECT NAMES FROM ANCHOR TEXTS (Изучение синонимичных названий объектов из анкорных текстов)
  • US8738643B1
  • Google LLC
  • 2007-08-02
  • 2014-05-27
  • Knowledge Graph
  • Семантика и интент
  • Ссылки
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Google автоматически определяет синонимы и псевдонимы для сущностей (например, людей, компаний) в своем хранилище фактов (Knowledge Graph). Система анализирует анкорный текст ссылок, ведущих на исходные документы, из которых были извлечены факты о сущности. Это позволяет системе понять, что, например, "Биг Блю" и "IBM" относятся к одной и той же компании.

Описание

Какую проблему решает

Патент решает проблему масштабируемого и автоматического обнаружения синонимичных названий (псевдонимов, алиасов) для сущностей, хранящихся в базе данных фактов (Fact Repository, аналог Knowledge Graph). Ручной сбор синонимов неэффективен и дорог. Без знания синонимов поисковая система может не найти релевантную информацию, если запрос пользователя содержит псевдоним (например, "IBM"), а в базе данных сущность идентифицирована только официальным названием ("International Business Machines Corporation").

Что запатентовано

Запатентована система для автоматического изучения синонимичных названий сущностей. Метод основан на анализе анкорных текстов (Anchor Texts) ссылок, которые ведут на исходные документы (Source Documents), из которых ранее были извлечены факты об этой сущности. Система предполагает, что анкорный текст, используемый для ссылки на авторитетный источник о сущности, часто содержит альтернативное название этой сущности.

Как это работает

Система работает следующим образом:

  • Идентификация источников: Для конкретной сущности (Object) система определяет список исходных документов (Source Documents), из которых были извлечены ее факты.
  • Анализ входящих ссылок: Система находит внешние документы (Linking Documents), которые ссылаются на эти исходные документы.
  • Сбор и обработка анкоров: Извлекаются анкорные тексты этих ссылок. Они нормализуются и очищаются (например, удаляются стоп-слова, префиксы типа "статья о", фильтруются общие фразы типа "кликните здесь").
  • Генерация кандидатов: Очищенные анкоры формируют набор кандидатов в синонимы (Anchor Synset).
  • Выбор синонимов: Кандидаты оцениваются на основе различных метрик, таких как частота встречаемости и качество ссылающихся документов. Наиболее достоверные кандидаты выбираются как синонимы и добавляются в базу данных фактов к соответствующей сущности.

Актуальность для SEO

Высокая. Понимание сущностей и их взаимосвязей является фундаментом современного поиска и Knowledge Graph. Способность системы распознавать различные названия одной и той же сущности критически важна для точного понимания запросов и предоставления релевантных результатов. Этот патент описывает ключевой механизм для масштабируемого сбора этих данных.

Важность для SEO

Патент имеет высокое стратегическое значение для SEO, особенно в контексте оптимизации под Knowledge Graph и entity-based search. Он раскрывает, как Google использует ссылочный граф интернета для семантического понимания сущностей. Это подчеркивает важность не только того, кто ссылается на ваш сайт, но и того, как (с каким анкором) ссылаются на авторитетные источники о вашей сущности (например, на вашу страницу в Википедии).

Детальный разбор

Термины и определения

Anchor Synset (Набор кандидатов из анкоров)
Коллекция кандидатов в синонимы, сгенерированная путем обработки анкорных текстов.
Anchor Text (Анкорный текст)
Текст гиперссылки, расположенный между открывающим и закрывающим тегами анкоря. Используется как основной источник данных для генерации синонимов.
Black List (Черный список)
Коллекция текстов, которые часто используются в анкорах, но не связаны с темой целевого документа (например, "кликните здесь", "скачать"). Используется для фильтрации шума.
Entity (Сущность)
Реальный или вымышленный человек, место, организация или объект, который представлен Object в репозитории.
Fact (Факт)
Единица информации о сущности, хранящаяся в репозитории. Состоит из атрибута (например, "Дата рождения") и значения (например, "22 февраля 1732 г.").
Fact Repository (Репозиторий фактов)
База данных, хранящая факты о сущностях. Аналог Google Knowledge Graph.
Linking Document (Ссылающийся документ)
Документ, содержащий гиперссылку на Source Document.
Object (Объект)
Логическая структура в репозитории, объединяющая коллекцию фактов, связанных с одной сущностью.
Source Document (Исходный документ)
Документ (например, веб-страница), из которого был извлечен один или несколько фактов о сущности.
White List (Белый список)
Коллекция текстов, которые с высокой вероятностью являются действительными синонимами (например, список названий компаний или имен людей).

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод определения синонимичного названия для сущности.

  1. Система идентифицирует исходный документ (Source Document), из которого были извлечены факты о сущности.
  2. Идентифицируются ссылающиеся документы (Linking Documents), имеющие гиперссылки на исходный документ, и их анкорные тексты (Anchor Texts).
  3. Генерируется коллекция кандидатов в синонимы на основе этих анкорных текстов.
  4. Происходит выбор синонимичного названия из коллекции кандидатов. Этот выбор включает:
    • Определение оценки (Score) для каждого кандидата на основе функции оценки (Score Function).
    • Функция оценки учитывает частоту встречаемости (Frequency of Occurrence) кандидата и его долю (Proportion) в общей коллекции кандидатов.
    • Выбор синонима на основе этих оценок.
  5. Синонимичное название сохраняется в репозитории в дополнение к существующему названию объекта.

Claim 3 и 4 (Зависимые): Детализируют процесс генерации кандидатов, включающий нормализацию анкорных текстов. Нормализация может включать применение специфичных для языка правил (Normalization Rules for the Language) на основе определенного языка ссылающегося документа.

Claim 5 (Зависимый): Уточняет, что генерация кандидатов может включать извлечение именной группы (Noun Phrase) из анкорного текста. Это помогает отделить описательную часть анкора от потенциального названия сущности.

Claim 6 (Зависимый): Уточняет, что генерация кандидатов может включать удаление префиксов или суффиксов из анкорных текстов (например, удаление "статья о" из анкора "статья о Короле").

Claim 7 и 8 (Зависимые): Описывают использование Black List и White List. Если анкор совпадает с черным списком, он удаляется из кандидатов. Если совпадает с белым списком, он добавляется в коллекцию кандидатов.

Claim 9 и 11 (Зависимые): Описывают выбор синонимов на основе пороговых значений частоты. Выбираются кандидаты, частота которых не ниже минимального порога (Minimum Threshold) и не выше максимального порога (Maximum Threshold).

Claim 13 (Зависимый): Уточняет, что выбор синонима может основываться на качестве (Quality) ссылающихся документов. Синонимы, полученные из анкоров на более качественных сайтах, получают преимущество.

Где и как применяется

Изобретение применяется в первую очередь на этапе обработки и обогащения данных в репозитории фактов.

INDEXING – Индексирование и извлечение признаков
Основная активность происходит здесь, но не во время первичного сканирования, а во время последующей обработки данных (в патенте упоминаются процессы Janitor). Система использует уже извлеченные факты и данные о происхождении этих фактов (Source Documents). Также используется полный ссылочный граф веба, включая анкорные тексты.

QUNDERSTANDING – Понимание Запросов
Результаты работы этого патента напрямую влияют на этот этап. Зная синонимы сущности, система может лучше интерпретировать запрос пользователя, содержащий псевдоним, и связать его с соответствующим объектом в Knowledge Graph.

METASEARCH – Метапоиск и Смешивание
Улучшенное понимание сущностей позволяет более точно формировать блоки Knowledge Panel и другие функции выдачи, связанные с сущностями.

Входные данные:

  • Идентификатор объекта (Object ID).
  • Факты, связанные с объектом, и URL-адреса их исходных документов (Source Documents).
  • Ссылочный граф интернета (данные о том, какие документы ссылаются на исходные документы и с каким Anchor Text).
  • Списки фильтрации (Black List, White List).
  • Метрики качества документов (например, PageRank для Linking Documents, который упоминается в описании патента).

Выходные данные:

  • Новые факты типа "Имя" (Name facts), содержащие обнаруженные синонимы, ассоциированные с исходным Object ID.

На что влияет

  • Конкретные типы контента: Влияет на любой контент, связанный с именованными сущностями (люди, организации, места, продукты, произведения искусства и т.д.).
  • Специфические запросы: Наиболее сильно влияет на запросы, содержащие названия сущностей, особенно брендовые, навигационные и информационные запросы о конкретных сущностях. Улучшает обработку запросов, использующих редкие или неофициальные названия.
  • Конкретные ниши или тематики: Влияет на все тематики, но особенно заметно в нишах с большим количеством псевдонимов (например, шоу-бизнес, спорт, технологии, где часто используются аббревиатуры).

Когда применяется

  • При каких условиях работает алгоритм: Алгоритм применяется для объектов, у которых есть факты, извлеченные из исходных документов, и на эти исходные документы есть входящие ссылки с анкорным текстом.
  • Временные рамки и частота применения: Это не процесс реального времени, а фоновый процесс обслуживания и очистки данных (Janitor process). Он выполняется периодически по мере обновления репозитория фактов и индекса ссылок, чтобы отражать изменения в том, как сущности упоминаются в интернете.

Пошаговый алгоритм

Процесс определения синонимов для сущности:

  1. Идентификация объекта: Выбирается объект (сущность) в Fact Repository для анализа.
  2. Идентификация исходных документов: Система извлекает список всех Source Documents, из которых были получены факты для данного объекта.
  3. Фильтрация источников (Опционально): Могут быть удалены источники, которые связаны с несколькими разными сущностями (т.е. не являются тематически сфокусированными).
  4. Идентификация входящих ссылок и анкоров: Для каждого исходного документа система находит все Linking Documents и извлекает соответствующие Anchor Texts.
  5. Нормализация анкоров: Анкорные тексты приводятся к стандартному формату (удаление пунктуации, приведение к нижнему регистру, удаление стоп-слов). Может применяться языкозависимая нормализация.
  6. Генерация кандидатов (Anchor Synset):
    • Очистка: Удаление стандартных префиксов/суффиксов (например, "статья о"). Извлечение именных групп (Noun Phrases).
    • Фильтрация: Удаление анкоров, совпадающих с Black List. Включение анкоров, совпадающих с White List.
  7. Оценка и Скоринг Кандидатов: Для каждого уникального кандидата рассчитывается оценка (Score). Функция оценки учитывает:
    • Частоту встречаемости кандидата.
    • Долю кандидата в общем наборе.
    • Качество (Quality) ссылающихся документов, из которых был получен кандидат.
  8. Выбор синонимов: Кандидаты выбираются на основе их оценок. Могут применяться пороги:
    • Минимальный порог частоты/оценки (для отсева случайных совпадений).
    • Максимальный порог частоты (для отсева слишком общих фраз).
  9. Сохранение результатов: Выбранные синонимы сохраняются в Fact Repository как новые факты типа "Имя" для исходного объекта.

Какие данные и как использует

Данные на входе

Патент фокусируется на использовании ссылочных данных для семантического обогащения.

  • Ссылочные факторы: Критически важны. Используются Anchor Texts входящих ссылок, направленных на Source Documents. Также используется структура ссылочного графа для идентификации Linking Documents.
  • Технические факторы: URL-адреса Source Documents и Linking Documents.
  • Контентные факторы: Существующие факты об объекте используются для определения списка Source Documents.
  • Языковые факторы: Язык Linking Document может использоваться для применения специфических правил нормализации.

Какие метрики используются и как они считаются

  • Frequency of Occurrence (Частота встречаемости): Количество раз, когда конкретный кандидат в синонимы появляется в обработанном наборе анкоров.
  • Proportion (Доля): Отношение частоты встречаемости кандидата к общему количеству анкоров в наборе.
  • Quality of Linking Document (Качество ссылающегося документа): Метрика авторитетности Linking Document. Хотя патент не указывает конкретную метрику в Claims, в описании упоминается, что качество может быть определено на основе PageRank.
  • Score (Оценка): Агрегированная метрика для каждого кандидата. Рассчитывается с помощью Score Function, которая учитывает частоту, долю и, возможно, качество источника (Claim 1, 14).
  • Thresholds (Пороги): Минимальные и максимальные значения частоты (Minimum/Maximum Threshold), используемые для фильтрации кандидатов.

Выводы

  1. Анкорный текст как сигнал для определения псевдонимов: Патент подтверждает, что Anchor Text является одним из основных сигналов, используемых Google для понимания того, как интернет ссылается на сущность, и для выявления ее альтернативных названий.
  2. Анализ ссылок на авторитетные источники: Ключевым моментом является то, что анализируются ссылки не обязательно на собственный сайт сущности, а на Source Documents, из которых были извлечены факты. Часто это авторитетные сторонние ресурсы (например, Википедия, официальные реестры).
  3. Важность качества ссылающихся сайтов: Система учитывает качество (Quality, например, PageRank) сайтов, которые ссылаются на исходные документы. Псевдонимы, полученные из анкоров на авторитетных сайтах, считаются более надежными.
  4. Фильтрация шума и нормализация: Google активно фильтрует анкорный текст, используя нормализацию, извлечение именных групп, удаление префиксов и черные списки, чтобы отличить реальные названия от описательного или служебного текста в ссылках.
  5. Валидация через частотность: Частота использования анкора является важным фактором валидации. Слишком редкие (возможно, ошибки или личное мнение) или слишком частые (возможно, слишком общие фразы) анкоры могут быть отброшены.

Практика

Best practices (это мы делаем)

  • Оптимизация сущности (Entity Optimization): Необходимо обеспечить существование четко определенных и авторитетных источников (Source Documents) о вашей сущности (бренд, ключевые сотрудники). Это включает наличие страниц в Википедии, профилей в авторитетных отраслевых базах данных и официальных социальных сетях.
  • Мониторинг и влияние на Off-Site Anchor Text: Анализируйте, как сторонние сайты ссылаются на ваши авторитетные профили (не только на ваш основной сайт). При естественном взаимодействии (PR, outreach) поощряйте использование разнообразных, релевантных названий вашей сущности (полное имя, бренд, общепринятые аббревиатуры) в качестве Anchor Text.
  • Повышение качества ссылочного профиля авторитетных источников: Работайте над тем, чтобы высококачественные и релевантные сайты ссылались на ваши авторитетные профили. Поскольку качество Linking Documents учитывается при валидации синонимов, ссылки с авторитетных ресурсов помогут Google быстрее принять нужные вам синонимы.
  • Консистентность упоминаний: Убедитесь, что различные формы названия вашего бренда консистентно используются в интернете. Это повысит частоту (Frequency of Occurrence) нужных кандидатов и ускорит их принятие в качестве синонимов.

Worst practices (это делать не надо)

  • Манипуляция анкорным текстом (Anchor Text Spamming): Попытки агрессивно манипулировать этим механизмом путем создания большого количества ссылок с низкокачественных сайтов с нужными анкорами неэффективны. Система учитывает качество Linking Documents и использует пороги частотности, что затрудняет спам.
  • Игнорирование Off-Site профилей: Фокусироваться только на оптимизации собственного сайта и игнорировать то, как сущность представлена и как на нее ссылаются на авторитетных внешних площадках.
  • Использование только одного варианта названия: Использование исключительно официального названия и избегание общепринятых псевдонимов или аббревиатур может замедлить их распознавание Google как синонимов.

Стратегическое значение

Этот патент является важной частью перехода Google к entity-based search. Он демонстрирует механизм, с помощью которого строится семантическое понимание мира. Для SEO это означает, что стратегия должна охватывать весь цифровой след сущности (оптимизация под Knowledge Graph), а не только принадлежащий ей веб-сайт. То, как интернет "говорит" о вашей сущности (через Anchor Text), напрямую влияет на то, как Google ее идентифицирует и ранжирует.

Практические примеры

Сценарий: Улучшение распознавания аббревиатуры компании

Компания "Российские Железные Дороги" хочет убедиться, что Google четко ассоциирует аббревиатуру "РЖД" с их основной сущностью.

  1. Анализ источников: Google извлекает факты о компании из Википедии, официального сайта rzd.ru и новостных порталов. Это Source Documents.
  2. Цель SEO: Увеличить количество и качество ссылок на эти Source Documents, использующих анкор "РЖД".
  3. Действия:
    • При публикации пресс-релизов или новостей на внешних площадках убедиться, что ссылки на официальный сайт или профиль компании используют как полное название, так и аббревиатуру "РЖД" в качестве анкора.
    • Стимулировать партнеров и СМИ ссылаться на авторитетные источники (например, статью в Википедии о компании) с использованием анкора "РЖД".
  4. Результат: Система Google видит, что множество качественных сайтов ссылаются на источники о "Российских Железных Дорогах", используя анкор "РЖД". Частота этого кандидата превышает порог, и система добавляет "РЖД" как подтвержденный синоним в Knowledge Graph.

Вопросы и ответы

Применяется ли этот механизм к ссылкам, ведущим непосредственно на мой собственный сайт?

Да, если ваш сайт является исходным документом (Source Document), из которого Google извлек факты о вашей сущности. В этом случае анкорный текст входящих ссылок на ваш сайт будет проанализирован для выявления синонимов. Однако Google часто использует сторонние авторитетные источники (например, Википедию) в качестве основных Source Documents, поэтому ссылки на них также критически важны.

Как качество ссылающегося сайта (PageRank) влияет на определение синонимов?

Патент утверждает (Claim 13 и описание), что качество (Quality) ссылающегося документа (Linking Document) учитывается при выборе синонимов. Синонимы, полученные из анкоров на высококачественных, авторитетных сайтах (с высоким PageRank), считаются более надежными и с большей вероятностью будут приняты системой. Ссылки с низкокачественных сайтов имеют меньший вес или игнорируются.

Что такое "нормализация" и "очистка" анкорного текста в контексте этого патента?

Нормализация приводит текст к стандартному виду (регистр, пунктуация, стоп-слова). Очистка (Claims 5, 6) — это более сложный процесс удаления частей анкора, которые не являются названием сущности. Это включает удаление стандартных префиксов (например, "узнать больше о") и извлечение именных групп (Noun Phrases), чтобы оставить только суть, например, извлечение "IBM" из "лучшая статья об IBM здесь".

Почему система использует минимальные и максимальные пороги частотности?

Минимальный порог (Claim 9) используется для отсева шума: случайных фраз, опечаток или узкоспециализированных терминов, которые не являются общепринятыми синонимами. Максимальный порог (Claim 11) используется для отсева слишком общих фраз (например, "эта компания", "веб-сайт"), которые хотя и часто встречаются в анкорах, не являются уникальными идентификаторами сущности.

Как я могу повлиять на то, какие синонимы Google ассоциирует с моим брендом?

Ключевая стратегия — влиять на то, как интернет ссылается на авторитетные источники о вашем бренде. Убедитесь, что существуют качественные Source Documents (Википедия, официальный сайт). Затем работайте над тем, чтобы качественные внешние сайты ссылались на эти источники, используя нужные вам варианты названия (включая аббревиатуры) в качестве Anchor Text.

Что произойдет, если конкуренты начнут использовать негативные фразы в анкорах, ссылаясь на мои источники?

Теоретически, если негативная фраза будет использоваться очень часто и пройдет фильтры нормализации (например, будет распознана как Noun Phrase), она может стать кандидатом. Однако система использует агрегированные данные и метрики качества. Если авторитетные сайты используют корректные названия, а негативные фразы исходят от низкокачественных источников или не достигают порога частотности, они вряд ли будут приняты как синонимы.

Учитывает ли система язык документа при анализе анкоров?

Да. Патент (Claim 4) явно упоминает возможность применения правил нормализации, специфичных для языка (language-dependent normalization rules). Это означает, что система определяет язык ссылающегося документа и применяет соответствующие лингвистические правила (например, разные наборы стоп-слов) при обработке анкорного текста.

Как быстро Google обнаружит новый синоним, если мы начнем его активно использовать?

Это зависит от скорости индексации ссылок и частоты запуска процессов обработки данных (Janitor processes). Если новый синоним быстро набирает популярность и используется в анкорах ссылок с авторитетных сайтов на ваши Source Documents, он будет обнаружен относительно быстро. Однако он должен достичь определенного порога частотности, чтобы быть принятым.

Что важнее для этого алгоритма: количество ссылок или их качество?

Оба фактора важны и взаимосвязаны. Количество (частота) необходимо для преодоления минимального порога и демонстрации общепринятости термина. Качество ссылающихся документов необходимо для валидации надежности этого термина. Несколько ссылок с высококачественных сайтов могут быть более ценными, чем множество ссылок с низкокачественных ресурсов.

Используется ли этот механизм для определения локальных названий сущностей?

Да. Поскольку система может применять языкозависимую нормализацию и анализирует ссылки из разных сегментов интернета, она способна обнаруживать синонимы на разных языках или локальные варианты названий. Например, она может узнать, что "Мюнхен" и "Munich" относятся к одному и тому же городу, анализируя анкоры на немецких и английских сайтах соответственно.

Похожие патенты

Как Google использует консенсус анкорных текстов для определения авторитетных источников и проверки фактов в Knowledge Graph
Google определяет, является ли веб-страница авторитетным источником о конкретной сущности (Entity), анализируя все анкорные тексты входящих ссылок. Система находит консенсусное описание (Center of Mass). Если оно совпадает с именем сущности и это имя присутствует в заголовке страницы, документ используется как эталон для проверки (Corroboration) фактов в базе знаний Google (Fact Repository).
  • US9208229B2
  • 2015-12-08
  • Knowledge Graph

  • Ссылки

  • EEAT и качество

Как Google автоматически распознает сущности в тексте и связывает их в Knowledge Graph с помощью динамических поисковых ссылок
Google использует автоматизированную систему для поддержания связей между сущностями (объектами) в своем хранилище фактов (Knowledge Graph). Система сканирует текст, статистически определяет значимые фразы и сверяет их со списком известных объектов. При совпадении создается динамическая «поисковая ссылка» вместо фиксированного URL. Это позволяет Google постоянно обновлять связи по мере добавления новых знаний.
  • US8260785B2
  • 2012-09-04
  • Knowledge Graph

  • Семантика и интент

  • Ссылки

Как Google автоматически изучает синонимы, анализируя последовательные запросы пользователей и вариации анкорных текстов
Google использует методы для автоматического определения синонимов, акронимов и эквивалентных фраз. Система анализирует логи запросов: если пользователь быстро меняет запрос, сохраняя часть слов (например, с «отели в париже» на «гостиницы в париже»), система учится, что «отели» и «гостиницы» эквивалентны. Также анализируются вариации анкорных текстов, указывающих на одну и ту же страницу.
  • US6941293B1
  • 2005-09-06
  • Семантика и интент

  • Ссылки

Как Google использует структуру сайта и анкорные тексты для извлечения Сущностей из шумных заголовков (Title)
Google использует метод для точного определения основного объекта (Сущности) веб-страницы, когда заголовок (Title) содержит лишнюю информацию (брендинг, рубрики). Система анализирует заголовки похожих страниц на том же сайте (Peer Documents) и анкорные тексты, ссылающиеся на них. Выявляя повторяющиеся шаблоны (префиксы и суффиксы) в заголовках, Google отделяет название Сущности от шума.
  • US7590628B2
  • 2009-09-15
  • Семантика и интент

  • Структура сайта

  • Ссылки

Как Google распознает и объединяет дубликаты сущностей в Knowledge Graph, используя агрессивную нормализацию имен
Google использует многоэтапный процесс для разрешения сущностей (Entity Resolution). Система агрессивно нормализует имена сущностей (удаляя стоп-слова, титулы, знаки препинания и сортируя слова по алфавиту), чтобы сгруппировать потенциальные дубликаты. Затем она сравнивает другие атрибуты (факты) этих сущностей, чтобы принять окончательное решение об их объединении в Knowledge Graph.
  • US8700568B2
  • 2014-04-15
  • Knowledge Graph

Популярные патенты

Как Google комбинирует визуальное сходство и поведение пользователей для переранжирования поиска по картинкам
Google использует механизм для перекрестной проверки релевантности изображений, объединяя поведенческие сигналы (клики) с визуальным анализом. Если изображение часто кликают и оно визуально похоже на другие релевантные изображения по запросу (совместная релевантность), его рейтинг агрессивно повышается. Если оно редко кликается и визуально отличается (совместная нерелевантность), его рейтинг понижается. Это защищает выдачу от кликбейта.
  • US8209330B1
  • 2012-06-26
  • Поведенческие сигналы

  • SERP

  • Мультимедиа

Как Google рассчитывает тематическую репутацию для выявления и наделения полномочиями экспертов-кураторов
Google описывает систему для тематических сообществ, где пользователи зарабатывают репутацию (Topical Reputation Score) на основе качества контента, которым они делятся в рамках конкретных тем. Достигнув порогового значения, пользователь «разблокирует» тему, получая права куратора и возможность управлять контентом других. Система использует механизм «Impact Scores» для оценки влияния действий кураторов на репутацию участников.
  • US9436709B1
  • 2016-09-06
  • EEAT и качество

  • Поведенческие сигналы

Как Google использует машинное обучение и данные о длительности сессий для выявления битых Deep Links в мобильных приложениях
Google использует систему машинного обучения для анализа того, как долго пользователи взаимодействуют с контентом в приложении после перехода по Deep Link (Presentation Duration). Анализируя распределение этих временных интервалов, система классифицирует ссылку как рабочую или битую без необходимости прямого сканирования контента. Это позволяет Google удалять неработающие ссылки из индекса.
  • US10628511B2
  • 2020-04-21
  • Ссылки

  • Индексация

  • Поведенческие сигналы

Как Google использует внутренние ссылки и структуру DOM для генерации шаблонов сайта и извлечения структурированных сниппетов
Google анализирует повторяющиеся блоки внутренних ссылок (например, списки товаров). Если текст возле ссылки на исходной странице совпадает с текстом на целевой странице, Google определяет DOM-структуру этого текста и создает шаблон домена. Этот шаблон позволяет автоматически извлекать ключевую информацию (например, цену и характеристики) для сниппетов со всех однотипных страниц сайта, даже без микроразметки.
  • US9971746B2
  • 2018-05-15
  • Структура сайта

  • SERP

  • Ссылки

Как Google определяет язык и языковую релевантность страницы, анализируя контекст входящих и исходящих ссылок
Google использует контекст входящих и исходящих ссылок для определения языковой релевантности ресурса. Система анализирует язык анкоров, URL, контент ссылающихся и целевых страниц, а также качество ссылок и тип страницы (например, «языковой шлюз»). Это позволяет точно идентифицировать релевантные языки, даже если на самой странице мало текста.
  • US9098582B1
  • 2015-08-04
  • Ссылки

  • Мультиязычность

  • Семантика и интент

Как Google использует обучение с подкреплением (Reinforcement Learning) для оптимизации ранжирования и переписывания запросов на основе успешности поисковых сессий
Google использует систему Reinforcement Learning для динамической адаптации поисковых процессов. Система анализирует поисковые сессии (последовательности запросов и кликов) и учится оптимизировать выдачу, чтобы пользователь быстрее находил нужный результат. Это достигается путем корректировки весов факторов ранжирования, переписывания запросов или даже обновления индекса на лету для конкретных ситуаций.
  • US11157488B2
  • 2021-10-26
  • Индексация

  • Поведенческие сигналы

  • Семантика и интент

Как Google использует модель D-Q-D и поведение пользователей для предложения разнообразных запросов, связанных с конкретными результатами поиска
Google использует модель "Документ-Запрос-Документ" (D-Q-D), построенную на основе данных о поведении пользователей (клики, время просмотра), для генерации связанных поисковых подсказок. Система предлагает альтернативные запросы, привязанные к конкретному результату, только если эти запросы ведут к новому, разнообразному набору документов, облегчая исследование смежных тем.
  • US8583675B1
  • 2013-11-12
  • Поведенческие сигналы

  • SERP

  • Семантика и интент

Как Google использует время взаимодействия пользователя с сайтом (Dwell Time) для расчета оценки качества всего сайта
Google использует агрегированные данные о продолжительности визитов пользователей на сайт для расчета метрики качества этого сайта (Site Quality Score). Система измеряет время взаимодействия (включая Dwell Time — время от клика в выдаче до возврата обратно), фильтрует аномальные визиты и нормализует данные по типам контента. Итоговая оценка используется как независимый от запроса сигнал для ранжирования и принятия решений об индексировании.
  • US9195944B1
  • 2015-11-24
  • Поведенческие сигналы

  • Индексация

  • SERP

Как Google предсказывает следующий запрос пользователя на основе контента текущей страницы и исторических данных
Google использует машинное обучение для анализа логов поведения пользователей, чтобы понять, что они ищут после посещения определенного контента. Система создает совместное векторное пространство (joint embedding) для документов и запросов, где близость отражает семантическую связь и вероятность совместной встречаемости. Это позволяет предлагать релевантные последующие запросы (query suggestions) в реальном времени, даже если ключевые слова для этих запросов на странице отсутствуют.
  • US9594851B1
  • 2017-03-14
  • Семантика и интент

  • Поведенческие сигналы

  • Персонализация

Как Google рассчитывает оценку авторитетности сайта, используя соотношение Независимых Ссылок и Брендовых Запросов
Google рассчитывает метрику авторитетности для веб-сайтов на основе соотношения количества независимых входящих ссылок к количеству брендовых (референсных) запросов. Сайты, имеющие много независимых ссылок относительно их поисковой популярности, получают преимущество. Напротив, популярные сайты с недостаточным количеством внешних ссылок могут быть понижены в ранжировании по общим запросам.
  • US8682892B1
  • 2014-03-25
  • Ссылки

  • EEAT и качество

  • SERP

seohardcore