Close Menu
    Telegram
    SEO HARDCORE
    • Разборы патентов
      • Патенты Google
      • Патенты Яндекс
    • Скоро
      SEO инструменты
    • Скоро
      SEO аналитика
    SEO HARDCORE
    Разборы патентов • Патенты Яндекс

    Как Яндекс объединяет и кластеризует определения из разных словарей для формирования ответов (Яндекс.Словари)

    СПОСОБ И СИСТЕМА ГЕНЕРИРОВАНИЯ ОПРЕДЕЛЕНИЯ СЛОВА НА ОСНОВЕ МНОЖЕСТВЕННЫХ ИСТОЧНИКОВ (METHOD AND SYSTEM FOR GENERATING DEFINITION OF WORD BASED ON MULTIPLE SOURCES)
    • RU2595531C2
    • Yandex LLC
    • 2016-08-27
    • 2014-04-21
    2016 Вертикальный поиск Качество контента Колдунщики Патенты Яндекс

    Яндекс патентует метод для консолидации определений и переводов слов, полученных из разных источников (например, разных словарей). Система анализирует полученные данные, находит дубликаты или схожие варианты и объединяет их в кластеры. Это позволяет представить пользователю чистый, недублированный ответ (например, в Яндекс.Словарях или Колдунщике), указывая при этом количество источников, подтверждающих данный вариант определения.

    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх

    Описание

    Какую задачу решает

    Патент решает задачу улучшения пользовательского опыта (UX) в сервисах, агрегирующих словарные данные (в тексте упоминается Яндекс.Словари). Проблема заключается в том, что разные источники (словари, энциклопедии) часто предоставляют идентичные или очень похожие определения/переводы. Отображение каждого определения отдельно приводит к перегруженности интерфейса, занимает полезную площадь экрана и заставляет пользователя тратить время на фильтрацию повторяющейся информации. Изобретение направлено на дедупликацию и структурирование выдачи.

    Что запатентовано

    Запатентована система и способ кластеризации и агрегации определений слова, полученных из множества источников. Суть изобретения заключается в методологии парсинга, нормализации и сравнения определений для объединения похожих записей в единый Кластер определения (Definition Cluster) или Обобщенную выводимую запись. При этом система сохраняет атрибуцию к исходным источникам.

    Как это работает

    Система запрашивает определения у нескольких источников. Полученные ответы (возможно, в разных форматах, например JSON, XML) нормализуются в единый формат с помощью ParserService и структурируются с помощью DefinitionArticleParser. Система определяет Первичный источник (Primary Source), который формирует начальные кластеры. Определения из Вторичных источников (Secondary Sources) сравниваются с этими кластерами. Для сравнения используются правила сопоставления, включающие нормализацию текста и сортировку слов по алфавиту. Если найдено совпадение (полное или частичное), определение объединяется с кластером. Финальный результат отображает консолидированное определение с указанием всех источников (например, «Переводы из 3 словарей»).

    Актуальность для SEO

    Средняя. Задача консолидации структурированных данных из разных источников для формирования ответов (например, в Колдунщиках) остается актуальной. Однако данный патент (подача 2014 года) узкоспециализирован для сервиса словарей и описывает методы сравнения, основанные на правилах (нормализация, сортировка). Современные системы для определения семантической близости, вероятно, используют более продвинутые NLP/ML подходы (векторный анализ), но базовые принципы дедупликации остаются релевантными.

    Важность для SEO

    Влияние на SEO минимальное (1/10). Патент описывает исключительно внутреннюю работу вертикального сервиса (Яндекс.Словари) или словарного Колдунщика. Он не описывает механизмы, используемые в ранжировании основного веб-поиска (Ranking Layer). Следовательно, он не дает практически никаких прикладных знаний или рекомендаций для оптимизации сайтов под органический поиск.

    Детальный разбор

    Термины и определения

    DefinitionArticleParser
    Компонент системы, который анализирует унифицированный ответ и организует его в структурированный формат полей (определение, пример, синоним, идентификатор источника и т.д.).
    ParserService
    Компонент системы, отвечающий за прием ответов от источников (в разных протоколах, например, JSON или XML) и их трансформацию в унифицированный внутренний формат.
    Primary Source (Первичный источник)
    Источник (словарь), выбранный системой в качестве основного. Его структура и определения служат базой для формирования начальных кластеров.
    Secondary Source (Вторичный источник)
    Дополнительные источники, определения из которых сравниваются с кластерами первичного источника и объединяются с ними при совпадении.
    Кластер определения (Definition Cluster) / Обобщенная выводимая запись
    Агрегированная запись, содержащая одно или несколько схожих определений, полученных из одного или нескольких источников.
    Строка (Line)
    Дискретный компонент определения; группировка одного или нескольких аналогичных значений в пределах одного ответа источника. Используется как базовая единица для сравнения.
    Вспомогательная часть (Auxiliary Part)
    Часть словарной статьи, которая не является самим определением (примеры использования, синонимы, антонимы, транскрипции, ссылки).
    Запрещенное содержание (Forbidden Content)
    Контент, который должен быть исключен из результатов (опечатки, слова с ошибками, неясные определения). Устанавливается оператором.

    Ключевые утверждения (Анализ Claims)

    Патент фокусируется на процессе объединения информации из разных источников для предотвращения дублирования при показе определений.

    Claim 1 (Независимый пункт): Описывает основной способ выполнения онлайн-определения слова.

    1. Получение первого и второго наборов определений из Источника 1 и Источника 2.
    2. Синтаксический анализ обоих наборов для получения отдельных наборов слов (Слова 1 и Слова 2).
    3. Организация Слов 1 в по меньшей мере один кластер (Кластер 1).
    4. Связывание части Слов 2 с Кластером 1, если по меньшей мере одно слово из Слов 2 соответствует любому слову из Слов 1. (Это указывает на механизм объединения при частичном совпадении).
    5. Связывание части Слов 2 со Вторым кластером (Кластер 2), если по меньшей мере одно слово из Слов 2 НЕ соответствует любому слову из Слов 1. (Это механизм выделения уникальной информации).
    6. Отображение пользователю Кластера 1 и Кластера 2 как определений исходного слова.

    Claim 18 (Зависимый от 1): Уточняет, что организация первого набора слов в кластеры (шаг 3) выполняется, если этот набор определен как «первичный набор» (Primary Source). Это подтверждает использование иерархии источников.

    Claim 21-24 (Зависимые): Описывают критерии проверки совпадения (шаг 4). Проверка может включать сравнение ВСЕХ слов в обоих наборах. Для этого может применяться организация слов в алфавитном порядке (Claim 22) и/или нормализация (Claim 23, например, регистр). Совпадение устанавливается, если все слова после организации/нормализации совпадают.

    Claim 55 (Независимый пункт): Описывает обобщенный способ.

    1. Получение Определения 1 и Определения 2 из разных источников.
    2. Анализ с целью установления, являются ли они «по существу одинаковыми».
    3. Если ДА: Группирование в Первую обобщенную выводимую запись и отображение ее с указанием обоих источников.
    4. Если НЕТ: Группирование во Вторую обобщенную выводимую запись.
    5. Отображение Первой и Второй записей как определений исходного слова.

    Где и как применяется

    Изобретение не относится к стандартным слоям веб-поиска (Crawling, Indexing, Ranking), а применяется на уровне формирования ответа для специфических задач в вертикальных сервисах.

    BLENDER – Метапоиск и Смешивание (MetaSearch & Blending) / Система Wizards (Колдунщики)

    Алгоритм работает на уровне агрегации данных для вертикального сервиса (например, Яндекс.Словари) или Словарного Колдунщика. Он отвечает за сбор данных из разных словарных API и их агрегацию для формирования ответа.

    • Взаимодействие: Система взаимодействует с ресурсными серверами, которые хранят структурированные данные (словари). Связь осуществляется через протоколы типа JSON или XML.
    • Данные на входе: Запрос пользователя (слово/фраза). Множественные ответы от ресурсных серверов в разных форматах.
    • Данные на выходе: Кластеризованный и агрегированный набор определений, отформатированный для отображения пользователю.
    • Технические особенности: Ключевыми компонентами являются ParserService (для нормализации форматов) и DefinitionArticleParser (для структурированного разбора), а также эвристический алгоритм кластеризации.

    На что влияет

    • Конкретные типы контента: Влияет исключительно на отображение словарных статей, переводов и определений в рамках сервисов Яндекса.
    • Специфические запросы: Определительные или переводческие запросы.

    Патент не оказывает влияния на ранжирование веб-контента в основном поиске Яндекса.

    Когда применяется

    • Триггеры активации: Запрос пользователя к сервису Яндекс.Словари или активация Словарного Колдунщика на SERP при определении соответствующего интента.
    • Условия работы: Алгоритм активируется, когда система получает данные из нескольких источников для ответа на запрос и нуждается в их дедупликации.

    Пошаговый алгоритм

    Процесс работы системы по агрегации и кластеризации определений.

    1. Запрос источников: Система отправляет запросы к нескольким ресурсным серверам (словарям).
    2. Получение и Нормализация (ParserService): Получение ответов в разных форматах (JSON, XML). Преобразование их в унифицированный внутренний формат.
    3. Структурированный разбор (DefinitionArticleParser): Разбор унифицированных ответов на поля: часть определения и вспомогательная часть (примеры, синонимы).
    4. Очистка и предобработка:
      • Удаление запрещенного содержания (ошибки, опечатки).
      • Валидация вспомогательных частей (например, проверка языка примеров).
      • Разделение определений на дискретные компоненты («строки»).
    5. Определение Первичного источника: Выбор основного источника, который будет служить базой для кластеризации.
    6. Начальная кластеризация: Организация определений («строк») из Первичного источника в начальные кластеры (например, по частям речи).
    7. Слияние (Кластеризация Вторичных источников):
      • Сравнение строк из Вторичных источников с существующими кластерами.
      • Определение совпадения. Это включает нормализацию строк (регистр) и организацию слов в алфавитном порядке. Совпадение может быть полным или частичным.
      • Объединение совпадающих строк с соответствующим кластером.
      • Обработка неоднозначности: Если строка подходит к нескольким кластерам, могут применяться эвристики (например, частотный анализ слов).
      • Создание новых кластеров для строк, которые не совпали ни с одним существующим кластером.
    8. Агрегация Вспомогательных частей: Примеры и синонимы из всех объединенных источников связываются с соответствующими финальными кластерами.
    9. Генерация вывода: Формирование финального результата, включая кластеризованные определения и агрегированные индикаторы источников (например, «Переводы из 3 словарей»).

    Какие данные и как использует

    Данные на входе

    Система использует данные, полученные исключительно от подключенных структурированных источников (словарей).

    • Контентные факторы: Текст определений, примеры использования, синонимы, антонимы, транскрипции.
    • Структурные факторы: Заголовки внутри словарных статей (например, часть речи), разделители (запятые, точки с запятой), используемые источником для структурирования ответа.
    • Системные данные: Идентификаторы источников, протоколы связи (JSON/XML), конфигурация, определяющая Первичный источник, список запрещенного содержания.

    В патенте не упоминаются поведенческие, ссылочные, технические или географические факторы, так как он не относится к веб-поиску.

    Какие метрики используются и как они считаются

    Система использует преимущественно эвристические и лингвистические методы сравнения текстов.

    • Совпадение слов (Word Matching/Overlap): Основная метрика — степень перекрытия между словами в двух сравниваемых определениях («строках»).
    • Нормализация и Сортировка: Перед сравнением применяется нормализация (регистр, диакритические знаки) и организация слов в алфавитном порядке. Это позволяет обеспечить сравнение, не зависящее от порядка слов.
    • Критерии Совпадения: Патент описывает варианты:
      • Полное совпадение: Все слова после нормализации и сортировки совпадают.
      • Частичное совпадение: Хотя бы одно слово совпадает.
    • Частотный анализ: Упоминается как способ разрешения неоднозначности при кластеризации. Если определение может быть объединено с несколькими кластерами, система может анализировать частоту слов (в кластерах или в Интернете в целом) для выбора наиболее подходящего варианта.

    Выводы

    Патент описывает внутренние технические процессы Яндекс, связанные с агрегацией и представлением данных в сервисе Яндекс.Словари или Словарном Колдунщике. Он не дает практических выводов для SEO-специалистов, работающих над продвижением сайтов в основном веб-поиске.

    1. Фокус на UX и дедупликации: Основная цель изобретения — улучшение пользовательского опыта за счет устранения избыточности информации из разных структурированных источников.
    2. Иерархия источников: Система использует концепцию Первичного источника для формирования базовой структуры кластеров, к которой присоединяются данные из Вторичных источников.
    3. Сложная нормализация и кластеризация: Патент описывает конкретный, основанный на правилах (rule-based) подход к парсингу, нормализации (включая алфавитную сортировку слов) и кластеризации текстовой информации.
    4. Многоступенчатая обработка: Процесс включает четкое разделение на этапы нормализации протоколов (ParserService), структурирования данных (DefinitionArticleParser) и логической кластеризации.
    5. Контроль качества: Присутствуют механизмы фильтрации (Запрещенное содержание) для удаления ошибок из входных данных.

    Практика

    Патент является инфраструктурным и специфичным для вертикального сервиса (Яндекс.Словари). Он не дает практических рекомендаций для применения в SEO-стратегиях, направленных на продвижение сайтов в основном поиске.

    Best practices (это мы делаем)

    Практических рекомендаций для SEO, напрямую следующих из этого патента, нет.

    Worst practices (это делать не надо)

    Патент не описывает SEO-тактики или манипуляции, против которых он направлен в контексте веб-поиска.

    Стратегическое значение

    Стратегическое значение для SEO минимально. Патент не меняет понимание приоритетов Яндекса в ранжировании веб-поиска. Он демонстрирует, как Яндекс подходит к задаче синтеза информации из нескольких доверенных источников для генерации прямых ответов (Колдунщиков). Это подтверждает способность Яндекса консолидировать факты и дедуплицировать данные, что является важным элементом для построения баз знаний (Knowledge Graph), но конкретные алгоритмы из этого патента слишком специфичны для словарей.

    Практические примеры

    Практических примеров для SEO нет. Ниже приведен пример работы алгоритма в контексте Яндекс.Словарей.

    Сценарий: Консолидация определений

    1. Запрос: Пользователь ищет перевод слова.
    2. Получение данных:
      • Источник 1 (Первичный): Группа А: «формальность; техническая сторона». Группа Б: «церемония, порядок».
      • Источник 2 (Вторичный): «установленный порядок, церемония, этикет, обычай; формальность».
    3. Обработка Источника 2: Система разделяет его на строки по точке с запятой: Строка 1: «установленный порядок, церемония, этикет, обычай». Строка 2: «формальность».
    4. Слияние:
      • Строка 2 («формальность») сравнивается с Группой А («формальность; техническая сторона»). Найдено совпадение (частичное). Строка 2 сливается с Группой А.
      • Строка 1 («установленный порядок, церемония, этикет, обычай») сравнивается с Группой Б («церемония, порядок»). Найдено совпадение. Строка 1 сливается с Группой Б.
    5. Результат: Отображаются два кластера (А и Б), и для каждого указывается, что определение взято из 2 источников. Дублирование устранено.

    Вопросы и ответы

    Влияет ли этот патент на ранжирование моего сайта в органической выдаче Яндекса?

    Нет, не влияет. Этот патент описывает исключительно работу вертикального сервиса Яндекс.Словари или словарного Колдунщика. Он касается методов агрегации и отображения определений из доверенных баз данных (словарей) для улучшения пользовательского интерфейса этого сервиса. Механизмы ранжирования веб-поиска в патенте не рассматриваются.

    Какова основная цель этого изобретения?

    Основная цель — улучшить пользовательский опыт и ускорить навигацию путем устранения избыточности информации. Вместо того чтобы показывать несколько одинаковых переводов из разных источников, система объединяет их в одну компактную запись (кластер). Это экономит место на экране и время пользователя.

    Что такое «Первичный источник» (Primary Source) в контексте этого патента?

    Первичный источник — это словарь, который система считает основным или наиболее авторитетным для данной задачи. Его структура и определения используются как база для создания начальных кластеров. Определения из всех остальных (вторичных) источников сравниваются с этим базовым набором и объединяются с ним при наличии совпадений.

    Как система определяет, что два определения из разных словарей «одинаковые»?

    Система использует сложный механизм сопоставления. Она не просто сравнивает текст, а проводит нормализацию (например, игнорирует регистр) и может сортировать слова в определении по алфавиту. Это позволяет системе понять, что «церемония, порядок» и «порядок, церемония» — это одно и то же. Патент описывает критерии как полного совпадения (все слова идентичны), так и частичного (хотя бы одно слово совпадает).

    Что такое ParserService и DefinitionArticleParser?

    Это два внутренних компонента системы обработки данных. ParserService принимает данные от разных источников в разных форматах (например, XML или JSON) и приводит их к единому внутреннему стандарту. DefinitionArticleParser затем разбирает этот унифицированный формат, чтобы извлечь структурированную информацию: само определение, примеры, синонимы и т.д.

    Используются ли в этом патенте нейросети или семантический анализ (BERT/YATI)?

    Нет. Описанные в патенте (подача 2014 года) методы основаны на правилах (rule-based), эвристиках, нормализации текста, сортировке и точном/частичном сравнении слов. Сложные модели машинного обучения или векторные представления (эмбеддинги) для определения семантической близости в этом патенте не упоминаются.

    Какое значение этот патент имеет для понимания работы Графа Знаний (Knowledge Graph) Яндекса?

    Патент дает косвенное понимание. Он демонстрирует, как Яндекс решает задачу консолидации фактов о сущности (в данном случае, о слове), полученных из разных мест. Ключевые принципы — приоритизация источников (Primary Source), дедупликация данных и верификация фактов через множественное подтверждение — являются фундаментальными для работы Графа Знаний.

    Что происходит, если определение подходит сразу к нескольким кластерам?

    Патент предусматривает механизмы разрешения таких неоднозначностей. Система может использовать частотный анализ слов (выбирая кластер на основе частоты встречаемости слов) или подсчитывать количество совпавших элементов в каждом кластере и выбирать тот, где совпадений больше. В крайнем случае, она может выбрать первый подходящий кластер.

    Что такое «Вспомогательная часть» (Auxiliary Part) определения?

    Это любая информация в словарной статье, которая дополняет основное определение. К ней относятся примеры использования слова, синонимы, антонимы, транскрипции и ссылки. Система умеет извлекать эти данные и агрегировать их в соответствующем кластере определения.

    Какова практическая польза этого патента для SEO-специалиста?

    Практической пользы для работы по SEO продвижению сайтов в этом патенте нет. Он не описывает факторы ранжирования, методы индексации веб-страниц или способы оптимизации контента для лучшей видимости в органическом поиске. Это технический патент, описывающий инфраструктуру конкретного вертикального сервиса.

    Навигация
    • Описание
    • Детальный разбор
    • Выводы
    • Практика
    • Вопросы и ответы
    • Наверх
    Telegram
    © 2025 SEO HARDCORE

    Type above and press Enter to search. Press Esc to cancel.