Яндекс использует машинное обучение для идентификации оригинального источника контента среди множества перепечаток. Система группирует похожие публикации в «тематические кластеры» и анализирует исходящие ссылки внутри них. Оценивая репутацию источников, время публикации …
Качество контента
Яндекс патентует метод идентификации оригинального источника информации среди множества перепечаток. Система кластеризует похожие документы по теме, извлекает исходящие ссылки и использует машинное обучение для определения первоисточника. Ключевые факторы анализа включают …
Яндекс использует технологию для точной идентификации объектов на веб-странице (таких как реклама, логотипы, карты или формы). Система анализирует не только исходный код (HTML/CSS), но и финальный визуальный вид страницы после …
Яндекс патентует механизм борьбы с кликбейтом в рекомендательных системах (например, Дзен). Система сравнивает популярность источника контента внутри платформы с его популярностью в интернете в целом. Если источник аномально популярен внутри …
Яндекс патентует двухэтапный механизм для ранжирования в рекомендательных системах. Сначала определяется персонализированная релевантность контента на основе вовлеченности. Затем независимый алгоритм классификации оценивает качество контента и его источника, генерируя «понижающую оценку» …
Яндекс использует машинное обучение для определения оригинального источника (первоисточника) контента, который был многократно перепечатан. Система группирует похожие публикации в тематические кластеры и анализирует исходящие ссылки внутри этого кластера. Учитывая репутацию …
Яндекс патентует метод оценки важности предложений в тексте для создания резюме (сниппетов) и определения тематики документа без использования внешних словарей. Система разбивает текст на «концептуальные фразы» и оценивает их значимость …
Яндекс использует метод для точной идентификации специфических объектов на веб-странице (реклама, логотипы, карты, формы) после ее полной отрисовки браузером. Система анализирует как визуальные характеристики (размер, положение, стиль), так и характеристики …
Яндекс патентует систему для автоматической проверки фактов в контенте, созданном генеративными моделями (например, YandexGPT) для поисковой выдачи. Система использует специальную NLP-модель для перекрестной проверки сгенерированных фрагментов текста (сниппетов). Она оценивает, …
Яндекс патентует метод создания краткого изложения текста (например, для сниппетов в SERP) путем анализа самого текста без внешних онтологических словарей. Система выделяет «концептуальные фразы» и оценивает их важность на основе …
Яндекс патентует метод проверки фактической точности контента, созданного генеративными моделями (например, для объектных карточек). Система не сверяет факты с внешними источниками, а ищет внутренние противоречия в сгенерированном тексте. Специально обученная …
Яндекс использует алгоритм для кластеризации документов (например, новостных статей), освещающих одну тему. Система рассчитывает «Обобщенную Метрику», основанную на том, насколько документы дополняют друг друга (Первая Метрика) и насколько они «разбавляют» …
Яндекс патентует метод обучения нейросетей (ANN) для генерации сводного ответа на основе нескольких сниппетов из поисковой выдачи. Ключевая особенность — применение «маски ограничения внимания», которая заставляет модель анализировать контекст каждого …
Яндекс патентует метод автоматического реферирования контента (текст, аудио, видео). Система сегментирует контент, оценивает «полезность» (Utility) каждого фрагмента и определяет смысловые зависимости (Linkage) между ними. В резюме (например, сниппет) включаются не …
Яндекс патентует метод повышения качества данных, используемых для обучения алгоритмов ранжирования (включая Proxima). Система анализирует оценки, полученные от краудсорсинговых асессоров (например, в Толоке), и выявляет когнитивные искажения, вызванные нерелевантными факторами …
Яндекс использует метод для разрешения лексической неоднозначности (Word Sense Disambiguation). Система анализирует грамматическую структуру вокруг многозначного слова (омонима) и ищет однозначное слово, используемое в аналогичной структуре. Затем грамматическая роль (например, …
Яндекс патентует метод разрешения лексической многозначности (Word Sense Disambiguation), не требующий размеченных вручную корпусов. Система находит многозначное слово (омоним) и анализирует его грамматический контекст. Затем она ищет однозначное слово в …
Яндекс патентует технологию для автоматического обогащения документов контекстной информацией. Система анализирует текст, идентифицирует объекты (сущности), определяет их точное значение в контексте (Дисамбигуация) и выделяет наиболее значимые из них (Salience). Для …
Яндекс патентует метод автоматического улучшения классификаторов контента (например, фильтров SafeSearch). Если пользователи массово делятся примерами ошибок поиска (например, шокирующий контент в безопасном режиме), система обнаруживает связанный с этим всплеск трафика …
Яндекс патентует метод встраивания текста в метаданные медиафайлов (изображений, видео, аудио) непосредственно в момент создания или редактирования контента. Если система «знает» текст (например, пользователь ввел аннотацию или система извлекла текст …