Индексация

Яндекс использует гибридный метод для точного определения времени создания веб-страниц, когда эта информация неизвестна или ненадежна. Система сначала извлекает даты из URL и HTML, оценивая их надежность по иерархии доверия. …
Яндекс патентует метод обогащения инвертированного индекса поведенческими данными. Если пользователи кликают на документ, в котором отсутствует один из терминов запроса (найденный благодаря «Правилу Кворума»), система добавляет в индекс «неявную словопозицию» …
Яндекс патентует метод создания «Аннотированного Поискового Индекса». Если пользователи в рамках одной поисковой сессии переходят с релевантной страницы на другую и проводят там значительное время (например, более 30 секунд), вторая …
Яндекс использует данные о поведении пользователей в исторических поисковых сессиях для выявления релевантных документов, которые не содержат слов из исходного запроса. Если пользователи часто переходят к ресурсу (в пределах 1-3 …
Яндекс патентует метод повышения скорости и качества ранжирования за счет динамического анализа взаимодействия слов запроса. Система в реальном времени извлекает из инвертированного индекса данные о позициях отдельных слов (query-independent data) …
Яндекс патентует метод приоритизации сканирования новых страниц. Система прогнозирует не только общую будущую популярность (количество визитов) страницы, но и скорость, с которой этот интерес будет угасать. Страницы, которые, как ожидается, …
Яндекс патентует метод эффективного расчета сложных факторов ранжирования, зависящих от взаимодействия нескольких слов в запросе (например, их близость друг к другу или совместное вхождение в Title/URL). Система использует данные из …
Яндекс патентует метод оптимизации поискового индекса в условиях ограниченных ресурсов. Система оценивает прогнозируемую или фактическую полезность документа (на основе поведения пользователей) и его размер. Используя модифицированный алгоритм LambdaMART, Яндекс ранжирует …
Яндекс патентует метод селективного индексирования для оптимизации использования хранилища. Система оценивает «полезность» документа (на основе прошлых или прогнозируемых взаимодействий пользователей) и его «стоимость» (размер файла). Алгоритм машинного обучения (Listwise LTR, …
Яндекс использует технологию для точной идентификации объектов на веб-странице (таких как реклама, логотипы, карты или формы). Система анализирует не только исходный код (HTML/CSS), но и финальный визуальный вид страницы после …
Яндекс использует модель машинного обучения для определения приоритета индексации новых или обновленных страниц. Система оценивает потенциальную «полезность» страницы сразу после сканирования (T1), используя только доступные на этот момент данные. Страницы …
Яндекс патентует метод для быстрого расчета признаков релевантности, основанных на совместном вхождении и близости (proximity) слов запроса в документе. Система заранее сохраняет в индексе данные о позициях отдельных слов (запросо-независимые …
Яндекс патентует метод определения неизвестной даты создания веб-страницы путем анализа ссылочного графа. Система рассчитывает вероятность существования каждой ссылки на основе разницы в возрасте между страницами, их качества (Q) и скорости …
Яндекс патентует метод оценки времени создания веб-страниц, когда эта дата неизвестна или недостоверна. Система использует известные даты, извлекает даты из текста («временные выражения»), а затем распространяет эту информацию по графу …
Яндекс использует статистическую модель для определения времени создания веб-страницы, когда явные даты отсутствуют. Модель основана на предположении, что страницы чаще ссылаются на недавно созданный («Recency») и качественный («Quality») контент. Анализируя …
Яндекс патентует вероятностную модель для определения времени создания веб-страниц путем анализа структуры ссылок. Система максимизирует вероятность наблюдаемой сети ссылок, исходя из предположения, что вероятность ссылки экспоненциально зависит от разницы в …
Яндекс патентует метод обогащения инвертированного индекса данными о кликах. Если пользователи кликают на документ, в котором отсутствует одно из слов запроса (найденный по «правилу кворума»), система добавляет «клик-постинг» для этого …
Яндекс патентует метод создания «Аннотированного Поискового Индекса». Система анализирует исторические поисковые сессии: если пользователь перешел на страницу, которая не содержит слов из исходного запроса, но провел на ней много времени …
Яндекс патентует метод определения точного времени создания веб-страницы, когда стандартные методы (анализ URL, контента, временных меток) ненадежны. Система строит сеть связанных страниц и вычисляет вероятность существования ссылок в зависимости от …
Яндекс патентует метод доступа к контенту на сайтах с огромным количеством динамических страниц (например, билеты, товары, погода). Вместо индексации всех вариантов система определяет шаблон URL сайта и подставляет в него …