Индексация

Как Яндекс определяет дату создания документа, используя вероятностную модель ссылочного графа и анализ контента

2018 • Индексация • Свежесть контента • Ссылки

RU2651424C2 2018-04-19 2015-12-28

Яндекс использует гибридный метод для точного определения времени создания веб-страниц, когда эта информация неизвестна или ненадежна. Система сначала извлекает даты из URL и HTML, оценивая их надежность по иерархии доверия. …

Как Яндекс модифицирует инвертированный индекс на основе кликов, позволяя документам ранжироваться по терминам, которых в них нет

2020 • Индексация • Поведенческие факторы • Ранжирование

RU2718435C2 2020-04-02 2014-07-08

Яндекс патентует метод обогащения инвертированного индекса поведенческими данными. Если пользователи кликают на документ, в котором отсутствует один из терминов запроса (найденный благодаря «Правилу Кворума»), система добавляет в индекс «неявную словопозицию» …

Как Яндекс индексирует и ранжирует страницы без ключевых слов в тексте, используя данные о поведении пользователей в сессии

2017 • Индексация • Поведенческие факторы • Ранжирование • Семантический поиск

RU2606309C2 2017-01-10 2015-06-09

Яндекс патентует метод создания «Аннотированного Поискового Индекса». Если пользователи в рамках одной поисковой сессии переходят с релевантной страницы на другую и проводят там значительное время (например, более 30 секунд), вторая …

Как Яндекс ранжирует документы без ключевых слов, используя историю поисковых сессий (Annotated Search Index)

2016 • Индексация • Поведенческие факторы • Ранжирование

WO2016198927A1 2016-12-15 2015-10-13

Яндекс использует данные о поведении пользователей в исторических поисковых сессиях для выявления релевантных документов, которые не содержат слов из исходного запроса. Если пользователи часто переходят к ресурсу (в пределах 1-3 …

Как Яндекс в реальном времени оценивает совместное вхождение и близость слов запроса в документе с помощью нейросети

2024 • Индексация • Ранжирование • Семантический поиск

US12105762B2 2024-10-01 2023-10-11

Яндекс патентует метод повышения скорости и качества ранжирования за счет динамического анализа взаимодействия слов запроса. Система в реальном времени извлекает из инвертированного индекса данные о позициях отдельных слов (query-independent data) …

Как Яндекс оптимизирует краулинг, предсказывая популярность страницы и скорость ее угасания

2016 • Индексация • Свежесть контента • Холодный старт

WO2016012868A1 2016-01-28 2015-01-26

Яндекс патентует метод приоритизации сканирования новых страниц. Система прогнозирует не только общую будущую популярность (количество визитов) страницы, но и скорость, с которой этот интерес будет угасать. Страницы, которые, как ожидается, …

Как Яндекс в реальном времени рассчитывает близость и совместное вхождение ключевых слов для ранжирования

2024 • Индексация • Ранжирование • Семантический поиск

US11868413B2 2024-01-09 2021-12-16

Яндекс патентует метод эффективного расчета сложных факторов ранжирования, зависящих от взаимодействия нескольких слов в запросе (например, их близость друг к другу или совместное вхождение в Title/URL). Система использует данные из …

Как Яндекс оптимизирует выбор документов для индекса, балансируя их пользу и размер

2021 • Индексация • Обучение моделей • Поведенческие факторы

US11194848B2 2021-12-07 2019-07-04

Яндекс патентует метод оптимизации поискового индекса в условиях ограниченных ресурсов. Система оценивает прогнозируемую или фактическую полезность документа (на основе поведения пользователей) и его размер. Используя модифицированный алгоритм LambdaMART, Яндекс ранжирует …

Как Яндекс оптимизирует поисковый индекс, выбирая документы на основе их полезности и размера (Selective Indexing)

2020 • Индексация • Метрики качества поиска • Обучение моделей

RU2720954C1 2020-05-15 2018-12-13

Яндекс патентует метод селективного индексирования для оптимизации использования хранилища. Система оценивает «полезность» документа (на основе прошлых или прогнозируемых взаимодействий пользователей) и его «стоимость» (размер файла). Алгоритм машинного обучения (Listwise LTR, …

Как Яндекс идентифицирует ключевые объекты на странице (логотипы, баннеры, формы) с помощью анализа кода и визуального рендеринга

2017 • Антикачество • Индексация • Качество контента

RU2015125825A 2017-01-10 2015-06-30

Яндекс использует технологию для точной идентификации объектов на веб-странице (таких как реклама, логотипы, карты или формы). Система анализирует не только исходный код (HTML/CSS), но и финальный визуальный вид страницы после …

Как Яндекс приоритизирует индексацию страниц, предсказывая их будущую полезность сразу после сканирования

2020 • Индексация • Обучение моделей • Свежесть контента

RU2714601C1 2020-02-18 2018-09-14

Яндекс использует модель машинного обучения для определения приоритета индексации новых или обновленных страниц. Система оценивает потенциальную «полезность» страницы сразу после сканирования (T1), используя только доступные на этот момент данные. Страницы …

Как Яндекс эффективно рассчитывает близость и совместное вхождение слов запроса в документе для ранжирования

2022 • Индексация • Ранжирование • Семантический поиск

RU2020142462A 2022-06-22 2020-12-22

Яндекс патентует метод для быстрого расчета признаков релевантности, основанных на совместном вхождении и близости (proximity) слов запроса в документе. Система заранее сохраняет в индексе данные о позициях отдельных слов (запросо-независимые …

Как Яндекс определяет дату создания документа, используя вероятностный анализ ссылочного графа и иерархию надежности источников

2018 • Индексация • Свежесть контента • Ссылки

US9934319B2 2018-04-03 2015-12-28

Яндекс патентует метод определения неизвестной даты создания веб-страницы путем анализа ссылочного графа. Система рассчитывает вероятность существования каждой ссылки на основе разницы в возрасте между страницами, их качества (Q) и скорости …

Как Яндекс определяет возраст документа, используя граф ссылок и вероятностный анализ дат

2017 • Индексация • Свежесть контента • Ссылки

RU2015156420A 2017-07-04 2015-12-28

Яндекс патентует метод оценки времени создания веб-страниц, когда эта дата неизвестна или недостоверна. Система использует известные даты, извлекает даты из текста («временные выражения»), а затем распространяет эту информацию по графу …

Как Яндекс определяет дату создания страницы, анализируя возраст и качество связанных с ней документов в ссылочном графе

2016 • Индексация • Свежесть контента • Ссылки

WO2016001723A1 2016-01-07 2014-11-25

Яндекс использует статистическую модель для определения времени создания веб-страницы, когда явные даты отсутствуют. Модель основана на предположении, что страницы чаще ссылаются на недавно созданный («Recency») и качественный («Quality») контент. Анализируя …

Как Яндекс использует анализ ссылочного графа и вероятностные модели для определения настоящей даты создания документа

2016 • Индексация • Свежесть контента • Ссылки

US20160110469A1 2016-04-21 2015-12-28

Яндекс патентует вероятностную модель для определения времени создания веб-страниц путем анализа структуры ссылок. Система максимизирует вероятность наблюдаемой сети ссылок, исходя из предположения, что вероятность ссылки экспоненциально зависит от разницы в …

Как Яндекс модифицирует инвертированный индекс на основе кликов по результатам, не содержащим всех слов запроса

2019 • Индексация • Поведенческие факторы • Ранжирование

US10430448B2 2019-10-01 2014-07-08

Яндекс патентует метод обогащения инвертированного индекса данными о кликах. Если пользователи кликают на документ, в котором отсутствует одно из слов запроса (найденный по «правилу кворума»), система добавляет «клик-постинг» для этого …

Как Яндекс индексирует релевантные страницы, не содержащие ключевых слов, на основе анализа поисковых сессий

2017 • Индексация • Поведенческие факторы • Ранжирование

US9773035B1 2017-09-26 2015-10-13

Яндекс патентует метод создания «Аннотированного Поискового Индекса». Система анализирует исторические поисковые сессии: если пользователь перешел на страницу, которая не содержит слов из исходного запроса, но провел на ней много времени …

Как Яндекс определяет настоящий возраст документа, используя вероятностную модель на основе ссылочного графа

2017 • Индексация • Свежесть контента • Ссылки

US9692804B2 2017-06-27 2015-05-04

Яндекс патентует метод определения точного времени создания веб-страницы, когда стандартные методы (анализ URL, контента, временных меток) ненадежны. Система строит сеть связанных страниц и вычисляет вероятность существования ссылок в зависимости от …

Как Яндекс генерирует прямые ссылки (Deep Links) на страницы сайтов, минуя их индексацию

2016 • E-commerce SEO • SERP • Индексация

RU2597476C2 2016-09-10 2014-06-27

Яндекс патентует метод доступа к контенту на сайтах с огромным количеством динамических страниц (например, билеты, товары, погода). Вместо индексации всех вариантов система определяет шаблон URL сайта и подставляет в него …