Индексация

Google использует систему для автоматического определения релевантных бизнес-категорий (например, «Желтые страницы») для поискового запроса. Система основана на статистической модели (например, Naïve Bayes), которая обучается на различных источниках данных: каталогах, веб-сайтах …
Патент Google описывает систему, которая детально отслеживает взаимодействие пользователя с контентом (веб-страницами, документами) на его устройстве. Система анализирует, как долго пользователь изучал контент (активное время), как часто возвращался, вводил ли …
Google использует модель идентификации вакансий для преодоления ограничений поиска по ключевым словам в сфере трудоустройства. Система обучается на основе таксономии профессий, генерируя векторы для вакансий с использованием специализированных весовых коэффициентов …
Google автоматически верифицирует данные о локальных компаниях (адрес, телефон, часы работы), сравнивая информацию из сторонних каталогов и агрегаторов с данными, извлеченными с официального сайта компании («Authority Website»). Официальный сайт считается …
Система для обработки неоднозначных запросов путем идентификации различных значений (концепций) запроса и представления их в виде отдельных вкладок (Tabs). Внутри каждой вкладки похожие результаты группируются в "стеки" (Stacks) для уменьшения …
Google классифицирует синонимы по степени надежности. Если синоним считается ненадежным или узкоконтекстным (Phrase-Restricted Substitute Term), он должен появиться в документе рядом с теми же соседними словами, что и в исходном …
Google патентует метод улучшения ранжирования для сложных запросов. Вместо оценки одного лучшего пассажа система находит несколько релевантных предложений по всему документу, объединяет их в «извлекающую сводку» (Extractive Summary) и переранжирует …
Google использует механизм для определения порядка различных вертикалей (например, Музыка, Приложения, Книги) в смешанной выдаче. Чтобы избежать искажений из-за неравномерной популярности вертикалей, система анализирует результаты стандартного Веб-поиска (WWW-based corpus) по …
Патент описывает инфраструктуру Google для оцифровки, индексирования и интеграции печатных изданий (книги, журналы) в результаты поиска наравне с веб-страницами. Он включает механизмы для получения разрешений от издателей (Permission Protocol), совместного …
Google использует классификатор машинного обучения для идентификации "лонгридов" (In-Depth Articles), анализируя не длину или тематику, а стиль написания. Система использует глубокий NLP-анализ для извлечения лингвистических признаков, таких как структура предложений …
Google использует модель глубокого обучения для анализа изображений, которая не только извлекает визуальные признаки (дескрипторы), но и оценивает их важность с помощью механизма внимания. Это позволяет системе фокусироваться на самых …
Google анализирует, как глаголы и объекты в запросе статистически связаны с именами людей в корпусе документов. Система вычисляет оценку уверенности, что ответ должен содержать имя человека. Если уверенность высока, результаты …
Google использует механизм для определения самой важной части страницы по запросу пользователя. Система классифицирует слова запроса на «навигационные» (если они есть в Title или URL) и «информационные». При анализе контента …
Анализ патента (Yoogli, Inc.), описывающего механизм глубокого понимания запросов для извлечения структурированной информации, особенно в E-commerce. Система анализирует запрос, формирует взвешенные "микроконтексты" с учетом истории пользователя, определяет общий "макроконтекст" (тему/интент) …
Google анализирует неявные признаки веб-страницы (структуру, теги, размер, сложность), чтобы определить ее реальный формат и оценить удобство использования (Displayability) на конкретных мобильных устройствах. Это позволяет фильтровать поисковую выдачу, гарантируя пользователю …
Google использует систему для точного сопоставления поисковых запросов с мобильными приложениями. Система анализирует семантические признаки запроса (основную тему и подтемы), извлекая их в том числе из результатов поиска (SERP). Затем …
Патент Google описывает архитектуру индексирования, при которой внутренние идентификаторы (DocID) присваиваются документам на основе их важности (например, PageRank). Более авторитетные документы получают приоритетные (меньшие) DocID. Это позволяет поисковой системе физически …
Патент Google описывает инфраструктурную технологию для ускорения поиска Максимального Внутреннего Произведения (MIPS). Этот механизм позволяет эффективно вычислять релевантность для гибридных векторов, которые сочетают плотные данные (например, нейросетевые эмбеддинги для семантики) …
Google использует методы анализа графа данных для выявления «содержательных связей» о сущностях. Сюда входят общие связи между двумя сущностями, редкие комбинации связей, сильные вторичные связи (например, актер снялся в 49 …
Google использует механизм для улучшения поиска по запросам, содержащим транслитерированные слова (например, русские слова, написанные латиницей). Система выполняет обратную транслитерацию, чтобы определить, какие варианты написания соответствуют одному и тому же …