Индексация

Google автоматически генерирует семантически обогащенные структурированные документы из видео и изображений, объединяя транскрипцию аудио (ASR), текст с экрана (OCR) и данные о спикерах. Большие Языковые Модели (LLM) используют эти документы …
Google использует механизм для оценки качества и авторитетности изображений, даже если на них нет прямых ссылок. Система создает "виртуальные ссылки" между изображениями на основе их визуального сходства, данных о кликах …
Google использует метод для эффективного обнаружения почти дубликатов документов. Система генерирует компактный цифровой отпечаток (fingerprint) для каждого документа путем выборки перекрывающихся блоков текста (shingling), вычисления контрольных сумм и их сжатия. …
Google использует механизм для автоматического обнаружения идентификаторов сессий в URL-адресах во время сканирования. Система анализирует подстроки, которые выглядят случайными и повторяются в нескольких URL с одного сайта. Эти идентификаторы удаляются …
Патент Google описывает систему модификации поисковой выдачи для улучшения видимости "Каналов" (коллекций контента из общего источника или темы). Система использует два механизма: гарантирует присутствие минимального количества Каналов в топе выдачи …
Патент Google, описывающий фундаментальный механизм автоматического обнаружения ссылок между веб-страницами разных авторов. Когда система обнаруживает, что Страница B ссылается на Страницу A, она может автоматически встроить представление (например, ссылку) Страницы …
Google использует многофакторную систему для идентификации хостов (Hostnames) или разделов сайтов (Subtrees), которые являются зеркалами друг друга. Система анализирует взвешенные сигналы, включая IP-адреса, редиректы, структуру ссылок, данные WHOIS и степень …
Google индексирует личные данные пользователя (email, геолокацию, чекины) для ответа на "персональные локационные запросы" (например, "рестораны, в которых я был в Берлине"). Система распознает намерение пользователя найти информацию о ранее …
Google использует систему для определения, требует ли запрос свежих результатов. Это решение основано на анализе сигналов, таких как скорость появления нового контента и трендовость запроса. Патент детально описывает, как Google …
Патент Google описывает механизм для улучшения ранжирования в поиске по картинкам. Если для конкретного запроса нет обученной модели визуальной релевантности, система использует модель от похожего запроса. Оценка релевантности (Boost) корректируется …
Google использует механизм мультимодального поиска, позволяющий пользователям дополнять текстовые запросы визуальным вводом (например, фотографией). Система анализирует изображение с помощью моделей машинного обучения для распознавания объектов и генерации семантической информации. Эта …
Google патентует метод использования сторонних сертификатов (например, VMC для BIMI) для подтверждения связи между сущностью (брендом, организацией) и конкретной веб-страницей. Атрибуты, извлеченные с этой страницы через разметку Schema.org, помечаются как …
Google использует систему для идентификации основного контента веб-страницы путем ее разделения на логические разделы на основе визуального макета. Система оценивает характеристики каждого раздела (соотношение ссылок к тексту, количество слов, изображения, …
Google использует систему для извлечения сущностей (Instances), их характеристик (Attributes) и конкретных данных (Values) из разрозненных и неструктурированных веб-документов. Эта система агрегирует информацию, оценивает ее достоверность (Confidence) и представляет пользователю …
Google использует многоступенчатый процесс для улучшения аннотаций изображений. Система сначала генерирует набор меток на основе визуальных характеристик (Content Feature Values). Затем она использует базу семантических связей (Semantic Database/Граф знаний), чтобы …
Патент описывает создание и использование репозитория фактов (предшественника Knowledge Graph). Система извлекает факты из интернета и связывает их с объектами (сущностями). При поиске Google не просто возвращает список объектов, а …
Google анализирует поведение сайтов на предмет массовых редиректов на сторонние организации. Сайты, состоящие преимущественно из таких редиректов («Bounce Pads» или Дорвеи), пессимизируются в процессе каноникализации. Это гарантирует, что при наличии …
Google использует систему для агрегации и выбора репрезентативной выборки отзывов о продуктах или компаниях. Система рассчитывает общий рейтинг и адаптирует выборку к нему (показывая смесь мнений при среднем рейтинге). Также …
Google использует систему для автоматического пополнения Графа Знаний. Когда в тексте обнаруживается новая сущность, система анализирует соседние известные сущности и лексический контекст (n-граммы), связывающий их. Комбинируя классы известных сущностей и …
Google использует технику нормализации для объединения разнородных результатов поиска (например, бесплатных и платных приложений, или разных вертикалей поиска) в единый список. Система анализирует распределение популярности внутри каждой группы, вычисляет «типичную …