Автор: Виктор Репин

2011 Google Shopping Патенты Google

Как Google использует поиск для сопоставления отзывов о товарах, у которых нет уникальных идентификаторов (GTIN, UPC)

Google использует механизм для агрегации отзывов о товарах в свой продуктовый каталог (например, Google Shopping). Если в отзыве отсутствует уникальный идентификатор товара (GTIN, UPC), система извлекает ключевую информацию (например, название товара), выполняет поиск в интернете и анализирует результаты выдачи. Найдя наиболее вероятный идентификатор в результатах поиска, Google связывает отзыв с соответствующим товаром в каталоге.

2006 Мультиязычность Патенты Google

Как Google использует языковые модели и статистику для добавления диакритических знаков и вариантов написания в поисковые запросы

Патент Google описывает систему создания многоязычной карты синонимов (Synonyms Map), которая учитывает частоту использования вариантов слова (например, с ударениями, лигатурами или транслитерацией) в разных языках. При обработке запроса система определяет вероятный язык пользователя и использует эту карту для добавления к запросу статистически релевантных вариантов написания, улучшая полноту поиска с учетом языковых конвенций.

2013 SERP Индексация Патенты Google Техническое SEO

Как Google учитывает объем трафика для загрузки страницы при ранжировании, особенно для пользователей с лимитированным интернетом

Google может измерять объем данных, необходимый для полной загрузки веб-страницы (включая HTML, изображения, скрипты). Этот показатель используется как условный сигнал ранжирования: более «легкие» страницы могут получать преимущество, особенно если система определяет, что пользователь находится в сети с ограниченной пропускной способностью или лимитированным тарифным планом.

2012 Индексация Краулинг Патенты Google Свежесть контента

Как Google оптимизирует частоту повторного сканирования, прогнозируя вероятность удаления страниц на сайте

Google использует историю сканирования для расчета вероятности удаления страниц, отдельно для разных категорий контента. На основе этой вероятности система оптимизирует расписание повторного сканирования (re-crawling schedule). Цель — найти баланс между затратами ресурсов на сканирование и риском показать пользователю устаревший (удаленный) контент, минимизируя общую функцию «штрафа» (Penalty Function).

2004 SERP Индексация Патенты Google

Как Google определяет наиболее релевантный раздел структурированного документа (сайта или книги) для показа в выдаче

Google использует структуру документа (например, иерархию сайта или главы книги) для определения наилучшей точки входа для пользователя. Система анализирует, где именно в структуре сконцентрированы (кластеризованы) ключевые слова из запроса. Вместо показа всего документа, Google может представить конкретный раздел, главу или страницу, которая наиболее точно соответствует запросу, основываясь на плотности и расположении этих совпадений.

2006 Индексация Мультиязычность Патенты Google

Как Google использует язык интерфейса и статистику корпуса для обработки акцентов, диграфов и транслитерации в запросах

Google использует механизм для обработки запросов, содержащих акценты, диграфы («ue» вместо «ü») и транслитерацию. Система определяет язык запроса, нормализует термины в упрощенную форму и ищет варианты в предварительно созданной «Карте Синонимов». Это позволяет находить документы с правильной орфографией, даже если пользователь ввел упрощенный вариант. Также описан механизм защиты для «малых языков», ограничивающий подбор синонимов для сохранения точности выдачи.

2003 Индексация Мультиязычность Патенты Google

Как Google итеративно определяет устойчивые фразы (коллокации) в тексте с помощью статистического анализа

Патент Google, описывающий итеративный алгоритм для определения того, какие последовательности слов являются значимыми фразами (коллокациями), а какие — случайным совпадением. Система анализирует текст, начиная с длинных фраз и двигаясь к коротким, используя статистические меры (отношение правдоподобия). Найденные фразы обрабатываются как единое целое, что повышает точность индексации и понимания запросов.

2006 Индексация Краулинг Патенты Google Свежесть контента

Как Google позволяет владельцам сайтов управлять частотой сканирования (Crawl Rate) и определяет, когда ее увеличение целесообразно

Google предоставляет владельцам сайтов механизм для контроля максимальной частоты запросов краулера (Crawl Rate Limit). Система анализирует статистику сканирования и сравнивает ее с текущим лимитом. Если фактическая частота сканирования не достигает установленного лимита, система информирует владельца, что увеличение лимита не повлияет на скорость обхода сайта. Если же лимит является ограничивающим фактором, владельцу предлагается его повысить.

Патенты Google Персонализация

Как Google использует данные о закладках, сообществах и поведении пользователей для персонализации и контекстуализации поиска

Патент описывает раннюю систему персонализации поиска, которая собирает и анализирует закладки (content pointers) пользователей и групп, организованные в иерархические категории. Эта информация используется для создания профилей интересов (content vectors), которые затем применяются для дополнения поисковых запросов (query augmentation) и переранжирования результатов (contextualization) с учетом личного контекста, интересов сообщества и недавней активности пользователя.

2023 Асессоры Краудсорсинг Обучение моделей Патенты Яндекс

Как Яндекс использует динамическую агрегацию ответов для точной маркировки данных из анонимных и шумных источников (например, CAPTCHA или Толока)

Яндекс патентует метод повышения точности и эффективности сбора размеченных данных из краудсорсинговых сред, где качество и личность асессоров неизвестны (например, CAPTCHA). Система использует инкрементальную разметку: она запрашивает ответы до тех пор, пока модель машинного обучения не достигнет заданного порога уверенности в одном из вариантов. Это позволяет получать точные метки (например, распознавать текст) с минимальным количеством запросов, отфильтровывая ботов и ошибки.

2012 Kumar Mayur Thakur SERP Патенты Google Персонализация Свежесть контента

Как Google встраивает ленту социальных обсуждений в реальном времени прямо в результаты поиска по трендовым запросам

Google использует механизм для идентификации трендовых запросов («active keywords»), связанных с текущими событиями. Если пользователь ищет по такому запросу, система отбирает релевантные посты из социальных сетей, созданные во время события, и отображает их в виде специальной встроенной ленты («discussion stream») прямо на странице результатов поиска, отделяя их от более старых социальных постов.

2013 Мультимедиа Патенты Google

Как Google использует визуальный анализ для переранжирования поиска по картинкам для редких (long-tail) запросов

Google улучшает поиск изображений по редким (long-tail) запросам, когда данных о кликах недостаточно. Система анализирует визуальные характеристики топовых и нижних результатов исходной выдачи, чтобы создать «визуальную подпись» запроса. Затем все изображения переранжируются на основе того, насколько они визуально соответствуют этой подписи, повышая консистентные результаты.

2010 Индексация Краулинг Патенты Google Свежесть контента

Как Google отслеживает возраст отдельных фрагментов контента на странице и отличает существенные обновления от незначительных правок

Google использует систему для определения даты первой публикации отдельных фрагментов контента (например, предложений или абзацев). Система сегментирует контент и отслеживает его историю в «Карте дат» (Date Map). Используя нечеткое сравнение (Edit Distance) и нормализацию, система игнорирует незначительные правки и точно датирует только существенные обновления контента.

2021 Асессоры Краудсорсинг Обучение моделей Патенты Яндекс

Как Яндекс использует машинное обучение и историю действий асессоров для динамической оценки качества их работы

Яндекс патентует систему для контроля качества работы исполнителей на краудсорсинговых платформах (например, асессоров). Вместо использования только статических оценок качества, система обучает модель машинного обучения (MLA) предсказывать вероятность ошибки для конкретного задания на основе детальной истории действий и поведения исполнителя. Это позволяет динамически выявлять снижение качества работы или ботов, обеспечивая чистоту данных, используемых для обучения поисковых алгоритмов.

2014 Local SEO Патенты Google

Как Google определяет точные физические границы (геометрию) бизнеса для Карт и Локального поиска

Google использует автоматизированную систему для определения «истинной геометрии» (точных физических границ) точек интереса (POI). Если бизнес связан с несколькими конфликтующими контурами (например, контур магазина и контур всего ТЦ), система ранжирует их по ряду критериев, таких как тип связи, количество арендаторов и схожесть названий, чтобы выбрать наиболее точное описание физического пространства.

2012 SERP Индексация Патенты Google

Как Google использует двухуровневую кластеризацию для борьбы с дубликатами и обеспечения разнообразия доменов в выдаче

Google применяет систему двухэтапной кластеризации документов для организации индекса. Система группирует похожий контент, но применяет строгое ограничение на втором этапе: в итоговый кластер может входить не более одного представителя от каждого домена. Это предотвращает избыточную кластеризацию (over-clustering), помогает эффективнее управлять дубликатами и обеспечивает разнообразие сайтов в результатах поиска.

2008 Безопасный поиск Патенты Google Персонализация Семантика и интент

Как Google позволяет создавать кастомные поисковые системы (CSE), комбинирующие и модифицирующие результаты из разных источников

Патент описывает архитектуру Custom Search Engine (CSE). Система позволяет разработчикам определять спецификации для модификации входящих запросов, выбора базовых поисковых систем (например, Web, Scholar), условного комбинирования их результатов и последующего изменения выдачи (фильтрация, повышение/понижение сайтов).

2011 Knowledge Graph Патенты Google

Как Google использует подтверждение авторства и связи между ресурсами для улучшения кластеризации людей

Патент описывает механизм, позволяющий пользователям явно указывать, какие веб-ресурсы связаны с ними, через интерфейс своего профиля. Google использует это подтверждение как фактор для связывания контента с конкретным человеком. Это улучшает точность кластеризации результатов поиска, помогая отличать людей с одинаковыми именами и формировать точное представление о присутствии человека в интернете.

2023 Асессоры Краудсорсинг Обучение моделей Патенты Яндекс

Как Яндекс использует надежность асессоров и векторные представления для контроля качества данных в краудсорсинге

Яндекс патентует метод повышения качества данных, собираемых через краудсорсинг (например, Толока). Для задач с текстовыми ответами система конвертирует ответы в векторы, кластеризует их и использует оценки надежности (Quality Scores) асессоров (через модель Dawid-Skene), чтобы определить наиболее вероятный правильный ответ. Это обеспечивает высокое качество обучающих данных для алгоритмов Яндекса.

2013 SERP Индексация Мультимедиа Патенты Google

Как Google повышает в поиске оригинальные видео, понижая их авторизованные копии

Google использует систему для управления ранжированием медиаконтента, защищенного авторским правом. Система идентифицирует оригинальную (авторитетную) версию контента и активно продвигает ее в результатах поиска выше, чем пользовательские копии, даже если эти копии разрешены правообладателем. Это гарантирует приоритет официальных источников над копиями при релевантных запросах.