Автор: Виктор Репин

2009 EEAT и качество Manjunath Srinivasaiah Патенты Google Семантика и интент Ссылки

Как Google определяет главную сущность веб-страницы и разрешает неоднозначности (Disambiguation) с помощью анализа контента и анкоров

Google использует эту систему, чтобы понять, о какой конкретной сущности (например, месте или человеке) идет речь на веб-странице, особенно когда названия неоднозначны. Система анализирует доминирование упоминаний сущности на странице (соотношения), расположение упоминаний (заголовок или тело документа), контекстуальные связи и анкорный текст входящих ссылок, чтобы связать страницу с правильной уникальной сущностью в своей базе данных.

2021 Антикачество Антиспам Патенты Яндекс Ранжирование

Как Яндекс использует графы совместных посещений для выявления накрутки поведенческих факторов (ПФ)

Яндекс патентует метод выявления аномального трафика (накрутки ПФ) путем анализа истории посещений пользователей. Система строит граф, связывающий сайты, которые часто посещаются одними и теми же пользователями. Если группа сайтов сильно связана в графе (высокий уровень совместных посещений), но при этом не имеет естественной тематической связи или логики в действиях пользователей, эти сайты помечаются как получающие аномальный трафик и пессимизируются в выдаче.

2023 EEAT и качество Патенты Google Семантика и интент Ссылки

Как Google обучает свои LLM (Трансформеры) доверять авторитетным источникам, встраивая сигналы ранжирования (такие как PageRank и авторство) в Механизм Внимания

Google обучает свои языковые модели (Трансформеры), интегрируя внешние сигналы, такие как PageRank, авторство, свежесть и вовлеченность, непосредственно в Механизм Внимания (Attention Mechanism). Во время обучения, если контент поступает из авторитетного источника, модель учится придавать ему больший вес. Это создает предубеждение LLM в пользу контента с высоким авторитетом, повышая точность и обоснованность (grounding) в поиске и генеративном ИИ.

2009 Патенты Google Поведенческие сигналы Семантика и интент Ссылки

Как Google агрегирует, оценивает и ранжирует комментарии, отзывы и упоминания о веб-странице из разных источников

Google собирает комментарии, отзывы и посты в блогах, относящиеся к определенной веб-странице. Система использует сложные алгоритмы для определения основной темы упоминаний (особенно если в них несколько ссылок) и ранжирует эти комментарии на основе авторитетности автора, свежести, качества языка и обратной связи пользователей, чтобы представить наиболее полезные мнения.

2012 Hyung-Jin Kim Paul Haahr Антиспам Патенты Google Поведенческие сигналы Ссылки

Как Google использует механизм «Pull-Push» для валидации ссылок через трафик и время вовлечения (Dwell Time)

Google использует механизм «Pull-Push» для борьбы с искусственными ссылками, анализируя соотношение между количеством ссылок и реальными кликами по ним. Если ссылки не генерируют пропорциональный трафик (с учетом времени вовлечения), они обесцениваются. Сайты, которые систематически ставят такие ссылки, классифицируются как «неквалифицированные источники», и их исходящие ссылки дисконтируются при ранжировании.

2016 Антиспам Патенты Google Поведенческие сигналы Ссылки

Как Google использует социальные связи для выявления предвзятых ссылок и борьбы со ссылочными схемами и кликфродом

Google анализирует взаимоотношения между администраторами веб-сайтов (используя данные социальных сетей), чтобы определить независимость ссылок или кликов по рекламе. Если обнаружена тесная связь, это интерпретируется как предвзятость (Bias). В результате вес ссылки для ранжирования может быть снижен (борьба с Search Spamming), или клик по рекламе может быть дисконтирован (борьба с Ad Spamming).

2018 Индексация Патенты Яндекс Свежесть контента Ссылки

Как Яндекс определяет дату создания документа, используя вероятностную модель ссылочного графа и анализ контента

Яндекс использует гибридный метод для точного определения времени создания веб-страниц, когда эта информация неизвестна или ненадежна. Система сначала извлекает даты из URL и HTML, оценивая их надежность по иерархии доверия. Затем она применяет вероятностную модель к структуре ссылок: неизвестные даты вычисляются путем максимизации вероятности наблюдаемой сети, исходя из предположения, что вероятность ссылки экспоненциально убывает с увеличением разницы в возрасте страниц.

2017 Обучение моделей Патенты Яндекс Поведенческие факторы Ранжирование

Как Яндекс обучает модель ранжирования на основе детализированных поведенческих факторов (параметров постпросмотра)

Яндекс патентует метод оптимизации ранжирования, основанный на детальном анализе поведения пользователей после просмотра выдачи («параметры постпросмотра»). Система автоматически определяет вес различных поведенческих сигналов (клики, время просмотра, пропуски, удовлетворяющие клики) для создания целевой функции. Эта функция затем используется для обучения основного алгоритма ранжирования, чтобы максимизировать удовлетворенность пользователя.

2020 EEAT и качество Vladimir Ofitserov Антиспам Патенты Google Поведенческие сигналы

Как Google объединяет качество и популярность авторов в единую оценку для фильтрации контента в поиске

Google использует систему машинного обучения для оценки авторов и аккаунтов на онлайн-платформах, объединяя сигналы качества (E-E-A-T) и популярности (взаимодействия пользователей) в единый показатель. Этот показатель используется для определения того, следует ли показывать контент от данного автора в ответ на запрос, причем порог фильтрации динамически повышается для YMYL-тем и трендовых запросов.

2013 EEAT и качество Vladimir Ofitserov Антиспам Патенты Google Ссылки

Как Google рассчитывает качество сайта, анализируя признаки и оценки связанных с ним ресурсов (принцип «Плохого соседства»)

Google использует модель машинного обучения для расчета оценки качества сайта (Quality Score). Эта оценка зависит не только от собственных характеристик сайта (например, юзабилити или поведенческих факторов), но и от характеристик и оценок качества «соседей» — сайтов, которые ссылаются на него, на которые ссылается он, или которые связаны с ним иным образом (например, общим хостингом). Качество итеративно распространяется по графу связей.

2022 Антиспам Метрики качества поиска Патенты Яндекс Поведенческие факторы Ранжирование

Как Яндекс нормализует оценку качества сайта, корректируя ее в зависимости от объема трафика и лояльности аудитории

Яндекс использует механизм для корректировки оценки качества сайта, сравнивая ее с эталонным значением, ожидаемым для сайтов с аналогичным объемом трафика или уровнем лояльности. Если сайт показывает аномально высокие метрики качества для своего размера, его рейтинг может быть понижен. Если метрики ниже ожидаемых, рейтинг может быть повышен. Это стабилизирует выдачу и усложняет манипуляции поведенческими факторами.

2022 Обучение моделей Патенты Яндекс Поведенческие факторы Ранжирование

Как Яндекс (в алгоритме CatBoost) обрабатывает категориальные признаки (Хосты, URL, Регионы) и борется с переобучением в ранжировании

Патент раскрывает ядро алгоритма CatBoost — основного метода машинного обучения Яндекса для ранжирования. Он описывает, как система преобразует категориальные признаки (например, URL, домен, регион) в числовые значения. Чтобы избежать переобучения и утечки данных, система использует статистику (например, CTR) только из «прошлого», упорядочивая данные случайным образом (Ordered Boosting) и вычисляя значения признаков на основе предшествующих объектов.

2005 EEAT и качество Патенты Google Семантика и интент Ссылки

Как Google использует анкорный текст входящих ссылок для определения главной сущности (субъекта) страницы

Google анализирует тексты ссылок (анкоры), ведущих на страницу, чтобы определить ее основную тему или сущность (Unifying Subject). Система выбирает наиболее репрезентативный анкор, используя частотность, авторитетность ссылающихся сайтов (Page Importance Metric) или векторный анализ. Это имя затем используется как каноническое название сущности в базе знаний (Fact Repository).

2020 Topical Authority Качество контента Патенты Яндекс Яндекс Новости

Как Яндекс определяет первоисточник контента путем анализа тематических кластеров, репутации и паттернов цитирования

Яндекс использует машинное обучение для идентификации оригинального источника контента среди множества перепечаток. Система группирует похожие публикации в «тематические кластеры» и анализирует исходящие ссылки внутри них. Оценивая репутацию источников, время публикации и частоту цитирования, система определяет URL первоисточника, даже если он не был проиндексирован ранее.

2005 EEAT и качество Антиспам Патенты Google Ссылки

Как Google использует атрибуты ссылок (например, nofollow) для управления передачей ссылочного веса

Патент Google, описывающий механизм, позволяющий вебмастерам встраивать инструкции непосредственно в HTML-код ссылок. Эти инструкции сообщают поисковой системе, как обрабатывать конкретную ссылку, например, блокировать ее учет или изменять ее вес при расчете ранжирования (PageRank). Этот патент является основой для атрибутов rel=»nofollow», rel=»sponsored» и rel=»ugc».

2022 SERP Обучение моделей Патенты Яндекс Ранжирование

Как Яндекс автоматически создает и проверяет относительные факторы ранжирования на основе контекста SERP

Яндекс патентует систему автоматического создания «мета-признаков» для улучшения ранжирования. Эти признаки рассчитываются не изолированно для документа, а в контексте всей поисковой выдачи (SERP). Например, система оценивает значение фактора (скажем, CTR) относительно среднего или максимального значения этого фактора у конкурентов в той же выдаче. Новые признаки проверяются через A/B тесты на основе метрик вовлеченности пользователей, и лучшие внедряются в основную формулу ранжирования.

2017 SERP Обучение моделей Патенты Яндекс Ранжирование

Как Яндекс прогнозирует популярность контента (видео, статей, музыки) используя данные о ссылках, встраиваниях и поведении пользователей

Яндекс патентует систему прогнозирования популярности контента (например, просмотров видео), особенно размещенного на внешних платформах. Система агрегирует данные из трех источников: поисковые логи (клики в SERP), логи браузера (прямые заходы) и данные краулера (ссылки и встраивания на других сайтах). Эти данные используются для обучения ML-модели (GBDT), которая оценивает текущую и будущую популярность контента для улучшения ранжирования.

2004 Патенты Google Поведенческие сигналы Семантика и интент Ссылки

Как Google определяет тематику страницы на основе внешних сигналов: трафиковых ссылок, поведения пользователей и рекламы

Google расширяет понимание тематики документа за пределы его контента, анализируя внешние сигналы. Система косвенно выводит концепции, изучая, откуда приходят пользователи (входящие ссылки и запросы), куда они уходят (исходящие ссылки, клики по рекламе) и какие сайты посещают в рамках одной сессии. Особое внимание уделяется наиболее «успешным» (кликабельным) взаимодействиям и анкорному тексту.

2002 Патенты Google Поведенческие сигналы Семантика и интент Ссылки

Как Google автоматически изучает синонимы, акронимы и эквивалентные фразы, анализируя поисковые сессии пользователей и анкорный текст ссылок

Патент Google, описывающий методы автоматического обнаружения синонимов и эквивалентных фраз. Система анализирует последовательные запросы пользователя в рамках одной сессии: если запросы имеют общие слова (контекст), то различающиеся слова считаются потенциальными синонимами. Аналогичный анализ применяется к вариациям анкорного текста ссылок, ведущих на одну и ту же страницу. Это позволяет поисковой системе понимать, что разные запросы могут иметь одинаковое намерение.

2010 Антиспам Патенты Google Поведенческие сигналы Ссылки

Как Google использует временные задержки и непредсказуемые изменения ранга для обнаружения SEO-манипуляций

Google использует механизм для борьбы со спамом, который намеренно вносит временные задержки или непредсказуемые колебания (например, временное понижение) в ранг документа после его изменения или получения новых ссылок. Система отслеживает реакцию вебмастера на эти неожиданные изменения. Если вебмастер активно пытается скорректировать поведение ранга, это сигнализирует о манипуляциях и помогает Google идентифицировать спам.