Okapi BM25 (Алгоритм BM25)
Краткая суть
Okapi BM25 (Best Matching 25) — это умный предохранитель в мозгах поисковика.
Старая формула TF-IDF была прямолинейна: чем больше повторяешь слово, тем выше твой рейтинг. Это породило спам ("купить купить окна купить").
BM25 вводит "Предел насыщения" (Saturation Limit). Алгоритм говорит: "Окей, ты употребил ключ 'Двери' 5 раз, я понял, что страница релевантна. Но если ты напишешь ключ 'Двери' 105 раз, твоя оценка больше не вырастет ни на 1 процент". Спамить стало бессмысленно.
Как это работает на практике
Второе Важнейшее отличие BM25 — это Штраф за Длину Документа (Document Length Normalization).
Представьте статью "Как варить яйца" (Длина 100 слов, слово "Яйцо" упомянуто 3 раза).
И представьте огромный Роман о кулинарии (Длина 10 000 слов, слово "Яйцо" упомянуто 30 раз).
Формула BM25 понимает, что короткая статья (100 слов) гораздо более сфокусирована (Релевантна) конкретному узкому запросу "варить яйца", чем огромный роман-сборник, где "яйца" просто где-то потерялись (хотя их там в штуках больше). Гугл поставит короткую статью выше!
Актуальность в 2026 году
В 2026 году BM25 уже давно интегрирован в "ядро" (Core) Elasticsearch, Apache Lucene и базовых алгоритмах Google/Яндекса. Это Базовый Фундамент Синтаксического поиска. Хотя сегодня баллом правят Векторные Нейросети (Dense Retrieval / BERT), они работают в паре! Машина сначала делает "Быстрый грубый отбор" из миллиарда сайтов с помощью BM25, оставляет 100 лучших текстов, а затем уже "Внимательно вчитывается" в их смыслы с помощью ИИ (Reranking).
Как применять на практике
- Забудьте про миф "Длинные статьи (Лонгриды в 10к знаков) ранжируются лучше". Из-за штрафов алгоритма BM25 за размытие (Длину/Воду), побеждают Компактные, Интентные страницы. Если человек ищет "Как сбросить пароль iPhone" (Узкий Информационный Интент), не пишите статью на 5000 слов ("История создания iPhone"). Напишите 3 коротких, четких абзаца. Меньше воды (Водности) = Выше концентрация ключа = Выше позиция в поиске.
Частые ошибки
- Попытка вычислять Тошноту текста (Плотность ключевых слов). SEO-специалисты из 2012 года постоянно требуют от копирайтеров "Вхождения ключа ровно 3.5% от текста". С приходом алгоритма BM25 этот процент перестал иметь значение, так как после пробития "Предела Насыщения" (Saturation) кривая графика становится плоской (Асимптота). Начинается только риск фильтра (Переспам). Используйте Ключи в тексте ровно столько раз, сколько требует грамматика русского языка и здравый смысл!
Последнее обновление термина: 2026 год.