Стратегии кэширования: когда кэшировать, где и на сколько

В 2023 году интернет-магазин электроники столкнулся с проблемой: страница каталога с 10,000 товаров грузилась 4.5 секунды. Каждый запрос обращался к базе данных, джойнил 6 таблиц, сортировал результаты. При 1000 одновременных пользователей база падала, время ответа росло до 15 секунд. Добавили кэширование в Redis с TTL 5 минут — страница стала открываться за 80 миллисекунд. Нагрузка на базу упала с 800 запросов в секунду до 12. Конверсия выросла на 23%.

Кэширование решает три главные проблемы: снижает время ответа, уменьшает нагрузку на базу данных и внешние API, сокращает расходы на инфраструктуру. Но неправильное кэширование создаёт новые: пользователи видят устаревшие данные, память переполняется мусором, инвалидация превращается в кошмар.

Когда кэшировать: паттерны доступа к данным

Первый вопрос не "как кэшировать" а "стоит ли вообще". Кэширование имеет смысл когда данные читаются многократно но изменяются редко. Классический пример — каталог товаров интернет-магазина. Один и тот же товар просматривают сотни пользователей в час, но цена и наличие обновляются раз в несколько минут или часов.

Измеряется это коэффициентом чтения к записи (read/write ratio). Если данные читаются в 10 раз чаще чем пишутся — кэширование даст заметный эффект. При соотношении 100:1 эффект будет драматическим. Но если данные читаются и пишутся примерно одинаково часто, кэш превращается в источник проблем — постоянная инвалидация, риск несогласованности, дополнительная сложность без реальной выгоды.

Возьмём блог на WordPress. Статьи читают тысячи раз в день, но публикуются новые раз в несколько дней. Комментарии появляются десятки раз в день под популярными постами. Здесь очевидно что кэшировать: сами статьи (TTL несколько часов или дней), список статей на главной (TTL 5-10 минут), количество комментариев (TTL 1-2 минуты). А вот форму отправки нового комментария кэшировать бессмысленно — каждый запрос уникален.

Паттерн доступа имеет значение. Если 80% запросов идут к 20% данных (принцип Парето), эти горячие данные нужно держать в быстром кэше обязательно. Статистика реального e-commerce проекта: 15% товаров (хиты продаж, новинки, акции) генерируют 78% просмотров. Эти 1,500 товаров из 10,000 должны быть в памяти постоянно.

Предсказуемость изменений тоже критична. Курсы валют обновляются каждые несколько минут в рабочее время — можно кэшировать с TTL 2-3 минуты. Прогноз погоды обновляется раз в час — TTL 50-55 минут безопасен. Цены на бирже меняются каждую секунду — кэширование на минуты бессмысленно, нужны миллисекунды или вообще WebSocket с реал-тайм обновлениями.

Размер данных влияет на решение. Небольшой JSON объект в 2-5 KB кэшировать выгодно почти всегда. Но если вы собираетесь кэшировать результат запроса который возвращает 50 MB данных для каждого пользователя, посчитайте затраты памяти. При 10,000 активных пользователей это 500 GB только под кэш. Дешевле оптимизировать запрос или разбить данные на части.

Многоуровневое кэширование: от браузера до базы

Современное веб-приложение использует кэширование на нескольких уровнях одновременно. Каждый уровень решает свои задачи и имеет свои ограничения.

Браузерный кэш — первая линия обороны. Статические ресурсы вроде CSS, JavaScript, изображений, шрифтов должны кэшироваться в браузере агрессивно. Заголовок Cache-Control: public, max-age=31536000, immutable говорит браузеру держать файл год и никогда не проверять его актуальность. Ключевой момент — версионирование файлов через хэш в имени: styles.a3f2c1b.css. Изменили файл — изменился хэш, браузер загрузит новую версию автоматически.

Статистика показывает что правильная настройка браузерного кэша сокращает количество запросов к серверу на 60-80% для повторных визитов. Сайт который при первом заходе делает 120 запросов и грузится 3.2 секунды, при втором заходе делает 25 запросов и грузится 0.4 секунды. Пользователи довольны, сервер разгружен.

Но HTML страницы кэшировать в браузере сложнее. Динамический контент меняется, персонализация для каждого пользователя. Здесь обычно используют Cache-Control: no-cache который заставляет браузер проверять актуальность при каждом запросе через заголовок ETag или Last-Modified. Если контент не изменился, сервер отвечает 304 Not Modified без тела ответа — экономия трафика и времени.

CDN кэш — второй уровень. Content Delivery Network вроде CloudFlare, Fastly, AWS CloudFront кэширует контент на серверах близко к пользователям по всему миру. Пользователь в Токио получает данные из дата-центра в Токио за 15 миллисекунд вместо 180 миллисекунд из Франкфурта. Умножьте на тысячи запросов — экономия времени огромная.

CDN идеален для статики но может кэшировать и динамический контент. Главная страница интернет-магазина обновляется раз в 5 минут — можно кэшировать в CDN с s-maxage=300. API endpoint который отдаёт список категорий (меняется редко) — s-maxage=3600. Важно понимать что CDN кэш общий для всех пользователей региона, поэтому персонализированный контент кэшировать нельзя.

Практический кейс: медиа-сайт с новостями. Статьи кэшируются в CDN на 10 минут. При публикации новой статьи делается API вызов для инвалидации кэша конкретного URL. Результат: 95% запросов обрабатываются CDN, до origin сервера доходит только 5%. Инфраструктура выдерживает всплеск трафика в 20 раз больше без масштабирования origin серверов.

Application-level кэш — третий уровень на стороне приложения. Здесь используют in-memory решения вроде Redis или Memcached. Redis особенно популярен благодаря богатому набору структур данных, персистентности и кластеризации. Скорость доступа — субмиллисекундная, 10,000-100,000 операций в секунду на одном инстансе.

Что кэшировать в Redis? Результаты сложных запросов к базе, сессии пользователей, результаты вызовов внешних API, частично отрендеренные HTML фрагменты, лимиты rate limiting, счётчики и статистику реал-тайм. Ключ к эффективности — кэшировать именно то что дорого пересчитывать или загружать.

Пример из практики: социальная сеть кэширует в Redis ленту пользователя. Формирование ленты требует запросов к базе для друзей пользователя, их постов, лайков, комментариев — 15-20 запросов. С базы это занимает 200-400 миллисекунд. Из Redis — 2-5 миллисекунд. Лента обновляется когда друзья публикуют посты, поэтому TTL не нужен — используется явная инвалидация.

Database query cache — четвёртый уровень внутри самой базы данных. MySQL и PostgreSQL умеют кэшировать результаты запросов автоматически. Но это имеет смысл только для действительно идентичных запросов. Запрос SELECT * FROM products WHERE category_id = 5 закэшируется, но SELECT * FROM products WHERE category_id = 6 — это другой кэш-ключ.

Проблема в том что при любом изменении таблицы весь query cache этой таблицы инвалидируется. В высоконагруженных системах с частыми записями query cache может вредить производительности из-за постоянной инвалидации. PostgreSQL вообще убрал встроенный query cache в пользу application-level кэширования. Современная рекомендация — отключить query cache базы и использовать Redis.

Local in-process cache — пятый уровень прямо в памяти процесса приложения. Библиотеки вроде node-cache для Node.js или cachetools для Python позволяют держать данные в RAM процесса. Скорость доступа — наносекунды, быстрее некуда. Но размер ограничен памятью процесса и данные не шарятся между инстансами приложения.

Используется для крошечных данных которые нужны очень часто и практически не меняются. Конфигурация приложения, справочники стран и городов, маппинги кодов на значения. Загрузил при старте, используешь весь lifecycle процесса. Пример: веб-сервер на 10 worker процессах держит справочник 200 стран в памяти каждого — 200 × 10 = 2000 записей по ~1 KB = 2 MB. Ничтожная память, мгновенный доступ.

TTL стратегии: на сколько кэшировать

Time To Live — это время жизни записи в кэше до автоматического удаления. Слишком короткий TTL — кэш работает неэффективно, постоянные обращения к источнику данных. Слишком длинный TTL — пользователи видят устаревшие данные.

Статичный контент — TTL максимальный. CSS, JS, изображения с версионированием в имени файла можно кэшировать на год: max-age=31536000. Файл никогда не изменится по этому URL, новая версия получит новый URL. Шрифты, иконки, логотипы — аналогично год или больше.

Относительно стабильный контент — TTL от часов до дней. Статьи блога можно кэшировать на 24 часа, обновление раз в сутки не критично. Страницы товаров в B2B магазине где цены меняются редко — 6-12 часов. Информационные страницы вроде "О компании" или "Доставка и оплата" — неделя спокойно.

Кейс из практики: новостной сайт кэширует статьи с градацией по времени публикации. Свежие статьи (до 2 часов) — TTL 2 минуты, новости могут обновляться или дополняться. Статьи 2-24 часа — TTL 15 минут. Статьи старше суток — TTL 6 часов. Архивные статьи старше месяца — TTL 24 часа. Это балансирует актуальность и нагрузку.

Умеренно динамичный контент — TTL от минут до часа. Список товаров в категории интернет-магазина меняется когда добавляются новые товары или кончается наличие. TTL 5-10 минут приемлем для большинства магазинов. Главная страница с блоками "Хиты", "Новинки", "Акции" — 3-5 минут.

Высокодинамичный контент — TTL секунды или вообще без TTL. Корзина покупок обновляется при каждом действии пользователя — кэшировать с TTL нельзя, только явная инвалидация. Онлайн-чат — сообщения должны появляться мгновенно. Биржевые котировки — данные устаревают за секунды.

Адаптивный TTL — умная стратегия которая учитывает реальную частоту изменений. Если данные обновили час назад, следующее обновление вероятно нескоро — TTL можно увеличить. Если данные обновляются каждые 5 минут последний час, TTL лучше уменьшить.

Формула адаптивного TTL: TTL = (текущее_время - время_последнего_изменения) × коэффициент. Коэффициент обычно 0.5-2.0 в зависимости от критичности свежести. Данные которые не менялись сутки получат TTL несколько часов. Данные которые обновились 2 минуты назад получат TTL 1-4 минуты.

Реализация в коде требует хранения времени последнего изменения вместе с данными. При чтении из кэша проверяешь не истёк ли TTL, при промахе загружаешь из источника с временной меткой, рассчитываешь новый TTL и сохраняешь в кэш. Дополнительная сложность окупается снижением устаревших данных при той же hit rate.

Паттерны кэширования: cache-aside, write-through, read-through

Cache-Aside (Lazy Loading) — самый распространённый паттерн. Приложение сначала пытается прочитать из кэша. Если данных нет (cache miss) — загружает из источника и кладёт в кэш для следующего раза. Если данные есть (cache hit) — возвращает из кэша.

Преимущество в простоте и отказоустойчивости. Если кэш упал, приложение продолжает работать хоть и медленнее — просто каждый запрос идёт к базе. Недостаток в том что первый запрос после старта или после истечения TTL медленный, плюс возможна thundering herd problem когда множество запросов одновременно обнаруживают что данных нет в кэше и все лезут в базу.

Защита от thundering herd — использовать блокировки или механизм "первый запрос загружает, остальные ждут". В Redis это делается через SETNX (set if not exists) с коротким TTL. Первый запрос успешно устанавливает флаг загрузки, выполняет запрос к базе, кладёт результат в кэш, удаляет флаг. Последующие запросы видят флаг и ждут короткое время или retry.

Код на Node.js с кэш-aside паттерном выглядит примерно так:

async function getProduct(productId) { const cacheKey = `product:${productId}`; // Пытаемся прочитать из кэша let product = await redis.get(cacheKey); if (product) { return JSON.parse(product); // Cache hit } // Cache miss - загружаем из базы product = await db.query('SELECT * FROM products WHERE id = ?', [productId]); // Кладём в кэш на 10 минут await redis.setex(cacheKey, 600, JSON.stringify(product)); return product; }

Write-Through — при записи данные сохраняются в кэш и базу синхронно. Запрос на запись ждёт пока данные запишутся и туда и туда. Гарантирует что кэш всегда содержит актуальные данные, но каждая запись медленнее из-за двойной операции.

Используется когда критически важно чтобы кэш никогда не содержал устаревших данных, и когда записей относительно немного по сравнению с чтениями. Пример: система управления конфигурацией где изменения редки но должны применяться мгновенно везде.

Недостаток очевиден — если кэш упал, записи начинают падать тоже. Требуется либо высокая доступность кэша (Redis Cluster), либо fallback логика которая в случае недоступности кэша всё равно записывает в базу и просто логирует ошибку кэша для последующего разбора.

Write-Behind (Write-Back) — данные пишутся в кэш немедленно, а в базу асинхронно с задержкой. Запись возвращается быстро, фактическое сохранение в базу происходит позже батчами. Это даёт максимальную скорость записи и позволяет группировать множество мелких записей в большие батчи.

Риск в том что данные в кэше могут быть потеряны если кэш упадёт до того как они запишутся в базу. Поэтому write-behind используется только для некритичных данных или в связке с персистентным кэшем вроде Redis с AOF или RDB снапшотами.

Классический пример — счётчики и метрики. Инкремент счётчика просмотров товара пишется в Redis немедленно, а в базу синхронизируется раз в минуту батчем на все товары. Если Redis упадёт, потеряем минуту счётчиков — обычно это приемлемо.

Read-Through — похож на cache-aside но логика загрузки данных из источника инкапсулирована внутри самой системы кэширования. Приложение просто просит кэш дать данные, и кэш сам решает загрузить из базы если нужно. Требует что кэш знает как загружать данные, обычно через callback или конфигурацию.

Преимущество в том что логика кэширования централизована и приложение не содержит if/else для cache hit/miss. Недостаток в меньшей гибкости и дополнительной сложности настройки кэша. В практике используется реже чем cache-aside.

Инвалидация кэша: две самые сложные проблемы в программировании

Фил Карлтон сказал: "В программировании есть только две сложные проблемы: инвалидация кэша и придумывание имён переменных". Инвалидация действительно сложна потому что нужно понять когда данные устарели и удалить их из всех уровней кэша.

TTL-based инвалидация — самый простой подход. Данные живут определённое время и автоматически удаляются. Не требует дополнительной логики, но может показывать устаревшие данные пока TTL не истёк. Для многих сценариев это приемлемо.

Event-based инвалидация — при изменении данных явно удаляется связанный кэш. Обновили цену товара — удалили кэш страницы товара и кэш списка товаров в категории. Опубликовали новую статью — удалили кэш главной страницы и кэш списка статей.

Сложность в том что нужно отследить все зависимости. Изменение товара может повлиять на десятки закэшированных страниц: карточка товара, списки категорий, результаты поиска, связанные товары, рекомендации. Забыть удалить один кэш — и пользователи видят несогласованные данные.

Подход с тегами помогает. Каждой записи кэша присваиваются теги: product:123, category:5, brand:apple. При изменении товара инвалидируются все записи с тегом product:123. При изменении категории — все с category:5. Redis не поддерживает теги нативно, но можно реализовать через множества (sets): хранить для каждого тега set ключей, при инвалидации читать set и удалять все ключи.

Version-based инвалидация — в ключ кэша включается версия данных. product:123:v5 вместо просто product:123. При изменении товара увеличивается версия до v6, старый кэш просто игнорируется. Новые запросы создадут кэш с новой версией. Старые записи умрут по TTL.

Преимущество — не нужно явно удалять старый кэш, нет race condition когда один процесс удаляет кэш а другой одновременно записывает туда устаревшие данные. Недостаток — память занята и старыми и новыми версиями до истечения TTL.

Dependency tracking — при создании записи кэша фиксируются все источники данных которые в неё вошли. Например страница товара зависит от: самого товара, его категории, бренда, связанных товаров, отзывов. При изменении любой из зависимостей кэш инвалидируется.

Это мощно но сложно в реализации. Нужна отдельная таблица зависимостей, механизм отслеживания изменений в базе (triggers или event log), процесс который читает изменения и инвалидирует связанные кэши. В очень динамичных системах overhead может быть значительным.

Cache stampede problem — частный случай инвалидации. Когда популярный кэш истекает, множество одновременных запросов обнаруживают его отсутствие и все идут в базу одновременно. База получает резкий всплеск нагрузки, может упасть.

Решение — probabilistic early expiration. За несколько секунд до истечения TTL начинаем с небольшой вероятностью обновлять кэш асинхронно. Вероятность растёт ближе к истечению. В результате кэш обновляется плавно до того как истечёт, stampede не происходит.

Формула: if (время_истечения - текущее_время) < (TTL × random(0, 1) × коэффициент_beta) то обновить асинхронно. Beta обычно 1-3. При beta=1 обновление начинается когда осталось 0-100% TTL случайным образом, в среднем на половине. Чем больше beta тем раньше начинается обновление.

Практические кейсы и метрики

E-commerce: каталог товаров. База данных PostgreSQL с 50,000 товаров. Каталог грузился за 2.3 секунды — запрос джойнил товары, категории, бренды, наличие на складах, цены. Внедрили трёхуровневое кэширование:

Redis кэширует отдельные товары на 10 минут
Redis кэширует списки товаров по категориям на 5 минут
CDN кэширует HTML страницы категорий на 2 минуты

Результат: 92% запросов идут из кэша. Время загрузки упало до 180 миллисекунд. Нагрузка на базу снизилась с 450 запросов в секунду до 35. Сэкономили на апгрейде железа базы около $2000 в месяц. Конверсия выросла на 18% благодаря скорости.

Инвалидация: при изменении товара через админку отправляется событие которое удаляет кэш товара в Redis и делает PURGE запрос в CDN для страниц этого товара. При изменении цены или наличия обновляется только кэш товара, страницы категорий обновятся по TTL через 2-5 минут — приемлемая задержка.

SaaS dashboard: метрики и графики. Дашборд показывает графики за последние 7, 30, 90 дней. Каждый график — сложный запрос с агрегацией тысяч записей. Запрос занимал 1.5-4 секунды в зависимости от периода.

Решение: результаты запросов кэшируются в Redis на 5 минут. Первый пользователь который открывает дашборд платит 4 секунды, все следующие получают результат за 50 миллисекунд. При 100 пользователях которые открывают дашборд в час экономия (100 × 4 секунды) - (1 × 4 секунды) = 396 секунд вычислений базы в час, 9,504 секунды (2.64 часа) в сутки.

Дополнительно внедрили pre-warming: cron задача каждые 4 минуты делает запросы к популярным дашбордам до того как истечёт TTL. Для VIP клиентов их дашборд всегда горячий в кэше, они никогда не ждут.

API для мобильного приложения. Приложение делает запрос к /api/feed который отдаёт персонализированную ленту постов. Каждый пользователь видит уникальную ленту на основе подписок, поэтому CDN кэш не подходит. Запрос к базе занимал 250-600 миллисекунд.

Кэшируем персонализированную ленту в Redis с ключом feed:user:{userId} на 3 минуты. При публикации нового поста автор добавляется в очередь, background worker инвалидирует кэш лент всех подписчиков этого автора асинхронно. Для популярного блогера с 50,000 подписчиков это занимает 5-10 секунд, но поскольку асинхронно — никто не ждёт.

Результат: время ответа API упало до 80-120 миллисекунд (Redis + сериализация JSON). Для пользователей которые проверяют ленту редко (раз в день) — всё равно быстро благодаря кэшу. Для активных пользователей которые заходят каждые 10 минут — кэш обновляется по TTL, они видят новые посты с задержкой максимум 3 минуты.

Monitoring метрики кэша. Критически важно мониторить эффективность кэша иначе вы не поймёте работает ли он вообще:

Hit rate — процент запросов которые нашли данные в кэше. Формула: hits / (hits + misses) × 100%. Хороший hit rate 80-95% в зависимости от сценария. Ниже 70% — кэш работает плохо, TTL слишком короткий или данные слишком уникальные. Hit rate 99% тоже может быть плохо — возможно TTL слишком длинный и пользователи видят устаревшие данные.

Latency — время доступа к кэшу. Redis должен отвечать за 1-5 миллисекунд на p99 (99-й перцентиль). Если время растёт до 50-100 миллисекунд — проблемы с сетью, перегрузка Redis, слишком большие значения в кэше. Нужно расследовать через SLOWLOG команду Redis.

Memory usage — использование памяти. Redis должен иметь запас памяти 20-30% для нормальной работы. Если память близка к лимиту, Redis начнёт eviction (вытеснение старых записей), hit rate упадёт. Либо нужно больше памяти, либо пересмотреть что кэшируется и на сколько.

Eviction rate — сколько записей Redis удаляет из-за нехватки памяти. Хороший показатель — близкий к нулю. Если eviction rate высокий, значит данных больше чем памяти, нужно увеличивать память или уменьшать TTL чтобы старые данные удалялись быстрее.

Miss latency — время обработки cache miss (когда приходится идти в базу). Если miss latency 500 миллисекунд а hit latency 2 миллисекунды, то даже при hit rate 90% средняя латентность будет 10% × 500 + 90% × 2 = 51.8 миллисекунд. Если miss latency вырастет до 2 секунд из-за проблем с базой, средняя латентность станет 201.8 миллисекунд — пользователи заметят деградацию.

Типичные ошибки и как их избежать

Кэширование персональных данных в общем кэше. Разработчик кэширует профиль пользователя с ключом user:profile забыв что userId должен быть в ключе. Результат: все пользователи видят профиль того кто первый зашёл после истечения кэша. Серьёзная утечка данных.

Решение: всегда включать userId или другой идентификатор пользователя в ключ кэша для персональных данных: user:profile:{userId}. Код-ревью должен отлавливать такие баги на стадии PR.

Кэширование ошибок. При ошибке базы данных приложение кэширует ошибку: null или пустой массив с TTL 5 минут. Следующие 5 минут все запросы получают пустой результат хотя база уже восстановилась. Пользователи думают что данные пропали.

Решение: кэшировать только успешные ответы. При ошибке не писать в кэш вообще, вернуть ошибку приложению. Или кэшировать с очень коротким TTL (5-10 секунд) чтобы быстро восстановиться после сбоя.

Бесконечный рост размера кэша. Приложение кэширует результаты поиска с ключом основанным на строке запроса: search:{query}. Каждый уникальный запрос создаёт новую запись. Со временем миллионы уникальных запросов заполняют память Redis полностью.

Решение: использовать политику eviction в Redis — maxmemory-policy allkeys-lru удаляет наименее недавно использованные ключи когда память заканчивается. Или ограничивать что кэшируется — например кэшировать только частые запросы (которые были сделаны 3+ раза).

Dogpiling / thundering herd. Популярный кэш истекает, 1000 одновременных запросов обнаруживают отсутствие кэша и все идут в базу. База падает под нагрузкой.

Решение: использовать блокировки через SETNX в Redis как описано выше, или probabilistic early expiration чтобы кэш обновлялся до истечения. Или stale-while-revalidate паттерн: возвращать старый истёкший кэш пользователю немедленно, а обновление запустить асинхронно в фоне.

Несогласованность между уровнями кэша. Обновили данные в базе, инвалидировали Redis кэш, но забыли про CDN. CDN продолжает отдавать старую версию ещё 10 минут.

Решение: централизованная логика инвалидации которая чистит все уровни кэша. При изменении данных отправляется событие, обработчик события инвалидирует Redis и делает PURGE запрос в CDN. Или использовать версии/ETag чтобы CDN сам понял что данные устарели.

Выводы

Кэширование — это не опциональная оптимизация а критическая часть архитектуры любого высоконагруженного приложения. Правильное кэширование даёт 10-100x улучшение производительности, снижает затраты на инфраструктуру, улучшает пользовательский опыт. Неправильное кэширование создаёт утечки данных, показывает устаревшую информацию, усложняет отладку.

Ключевые принципы: кэшировать данные с высоким read/write ratio (10:1 и выше), использовать многоуровневое кэширование от браузера до базы, подбирать TTL исходя из критичности свежести данных, мониторить hit rate и latency, продумывать инвалидацию на этапе проектирования а не постфактум.

Начинать внедрение кэширования нужно с измерений. Профилировать приложение, найти медленные запросы которые выполняются часто, посчитать read/write ratio. Начать с самых очевидных кандидатов — статические данные, результаты дорогих запросов, внешние API. Внедрять постепенно, мониторить метрики, итерировать.

Помнить что кэш — это компромисс между производительностью и консистентностью. Абсолютной консистентности с кэшем не бывает, всегда есть окно между обновлением источника и обновлением кэша. Это нужно принять и проектировать систему с учётом eventual consistency где допустимо.