Как мы сервисы с mongos в Kubernetes переносили

Навроцкий Артем

Исходная ситуация

Жил-был сервис backend'a...

Сервис жил на виртуальных хостах в AWS и активно общался с MongoDB.

Для общения с шардированным кластером MongoDB используется отдельный процесс: mongos.

mongos: Сервис для доступа к шардированному MongoDB-кластеру, который не является «тупым» Proxy — он еще маршрутизирует запросы.

Mongos жил на localhost

По рекомендации MongoDB, mongos жил на той же виртуалке, что и сам сервис:

Deploying multiple mongos routers supports high availability and scalability. A common pattern is to place a mongos on each application server.

Deploying one mongos router on each application server reduces network latency between the application and the router.

https://docs.mongodb.com/manual/core/sharded-cluster-components/#number-of-mongos-and-distribution

Итого про mongos

На месте mongos мог быть и другой сервис.

В данном случае про него важно знать следующее:

Работоспособность сервиса критична для приложения;
Активный сетевой трафик и очень важно latency;
Это stateful-сервис;
На каждый MongoDB-кластер, а их несколько, нужен свой mongos.

Переезд в Kubernetes

Цели

Унификация и упрощение разворачивания приложений;
Экономия вычислительных ресурсов:
- За счет автоматического масштабирования в соответствии с текущей нагрузкой;
- За счет более плотной компоновки сервисов.

Правда жизни

Как полагается в такой ситуации, сам сервис к переезду в Kubernetes не был готов.

Также по классике жанра, мы сами не были хорошо знакомы с Kubernetes.

Переделать сервис?

Переделать сервис так, чтобы он был Kubernetes Ready перед переездом, звучит заманчиво, но нет:

проблем много, и mongos — только одна из них (и не самая существенная);
непонятно, что именно нужно переделывать и как оно должно работать;
часть изменений влияет на производительность, а сравнивать два радикально отличающихся сервиса очень сложно.

Переносим «как есть»

Пропасть нельзя перепрыгнуть в два прыжка, поэтому мы будем двигаться через нее маленькими шажками.

План переноса: перенести сервис «как есть», по возможности сохраняя топологию.

Текущая топология

DaemonSet

На каждой виртуалке были запущены по одному mongos'у на каждый кластер. В качестве базового варианта для старта, было решено запускать mongos'ы на каждой ноде через DaemonSet.

Этот вариант запуска хорошо использовать как базовый при сравнении производительности.

DaemonSet

Сохраняется:

топология;
минимальное latency до mongos'а.

Меняется:

нужна небольшая поддержка со стороны приложения, так как localhost уже не тот;
не очень приятный, но в целом понятный механизм обновления mongos'ов без прерывания обслуживания.

Что пошло хорошо?

данный вариант запуска mongos'ов был реализован быстро и заработал;

Что пошло плохо?

совершенно непредсказуемое потребление ресурсов mongos'ами;
очень остро стоит проблема «шумного соседа».

Но, к примеру, для сервиса Jaeger Collector этот вариант развёртывания подошел идеально.

Что пошло плохо?

Ресурсы на mongos

На виртуалках mongos'ы потребляют разное количество ресурсов в зависимости от сервисов, которые их используют. Эти значения разные, но в целом стабильные.

В Kubernetes очень большой разброс и очень разные сервисы попадают на ноду.

В результате все mongos'ы стремятся «раздуться» по максимуму.

Запуск mongos'ов внутри Pod'а

Запуск внутри Pod'а

Запускаем mongos'ы внутри Pod'а. Рядом с самим сервисом.

Два варианта:

запуск в виде side car
запуск внутри основного контейнера

Запуск внутри Pod'а

Запуск в виде side car

Запуск в виде side car отмели, так как ресурсы выставляются на каждый контейнер, а не на Pod в целом.

Для HPA (Horizontal Pod Autoscaler) ресурсы должны быть выставлены на каждый контейнер Pod'а. Целевое использование CPU задаётся от суммы Request'ов контейнера.

В этом случае управление Request/Limit должно превратиться в адъ.

Ресурсы всегда завышены

Заявленные Pod'ом ресурсы всегда стремятся быть завышенными: избыток ресурсов не так заметен, как их недостаток.

Запуск в одном контейнере

Плюсы:

минимальное latency до mongos'а;
можно выставить разумные Request/Limit на Pod;
простота в обновлении mongos'ов;
в нашем случае сервис знает в runtime, какие mongos'ы ему нужны и может запускать только нужные.

Запуск в одном контейнере

Минусы:

количество mongos'ов вырастает 1.5 раза в нашем случае;
сервис сам должен уметь запускать mongos'ы и следить за их работоспособностью (например, mongos может убить OOM killer);
сервис технически имеет доступ к реквизитам доступа mongos'а к кластеру (security issue).

Что пошло хорошо?

данный вариант запуска mongos'ов был реализован и заработал.

Что пошло плохо?

большие накладные расходы на mongos (особенно если сервис маленький), но это было ожидаемо.

В целом этот вариант был в эксплуатации довольно долго без серьёзных нареканий.

Запуск mongos'ов в отдельном Deployment

Deployment + Service

В целях экономии пытаемся перейти к пулу mongos'ов: запускать его в виде Deployment и ходить в него через Service.

Deployment + Service

Плюсы:

Kubernetes-friendly решение
Реквизиты доступа к кластеру не проходят через приложение
Можно прикрутить HPA и динамически менять размер пула
Общий mongos без эффекта «шумного соседа»
Простота в обновлении mongos'ов

Deployment + Service

Минусы:

Приложение должно уметь работать с динамически меняющимся списком mongos'ов
Mongos должен поддерживать graceful shutdown
Mongos может оказаться на другой ноде или даже в другой Availability Zone

Это самая дорогая с точки зрения реализации схема.

Deployment + Service

Что пошло хорошо:

Просадка latency оказалась незначительной (у нас есть привязка к Availability Zone)

Что пошло плохо:

Очень много работ для поддержки динамически меняющегося списка mongos'ов
Это самая дорогая с точки зрения затрат на реализацию схема

Gracefully Shutdown

В MongoDB до версии 5.0 не реализован Graceful Shutdown: при завершении mongos он просто рвёт все подключения.

На стороне приложения мы не знаем, в каком состоянии оказалась транзакция.

В результате мы завернули mongos в простенький proxy, который после начала завершения сразу отправлял ошибку 11600 (InterruptedAtShutdown) на любой запрос.

Cluster IP

По умолчанию Service прячет Pod'ы за общим IP-адресом.

По DNS-имени сервиса резолвится один IP-адрес. Service сам определяет, на какой Pod попадёт сетевое подключение.

В случае, когда клиенту важно знать, куда именно он подключается (например, в случае с gRPC или mongos), это либо работает плохо (gRPC), либо не работает (mongos).

Cluster IP

Клиент держит несколько подключений к mongos. В случае использования Cluster IP он начинает их «путать».

Данные о курсоре при выборке данных живут на mongos и клиент начинает постоянно терять курсоры.

Это можно обойти, используя SessionAffinity, но платой будет очень неравномерная нагрузка на mongos'ы.

Headless Service

Для сервисов с clusterIP: None по DNS-имени сервиса резолвятся все IP-адреса Pod'ов.

Это даёт приложению больше данных для принятия решений, но есть ряд особенностей, которые нужно учитывать.

Подключение к IP уже несуществующего Pod'а не получает TCP-ошибку, а отваливается по таймауту.

https://bozaro.ru/2021/06/17/k8s-headless-service-pod-disappeared/

Привязка к Availability Zone

В Kubernetes есть возможность выбора Pod'а внутри Service с учетом топологии:

https://kubernetes.io/docs/concepts/services-networking/topology-aware-hints/

К сожалению, данная опция не работает с Headless Service.

Привязка к Availability Zone

Для реализации привязки к Availability Zone мы создали по одному Service на каждую Availability Zone и на уровне приложения брали правильный URL.

Информация об Availability Zone хранится в Label'ах ноды, но для доступа к ним нужно давать Pod'у дополнительные права и писать дополнительную логику.

Привязка к Availability Zone

Чтобы не бороться с правами, мы просто получили имя зоны по адресу:

http://169.254.169.254/latest/meta-data/placement/availability-zone

Привязка к Availability Zone

К счастью, данный вопрос уже поднимался в сообществе:

Feature Request: Create a node's automatic node labels on its pods #62078

В комментарии от 1 марта 2022 года было предложено решение через MutatingAdmissionWebhook:

https://github.com/danfromtitan/envars-from-node-labels

Спасибо за внимание!

Сейчас самое время задавать вопросы.

Отзыв по ссылке QR-кода категорически приветствуется :)