— Как было плохо: 7-значное число по входящим алертам в сутки, алерты летят в разработку напрямую, нет выделенной команды координаторов инцидентов, нет процессов.
— Почему решили изменить: большая нагрузка на разработку, нет оформленных инцидентов и постмортемов, нужны автоматизации.
— Как стало хорошо: выделенная команда мониторинга 24/7, алерты контролируются командой мониторинга, понятный процесс Incident и Problem Management, координация инцидентов, автоматизация почти на каждом шаге жизни инцидента.
Everyone.
Any level.
Работает в Купере 3 года. За это время удалось построить крутые процессы в мониторинге, Incident и Problem Management, собрать команду сильных инженеров, выстроить структуру и взаимодействие со смежными подразделениями.
До Купера долгое время работала в техподдержке внутренних пользователей.