ГлавнаяБлог о веб разработке и технологияхУправление техническими инцидентами – залог успеха

Управление техническими инцидентами – залог успеха

Управление техническими инцидентами – залог успеха

В современном мире случайности могут привести к большим проблемам и убыткам. Поэтому их полагается предотвращать до того, как они наступили. Технические инциденты опасны перебоями в работе любых систем. Если рассматривать средние показатели, то это около 300 тыс. долл. США упущенной выгоды за каждый час простоя. Теряется выручка, утраченная за время вынужденного бездействия. Сюда следует добавить и затраты на обязательное техническое обслуживание.

Бесперебойная работа, отсутствие простоев – ключевые показатели эффективности. Если сбои носят системный характер, бизнес ждут суровые времена. Delta Airlines лишилась примерно 150 млн. долл. из-за этой проблемы в работе ИТ в 2017 г.

Клиенты не станут докапываться до причин. Если они не смогли купить билет, попасть или провести видеоконференцию, оплатить просто счета, они уйдут к конкурентам и больше никогда такой компании не поверят и не вернутся.

Для компаний международного уровня любая заминка может стать фатальной. Команды должны в режиме реального времени отслеживать KPI управления инцидентами и грамотно применять их для своевременного выявления, диагностирования, исправления сразу после наступления. Лучше вовсе не допускать появления сбоя.

При обработке нештатных ситуаций в сфере ИТ компании и его ПО накапливается большой массив данных для анализа. Это позволяет быстрее и эффективнее разобраться с проблемой и провести улучшение во избежание рецидива, что является положительной стороной данного подхода.

Есть и существенный минус. Бывает, что не всегда сразу отслеживается корневая проблема инцидента просто потому, что работать приходится с титаническим массивом данных.

Управлении инцидентами: грамотный подход

Для борьбы нужны:

Ключевые показатели эффективности (KPI):

  • Метрики;
  • Аналитические данные для целей борьбы с инцидентами в ИТ.

KPI позволяют выявить, происходит ли достижение целей, поставленных на определенное время. Эти целевые показатели разнообразны. В их число входит следующее: среднее время между сбоями или время на разрешение таких ситуаций, число возникающих инцидентов.

Процесс отслеживания KPI позволяет:

  • Диагностировать потенциальные или уже возникшие проблемы;
  • Определить ключевые ориентиры;
  • Обозначить выполнимые цели;
  • Найти ключевую точку для решения системных задач.

Рассмотрим небольшой пример. Компания стремится разрешить возникший инцидент в течение получаса. Команда справляется в среднем за 45 мин. Вы не сможете найти корень проблемы без показателей KPI. Почему так происходит? Причина может таиться в недостаточной эффективности работы вашей команды. Если проверка не выявила недоработок, то следует проанализировать ПО, инструменты и оборудование.

Чтобы произвести грамотный анализ и получить конкретные причины, добавим необходимые данные для уточнения сложившейся ситуации. Если у вас есть информация, сколько у программы оповещения уходит времени в минутах для оперативного срабатывания, то можно понять, не в этом ли таится проблема. Если диагностика требует более 20 минут, то надо проанализировать ее на предмет определения. Она может стать главным фактором такого медленного разрешения инцидента.

Изучите работу разных команд из ИТ сферы. Если коллектив C работает на 25 % медленнее, чем A, B и D, после анализа вы поймете, почему так происходит.

Важно понимать, что KPI не решат все проблемы без вашего участия. Они проанализирую инцидент и определить выявить факторы, что привели к его появлению. Если устранить причины и предупредить их повторное появление, рецидива можно не опасаться.

Популярные метрики и KPI для борьбы с инцидентами

Грамотное управление инцидентами позволяет эффективно использовать сферу ИТ в организации и работе программного обеспечения компании. Рассмотрим отдельные примеры.

Число созданных рабочих оповещений

При активном использовании оповещения, важно отслеживать, сколько их создается в единицу времени или за отчетный период. Opsgenie поможет не только отправлять сообщения этого типа, но и создавать дашборды и отчеты для оперативного отслеживания их появления и функционирования.

Для анализа лучше выбирать те интервалы, где наблюдается нетипичное их падение или концентрация. Также в фокус интереса должна сразу попасть динамика, если она положительная. Важно отследить и проанализировать причины такой ситуации. Нужно понять, каким способом ваши команды реагируют на полученные оповещения.

Управление техническими инцидентами – залог успеха

Сколько инцидентов возникает за анализируемый временной интервал

Оперативно отслеживайте, сколько инцидентов возникает в определенном интервале времени. Необходим постоянный подсчет их среднего количества. Компания сама выбирает, какой период взять за эталон: день, неделя, месяц, квартал или даже год.

Как меняются средние значения? Увеличиваются, уменьшаются или примерно одинаковы. Допустим ли их уровень или его лучше попытаться снизить? Так будет легче отследить, почему они возникают и устранить проблему. Так команда может улучшить этот показатель, если тот неоправданно велик или показывает устойчивый рост.

MTBF

Показатель средней наработки на отказ обозначается MTBF. Он обозначает среднее время работы применяемого продукта между двумя сбоями, которые могут быть устранены. Помогает отследить тенденцию, понять надежность всех применяемых в компании программных продуктов.

Является надежным маркером наличия или отсутствия проблемы. При высоких значениях MTBF стоит найти ответ на вопрос, почему так происходит. Слишком частые сбои в работе систем опасны для жизнеспособности фирмы. Найти решение с целью сокращения этого числа в будущем иногда бывает затруднительно. Самый лучший результат – предотвратить их появление.

МТТА

MTTA обозначает средний показатель времени между получением сообщения об инциденте и моментом подтверждения участником команды о начале работы. Фактор ценен, так как позволяет понять, насколько быстро конкретная команда реагирует на возникающие проблемы в сфере ИТ.

Если показатель слишком низкий, нужно найти причину. Специалисты могут быть слишком перегружены рабочими задачами, они отвлекаются или не могут определить кому конкретно предназначено полученное оповещение.

MTTA позволяет обнаружить проблему, а дополнительные вопросы помогут докопаться до сути и найти эффективное решение для их устранения.

MTTD

Показатель среднего времени обнаружения проблемы наиболее востребован в сфере кибербезопасности. Концентрируется внимание на случаях несанкционированного доступа к данным с ограниченным или закрытым доступом и возникновения кибернетических атак.

При резком изменении значений следует немедленно принять превентивные меры. Такой же алгоритм действий показан и при недостаточно высоком уровне значений.

MTTR

MTTR позволяет зафиксировать значение времени, затраченного на диагностику и ликвидацию конкретной проблемы. Также является интервалом времени, потраченным на предотвращение рецидива.

Восстановление является ключевым показателем DevOps. Именно он нужен для оценки стабильности команды по авторитетному мнению программы DORA.

Значимый элемент любой ИТ диагностики позволяет понять, насколько эффективно и быстро устраняются возникшие инциденты. Соответствует ли затраченное время ожидаемому значению показателя.

Если нет, то надо искать причины его несоответствия эталонному целевому значению. По сути, это время, затрачиваемое командой на выявление инцидента, определения проблемы, смягчение последствий и последующее его устранение.

Время продолжительности дежурства

Данный показатель помогает отследить сколько времени ваши подрядчики и сотрудники тратят на вызов, если имеет место ротация дежурных. Так вы избежите ситуации, что какой-то сотрудник или целая команда будут перегружены работой.

Инструменты категории Opsgenie позволяют создавать детализированные отчеты, где можно ознакомиться с интересующими показателями.

SLA

Соглашение об уровне обслуживания (SLA) заключается между поставщиком и клиентом. В нем отражаются такие показатели:

  • Время реагирования;
  • Период безотказной работы и иные критичные значения.

В нем прописаны меры ответственности. Фиксируются все обещания, что дала компания: среднее время восстановления, интервалы работы без отказа и т. п.

Команды, работающие с инцидентами, обязаны отслеживать все текущие значения. Если среднее значение временного интервала между соседними сбоями изменяется или среднее время получения отклика, важно обновить SLA или скорректировать его.

Показатель SLO

Указывает цель по уровню предоставляемого обслуживания. Заключается в рамках SLA в качестве соглашения. Помогает отследить, выполняет ли компания свою часть договора.

Временная шкала или метка

Является закодированными данными. Содержит сведения о том, что в конкретный временной интервал произошло: до, во время и уже после инцидента. Помогает правильно оценить текущее состояние управления и учитывается при выработке стратегий улучшения его качества.

Временные метки дают возможность установить хронологию интересующего интервала. Узнать, что предшествовало его наступлению, какие меры помогли устранить возникшую проблему. Показатель понятен любому участнику команды. Эффективный артефакт для оперативного разбора во время появления инцидента.

Время работы без сбоев

Показывает, сколько времени все системы были работоспособны и полностью доступны. Измеряется в %.

Если онлайн сервисы имеют большое количество взаимосвязей, а сами системы относятся к разряду сложных, гарантии 100 % безотказности дать нельзя. К идеальному состоянию можно стремиться, но полностью его достигнуть нельзя. Хорошим считается 99,9% всего времени. Показатель помогает определить, выполняются ли сторонами обещания в рамках заключенных соглашений.

Евгений Омельченко

Об авторе:

Евгений Омельченко

Опытный профессионал в программировании.

Как мы можем вам помочь?

Подробнее о сотрудничестве с Global Cloud Team можно узнать по телефону +1 800 903 94 16 или заполнив форму ниже, и мы свяжемся с вами в течение 24-48 часов.

В соответствии с условиями пользования сервиса и политикой конфиденциальности, сайт защищен системой reCAPTCHA