SRE: От теории к практике | Что сложного в командовании инцидентами

Несколько недель назад мы выпустили второй эпизод нашей продолжающейся серии вебинаров «SRE: От теории к практике. В этой серии мы разбираем проблемы, с которыми сталкиваются SRE, в ходе открытого и честного обсуждения. Нашей темой в этом эпизоде было «Что сложного в командовании инцидентом?». Когда что-то идет не так, кто главный? И каково это — выполнять эту роль? К Джейку Энглунду и Мэтту Дэвису из Blameless присоединились Варун Пал, штатный SRE в Procore, и Алисон Ван Харденбург, инженерный менеджер в Honeycomb.

Чтобы узнать, как организации относятся к командованию инцидентами, мы задали вопрос об этой роли на канале Slack нашего сообщества — открытом пространстве для обсуждения SRE. Мы выяснили, что в большинстве организаций нет специальных должностей командиров инцидентов. Вместо этого инженеры, работающие по вызову, проходят обучение, чтобы в случае необходимости взять на себя роль командира. Из-за такого широкого круга людей, которые в итоге могут оказаться в роли командира инцидента, важно понимать, что именно подразумевает эта роль.

В этой беседе мы хотели проанализировать, что теоретически подразумевает командование инцидентом, и соединить это с грязной реальностью, как это часто выглядит. Как и в прошлом эпизоде, мы выделим три ключевых момента в качестве вступления к этому эпизоду.

Создавайте структуры поддержки для групп командиров инцидентов

Варун рассказал о том, как в Procore он и его коллега создали «гильдию командиров инцидентов» — группу людей, которым, возможно, придется взять на себя роль командира инцидента, которая собирается еженедельно. Прежде чем создать гильдию, они поняли, что каждый человек, принимающий на себя эту роль, может обладать совершенно разными знаниями и взглядами на то, как следует проводить инциденты. При ретроспективном анализе инцидентов они часто обнаруживали несоответствия в зависимости от того, кто командовал инцидентом. Это создавало проблемы для выявления закономерностей во всех инцидентах и для использования последовательных методов расследования причин инцидентов. Это послужило толчком для объединения командиров инцидентов в новую гильдию.

Собрав всех, кто мог носить шляпу командира инцидента, они не только поставили всех на одну и ту же страницу, но и на «лучшую» страницу. Это означало, что вы собираете опыт всех членов группы и устанавливаете эти лучшие практики в качестве методологии, которой придерживаются все. Каждый мог внести свой вклад в то, что он считал наиболее эффективным, синтезируя опыт каждого в согласованный набор практик. Программу начинали снизу вверх, зная, что вложенные время и энергия облегчат жизнь каждого в долгосрочной перспективе.

Возможно, даже важнее, чем выработка хороших процедур, гильдия командиров инцидентов обеспечивает солидарность и сочувствие. Это безопасное пространство для людей, которые реагируют на происшествия, чтобы разделить друг с другом победы, посочувствовать и выплеснуть разочарование. Командование инцидентами — тяжелая работа: это работа, которая может заставить вас вскочить с постели в три часа ночи и внезапно оказаться перед необходимостью руководить командой других уставших людей. Без поддержки люди могут быстро перегореть.

Сопереживайте беспокойству по поводу опыта

«Я лучше буду дежурить 24 часа в сутки 7 дней в неделю по вопросам, в которых я являюсь экспертом, чем потрачу 5 минут на то, чтобы стать командиром инцидента, о котором я ничего не знаю», — сказал Джейк во время нашей беседы. Возможно, это преувеличение, но не сильное. Все остальные участники разговора поддержали это мнение. Беспокойство по поводу незнания вполне обоснованно. В критический момент инцидента никто не хочет вызывать дополнительные задержки из-за того, что не знает, как что-то работает.

Первый шаг к решению этой проблемы, как подчеркнул Джейк, заключается в том, чтобы понять, что инженеры не являются универсальными. Нельзя считать, что каждый инженер обладает знаниями и опытом всех остальных инженеров. Чтобы инженеры могли эффективно работать по вызову, их необходимо ввести в курс дела относительно функционирования системы. Без этого вы не сможете знать, что «направление людей» для решения проблемы будет иметь какой-либо эффект.

Даже при наличии подготовки некоторые инженеры всегда будут лучше знать одни области обслуживания, чем другие, возможно, потому, что они работали над самим проектом. Независимо от того, насколько они подготовлены к работе по вызову в целом, этот относительный недостаток знаний всегда будет вызывать беспокойство: люди неизбежно будут бояться инцидента, который раскроет то, чего они не знают, или даже то, чего они не знают, что они не знают. Именно поэтому Алисон, к всеобщему согласию, подчеркнула, что эксперты в предметной области не должны быть командирами инцидентов. Хорошее реагирование на инциденты должно заключаться не в «удаче» и наличии эксперта по вызову, а в организации обучения и процессов, которые помогают всем решать проблемы.

Поскольку это беспокойство в какой-то степени неизбежно, важно сопереживать ему и создать системы, поддерживающие его. Часто существуют специальные люди, к которым можно обратиться. Полезно знать, кому звонить, но это может быть и пугающим, если вы думаете, что беспокоите кого-то вопросом, который «должны знать». Один из участников дискуссии поднял тему «дежурных приятелей» — тех, к кому вы доверяете обращаться, даже если вы не уверены в том, что «должны знать». Тогда, даже если вы оба не знаете, у вас будет больше стимулов для дальнейшей эскалации. В целом, политика эскалации не должна быть строгой и линейной, а больше основываться на опыте и связях.

Командование инцидентом — это как первая помощь

Мы рассмотрели некоторые лучшие практики, позволяющие сделать жизнь командиров инцидентов лучше, но остается ключевой вопрос: что именно является командованием инцидентом? Является ли это обязанностью, которая передается по очереди каждому дежурному, и назначенный человек принимает на себя командование каждым происшествием в эту смену? Или оно определяется в момент инцидента — возможно, человек, который первым реагирует на инцидент, или самый опытный специалист на вызове, или самый старший человек, участвующий в каждом инциденте? Или вам следует нанять назначенное лицо, отвечающее за командование инцидентом? Какие обязанности возлагаются на человека, когда он принимает командование инцидентом?

Обсуждая эти вопросы, наша группа пришла к выводу, что… это зависит от обстоятельств. Кто является командиром инцидента и что он делает, может варьироваться от организации к организации и от инцидента к инциденту. Но когда вы сами создаете практику, ответ «зависит от обстоятельств» не слишком полезен. Вот почему я хочу обратить внимание на концепцию командования инцидентом, предложенную Алисон: командование инцидентом — это как первая помощь.

Первая помощь — это не полное лечение пациента и даже не полная диагностика. Речь идет о том, чтобы взять ситуацию под контроль и убедиться, что критически важные задачи выполняются и не остаются без внимания. Алисон описала сцену, когда вы становитесь свидетелем несчастного случая и немедленно даете указания: «Вы, поднимите голову и попытайтесь остановить кровотечение»; «Вы, вызовите скорую помощь» и т.д. Инструктаж конкретных людей позволяет обойти эффект стороннего наблюдателя и обеспечить выполнение задачи.

Когда вы являетесь командиром инцидента, может быть полезно сосредоточиться на этой роли немедленного распределения задач, вместо того чтобы сразу увязнуть в диагностике и реагировании. Мэтт также подчеркнул важность того, чтобы командир инцидента знал, когда нужно отступить. Естественно, вы захотите довести до конца каждый этап инцидента, но попытки довести дело до конца, когда вы выбились из сил, могут принести убытки. Ради инцидента и собственного здоровья важно делать перерывы. В это время передавайте роль командира кому-то другому. Мэтт считает, что руководитель инцидента — это хороший вариант. Никто не ожидает, что человек, оказывающий первую помощь, будет всю ночь находиться у постели пациента.

Мы надеемся, что вам понравился наш взгляд на реальный опыт инженеров в SRE: От теории к практике. Ждите новых выпусков в ближайшее время. Если у вас есть тема SRE, которую вы хотели бы обсудить в группе, сообщите нам об этом в Twitter или на нашем канале сообщества Slack.

Оцените статью
devanswers.ru
Добавить комментарий