フロントエンドやバックエンドなど、いろんな役割が混在するチームで障害対応するメンバーの割当に悩んでいます。
みなさんはどんな風に割り当てされていますか?
「役割関係なく全員で対応すること」が今のチームの方針でローテーションが組まれていますが、形骸化しています。
大部分はバックエンドから追うことが多いので、できるメンバーがアサイン関係なく対応している感じです。
個人的には全員に強いるのは酷、全員ではなくできるメンバー+挑戦したいメンバーで回していくのがいいのかなと思っています。
フロントエンドやバックエンドなど、いろんな役割が混在するチームで障害対応するメンバーの割当に悩んでいます。
みなさんはどんな風に割り当てされていますか?
「役割関係なく全員で対応すること」が今のチームの方針でローテーションが組まれていますが、形骸化しています。
大部分はバックエンドから追うことが多いので、できるメンバーがアサイン関係なく対応している感じです。
個人的には全員に強いるのは酷、全員ではなくできるメンバー+挑戦したいメンバーで回していくのがいいのかなと思っています。
最終的にはそのチームの目標次第ではないでしょうか。例えば、SLA が設定されていてそれを遵守する必要があるという場合は、できるメンバーを中心にアサインするというやり方で対応せざるを得ないのではないかと思います。
一方で、できるメンバーを中心にアサインするというやり方にした場合、何か不都合はあるのでしょうか。例えば、特定のメンバーに負荷が偏ってしまうとか、チームの底上げが進まないとか。
また、ローテーションが形骸化してしまっているということですが、そもそもそれは形骸化してもいいものなのか、それともまずいのか、そのあたりもチームの目標に照らし合わせながら確認してみるといいのではないかと思います。
できるメンバーがアサイン関係なく対応しているとあるので老婆心ながらコメントします
そのできるメンバーがきちんと報いられている状態を明言しつつサポートと怠らないようにした方がいいと思います
具体的には給与の確実な上昇や評価を下げないなどです
障害対応を固定メンバーがし続けることは、いつかはその方達が糸が切れるように辞めていく可能性を積み重ねていると思っています
「なぜ自分ばかり?」と思われたが最後、そのメンタルを元に戻すのは並大抵のことでは難しいでしょう
(私はその退職したメンバー側の経験がありますので…)
評価されにくいのは何でなんでしょうね。。。
自分に評価面での権限はありませんが、折に触れて上司に伝えるようにしているのとサポートしているつもりです。今後も意識していきます。
コメントありがとうございます
障害対応ってどの部分を指してます?
アラートを受けてからのインシデントの切り分け、ステークホルダーへのコミニュケーション、機能回復/BCPの作業、原因究明の為のエビデンス回収、RCA、再発防止の作業 等々。
全部まとめて障害対応でどれもチーム戦です。
私のチームでは全員参加です。負担を減らしたいなら、サポートしやすい物をを作る。機能でも、メトリクスでも、ダッシュボードでも、ドキュメントでも、できる事をやる。と同時に一人で抱えこまない様にもしてます。オンコールの人の業務は障害に対応して、システムのダウンタイムを減らす事で、ガンガン専門家にエスカレーションしてもよいし、すべきだとしてます。
できる人、やりたい人だけでやると俗人化するのでおすすめしません、負担だと思う人にもやってもらい、プロセスを理解してもらい、自身の貢献で負担を下げる機会をつくる。エスカレーションされたくない専門家はされない仕組み(自己検知、自己回復、ドキュメント)を作るインセンティブを作る。
コメントありがとうございます。
障害対応は挙げられたものはすべて含んでいます。
チームで取り組まれている(仕組みづくりをしている)の、とても素晴らしいですね。
少し具体的に書くと、データ構造やSQLを書くのに慣れていないメンバー向けに障害調査でよく使うクエリ集や障害対応マニュアルを用意し機会があるときにそれらを使いながら何度か一緒に対応しています。
ただ土日にいざ障害が発生すると、できないメンバーが担当の場合も何も反応がありません。
たまたま手があいてなかったケースが重なっているのかもしれませんが、バックエンド以外のメンバーだと厳しいのかなと他社事例を聞いてみたかった次第です。