データセンターのオペレーション業務について

データセンターのオペレーション業務について

業務 2017/07/12
皆さんこんにちは
2015年入社のYです。

 

最近はPUBGなるゲームにはまっていますが、自分のセンスの無さに愕然とします。
食べたいよ!ドンかつ食べたい! ←専門用語
食べられないので仕事の話でもしますか。
僕が現在担当している銀行系のエンジニアのお仕事についてお話します。

 

さて皆さん、銀行のデータセンターが取り扱っているサーバってどのくらいの数があると思いますか?
20台くらい?100台くらい???
何と!!1000台を超える数のサーバが稼働しています。

 

 

皆さんが使っている銀行のサービスは社会的にも最重要であり、常にシステムの安定を求められます。
大きな『障害』がひとたび起きようものなら、何億、何十億という金額の損失に繋がってしまいます。

 

 

これだけの数のサーバを管理し安定運用を続けていく為には、
不具合・故障や危険信号などの『障害』を素早く検知し対応する、『初期対応』がとても重要になります。

 

 

大なり小なり『障害』というのは必ず発生するものです。
ハード機器の故障、ソフトウェアの不具合、高負荷によるオーバーフロー、ネットワークの通信不具合等々。
対策を重ねたとしても起きる時は起きてしまいます。
最大の問題はそれらの『障害』に気づけずスルーされてしまう事です。

 

 

そこで重要になってくるのが様々な『障害』の発生を検知するシステムの存在です。
「統合監視システム(Tivoli)」を用いて障害を検知し、障害監視画面を通して表示させることで、僕たちは障害の存在を認知する事が出来るのです。

 

 

その検知した障害やアラートに対して一番初めに動くの僕たちです。
決められた手順書・及び説明書を使ってシステムの処理状況『ジョブ』の確認をしたり、障害が発生したシステムの専門家に連絡し、対応方法の相談などを実施していきます。

 

 

あくまでも『初期対応』なので、障害対応における専門的な知識を必要とされるわけではありませんし、ものすごく難しい作業をするわけでもありません。
ただ『障害』は24時間365日いつ発生するか分かりません。 それらに備えて常に待機する必要が有りますし、初期対応の遅れは全体の遅れに繋がり、影響が大きくなる可能性もあります。
僕たち担当している仕事の責任の重さを感じるところです。
初動って大切です。仕事もPUBGも。

 

次回はまたちょっと違った角度から仕事の楽しさなども紹介したいと思います。

記事一覧に戻る

関連記事