代表の佐野です。新年あけましておめでとうございます。本年もどうぞよろしくお願いします!新年からトラブル対応をしたお話です。
そのトラブルは、なんと業務データがすべて飛びそうになった話。新年から刺激強すぎますね...ということで新年1つ目の記事はその対応と教訓、デジタル化をする上でやるべきことを書いていこうと思います。
新年早々のハードウェアトラブル発生
年が明けて昨年から続く業務の中、突然社内のストレージサーバー(いわゆるNAS)がアクセス不能になるという事態が起きました。業務データがすべてこのサーバーに保存されているため、業務がほぼ完全に止まる可能性がありました。さらに、納品期限が迫るデータも含まれていました。
原因を調べたところ、トラブルの元は「電源の故障」でした。ネットワークに問題がないことを確認した後、ハードウェアをチェックして判明しましたが、修理に必要な電源ユニットの入手には時間がかかることも分かりました。また、電源以外にも故障の可能性があり、ストレージサーバーの状態確認をするためには電源の用意が必要でした。
社内インフラのメンテナンス担当(私のこと、半泣き状態)は天を仰ぎました…がそんな暇もなく次の作業に進みました。
対処は計画が大事
まず、以下の課題に直面しました:
- 業務を止めずに迅速かつ安全に対応する。
- 将来的に同様のトラブルが発生した場合、影響を最小限に抑える体制を整える。
今の社内環境は過去にもさまざまなトラブルを経験し、その都度改善を行ってきました。ストレージが利用できなくなった今回のケースでは、災害時のデータ保全に近い対応が求められました。
こういったときにバックアップが非常に重要になり、今回もそのバックアップのおかげで業務が止まることなく進み、復元作業も無事に完了しました。
...と言えるのも事後の話だからですが(1週間後に完全復旧したので、こう書けるわけですが)。大学研究室に勤めていたとき、東日本大震災で研究室内の環境復元にも対応しましたが、そのときも計画と対策をしっかり行ったことで復旧作業が可能でした(当時は対応しきれなかったものもあり、教訓になっています)。
バックアップからの復旧は計画と準備がすべてです!
対応したことと教訓
事前に計画し実施していた対策により、今回のトラブルで効果を発揮しました。
バックアップ体制の整備:クラウドとローカルの二重バックアップ
重要なデータはクラウドストレージとローカルストレージの両方に保存しており、どちらかが利用できなくなっても復元可能な状態を維持していました。
社内では、資料として呼び出して利用したいデータと、現在進行中の案件向け作業データがあり、頻繁にアクセスされる後者は、多人数で同期作業ができるストレージサービスを使用しています。
ストレージサーバーではローカルネットワークのみで利用できる同期サービスを活用し、同時に(OneDriveやGoogle Drive)といったファイル共有同期サービスにもバックアップを行い、ストレージサーバーが利用できない場合にそちらへ切り替える作業も実施しました。
故障範囲を確認
ストレージサーバーの故障は電源以外にも考えられます。電源故障の影響範囲を確認するため、HDDを別のマシンに接続して、データの論理的な安全性を確認しました。
RAID構成のため、ベンダーのマニュアルに従い対応を進めたところ、この段階でHDDのファイルシステムでの破損の可能性も浮上しました。仮に電源が復旧したとしてもデータやHDD自体の破損の可能性があるため、慎重に判断を進めました。状況によっては、ベンダーのサポートを積極的に活用する判断も重要です。
結果的にこの作業で見つかった問題は、電源を復旧した後にストレージサーバー側で問題なくHDD認識とデータアクセスが可能で、問題ありませんでした。
アクセス制御の徹底
復旧作業中、共有データの操作権限をできる限り「読み取り専用」に設定し、誤操作や不適切な変更を防ぎました。これにより、データの整合性を維持しながら復旧作業を進めることができました。また、後の復旧作業を行う際、変更範囲の確認が容易になりました。
ただ、案件向け作業データだけは常に読み書きが必要なため、必要な領域だけ読み書きに対応させるといった対応をしています。
その後と教訓
業務を止めない対策が終わった後、電源部品を用意してストレージサーバーの起動確認とデータ検証を行い、無事に復旧しました。データもすべて無事で、トラブル対応後は通常運用へ戻る作業を進めています。
事前のバックアップ対策が功を奏し、データ損失や重大な業務停止を回避することができました。一方で、ハードウェア故障に対する備えが不十分だったため、迅速な復旧には課題が残る結果となりました。
教訓:電源ユニットは予備を用意しよう
今回のトラブルの主因は電源ユニットの故障でした。しかし、予備部品を用意していなかったため、交換作業がスムーズに進まず、一時的ながらバックアップ体制への切り替えが発生しました。電源系統や予備部品についても、準備をしていく必要があります。
まとめ
今回のトラブル対応を通じて得た教訓は、以下の2点です:
- バックアップ体制の重要性:クラウドとローカルの二重バックアップにより、データ損失リスクを最小化し、切り替え作業で業務を可能な限り止めない運用を維持できた。
- ハードウェア故障に備えた予備の重要性:予備部品がないことで復旧が遅れる事態を経験したため、今後は事前準備を徹底する必要がある。
社内環境でデジタル化を進めると、ツールやサービスへの依存が増していきます。もちろん、これ自体は悪いことではありませんが、どのように運用するか計画することが重要です。業務を完全に「止めない」ことは難しいかもしれません。しかし、リスクを見越して事前に対策を講じることで、トラブルの影響を最小限に抑えることは可能です。
私自身、今回の教訓を得たので、引き続きさまざまなリスクを研究し、改善を積み重ねていきます。
弊社では、製造業のデータ運用やトラブル対策の構築、DX/デジタル化支援を行っています。データを安心して運用し、業務を止めないための方法について、一緒に考えてみませんか?
ご相談はお問い合わせフォームよりお気軽にどうぞ!