【重要】2018.2.23 ホスティングサービス(L150G、L200G、L400G、L600G)障害復旧のご連絡
2018.2.23掲載 19:00途中経過 20:00追加掲載 20:40仮復旧 2018.2.26原因追記 2018.3.5原因再追記 2018.7.10再発防止追記
平素より、弊社サービスをご利用いただきまして誠にありがとうございます。
ご迷惑をお掛けしておりましたホスティングサービス障害でございますが、
復旧となりましたのでご連絡させていただきます。
ご迷惑をおかけいたしまして、誠に申し訳ございません。
深くお詫び申し上げます。
■発生日時: 2018年2月23日(金) 15:13
■復旧日時: 2018年2月23日(金) 20:21
■対象範囲: ホスティングサービス(L150G、L200G、L400G、L600G)をご利用のお客様。
■影響範囲: 下記の不具合が発生しておりました。
・メール送受信が利用できない
※メール受信につきましては遅延して受信されますが、
送信元にリターンメールとしてエラーで返ってしまう可能性がございます。
・コントロールパネルへ接続できない
■障害原因: メールサーバーから転送されたメールログを保管するログサーバーが不具合により
停止したため、ログを転送できない状態が発生しておりました。
ログの転送が失敗した場合は、メールシステムを構成している各サーバーのローカルディスク内に
ログを保存する仕様となっておりますが、本件においては転送するログの容量が大きかったため、
メールサーバー内でログ転送の再実行とローカルディスク内へのログ保存が同時におこなわれたことにより、
サーバーが高負荷な状態に陥ってしまいメールの送受信ができなくなっておりました。
■対応内容: 障害発生を確認後、メールサーバーを含むメール配送に関連するサーバーの再起動、ならびに
メールシステムの上位にあるロードバランサーの切り替え作業を実施いたしましたが、依然として
メール送受信ができない状態が続いたため継続してメールシステムの調査をおこないましたところ、
メールシステムと連動しているログサーバーが停止しており、ログを転送できない状態であることが
確認できました。
そこでメールサーバーからのメールログ転送を無効化しサーバのローカルディスク内のみにログを
保存するようにしたところ、メールサーバーを含むメール配送に関連するサーバーの負荷が軽減し、
メール配送が正常におこなわれることを確認いたしました。その後サーヒスの正常性の確認をおこない
復旧にいたっております。
■再発防止策: 本件の要因となりましたログサーバーの停止原因については、転送処理が集中したことによるログサーバーの
メモリー不足によるものでしたので、該当のサーバーのメモリー増設を実施いたしました。
また、ログサーバーの挙動に対して監視を行っていなかったことが本件の復旧までに時間を要する原因となって
おりましたので、ログサーバーの死活監視及びプロセス監視を監視業務に追加しております。
ご迷惑をお掛けしましたことを、重ねてお詫び申し上げます。