Аварии ЦОД Microsoft и серверной колледжа в Лондоне из-за сбоев систем пожаротушения
10 октября 2017 г. | Категория: Аварии в ЦОДах, Пожаротушение
Основная функция центра обработки данных заключается в обеспечении бесперебойной работы критически важных приложений. Тем не менее, в любой момент может произойти незапланированное отключение практически любого ЦОД.
Поэтому операторы дата-центров должны проявлять инициативу и заниматься поиском способов профилактики даунтаймов. Понимание причин таких сбоев в работе дата-центров и поиск путей их устранения имеют решающее значение для предотвращения перебоев в работе бизнеса, которые могут привести к оттоку клиентов и ухудшению репутации.
Согласно результатам многочисленных исследований, на данном этапе отказ ИБП остается основной причиной незапланированных сбоев в работе дата-центров. Но свежие инциденты показали, что уход вычислительной инфраструктуры серверной фермы произвольного размера и мощности в офлайн может быть спровоцирован помимо прочего и сбоем в работе системы пожаротушения здания.
Система газового пожаротушения и огнетушитель вызывали сбой в работе серверной лондонского колледжа
Администрация одного из лондонских колледжей была вынуждена обратиться за помощью к специалистам по уборке и утилизации электронного мусора после того, как система пожаротушения в серверной комнате этого учреждения образования вышла из строя, запустив цепочку событий, приведших к весьма печальному исходу.
Инцидент произошёл во время тестирования качества воздуха на соответствие стандарту ISO14644-1 (класс 8), согласно которому, количество частиц размером 0,5 микрон в воздухе не должно превышать 3,52 млн. на кубический метр.
Предположительно в серверной произошел пожар. После возгорания система пожаротушения направила инертный газ на все еще включённое и работающее IT-оборудование. При этом данная система начала разрушатся, и на серверы посыпались ее обломки. Также сообщается, что одним из сотрудников учреждения образования был «случайно использован» стандартный огнетушитель.
Серверы колледжа ушли в офлайн на длительное время, при этом часть машин получила серьезные повреждения. Команде инженеров, которые прибыли на место через два часа после инцидента, пришлось проработать всю ночь для восстановления IT-систем. Инженеры смогли привести вычислительную инфраструктуру колледжа в исходное состояние, чтобы студенты могли использовать ее на следующий день.
Напомним, что системы газового пожаротушения вызывают изменение температуры в помещении, быстро охлаждая его. Они влияют на давление воздуха, что приводит к звуковому загрязнению и возникновению ударной волны при отключении таких систем. Выделяемый ими газ также может стать своеобразным «абразивом», способным повредить чувствительное оборудование.
Аналогичная авария недавно привела к отключению дата-центра, поддерживающего облачную платформу Microsoft Azure
Неожиданный выпуск инертного газа системой пожаротушения во время планового технического обслуживания в одном из европейских дата-центров Microsoft повлек за собой ряд неудачных событий, вызвавших семичасовые перебои в работе облачной платформы Microsoft Azure. В результате данного инцидента пострадал бизнес некоторых североевропейских клиентов софтверного гиганта.
Представители корпорации поделились подробностями относительно данной ситуации через официальный блог Microsoft Azure. Отмечается, что из-за попадания инертного газа в машзал многочисленные установки подготовки воздуха внутри ЦОД автоматически прекратили работу. Это, в свою очередь, привело к повышению температуры окружающей среды в изолированных зонах машзалов. Последнее обернулось тем, что некоторые серверные системы, сетевые системы и системы хранения данных автоматически отключились или начали выполнять циклическую перезагрузку.
Об аварии стало практически незамедлительно известно операторам ЦОД, и благодаря их оперативному реагированию в течение последующих 35 минут работоспособность всех холодильных агрегатов была восстановлена, а температура окружающей среды вернулась к норме. Тем не менее, некоторые серверные системы и системы хранения данных вышли из-под контроля. В результате потребовалось дополнительное время для устранения неполадок и восстановления затронутых ресурсов.
Отключение инфраструктуры ЦОД во время регулярного периодического обслуживания системы пожаротушения привело к тому, что у некоторых североевропейских клиентов Azure начались проблемы с подключением или управлением облачными ресурсами. Представители пресс-службы американской корпорации извинились перед пострадавшими, отметив, что инженеры Microsoft предпринимают все возможные действия для обеспечения того, чтобы подобные инциденты больше не повторялись. Теги: Microsoft, Azure, Лондон
|