Семь основных причин, приводящих к простою дата-центра
30 ноября 2015 г. | Категория: Аварии в ЦОДах, Электроснабжение ЦОД
Когда ЦОД уходит в офлайн, есть три потенциальных виновника: люди, оборудование и природа.
Угрозу, которую дата-центр может представлять для человека, озвучил на прошлой неделе Эд Ансетт, председатель группы i3 Solutions. Он сказал следующее: «Мы (индустрия дата-центров. ― Прим. ред.) все еще в начале пути. Начало летальных исходов в нашей отрасли ― это всего лишь вопрос времени».
1. Выход из строя ДГУ
Эд, не раскрывая имени пострадавшего оператора, привел пример серьезной аварии в дата-центре, произошедшей вследствие неправильной работы ДГУ.
Стоял жаркий летний день. Произошло отключение магистральной энергии. Дата-центр работал при полной нагрузке 7,2 МВт. Площадка была оборудована четырьмя генераторами по 2,5 МВт с резервированием N+1. Один из генераторов не завелся, но площадка продолжила работать на трех генераторах. Спустя 30 минут вышел из строя еще один генератор.
Дата-центр работал на источнике 5 МВт с нагрузкой 7,2 МВт. Два оставшихся генератора не справились, и система охлаждения оказалась обесточенной. ИТ-оборудование из-за перегрева начало отключаться. Дата-центр работал еще 30 минут на ИБП (2N по 15 минут каждый). Общее отключение дата-центра произошло еще через полчаса.
На восстановление магистрального энергоснабжения ушло шесть часов, но дата-центр полностью вернулся к работе лишь спустя восемь часов.
По данным Emerson, отказ ДГУ обходится в среднем в сумму $463 890.
2. Защита от коротких замыканий и сбои в автоматах
Неправильно номинированные или несогласованные автоматы могут привести к существенным повреждениям систем, длительному простою и даже вызвать травмы персонала. Несогласованная защита цепи ― это прежде всего проблема проектирования и сдачи в эксплуатацию.
Обычно ошибки при переключении вызваны человеческим фактором. По данным Emerson, они являются третьими по частоте среди причин аварий в дата-центрах (51 %).
Незакрепленные, неплотные соединения на устройствах переключения могут также стать причиной ухода дата-центра в офлайн.
3. Отказ аккумуляторов ИБП и превышение мощности
Исследование Emerson на базе 450 операторов дата-центров показало, что отказ аккумуляторов ИБП ― самая частая причина отключения энергии (с этим столкнулись 55% опрошенных).
ИБП обеспечивают непрерывную и регулируемую подачу чистой энергии на ИТ-оборудование: с помощью аккумуляторов закрывается брешь между прекращением подачи магистральной энергии и началом подачи энергии от генераторов.
Превышение мощности ИБП ― вторая по частоте причина сбоев в работе дата-центров: по результатам исследования Emerson, из-за этой проблемы, как указали респонденты, происходит 53 % аварий.
По мере роста требований к ИТ инфраструктура дата-центров и их сервисы должны также совершенствоваться, чтобы не перегружать существующие системы.
По данным Emerson, средняя сумма, в которую обходятся отказы ИБП в дата-центрах, ― $687 700.
4. Утечки воды
Вода и ИТ остаются несовместимыми вещами, но при этом именно вода становится причиной немалой доли ухода дата-центров в офлайн. Исследование Emerson приводит цифру в 35 % ― именно столько опрошенных назвали утечку воды как причину отключений.
Утечка воды и повышение влажности могут быть вызваны разными причинами: погодными условиями, прохудившимися трубами, протечками кондиционеров и так далее. Такого рода происшествия можно предотвратить, если обеспечить герметизацию критических частей ИТ-систем и установить системы мониторинга, позволяющие обнаружить утечку воды.
Осадки, подтопление или протечка кондиционера обходятся дата-центрам в среднем в $489 100.
5. Ненадлежащая эксплуатация
Неправильная эксплуатация дата-центра (на примере ошибок в эксплуатации таких простых вещей, как аккумуляторные батареи или система ИБП) может иметь серьезные последствия. Увеличить время бесперебойной работы поможет программируемый логический контроллер (PLC), используемый в различных промышленных приложениях для мониторинга и/или для обеспечения безопасности.
В августе 2009 года дата-центр Internap Network Services (INAP) в Бостоне ушел в офлайн из-за ненадлежащего обслуживания аккумуляторных батарей. Internap заявила, что отказ произошел из-за прекращения подачи тока энергоснабжающей организацией, что повлекло за собой неспособность дата-центра перейти на резервное питание от аккумуляторов.
6. Ошибки проектирования
По информации от Schneider Electric, годами в отрасли ЦОД принималось как должное то, что причиной отказа № 1 является ошибка оператора в процессе эксплуатации, а не плохой проект или инжиниринг площадки.
Первая крупная ошибка ЦОДов ― то, что команду эксплуатационников не вовлекают в процесс проектирования. Вторая ошибка состоит в том, что они слишком слепо полагаются на проект дата-центра. SE считает, что проектировщики должны полностью подготовить людей, которые будут заниматься эксплуатацией дата-центра с первого дня его работы. В этом вопросе человеческий фактор выходит на первый план.
Другие ошибки состоят в неспособности: правильно подобрать специалистов; системно обучить людей и тестировать их уровень подготовки; организовать документирование процессов и процедур в дополнение к операционным программам.
Сюда же можно добавить и неспособность: выполнить соответствующие процедуры и процессы в проектируемом пространстве; разработать и внедрить системы проверки качества; использовать инструменты программ управления ― такие как системы контроля, помогающие отслеживать работу устройств через интеллектуальные измерительные устройства на постоянной основе.
7. Природные катаклизмы
Стихийные бедствия случаются вне зависимости от человека. «Это действие высших сил», ― говорит Ансетт.
Крупнейшие операторы ЦОД, как правило, строятся в районах, где такие бедствия, как ураганы, землетрясения и наводнения, случаются крайне редко или вообще никогда. Однако все же множество дата-центров строятся в опасных зонах.
Например, ураган «Сэнди» в 2012 году был настолько мощным, что несколько крупных хабов в Нью-Йорке вышли из строя. Те, которые не залило водой, пострадали от отключения энергии.
Когда ураган пришел в регион, местная энергоснабжающая компания Consolidated Edison была вынуждена отключить энергосистему в нижнем Манхэттене, чтобы избежать эскалации опасности для дата-центров. Пострадали тысячи клиентов.
Emerson подсчитала, что в среднем операторы тратят на послеаварийное восстановление дата-центров, пострадавших в результате стихийного бедствия, $395 065.
Какова же цена отказа?
Отказы дата-центров, если не брать во внимание их потенциальную угрозу жизни и здоровью людей, являются для операторов крупными статьями расходов. Emerson подсчитала, что в 2013 году отказы дата-центров стоили в пересчете на минуту работы на 41 % больше, чем в 2010-м: $7900 и $5600 соответственно. Наиболее высокая цифра для одной организации составила $1,7 млн. Теги: Schneider Electric, Аварии в ЦОД, INAP, Emerson
|