Новости индустрии / Новости / Семь основных причин, приводящих к простою дата-центра

Семь основных причин, приводящих к простою дата-центра

30 ноября 2015 г. | Категория: Аварии в ЦОДах, Электроснабжение ЦОД

Когда ЦОД уходит в офлайн, есть три потенциальных виновника: люди, оборудование и природа.

Угрозу, которую дата-центр может представлять для человека, озвучил на прошлой неделе Эд Ансетт, председатель группы i3 Solutions. Он сказал следующее: «Мы (индустрия дата-центров. ― Прим. ред.) все еще в начале пути. Начало летальных исходов в нашей отрасли ― это всего лишь вопрос времени».

1.     Выход из строя ДГУ

 Эд, не раскрывая имени пострадавшего оператора, привел пример серьезной аварии в дата-центре, произошедшей вследствие неправильной работы ДГУ.

Стоял жаркий летний день. Произошло отключение магистральной энергии. Дата-центр работал при полной нагрузке 7,2 МВт. Площадка была оборудована четырьмя генераторами по 2,5 МВт с резервированием N+1. Один из генераторов не завелся, но площадка продолжила работать на трех генераторах. Спустя 30 минут вышел из строя еще один генератор.

Дата-центр работал на источнике 5 МВт с нагрузкой 7,2 МВт. Два оставшихся генератора не справились, и система охлаждения оказалась обесточенной. ИТ-оборудование из-за перегрева начало отключаться. Дата-центр работал еще 30 минут на ИБП (2N по 15 минут каждый). Общее отключение дата-центра произошло еще через полчаса.

На восстановление магистрального энергоснабжения ушло шесть часов, но дата-центр полностью вернулся к работе лишь спустя восемь часов.

По данным Emerson, отказ ДГУ обходится в среднем в сумму $463 890.

2.     Защита от коротких замыканий и сбои в автоматах

Неправильно номинированные или несогласованные автоматы могут привести к существенным повреждениям систем, длительному простою и даже вызвать травмы персонала. Несогласованная защита цепи ― это прежде всего проблема проектирования и сдачи в эксплуатацию.

Обычно ошибки при переключении вызваны человеческим фактором. По данным Emerson, они являются третьими по частоте среди причин аварий в дата-центрах (51 %).

Незакрепленные, неплотные соединения на устройствах переключения могут также стать причиной ухода дата-центра в офлайн.

3.     Отказ аккумуляторов ИБП и превышение мощности

Исследование Emerson на базе 450 операторов дата-центров показало, что отказ аккумуляторов ИБП ― самая частая причина отключения энергии (с этим столкнулись 55% опрошенных).

ИБП обеспечивают непрерывную и регулируемую подачу чистой энергии на ИТ-оборудование: с помощью аккумуляторов закрывается брешь между прекращением подачи магистральной энергии и началом подачи энергии от генераторов.

Превышение мощности ИБП ― вторая по частоте причина сбоев в работе дата-центров: по результатам исследования Emerson, из-за этой проблемы, как указали респонденты, происходит 53 % аварий.

По мере роста требований к ИТ инфраструктура дата-центров и их сервисы должны также совершенствоваться, чтобы не перегружать существующие системы.

По данным Emerson, средняя сумма, в которую обходятся отказы ИБП в дата-центрах, ― $687 700.

4.     Утечки воды

Вода и ИТ остаются несовместимыми вещами, но при этом именно вода становится причиной немалой доли ухода дата-центров в офлайн. Исследование Emerson приводит цифру в 35 % ― именно столько опрошенных назвали утечку воды как причину отключений.

Утечка воды и повышение влажности могут быть вызваны разными причинами: погодными условиями, прохудившимися трубами, протечками кондиционеров и так далее. Такого рода происшествия можно предотвратить, если обеспечить герметизацию критических частей ИТ-систем и установить системы мониторинга, позволяющие обнаружить утечку воды.

Осадки, подтопление или протечка кондиционера обходятся дата-центрам в среднем в $489 100.

5.     Ненадлежащая эксплуатация

Неправильная эксплуатация дата-центра (на примере ошибок в эксплуатации таких простых вещей, как аккумуляторные батареи  или система ИБП) может иметь серьезные последствия. Увеличить время бесперебойной работы поможет программируемый логический контроллер (PLC), используемый в различных промышленных приложениях для мониторинга и/или для обеспечения безопасности.

В августе 2009 года дата-центр Internap Network Services (INAP) в Бостоне ушел в офлайн из-за ненадлежащего обслуживания аккумуляторных батарей. Internap заявила, что отказ произошел из-за прекращения подачи тока энергоснабжающей организацией, что повлекло за собой неспособность дата-центра перейти на резервное питание от аккумуляторов.

6.     Ошибки проектирования

По информации от Schneider Electric, годами в отрасли ЦОД принималось как должное то, что причиной отказа № 1 является ошибка оператора в процессе эксплуатации, а не плохой проект или инжиниринг площадки.

Первая крупная ошибка ЦОДов ― то, что команду эксплуатационников не вовлекают в процесс проектирования. Вторая ошибка состоит в том, что они слишком слепо полагаются на проект дата-центра. SE считает, что проектировщики должны полностью подготовить людей, которые будут заниматься эксплуатацией дата-центра с первого дня его работы. В этом вопросе человеческий фактор выходит на первый план.

Другие ошибки состоят в неспособности: правильно подобрать специалистов; системно обучить людей и тестировать их уровень подготовки; организовать документирование процессов и процедур в дополнение к операционным программам.

Сюда же можно добавить и неспособность: выполнить соответствующие процедуры и процессы в проектируемом пространстве; разработать и внедрить системы проверки качества; использовать инструменты программ управления ― такие как системы контроля, помогающие отслеживать работу устройств через интеллектуальные измерительные устройства на постоянной основе.

7.     Природные катаклизмы

Стихийные бедствия случаются вне зависимости от человека. «Это действие высших сил», ― говорит Ансетт.

Крупнейшие операторы ЦОД, как правило, строятся в районах, где такие бедствия, как ураганы, землетрясения и наводнения, случаются крайне редко или вообще никогда. Однако все же множество дата-центров строятся в опасных зонах.

Например, ураган «Сэнди» в 2012 году был настолько мощным, что несколько крупных хабов в Нью-Йорке вышли из строя. Те, которые не залило водой, пострадали от отключения энергии.

Когда ураган пришел в регион, местная энергоснабжающая компания Consolidated Edison была вынуждена отключить энергосистему в нижнем Манхэттене, чтобы избежать эскалации опасности для дата-центров. Пострадали тысячи клиентов.

Emerson подсчитала, что в среднем операторы тратят на послеаварийное восстановление дата-центров, пострадавших в результате стихийного бедствия, $395 065.

Какова же цена отказа?

Отказы дата-центров, если не брать во внимание их потенциальную угрозу жизни и здоровью людей, являются для операторов крупными статьями расходов. Emerson подсчитала, что в 2013 году отказы дата-центров стоили в пересчете на минуту работы на 41 % больше, чем в 2010-м: $7900 и $5600 соответственно. Наиболее высокая цифра для одной организации составила $1,7 млн.

Теги: Schneider Electric, Аварии в ЦОД, INAP, Emerson

Регистрация
Каталог ЦОД | Инженерия ЦОД | Клиентам ЦОД | Новости рынка ЦОД | Вендоры | Контакты | О проекте | Реклама
©2013-2024 гг. «AllDC.ru - Новости рынка ЦОД, материала по инженерным системам дата-центра(ЦОД), каталог ЦОД России, услуги collocation, dedicated, VPS»
Политика обработки данных | Пользовательское соглашение