Новости индустрии / Новости / Крупнейшие аварии в ЦОДах, их причины и последствия: итоги 2017 года

Крупнейшие аварии в ЦОДах, их причины и последствия: итоги 2017 года

16 января 2018 г. | Категория: Аварии в ЦОДах, Охлаждение ЦОД, Пожаротушение, Человеческий фактор, Электроснабжение ЦОД

Практика показывает, что некорректная эксплуатация инженерного оборудования и пресловутый человеческий фактор остаются одними из наиболее распространенных причин аварий в ЦОДах. Давайте же вспомним наиболее громкие и показательные инциденты, которые произошли в течение минувшего года. Ведь чтобы самому избежать ошибок, лучше изучить печальный опыт других.

Как известно, лучшее лечение — профилактика. Это утверждение актуально и для сегмента ЦОДов. Но иногда худшие ожидания все же порой становятся реальностью. Аварии случаются как в крупных и мощных дата-центрах известных компаний, так и в компактных серверных комнатах относительно небольших организаций вроде вузов.

Облако Amazon ушло в офлайн

В конце февраля 2017 года человеческий фактор стал причиной того, что была отключена часть серверов публичного облачного сервиса Amazon Web Services. Данный инцидент показал, что для вывода из строя даже такой надежной облачной платформы, как AWS, достаточно всего лишь одного неверного действия. 28 февраля уполномоченный член группы технической эксплуатации одного из дата-центров, поддерживающих работоспособность платформы Amazon Web Services, допустил ошибку во время набора текста команды, что привело к серьезному сбою. В результате инцидента начались перебои в работе многих популярных сайтов Trello, Coursera, IFTTT, а также ресурсов крупных партнеров Amazon из списка S&P 500. Ущерб составил сотни миллионов долларов США.

Как показало внутреннее расследование, ошибка была допущена при вводе команды во время отладки процесса выставления счетов клиентам облачного хранилища Amazon Simple Storage Service (AWS S3). Инженер использовал стандартный инструментарий для выполнения команды на удаление небольшого количества серверов в одной из подсистем AWS S3, необходимой для биллинга. Во время подготовки команды один из блоков данных был введен неправильно. В итоге удалился более крупный кластер серверов, чем предполагалось изначально.

Непреднамеренно удаленные сотрудником серверы использовались для поддержания работоспособности двух других важнейших программных модулей AWS S3. Первым была индексная подсистема, управляющая сведениями о метаданных и расположении всех объектов AWS S3 в регионе US-EAST-1 (используется американскими клиентами). Она также применяется при обработке запросов к облаку. Вторая затронутая инцидентом подсистема применяется при размещении данных и управлении распределением места в облачном хранилище. Из-за удаления серверов возникла необходимость полного перезапуска этих двух подсистем, после чего хранилище AWS S3 оказалось не в состоянии обслуживать запросы клиентов в течение длительного времени. Это привело к нарушению работоспособности ряда других облачных сервисов Amazon, использующих ресурсы AWS S3.

British Airways: три дня простоя и $ 128 млн убытков

Через три месяца, 27 мая, в Лондоне произошел один из самых резонансных инцидентов, связанных с авариями в ЦОДах в уходящем году. Сбой затронул дата-центр, который используется европейским авиаперевозчиком British Airways и принадлежит его материнской компании International Airlines Group. Из-за неудачного стечения обстоятельств часть ИТ-оборудования была обесточена, а устранять последствия сбоя инженерам пришлось почти три дня. В результате отменили около тысячи авиарейсов, и почти 75 тысяч пассажиров British Airways были вынуждены изменить свои планы. При этом авиаперевозчик лишился $128 млн, которые ушли на выплату компенсаций всем пострадавшим клиентам.

Первоначально независимые эксперты высказали предположение, что причиной инцидента стала кибератака. Затем журналисты озвучили догадку, что сбой возник из-за человеческого фактора. Если первую версию представители British Airways впоследствии опровергли, то вторую отрицать не стали. У авиакомпании есть два центра обработки данных недалеко от аэропорта Хитроу — Boadicea House и Comet House. В каждом из них располагается по три машинных зала. Авария случилась в первом ЦОДе по вине инженера. Об этом заявил генеральный директор International Airlines Group Вилли Уолш, комментируя предварительные итоги внутреннего расследования. Работник якобы случайно отключил электропитание в дата-центре, после чего из-за перегрузки отказала система ИБП. В конечном итоге части ИТ-оборудования был нанесен физический урон. Инженер, о котором идет речь, был уполномочен находиться в ЦОДе и являлся частью команды, работающей в дата-центре. Управление объектом Boadicea House в то время осуществлялось компанией CBRE Works Solutions. Так что, как видим, аутсорсинг не всегда является идеальным вариантом.

Пожаротушение и человеческий фактор

В первый месяц осени, 29 сентября, серьезный сбой произошел и в одном из ЦОДов популярного облачного сервиса Microsoft Azure. Жертвой человеческого фактора в данном случае оказалось не программное, а аппаратное обеспечение. Если точнее, инженерная инфраструктура ЦОДа. Ошибка проектировщиков и/или строителей дата-центра в Северной Европе привела к неожиданному срабатыванию автоматизированной системы газового пожаротушения и выпуску инертного газа в машинный зал. Инцидент произошел в ходе проведения плановых работ по техобслуживанию подсистем дата-центра. Он привел к перебоям в течение семи часов в работе облачной платформы Microsoft Azure, которые нанесли серьезный ущерб бизнесу ряда клиентов американского софтверного гиганта.

Официальное расследование показало, что после попадания инертного газа в машзал ЦОДа автоматически остановились многочисленные установки подготовки воздуха внутри здания. После этого начала расти температура воздуха в изолированных зонах серверных, что, в свою очередь, привело к автоматическому отключению некоторых вычислительных систем, сетевого оборудования и СХД. Помимо этого, часть ИТ-оборудования начала циклически перезагружаться.

К счастью, операторы ЦОДа быстро заметили аварию и оперативно отреагировали на случившееся. Уже через 35 минут им удалось восстановить работоспособность всех холодильных агрегатов и вернуть температуру воздуха в машзале к нормальному уровню. Но специалистам не удалось избежать потери некоторых серверов и систем хранения данных. Как следствие, им понадобилось дополнительное время для устранения неполадок в работе ИТ-оборудования. Из-за этого сбоя некоторые европейские клиенты Azure столкнулись с проблемами при подключении к облаку и управлении ресурсами, размещенными на базе этой платформы.

Еще один похожий инцидент случился в конце сентября. Но в этом случае местом действия стал один из лондонских колледжей. Сбой случился в ходе проведения тестов оборудования ЦОДа. Специалисты проверяли качество воздуха в помещении для оценки на соответствие стандарту ISO14644-1 (класс 8), предполагающему, что количество частиц размером 0,5 микрона в воздухе должно быть ниже 3,52 млн на 1 кубометр.

В ходе одного из экспериментов в серверной комнате возникло возгорание. После начала пожара установленная в серверной система пожаротушения выпустила инертный газ, при этом ИТ-оборудование было включено и работало. Но самое неприятное — в результате срабатывания сама система АГПТ начала разрушаться, и на оборудование в серверной начали сыпаться ее обломки. Ситуацию усугубил тот факт, что один из сотрудников учреждения образования, находившийся в комнате во время пожара, использовал стандартный огнетушитель для ликвидации возгорания. В конечном итоге часть серверов колледжа получила серьезные повреждения, тогда как остальные машины ушли на длительное время в офлайн. Команде инженеров, прибывших на место происшествия через два часа после начала пожара, пришлось трудиться всю ночь, чтобы восстановить работоспособность ИТ-систем.

К счастью, инженерам удалось привести вычислительную инфраструктуру вуза в рабочее состояние — студенты и преподаватели смогли использовать ее уже на следующий день. Тем не менее администрации лондонского колледжа впоследствии пришлось обратиться за помощью к специалистам по сбору электронного мусора, которые утилизировали выведенные из строя серверы.

Как показывает практика, системы газового пожаротушения в большинстве своем способны вызывать резкое снижение температуры воздуха в помещении, а также влиять на давление воздуха, приводя к возникновению шума во время своей эксплуатации и ударной волны при отключении. Кроме того, выделяемый этими системами газ может выступать своеобразным «абразивом», повреждающим чувствительное оборудование.

Цена спешки

Ошибки во время проектирования и строительства ЦОДа — весьма распространенное явление, которое может иметь далеко идущие негативные последствия. Данный факт могут подтвердить операторы дата-центров европейского провайдера облачных сервисов OVH, который активно отвоевывает рынок Старого Света у Microsoft Azure и Amazon Web Services. Из-за масштабного сбоя, произошедшего 9 ноября в одном из кампусов компании, руководство OVH объявило о закрытии и демонтаже двух из трех находящихся там дата-центров. Речь идет о комплексе ЦОДов в Страсбурге (Франция). Часть находящихся на его территории машинных залов была создана на основе контейнерных ЦОДов, которые устанавливали второпях — всего за два месяца. Чтобы сэкономить время, оператор пренебрег стандартной практикой и не обеспечил наличие двух избыточных силовых линий от независимых электрических сетей, ограничившись одним подключением на 20 кВ. Как часто бывает в таких ситуациях, авария основной электросети не заставила себя долго ждать. Следствием этого стало отключение части оборудования ЦОДов и длительное нарушение в работе клиентских приложений. Неудивительно, что после инцидента, который нанес серьезный урон репутации OVH, было принято решение о переоборудовании кампуса.

Теги: Amazon, British Airways, Microsoft, Azure, OVH