Аварии в ЦОД: новости из Монако, Японии и США
27 января 2023 г. | Категория: Аварии в ЦОДах, Пожаротушение, Человеческий фактор, Электроснабжение ЦОД
Вопреки имиджу сверхзащищенных компонентов критически важной инфраструктуры государства, центры обработки данных — достаточно опасные объекты, где случаются различные инциденты. От вспышки дуги и пожара до кибератаки, парализующей работу инфраструктуры, — самые разные события способны стать причиной аварии в ЦОД, что подтверждает наш свежий дайджест.
Сбой телекоммуникационной инфраструктуры вывел из строя ЦОД в Монако
Во вторник 29 ноября 2022 года произошел серьезный сбой в работе телекоммуникационной инфраструктуры компании Monaco Telecom, который вывел из строя местные ЦОД и серверные комнаты, лишив их доступа к интернету. Авария затронула стационарную и мобильную телефонную связь, а также передачу данных через интернет. Из-за коллапса телефоны экстренных служб оказались отключены.
На исправление первопричины технического инцидента, который начался в 14:34 по местному времени, ушел час. Но восстановление сервисов заняло гораздо больше времени. Последствия данного инцидента ощущались по всей территории микрогосударства. Работы по восстановлению фиксированной телефонной связи продлились особенно долго – доступ к полному спектру услуг клиенты получили лишь в 20:45 по местному времени.
Согласно отчетам местных СМИ, ссылающихся на инсайдерскую информацию, отключение телекоммуникационной инфраструктуры в европейском Княжестве началось после аварии в одном из основных центров обработки данных компании Monaco Telecom. Речь о ЦОД под торговым центром на территории района Фонвьей.
В ходе плановых технических работ дата-центр был отключен от центральной электросети. Но дизель-генераторная установка, которая должна была обеспечить электроснабжение инфраструктуры дата-центра, внезапно вышла из строя. Как следствие, часть оборудования внутри ЦОД отключилась.
Инженерам пришлось прекратить техническое обслуживание и срочно подключить центр обработки данных к центральной сети SMEG (прим. SMEG — национальная электросетевая компания Монако). Электроснабжение инфраструктуры было восстановлено в 15:15.
Комментируя инцидент, представители Monaco Telecom заявили, что данная авария стала худшей для компании с 1997 года. Отмечается, что центр обработки данных, который вышел из строя, может быть реконструирован в ближайшее время, поскольку торговый центр над ним также реконструируется.
На крыше дата-центра QTS в Нью-Джерси произошел пожар
В среду 23 ноября 2022 года в дата-центре QTS в городе Пискатауэе, штат Нью-Джерси (США), произошел пожар. Инцидент случился посреди ночи. Сообщение о пожаре поступило в 02:45 по местному времени. Расчеты пожарных потушили пламя к 05:00. Пострадавших нет.
Местная пожарная служба сообщает, что огонь удалось потушить только сильными потоками воды. Из-за наличия на месте легковоспламеняющихся строительных материалов, включая «поддоны с кровельными материалами вроде гудрона», огнеборцам пришлось проявлять особую осторожность, чтобы добраться до пламени.
Примечательно, что инцидент случился на кампусе ЦОД, который сейчас активно расширяется. В частности, возгорание произошло на крыше строящегося здания. Огонь, вспыхнувший в новостройке, не перекинулся на соседний эксплуатируемый ЦОД, который остался невредимым. При этом представители QTS заявили, что пожар не задержит строительство нового дата-центра на кампусе в Нью-Джерси.
Компания QTS купила участок под возведение центров обработки данных у Dupont Fabros в 2016 году. На кампусе ЦОД площадью 15,4 гектара уже есть две постройки. Строящееся сейчас здание станет третьей. За день до пожара команда QTS опубликовала в Twitter приглашение на экскурсию по объекту, работающему на возобновляемых источниках энергии.
В ходе ликвидации возгорания пожарные расчеты направляли на огонь поток воды интенсивностью 7,5 тыс. литров в минуту. Неизвестно, проникла ли эта вода в машзалы. Также неизвестно, затронул ли огонь системы охлаждения или распределения электроэнергии.
Судя по спутниковым снимкам объекта, сделанным ранее, на крыше находились многочисленные солнечные батареи, а не элементы системы охлаждения, генераторы или другое вспомогательное оборудование ЦОД, которое иногда размещают на крышах центров обработки данных. На одном из изображений, сделанных пожарными, видно, что несколько солнечных батарей, возможно, оказались уничтожены огнем.
Облачная IT-инфраструктура AWS в США вышла из строя
05 декабря 2022 года сразу после конференции Amazon re Invent, в которой приняли участие около 50 тыс. ведущих специалистов отрасли облачных технологий, пользователи облачной вычислительной платформы Amazon Web Services из региона US-East 2 (Восток США 2) столкнулись с перебоями в ее работе. Представители AWS отказались комментировать причину сбоя.
Как отмечают независимые эксперты, US-East 2 — лишь одна из 96 зон доступности AWS. Но даже столь незначительный сбор по меркам всей платформы по-прежнему подчеркивает уязвимость предприятий, использующих облачные вычислительные платформы, а не собственные корпоративные ЦОД.
Если у крупнейшего в мире поставщика облачных услуг случаются простои, даже в течение короткого периода времени, это затрагивает миллионы клиентов и гораздо более существенное количество клиентов этих клиентов.
Власти Японии предупредили Rakuten о серьезных последствиях в случае аварии в ЦОД
В пятницу 9 декабря 2022 года японское правительство направило предупреждение в адрес компании Rakuten Mobile Inc, на долю которой приходится значительная часть рынка телекоммуникационных услуг азиатской страны, о недопустимости повтора массовых сбоев в работе инфраструктуры мобильной связи и передачи данных, наблюдавшихся в начале осени.
4 сентября около 110 тыс. человек пострадали от сбоев в работе телефонной связи, и еще 1,3 миллиона — от сбоев в работе инфраструктуры передачи данных, вызванных проблемами с оборудованием в дата-центре компании. В следующем месяце Министерство внутренних дел и Министерство коммуникаций провело проверку пострадавшего дата-центра.
Министерства признали сбой, который длился более двух часов, серьезным инцидентом, а также посчитали проблематичной неспособность компании оперативно уведомить своих пользователей и общественность о причинах инцидента и усилиях по недопущению его повторения.
«Rakuten Mobile играет важную роль в предоставлении услуг мобильной связи, которая поддерживает нормальную жизнь людей, и мы хотим, чтобы компания понимала ту ответственность, которую она несет», — отметили представители японского Министерства коммуникаций.
Клиенты Rackspace столкнулись с уходом инфраструктуры ЦОД в офлайн из-за вируса
В начале декабря 2022 года клиенты компании Rackspace Technology, пользующиеся платформой Rackspace Hosted Exchange, сообщили о сбоях в работе сервиса. Ссылаясь на косвенные улики, независимые эксперты предположили, что сбой был вызван атакой программы-вымогателя.
Впоследствии представители Rackspace Technology подтвердили данное предположение, но не сообщили, сколько данных было потеряно. Сотрудники компании также не сообщили, будет ли Rackspace Technology платить хакерам за возврат данных, и когда именно поставщик хостинга ожидает возобновления предоставления услуг.
На фоне происходящего многочисленные клиенты, представленные калифорнийской юридической компанией Cole & Van Note, подали коллективный иск против Rackspace Technology, ссылаясь на бездействие поставщика услуг и отсутствие внятных разъяснений в течение более чем недели с момента начала сбоя. Юридическая компания требует денежного возмещения и принятия Rackspace обязательства внедрять и поддерживать эффективные протоколы безопасности в будущем.
В настоящее время Rackspace пытается перевести своих клиентов на Microsoft 365. В компании заявили, что расследование атаки находится на «начальных стадиях». В результате инцидента рыночная капитализация компании в декабре упала с 1 миллиарда долларов до 670 миллионов долларов. В прошлом году компания была оценена более чем в 5 миллиардов долларов.
Бывший сотрудник назвал высокой вероятность аварии в ЦОД Twitter во время чемпионата мира по футболу
По словам бывшего сотрудника Twitter, давшего интервью информагентству The Observer и пожелавшему остаться неизвестным, существует значительная вероятность серьезного сбоя в работе инфраструктуры дата-центров компании во время чемпионата мира по футболу, который обеспечит повышенную посещаемость платформы и создаст дополнительную нагрузку на серверы.
Бывший сотрудник команды Twitter, отвечающей за ликвидацию последствий всплесков трафика и перебоев в работе центров обработки данных, рассказал, что вероятность серьезных сбоев во время футбольных соревнований составляет 90 процентов. Чемпионат мира уже вызвал сбои в работе сервиса потоковой передачи медиа-контента BBC iPlayer и приложения FIFA для продажи билетов.
«Учитывая отсутствие подготовки и нехватку персонала, думаю, что для Twitter это будет тяжелый чемпионат мира», — сказал бывший сотрудник компании, одновременно отметив, что должная подготовка к чемпионату мира не проводилась – работа была заморожена в течение нескольких недель, предшествовавших приобретению платформы Илоном Маском за 44 миллиарда долларов.
Данная работа впоследствии была прервана массовыми увольнениями и отставками. Ушли более половины сотрудников компании, включая инженеров Twitter, отвечающих за обслуживание инфраструктуры дата-центров. Ранее сообщалось, что Илон Маск стремится сократить расходы компании на облачные технологии и центры обработки данных на 1 миллиард долларов и может закрыть один из трех основных дата-центров Twitter в США.
Теги: Монако, QTS, Нью-Джерси, AWS, США, Rakuten, Япония, Rackspace, Twitter
|