Аварии ЦОД, и как с ними бороться – Опыт ВКонтакте, Vocus, NHS и Fulcrum Collaborations
22 февраля 2018 г. | Категория: Аварии в ЦОДах, Охлаждение ЦОД, Пожаротушение, Человеческий фактор, Электроснабжение ЦОД
Цифровая экономика в ее нынешнем виде далеко не совершенна. Как ни иронично, многие процессы и процедуры обслуживания инфраструктуры ЦОД, используемой для обеспечения работоспособности этой самой цифровой экономики, все еще не оцифрованы. Это выливается помимо прочего и в аварии ЦОД, которые, в свою очередь, оборачиваются серьезным репутационным и финансовым ущербом для владельцев таких серверных ферм и их корпоративных клиентов.
Чтобы подтвердить справедливость этого утверждения приведем в качестве примера информацию о свежих инцидентах в ЦОД таких компаний как ВКонтакте, Vocus и NHS. Ниже вы также найдете сведения о новых облачных инструментах для автоматизации и стандартизации ручных процессов в ЦОД от Fulcrum Collaborations, призванных свести к минимуму вероятность подобных аварий.
Авария дата-центра увела социальную сеть ВКонтакте в офлайн на час
Самая популярная в русскоязычном сегменте интернета социальная сеть ВКонтакте на минувшей неделе перестала функционировать в нормальном режиме. Пользователи начали жаловаться на невозможность открыть те или иные страницы. Проблемы наблюдались в случае как десктопной, так и мобильной версии сайта.
Инцидент произошел 16 февраля. Даунтайм продлился около часа, после чего команда социальной сети восстановила ее работоспособность, объяснив возникшие неполадки аварией в энергетической системе одного из используемых ВКонтакте дата-центров.
Авария была названа «серьёзной», но какой-либо дополнительной информации относительно ее причин предоставлено не было. При этом в пресс-службе соцсети пообещали «обязательно рассказать, как и почему случилась авария», а также принесли извинения за ранее доставленные неудобства.
На корпоративной странице дата-центра Xelent в FB появилось следующее сообщение:
Сегодня около 15-50 по Московскому времени в результате отключения напряжения в сети Ленэнерго ПС-97 110 кВ произошло включение в работу системы резервного энергоснабжения.
В момент переключения нагрузки произошло кратковременное прерывание синусоиды, которое длилось 24 мс, в результате чего перезагрузилось чувствительное сетевое оборудование некоторых телеком-операторов и сетевое оборудование Vkontakte.
Проблемы с отсутствием доступа к сети, вызванного перезагрузкой сетевого оборудования, коснулись около 10% наших клиентов. В кратчайшие сроки все последствия инцидента устранены, все системы дата-центра работают в штатном режиме.
Халтурное техническое обслуживание системы ИБП вызвало сбои в центре обработки данных Vocus
Плохо выполненная работа по обслуживанию системы ИБП коммерческого центра обработки данных в австралийском Сиднее, штат Новый Южный Уэльс, привела к перебоям в его работе. Авария произошла в одном из местных ЦОД компании Vocus Communications.
Она случалась 13 февраля 2018 года в ранние часы утра. Из-за инцидента один из крупных клиентов этого колокейшн-провайдера в лице компании Servers Australia принял решение о перемещении всего своего оборудования из данной северной фермы в другую в течение следующих трех месяцев.
Авария произошла в ЦОД, который находится в сиднейском пригороде Александрия. Перебои в работе силовой инфраструктуры этого дата-центра начались примерно в 7 утра по местному времени (AEST). Устранить неполадки удалось в тот же день.
Инцидент произошел в сложный период для колокейшн-провайдера Vocus Communications, который недавно объявил о намерении продать 20 австралийских дата-центров и весь свой бизнес в Новой Зеландии. Ожидается, что продажи компенсируют убытки в размере около 100 млн. австралийских долларов (78,7 млн. долларов США) по итогам прошлого года, которые в основном объясняются неудачной интеграцией недавно приобретенных компаний Nextgen Networks, Amcom и M2.
Валлийские врачи не смогли получить доступ к электронным карточкам пациентов после отключения дата-центров NHS
Похожий инцидент произошел 25 января 2018 года в Соединенном Королевстве Великобритании и Северной Ирландии. Из-за технических проблем в работе инфраструктуры дата-центров компании NHS Wales врачи общей практики по всему Уэльсу оказались лишены возможности получать доступ к документам о пациентах.
Неполадки были зафиксированы в работе двух ЦОД. Оба дата-центра, используемые системой здравоохранения страны, были недоступны в течение 2 часов. Эти ЦОД располагаются в Блаенавоне и Кардиффе. Примерно в 3 часа дня по местному времени (GMT) команда NHS Wales сообщила, что «технические проблемы» затрагивают два объекта, пообещав скорейшее их устранение, назвав эту задачу «приоритетной». Доступ к сервисам вновь появился через два часа после аварии.
Fulcrum Collaborations предлагает облачные инструменты для обнаружения сбоя ЦОД до того, как он произойдет
Чтобы минимизировать вероятность подобных инцидентов, компания Fulcrum Collaborations разработала облачный инструментарий для автоматизации и стандартизации ручных процессов в ЦОД, позволяющий устранить ошибки операторов-людей при повседневном управлении и обслуживании критически важной инфраструктуры.
Созданная компанией Fulcrum Collaborations программная платформа MCIM относится к категории программного обеспечения для компьютеризированного обслуживания и управления (Computerized Maintenance and Management Software; CMMS). Платформа MCIM доступна на мобильных устройствах и может обеспечивать автоматизацию самых разных задач: от группирования информации до генерации отчетов с интеллектуальным выявлением трендов.
Теги: ВКонтакте, Vocus, NHS, Fulcrum Collaborations
|
Чтобы оставить свой отзыв, вам необходимо авторизоваться или зарегистрироваться
Комментариев: 0