Новости индустрии / Новости / Project Storm - спецназ Facebook для ЦОД

Project Storm - спецназ Facebook для ЦОД

07 сентября 2016 г. | Категория: Мир

Плановые проверки, заводские испытания – те слова, которые нам знакомы и уже давно не вызывают какой-либо полемики. Но ведь эти проверки и испытания тоже бывают разными. К примеру, компания Facebook пошла дальше всех: они полностью отключают свои ЦОДы, чтобы посмотреть на реакцию инфраструктуры и всей системы. На недавней конференции компании в Калифорнии компания представила результаты таких краш-тестов и рассказала о группе быстрого реагирования под кодовым названием Project Storm.

Идея подобного спецназа для дата-центра появилась после 29 октября 2012, когда ураган Катрина обрушился на Нью-Джерси. Тогда разрушительные последствия постигли не только улицы и станции метро – ИТ-инфраструктура дата-центров Восточного побережья вышла из строя. ЦОДы Facebook пережили тот шторм – их объекты в Северной Каролине и Вирджинии были далеки от эпицентра. Однако компания задумалась: «А что случится, если наша социальная сеть потеряет целый дата-центр или какой-то регион вследствие катастрофы подобного масштаба?»

Тогда и была создана группа Project Storm. Этот «спецназ» (SWAT), как его назвали в Facebook, состоит из порядка 20 лидеров руководителей различных направлений технологий компании, которые руководят группой инженеров во время проведения «штормовых» испытаний, чтобы вся сеть была готова к бесперебойной работе на случай отключения каких-то ее сегментов.

Разумеется, здесь не все так просто. К примеру, один ЦОД Facebook обрабатывает десятки террабайт трафика в секунду, потребляет десятки мегаватт энергии и поддерживает работу тысяч сервисов. К слову, пользователи социальной сети не заметили каких-либо сбоев во время этих испытаний, но, как утверждают в компании, опыт был получен колоссальный.

Главное, что усвоили инженеры компании, это то, что в период простоя сложнее всего управлять распределением трафика и перераспределением нагрузок. Модель трафика и вовсе была хаотичной:

Как говорил представитель компании, руководитель направления инженерии и инфраструктуры, Джей Парих, инженер при виде таких показателей должен прийти к логичному выводу, что либо на этом графике отображены неверные данные, либо система управления не работает, либо он сам не понимает, что делает и что происходит.

Со временем, когда команда Париха освоила кризисное управление трафиком, новые показатели стали больше походить на правду:

Следующий уроком для группы быстрого реагирования ЦОД было то, что требуется достаточно большое количество времени для задействования резервных данных дата-центра. Теперь же при отключении одного ЦОДа или выпадения из Сети целого региона, этот процесс происходит гораздо быстрее.

Для этих испытаний в Facebook разработали перечень задачи и инструкций, в котором прописаны шаги для инженеров при отключении и обратном подключении дата-центров. Во время каждого испытания группы инженеров вели учет времени на выполнение каждой из инструкций, чтобы продолжать совершенствовать свои действия. Парих сравнивает это с работой пит-стопов на гонках.

В ходе конференции Джей Парих также выделил три основные принципа для развития крупномасштабной инфраструктуры и повышения отказоустойчивости: правильный набор инструментов, приверженность к работе и умение встречать проблемы лицом к лицу.

Под последним Парих имеет в виду тот вид лидера, который готов столкнуться с любыми проблемами и последующими ошибками. И для этого он готов заставить свою команду выйти из зоны комфорта, чтобы вместе с ними научиться чему-то новому и приобрести новый опыт.

Приверженность к работе или даже возможность брать на себя определенные обязательства важны, к примеру, в контексте проведения тех же испытаний или плановых проверок в установленное время в независимости от того, что происходит вокруг. Парих считает, что, например, отмена этих испытаний в связи с выходом нового продукта будет являться нарушением этих обязательств. Он особо обратил на это внимание, потому что новые продукты будут продолжать появляться, и их испытания являются лучшим способом проверить работоспособность всей системы.

Но несмотря на то, что Project Storm был создан для противостояния различного рода бедствиям, этот проект помог Facebook лучше понять работу всех систем дата-центра, которая, к слову настолько сложна, что, как заявляет Джей Парих, «нет такого человека в компании, который бы всецело понимал, как работает вся система».

Главное, чем помог проект Project Storm, «это дать лучшее понимание того, где и когда что-то может пойти не так», как заявляют в Facebook.

Теги: Project Storm, Facebook

Регистрация
Каталог ЦОД | Инженерия ЦОД | Клиентам ЦОД | Новости рынка ЦОД | Вендоры | Контакты | О проекте | Реклама
©2013-2024 гг. «AllDC.ru - Новости рынка ЦОД, материала по инженерным системам дата-центра(ЦОД), каталог ЦОД России, услуги collocation, dedicated, VPS»
Политика обработки данных | Пользовательское соглашение