Послеаварийное восстановление дата-центра: чек-лист
15 февраля 2015 г. | Кирван Пол | Категория: Обсуждаем статью
Процесс послеаварийного восстановления никогда не бывает простым. Для облегчения задачи следует вооружиться процедурными чек-листами.
При разработке программы послеаварийного восстановления дата-центра главная цель – защитить инвестиции компании в информационные технологии, коммуникации и персонал. В зависимости от вида аварии целостность ЦОДа может как практически не пострадать, так и оказаться полностью разрушенной.
Планы послеаварийного восстановления могут быть гибкими и масштабируемыми в целях отражения всех возможных сценариев. В данной статье приводятся чек-листы рекомендуемых действий в ходе устранения последствий аварии. Следование этим рекомендациям должно облегчить вам задачу восстановления. Обязательно составьте такой чек-лист для вашего ЦОДа, с учетом его особенностей и принимая во внимание ваш прошлый опыт аварий, приведших к отказу. Приступайте к исполнению послеаварийного плана лишь после того, как вы сориентируетесь в ситуации и убедитесь, что персонал находится в безопасности.
Предпосылки для разработки плана послеаварийного восстановления
План послеаварийного восстановления дата-центра фокусируется исключительно на собственно дата-центре и его инфраструктуре, включая физическое местоположение, конструкцию здания, безопасность, источники питания, системы регулирования микроклимата и сотрудников. Убедитесь, что вы учли все эксплуатационные аспекты вашего ЦОДа, а также обслуживающий его персонал. Это означает, что в вашем плане должно учитываться следующее:
- Технический и управленческий персонал, все смены.
- Здание дата-центра (например, физическая инфраструктура, конструкция, расположение, входы и выходы, зоны фальшпола.
- Местоположение здания (например, подъездные дороги, близость шоссе, железнодорожной линии, близость емкостей с горючими веществами)
- Энергоснабжение (например, коммерческие линии электропередач, резервные системы энергоснабжения).
- Защита системы энергоснабжения (заземление и уравнивание потенциалов, громоотводы, фильтры напряжения, ограничители перенапряжения)
- Климатические устройства (например, отопление, вентиляция, кондиционирование).
- Критические системы (например, серверы, распределительные щитки, системы VoIP, системы кол-центра).
- Сетевая инфраструктура (например, кабели, коннекторы, маршрутизаторы, медные и волоконно-оптические линии, кабельные стойки).
- Безопасность (физический доступ и информационная безопасность).
- Рабочее пространство (например, офисы, конференц-залы, отсеки, мебель, освещение).
- Противопожарная система (например, детекторы огня, огнетушители, системы пожаротушения FM200).
- Напольные покрытия и стены здания (огнеупорные стены, фальшпол).
- Коммунальные системы (например, водоснабжение, канализация, связь).
Разработка системы реагирования
Когда вы разрабатываете план мероприятий по ликвидации происшествия (ту его часть, где говорится о реагировании на происшествие), следует обсудить ваши идеи с владельцем здания (если ваша фирма является арендатором) или управляющим (если здание ваше), а также с руководством IT. Ваш план необходимо обсудить и проработать со всеми сотрудниками и третьими лицами, которые могут быть вовлечены в процесс немедленного реагирования, с целью сделать его наиболее полным и не упустить ни одной детали.
Рассмотрите следующие вопросы для детальной проработки:
- Система отношений между различными группами IT, например, внутренняя технологическая группа, группа, отвечающая за приложения, и сетевой(ые) администратор(ы). Таким образом, все группы специалистов, работающих в ЦОДе и пользующихся его системами, смогут внести свой вклад в разработку плана реагирования.
- Отношения с внешними агентами, такими как вендоры и сервис-провайдеры.
- Отношения с другими офисами компании (если имеются), поскольку они могут стать существенным элементом вашего плана (например, смогут предоставить временную площадку на период восстановления).
- Документация по инфраструктуре, например, схема здания, поэтажные планы, схемы систем, сетей и конфигурация оборудования.
План реагирования должен содержать следующие пункты:
1. Понимание руководством основных серьезных угроз дата-центру: пожара, ошибки оператора, отключение энергии, системный сбой, нарушение безопасности. Имейте в виду, что первоначальная управленческая оценка может оказаться неверной, поэтому будьте готовы оперативно внести коррективы.
2. Понимание руководством основных уязвимых точек дата-центра, например, резервная система энергоснабжения.
3. Результаты ранее случавшихся отказов дата-центра и прерывания операций, как они были ликвидированы и какие из этого были сделаны выводы.
4. Максимально приемлемое время, отводящееся на реагирование руководства в случае аварии.
5. Существующая отраслевая практика реагирования на аварии в дата-центрах.
6. Опыт и уроки аварий в других дата-центрах.
7. Аварийная группа сотрудников дата-центра, обученная реагированию в случае чрезвычайного происшествия.
8. Возможности реагирования в случае чрезвычайного происшествия со стороны ваших главных и второстепенных поставщиков. Если к ним приходилось обращаться, удовлетворены ли вы были их действиями? Стоимость и статус сервисных контрактов.
Чек-лист дата-центра. Общее реагирование
Ниже мы приводим пример чек-листа, который может быть использован для разработки начальных стадий реагирования на аварию в дата-центре. Конечно, характер происшествия будет влиять на шаги, которые вы предпримете, и их последовательность. Например, в случае отключения энергии набор ваших действий будет отличаться от реагирования в случае пожара. Сделайте этот список шагов частью вашего плана послеаварийного восстановления.
Сценарий 1: Отключение электроэнергии
Шаг
|
Действие
|
Комментарий
|
1
|
Определите степень отключения, проверьте, затронуло ли отключениерезервные системы
|
Свяжитесь с персоналом с помощью сотовой связи, проверьте телефонные линии, источники энергии, используйте перезаряжаемые фонарики для безопасного передвижения по зданию.
|
2
|
Определите, нужно ли эвакуировать персонал
|
Немедленно соберите ключевых IT-специалистов
|
3
|
Оцените потенциальный ущерб компании, убедитесь, что критические данные зарезервированы и защищены
|
Немедленно соберите ключевых IT-специалистов
|
4
|
Свяжитесь с высшим руководством
|
Сообщите о сложившейся ситуации
|
5
|
Свяжитесь с энергетической компанией
|
Свяжитесь с помощью сотовой связи, если телефоны офисной станции PBX не работают, вызовите аварийную команду на место
|
6
|
Выясните причину отключения, начните процесс ликвидации аварии
|
Работайте совместно с энергетической компанией, электриками и прочими специалистами
|
7
|
Оцените время восстановления операций дата-центра
|
Соберите ключевых IT-специалистов, специалистов энергетической компании, прочих специалистов
|
8
|
Свяжитесь с высшим руководством, направляйте им регулярную информацию о развитии ситуации
|
Дайте руководству информацию о действиях по реагированию и ликвидации последствий
|
Сценарий 2: Отказ сервера
Шаг
|
Действие
|
Комментарий
|
1
|
Определите степень отказа сервера, потери данных и других возможных последствий
|
Свяжитесь с персоналом с помощью сотовой связи, проверьте конкретный сервер
|
|
2
|
Начните процедуру ликвидации аварии, например, проверьте электричество, попробуйте перезапустить сервер, запустите диагностику
|
По мере необходимости свяжитесь с поставщиком
|
|
3
|
Оцените размер потенциального ущерба для компании, убедитесь, что критические приложения и данные работают на резервных серверах и защищены
|
Немедленно соберите ключевых IT-специалистов
|
|
4
|
Выясните причину отказа сервера, продолжайте действия по ликвидации аварии
|
Привлеките персонал и поставщика
|
|
5
|
Оцените время восстановления нормальной работы сервера
|
Немедленно соберите ключевых технических IT-специалистов, поставщиков
|
|
6
|
Свяжитесь с высшим руководством, направляйте им регулярную информацию о развитии ситуации
|
Дайте руководству информацию о действиях по реагированию и ликвидации последствий
|
|
Сценарий 3: Пожар в дата-центре
Шаг
|
Действие
|
Комментарий
|
1
|
Оцените природу и степень пожара
|
Свяжитесь с персоналом с помощью сотовой связи
|
2
|
Используйте подручные средства пожаротушения, ручные огнетушители, распылители и проч.
|
Если огонь большой мощности, заблокируйте зону распространения огня, если это возможно
|
3
|
Позвоните в пожарную службу (номер 112), сообщите о ситуации
|
|
4
|
Эвакуируйте персонал здания
|
Незамедлительно соберите ключевой IT-персонал в заранее обусловленном месте
|
5
|
Если возможно, активируйте средства резервирования данных для защиты текущих данных
|
Если у вас есть ресурсы для хранения данных за пределами дата-центра, активируйте их
|
6
|
Как только огонь будет потушен, начните процесс оценки степени ущерба
|
Соберите IT-персонал и персонал, занятый эксплуатацией здания
|
7
|
Сообщите руководству о случившемся
|
Дайте руководству информацию о действиях по реагированию и ликвидации последствий
|
Чек-лист реагирования: Крупные аварии
Выше мы описали типичные случаи аварий дата-центра. Последовательность шагов для каждой ситуации может варьироваться. Старайтесь реагировать гибко, план может и должен применяться с учетом характера и степени тяжести инцидента.
Ниже мы приводим пример чек-листа для реагирования в случае масштабной катастрофы в дата-центре. Эти шаги могут предваряться какими-то из вышеописанных сценариев. Обязательно включите эти шаги в ваш план.
Чек-лист реагирования: разрушение здания
Шаг
|
Действие
|
Комментарий
|
1
|
Свяжитесь с пострадавшими подразделениями и попросите подготовиться к переезду на альтернативную площадку (как указано в вашем плане восстановления)
|
Сообщите о происшествии ключевым сотрудникам и внешним агентам, как определено в плане послеаварийного восстановления
|
|
2
|
Свяжитесь с внешними организациями (вендоры, поставщики, курьерские и складские компании) и попросите их немедленно начать выполнение программ аварийного обслуживания
|
Сообщите об этом ключевым сотрудникам и внешним агентам, как определено в плане послеаварийного восстановления
|
|
3
|
Если повреждена или разрушена аппаратная часть, активируйте процессы восстановления оборудования
|
Сообщите об этом ключевым сотрудникам и внешним агентам, как определено в плане послеаварийного восстановления
|
|
4
|
Если повреждена или разрушена программная часть (операционные системы, приложения и т.д.), активируйте процессы восстановления поврежденного софта
|
Сообщите об этом ключевым сотрудникам и внешним агентам, как определено в плане послеаварийного восстановления
|
|
5
|
Если повреждены или разрушены системы коммуникации и сетевые сервисы, активируйте процессы восстановления этих процессов и сервисов
|
Сообщите об этом ключевым сотрудникам и внешним агентам, как определено в плане послеаварийного восстановления
|
|
6
|
Если повреждена или разрушена система почтовых сервисов и мгновенных сообщений, активируйте процессы восстановления этих сервисов
|
Сообщите об этом ключевым сотрудникам и внешним агентам, как определено в плане послеаварийного восстановления, подразделения могут быть вынуждены использовать иные средства, если уничтожены серверы электронной почты и мгновенных сообщений, например, текстовые сообщения, социальные сети
|
|
7
|
Если повреждены или уничтожены критические данные, активируйте процессы восстановления данных
|
Сообщите о происшествии ключевым сотрудникам и внешним агентам, как определено в плане послеаварийного восстановления
|
|
8
|
Если уничтожены документы, активируйте процессы их восстановления
|
Сообщите ключевым сотрудникам и внешним агентам, как определено в плане послеаварийного восстановления, если проблема не может быть решена в течение суток путем восстановления из резервных хранилищ, обсудите с персоналом и арендаторами вопрос осуществления операций по ситуации
|
|
9
|
Если повреждены документы, активируйте процессы их восстановления
|
Сообщите ключевым сотрудникам и внешним агентам, как определено в плане послеаварийного восстановления, если проблема не может быть решена в течение суток путем восстановления из резервных хранилищ, обсудите с персоналом и арендаторами вопрос осуществления операций по ситуации
|
|
10
|
Получите подтверждение у руководства, что персонал дата-центра нуждается в перемещении
|
Немедленно соберите ключевых IT-специалистов, руководство и прочих
|
|
11
|
Работайте с группой специалистов по эксплуатации и другими местными и внешними группами для начала процесса переезда на другую площадку, например, можно заключить временные соглашения об управлении и аренде в резервном дата-центре до того, как будет завершена подготовка нового дата-центра
|
Этот сценарий должен быть прописан в плане послеаварийного восстановления с тем, чтобы определить подходящую основную и альтернативную площадку
|
|
12
|
Инициирование и координация деятельности по переводу операций дата-центра на другую площадку
|
Эта процедура должна быть прописана в плане послеаварийного восстановления
|
|
13
|
Регулярно информируйте руководство компании о ходе ликвидации аварии
|
Эта процедура должна быть прописана в плане послеаварийного восстановления
|
|
14
|
Организуйте и регулярно проводите планерки команды, занимающейся послеаварийным восстановлением
|
Эта процедура должна быть прописана в плане послеаварийного восстановления
|
|
Вышеописанные шаги предполагают, что у вас есть отдельные планы, прописанные для различных сценариев – восстановление почты, восстановление аппаратных устройств и ПО, восстановление данных, документов и переезд в другой дата-центр.
Послеаварийное расследование
После того, как острота ситуации снята и появилась возможность приступить к ликвидации последствий, проанализируйте происходящее, определите, что именно случилось, что сработало, а что нет. Запланируйте и проведите все необходимые переговоры и встречи для сбора всех существенных данных для обращения в страховую компанию и потенциальных судебных исков.
Дополнительные ресурсы планирования послеаварийного восстановления дата-центра
Разработка плана реагирования в чрезвычайной ситуации в дата-центре может оказаться сложной задачей, в зависимости от степени желаемой детализации. Один из способов усовершенствовать процесс разработки такого плана – это изучить уже существующие нормы и практики. Ниже приводятся ссылки на их примеры.
При строительстве дата-центра имейте ввиду следующее:
1. Заручитесь поддержкой высшего руководства для получения финансирования для мероприятий в вашем плане, а также для его надлежащего документирования и периодических тренингов.
2. Отнеситесь серьезно к процессу планирования послеаварийного восстановления: план не обязательно должен занимать сотни страниц, но он должен содержать подробную и достоверную информацию.
3. Подумайте над включением стандартов в свой план, например, тех, ссылки на которые указаны выше.
4. Не усложняйте процесс планирования, используйте только нужную для этого информацию.
5. Обсудите результаты с ключевыми департаментами (управление зданием и т.д.), чтобы убедиться, что использованные вами данные актуальны.
Авария в ЦОДе может серьезно повредить вашему бизнесу. Несмотря на то, что некоторые компании решают вопрос с послеаварийным восстановлением путем постройки второго дата-центра или аренды специально оборудованного помещения у независимого лица, тщательная оценка операций и рисков дата-центра является первым важным шагом на пути к внедрению плана послеаварийного восстановления. Наличие четкого плана на случай аварии, особенно с подробно расписанными шагами по реагированию и восстановлению, поможет минимизировать ущерб для вашего ЦОДа.
Об авторе: Пол Кирван, CISA, CSSP, FBCI, CBCP, имеет более чем двадцатилетний опыт в сфере управления повышением устойчивости функционирования предприятия как консультант, автор статей и преподаватель. Он непосредственно участвовал в десятках консультационных IT- и телеком-проектах, от разработки программ управления, их реализации, выполнения и технического обслуживания, а также подготовки технических заданий и предложений.
Кирван в настоящее время работает в качестве независимого бизнес-консультанта и аудитора и является секретарем американского отделения Института Непрерывности Бизнеса (Business Continuity Institute). С ним можно связаться по адресу pkirvan@msn.com
Теги: чек-лист, Послеаварийное восстановление
|
Чтобы оставить свой отзыв, вам необходимо авторизоваться или зарегистрироваться
Комментариев: 0