Экспертные оценки

Послеаварийное восстановление дата-центра: чек-лист

15 февраля 2015 г. | Кирван Пол | Категория: Обсуждаем статью

Процесс послеаварийного восстановления никогда не бывает простым. Для облегчения задачи следует вооружиться процедурными чек-листами.

При разработке программы послеаварийного восстановления дата-центра главная цель – защитить инвестиции компании в информационные технологии, коммуникации и персонал. В зависимости от вида аварии целостность ЦОДа может как практически не пострадать, так и оказаться полностью разрушенной.

Планы послеаварийного восстановления могут быть гибкими и масштабируемыми в целях отражения всех возможных сценариев. В данной статье приводятся чек-листы рекомендуемых действий в ходе устранения последствий аварии. Следование этим рекомендациям должно облегчить вам задачу восстановления. Обязательно составьте такой чек-лист для вашего ЦОДа, с учетом его особенностей и принимая во внимание ваш прошлый опыт аварий, приведших к отказу. Приступайте к исполнению послеаварийного плана лишь после того, как вы сориентируетесь в ситуации и убедитесь, что персонал находится в безопасности.

Предпосылки для разработки плана послеаварийного восстановления

План послеаварийного восстановления дата-центра фокусируется исключительно на собственно дата-центре и его инфраструктуре, включая физическое местоположение, конструкцию здания, безопасность, источники питания, системы регулирования микроклимата и сотрудников. Убедитесь, что вы учли все эксплуатационные аспекты вашего ЦОДа, а также обслуживающий его персонал. Это означает, что в вашем плане должно учитываться следующее:

  • Технический и управленческий персонал, все смены.
  • Здание дата-центра (например, физическая инфраструктура, конструкция, расположение, входы и выходы, зоны фальшпола.
  • Местоположение здания (например, подъездные дороги, близость шоссе, железнодорожной линии, близость емкостей с горючими веществами)
  • Энергоснабжение (например, коммерческие линии электропередач, резервные системы энергоснабжения).
  • Защита системы энергоснабжения (заземление и уравнивание потенциалов, громоотводы, фильтры напряжения, ограничители перенапряжения)
  • Климатические устройства (например, отопление, вентиляция, кондиционирование).
  • Критические системы (например, серверы, распределительные щитки, системы VoIP, системы кол-центра).
  • Сетевая инфраструктура (например, кабели, коннекторы, маршрутизаторы, медные и волоконно-оптические линии, кабельные стойки).
  • Безопасность (физический доступ и информационная безопасность).
  • Рабочее пространство (например, офисы, конференц-залы, отсеки, мебель, освещение).
  • Противопожарная система (например, детекторы огня, огнетушители, системы пожаротушения FM200).
  • Напольные покрытия и стены здания (огнеупорные стены, фальшпол).
  • Коммунальные системы (например, водоснабжение, канализация, связь).

Разработка системы реагирования

Когда вы разрабатываете план мероприятий по ликвидации происшествия (ту его часть, где говорится о реагировании на происшествие), следует обсудить ваши идеи с владельцем здания (если ваша фирма является арендатором) или управляющим (если здание ваше), а также с руководством IT. Ваш план необходимо обсудить и проработать со всеми сотрудниками и третьими лицами, которые могут быть вовлечены в процесс немедленного реагирования, с целью сделать его наиболее полным и не упустить ни одной детали.

Рассмотрите следующие вопросы для детальной проработки:

  • Система отношений между различными группами IT, например, внутренняя технологическая группа, группа, отвечающая за приложения, и сетевой(ые) администратор(ы). Таким образом, все группы специалистов, работающих в ЦОДе и пользующихся его системами, смогут внести свой вклад в разработку плана реагирования.
  • Отношения с внешними агентами, такими как вендоры и сервис-провайдеры.
  • Отношения с другими офисами компании (если имеются), поскольку они могут стать существенным элементом вашего плана (например, смогут предоставить временную площадку на период восстановления).
  • Документация по инфраструктуре, например, схема здания, поэтажные планы, схемы систем, сетей и конфигурация оборудования.

План реагирования должен содержать следующие пункты:

1.     Понимание руководством основных серьезных угроз дата-центру: пожара, ошибки оператора, отключение энергии, системный сбой, нарушение безопасности. Имейте в виду, что первоначальная управленческая оценка может оказаться неверной, поэтому будьте готовы оперативно внести коррективы.

2.      Понимание руководством основных уязвимых точек дата-центра, например, резервная система энергоснабжения.

3.      Результаты ранее случавшихся отказов дата-центра и прерывания операций, как они были ликвидированы и какие из этого были сделаны выводы.

4.     Максимально приемлемое время, отводящееся на реагирование руководства в случае аварии.

5.      Существующая отраслевая практика реагирования на аварии в дата-центрах.

6.      Опыт и уроки аварий в других дата-центрах.

7.      Аварийная группа сотрудников дата-центра, обученная реагированию в случае чрезвычайного происшествия.

8.      Возможности реагирования в случае чрезвычайного происшествия со стороны ваших главных и второстепенных поставщиков. Если к ним приходилось обращаться, удовлетворены ли вы были их действиями? Стоимость и статус сервисных контрактов.

Чек-лист дата-центра. Общее реагирование

Ниже мы приводим пример чек-листа, который может быть использован для разработки начальных стадий реагирования на аварию в дата-центре. Конечно, характер происшествия будет влиять на шаги, которые вы предпримете, и их последовательность. Например, в случае отключения энергии набор ваших действий будет отличаться от реагирования в случае пожара. Сделайте этот список шагов частью вашего плана послеаварийного восстановления.

Сценарий 1: Отключение электроэнергии

Шаг

Действие

Комментарий

1

Определите степень отключения, проверьте, затронуло ли отключениерезервные системы

Свяжитесь с персоналом с помощью сотовой связи, проверьте телефонные линии, источники энергии, используйте перезаряжаемые фонарики для безопасного передвижения по зданию.

2

Определите, нужно ли эвакуировать персонал

Немедленно соберите ключевых IT-специалистов

3

Оцените потенциальный ущерб компании, убедитесь, что критические данные зарезервированы и защищены

Немедленно соберите ключевых IT-специалистов

4

Свяжитесь с высшим руководством

Сообщите о сложившейся ситуации

5

Свяжитесь с энергетической компанией

Свяжитесь с помощью сотовой связи, если телефоны офисной станции PBX не работают, вызовите аварийную команду на место

6

Выясните причину отключения, начните процесс ликвидации аварии

Работайте совместно с энергетической компанией, электриками и прочими специалистами

7

Оцените время восстановления операций дата-центра

Соберите ключевых IT-специалистов, специалистов энергетической компании, прочих специалистов

8

Свяжитесь с высшим руководством, направляйте им регулярную информацию о развитии ситуации

Дайте руководству информацию о действиях по реагированию и ликвидации последствий

Сценарий 2: Отказ сервера

Шаг

Действие

Комментарий

1

Определите степень отказа сервера, потери данных и других возможных последствий

Свяжитесь с персоналом с помощью сотовой связи, проверьте конкретный сервер

 

2

Начните процедуру ликвидации аварии, например, проверьте электричество, попробуйте перезапустить сервер, запустите диагностику

По мере необходимости свяжитесь с поставщиком

 

3

Оцените размер потенциального ущерба для компании, убедитесь, что критические приложения и данные работают на резервных серверах и защищены

Немедленно соберите ключевых IT-специалистов

 

4

Выясните причину отказа сервера, продолжайте действия по ликвидации аварии

Привлеките персонал и поставщика

 

5

Оцените время восстановления нормальной работы сервера

Немедленно соберите ключевых технических IT-специалистов, поставщиков

 

6

Свяжитесь с высшим руководством, направляйте им регулярную информацию о развитии ситуации

Дайте руководству информацию о действиях по реагированию и ликвидации последствий

 

Сценарий 3: Пожар в дата-центре

Шаг

Действие

Комментарий

1

Оцените природу и степень пожара

Свяжитесь с персоналом с помощью сотовой связи

2

Используйте подручные средства пожаротушения, ручные огнетушители, распылители и проч.

Если огонь большой мощности, заблокируйте зону распространения огня, если это возможно

3

Позвоните в пожарную службу (номер 112), сообщите о ситуации

 

4

Эвакуируйте персонал здания

Незамедлительно соберите ключевой IT-персонал в заранее обусловленном месте

5

Если возможно, активируйте средства резервирования данных для защиты текущих данных

Если у вас есть ресурсы для хранения данных за пределами дата-центра, активируйте их

6

Как только огонь будет потушен, начните процесс оценки степени ущерба

Соберите IT-персонал и персонал, занятый эксплуатацией здания

7

Сообщите руководству о случившемся

Дайте руководству информацию о действиях по реагированию и ликвидации последствий

Чек-лист реагирования: Крупные аварии

Выше мы описали типичные случаи аварий дата-центра. Последовательность шагов для каждой ситуации может варьироваться. Старайтесь реагировать гибко, план может и должен применяться с учетом характера и степени тяжести инцидента.

Ниже мы приводим пример чек-листа для реагирования в случае масштабной катастрофы в дата-центре. Эти шаги могут предваряться какими-то из вышеописанных сценариев. Обязательно включите эти шаги в ваш план.

Чек-лист реагирования: разрушение здания

Шаг

Действие

Комментарий

1

Свяжитесь с пострадавшими подразделениями и попросите подготовиться к переезду на альтернативную площадку (как указано в вашем плане восстановления)

Сообщите о происшествии ключевым сотрудникам и внешним агентам, как определено в плане послеаварийного восстановления

 

2

Свяжитесь с внешними организациями (вендоры, поставщики, курьерские и складские компании) и попросите их немедленно начать выполнение программ аварийного обслуживания

Сообщите об этом ключевым сотрудникам и внешним агентам, как определено в плане послеаварийного восстановления

 

3

Если повреждена или разрушена аппаратная часть, активируйте процессы восстановления оборудования

Сообщите об этом ключевым сотрудникам и внешним агентам, как определено в плане послеаварийного восстановления

 

4

Если повреждена или разрушена программная часть (операционные системы, приложения и т.д.), активируйте процессы восстановления поврежденного софта

Сообщите об этом ключевым сотрудникам и внешним агентам, как определено в плане послеаварийного восстановления

 

5

Если повреждены или разрушены системы коммуникации и сетевые сервисы, активируйте процессы восстановления этих процессов и сервисов

Сообщите об этом ключевым сотрудникам и внешним агентам, как определено в плане послеаварийного восстановления

 

6

Если повреждена или разрушена система почтовых сервисов и мгновенных сообщений, активируйте процессы восстановления этих сервисов

Сообщите об этом ключевым сотрудникам и внешним агентам, как определено в плане послеаварийного восстановления, подразделения могут быть вынуждены использовать иные средства, если уничтожены серверы электронной почты и мгновенных сообщений, например, текстовые сообщения, социальные сети

 

7

Если повреждены или уничтожены критические данные, активируйте процессы восстановления данных

Сообщите о происшествии ключевым сотрудникам и внешним агентам, как определено в плане послеаварийного восстановления

 

8

Если уничтожены документы, активируйте процессы их восстановления

Сообщите ключевым сотрудникам и внешним агентам, как определено в плане послеаварийного восстановления, если проблема не может быть решена в течение суток путем восстановления из резервных хранилищ, обсудите с персоналом и арендаторами вопрос осуществления операций по ситуации

 

9

Если повреждены документы, активируйте процессы их восстановления

Сообщите ключевым сотрудникам и внешним агентам, как определено в плане послеаварийного восстановления, если проблема не может быть решена в течение суток путем восстановления из резервных хранилищ, обсудите с персоналом и арендаторами вопрос осуществления операций по ситуации

 

10

Получите подтверждение у руководства, что персонал дата-центра нуждается в перемещении

Немедленно соберите ключевых IT-специалистов, руководство и прочих

 

11

Работайте с группой специалистов по эксплуатации и другими местными и внешними группами для начала процесса переезда на другую площадку, например, можно заключить временные соглашения об управлении и аренде в резервном дата-центре до того, как будет завершена подготовка нового дата-центра

Этот сценарий должен быть прописан в плане послеаварийного восстановления с тем, чтобы определить подходящую основную и альтернативную площадку

 

12

Инициирование и координация деятельности по переводу операций дата-центра на другую площадку

Эта процедура должна быть прописана в плане послеаварийного восстановления

 

13

Регулярно информируйте руководство компании о ходе ликвидации аварии

Эта процедура должна быть прописана в плане послеаварийного восстановления

 

14

Организуйте и регулярно проводите планерки команды, занимающейся послеаварийным восстановлением

Эта процедура должна быть прописана в плане послеаварийного восстановления

 

Вышеописанные шаги предполагают, что у вас есть отдельные планы, прописанные для различных сценариев – восстановление почты, восстановление аппаратных устройств и ПО, восстановление данных, документов и переезд в другой дата-центр.

Послеаварийное расследование

После того, как острота ситуации снята и появилась возможность приступить к ликвидации последствий, проанализируйте происходящее, определите, что именно случилось, что сработало, а что нет. Запланируйте и проведите все необходимые переговоры и встречи для сбора всех существенных данных для обращения в страховую компанию и потенциальных судебных исков.

Дополнительные ресурсы планирования послеаварийного восстановления дата-центра

Разработка плана реагирования в чрезвычайной ситуации в дата-центре может оказаться сложной задачей, в зависимости от степени желаемой детализации.  Один из способов усовершенствовать процесс разработки такого плана – это изучить уже существующие нормы и практики. Ниже приводятся ссылки на их примеры.

 При строительстве дата-центра имейте ввиду следующее:

1.     Заручитесь поддержкой высшего руководства для получения финансирования для мероприятий в вашем плане, а также для его надлежащего документирования и периодических тренингов.

2.     Отнеситесь серьезно к процессу планирования послеаварийного восстановления: план не обязательно должен занимать сотни страниц, но он должен содержать подробную и достоверную информацию.

3.     Подумайте над включением стандартов в свой план, например, тех, ссылки на которые указаны выше.

4.     Не усложняйте процесс планирования, используйте только нужную для этого информацию.

5.     Обсудите результаты с ключевыми департаментами (управление зданием и т.д.), чтобы убедиться, что использованные вами данные актуальны.

Авария в ЦОДе может серьезно повредить вашему бизнесу. Несмотря на то, что некоторые компании решают вопрос с послеаварийным восстановлением путем постройки второго дата-центра или аренды специально оборудованного помещения у независимого лица, тщательная оценка операций и рисков дата-центра является первым важным шагом на пути к внедрению плана послеаварийного восстановления. Наличие четкого плана на случай аварии, особенно с подробно расписанными шагами по реагированию и восстановлению, поможет минимизировать ущерб для вашего ЦОДа.

Об авторе:
Пол Кирван,
CISA, CSSP, FBCI, CBCP, имеет более чем двадцатилетний опыт в сфере управления повышением устойчивости функционирования предприятия как консультант, автор статей и преподаватель. Он непосредственно участвовал в десятках консультационных IT- и телеком-проектах, от разработки программ управления, их реализации, выполнения и технического обслуживания, а также подготовки технических заданий и предложений.

Кирван в настоящее время работает в качестве независимого бизнес-консультанта и аудитора и является секретарем американского отделения Института Непрерывности Бизнеса (Business Continuity Institute). С ним можно связаться по адресу pkirvan@msn.com

 

 

Теги: чек-лист, Послеаварийное восстановление

Чтобы оставить свой отзыв, вам необходимо авторизоваться или зарегистрироваться

Комментариев: 0

Регистрация
Каталог ЦОД | Инженерия ЦОД | Клиентам ЦОД | Новости рынка ЦОД | Вендоры | Контакты | О проекте | Реклама
©2013-2024 гг. «AllDC.ru - Новости рынка ЦОД, материала по инженерным системам дата-центра(ЦОД), каталог ЦОД России, услуги collocation, dedicated, VPS»
Политика обработки данных | Пользовательское соглашение