Экспертные оценки

Кадровые решения дата-центра должны быть обусловлены требованиями к эксплуатации объекта. Часть 2.

27 октября 2014 г. | Цодиков Евгений | Категория: Обсуждаем статью

О том, как минимизировать человеческий фактор и предотвратить простои дата-центров, рассказывалось в первой части статьи, с которой можно ознакомиться по адресу: http://alldc.ru/experts/2148.html. Данная статья продолжает эту тему. 

Количество персонала и его структура должны определяться в зависимости от требований к эксплуатации дата-центра. Если компания может пережить случайные неожиданные перерывы в охлаждении или энергоснабжении в критически важном дата-центре, тогда может быть достаточно одной смены персонала в рабочие дни. 

В этом случае штатное расписание будет предусматривать постоянное присутствие специалиста для поддержки запросов клиентов. Задачи превентивного техобслуживания (ТО) могут также выполняться в течение рабочей недели. Если система обслуживается регулярно, сверхурочной работы не потребуется до тех пор, пока не начнется долгосрочный ремонт или специальный проект. Если инцидент произойдет в выходной день или ночью, то это может привести к отключению системы на некоторое время, пока кто-то не среагирует на вызов.

Обычно пять-семь человек плюс руководитель справляются с загрузкой в течение одной рабочей смены на отдельно стоящем критически важном объекте. Если растет число задач по упреждающему обслуживанию или количество запросов пользователей выше среднего, может понадобиться дополнительный персонал.

Еще больше персонала понадобится в том случае, когда критический дата-центр является частью более крупного объекта или его площадка используется еще и для каких-то других, некритических целей. В последнем случае рекомендуется выделять подгруппы специалистов внутри отдела, с отдельными супервайзерами и подчиненными для поддержки критических и некритических узлов, которые отчитывались бы одному руководителю. Такая мера позволит избежать ситуаций, когда персонал отвлекается от выполнения наиболее важных операций на второстепенные задачи и по этой причине допускает нарушения в его работе, как часто бывает в тех системах, где разделение отсутствует.

Если цели проекта диктуют необходимость абсолютной минимизации остановок критических операций, нужно планировать кадровую структуру еще основательнее. Как минимум два человека в каждую смену, если они были надлежащим образом обучены и опираются на эффективно сформулированные процедуры, могут уверенно обеспечить реагирование в любых ситуациях по механической части и в большинстве пожарных ситуаций с тем, чтобы не довести систему до остановки. Эта модель также поможет более оперативно решить проблемы в энергообеспечении.

На отдельно стоящем объекте нужны как минимум девять сменных инженеров (один для замены работников, находящихся на больничном или в отпуске), в дополнение к двум-трем координаторам проекта и руководителю.

Регулирование рабочей загрузки и отчетность

Вместо того, чтобы полагаться на коллективные действия группы в успешной реализации всех проектов, задач по упреждающему обслуживанию и запросов клиентов, важно разграничить ответственность за отдельные действия между конкретными работниками. С таким подходом руководитель объекта назначает конкретного специалиста, который отвечает за выполнение процесса, задачи или запроса. К тому же важно, что при четкой постановке задачи каждый работник приобретет дополнительные знания, уверенность в своих силах и гордость за выполнение своих обязанностей. Группа должна преследовать общие цели в процессе непрерывной эксплуатации и обеспечения безопасности, но в остальном их обязанности и задания должны быть индивидуально задокументированы при обсуждении с руководителем их годовой рабочей программы. В качестве некоторых примеров сфер индивидуальной ответственности можно привести программы процедур, управление изменениями, мониторинг качества энергоснабжения, выполнение программы безопасности, хранение и подготовка воды, обслуживание устройств кондиционирования машинного зала.

Необходимо разработать всеобъемлющие процедуры, распорядок для минимизации человеческого фактора в дата-центрах

Широкое применение рабочих алгоритмов

Всеобъемлющие правила и процедуры могут значительно уменьшить роль человеческого фактора в дата-центрах. Наверное, это самый простой и наиболее эффективный способ, и при этом наименее распространенный на деле.

Предприятие должно задаться целью заставить каждого работника, ступившего на территорию дата-центра, прочесть, обсудить и подписать документ, в котором прописаны общие правила работы на площадке. Большинство инцидентов можно предотвратить, если проинформировать нового работника о рисках, обычно возникающих в процессе эксплуатации, и дать четкие инструкции поведения.

Осуществить это на практике мешает, как правило, одна причина: исполнительный руководитель, отвечающий за критический объект (кому в итоге подчиняются все коллективы отделов) не предпринимает мер, чтобы потребовать от каждого сотрудника прочесть, обсудить и подписать документ. Поддержка руководства является жизненно важной: на прочтение с каждым новым сотрудником требуется от 15 до 30 минут. Эта практика должна касаться всех сотрудников, руководства, контрактников и поставщиков. (Топ-менеджер способен вызвать нарушения работы в той же степени, что и электрик, если топ-менеджер не знаком с уникальными процессами объекта).

Успешно составленные правила и процедуры должны включать буквально всё: от бытовых вопросов (к примеру, это может быть запрет принимать пищу в критических зонах) до обеспечения личной безопасности (требование надевать дуговую защиту для проведения определенных электрических работ).

Всеохватывающая программа правил и процедур, индивидуально разработанная для данной площадки

При обслуживании систем инфраструктуры критического объекта требуется письменный документ для того, чтобы на основе единого подхода выполнять более рискованные операции, такие как переносы системы, когда отказоустойчивость системы падает в связи с тем, что она отключена из-за техобслуживания или ремонта. Не менее важны алгоритмы для выхода из аварийных ситуаций. В связи с большим числом подсистем инфраструктуры, на критическом объекте может понадобиться от 150 до 200 документов, чтобы охватить обе программы действий. Это количество может показаться слишком большим в сравнении с нуждами некритического объекта. Однако, если сравнить с другим большим предприятием, то окажется, что это в пять раз меньше, чем, например, требуется для эксплуатации атомной подводной лодки.

В любом случае, процедуры должны разрабатываться применительно к нуждам конкретной площадки, поскольку каждая конфигурация уникальна. Один сотрудник должен быть назначен ответственным за них, и ему должно быть выделено время каждый месяц для совершенствования программы. Как правило, ответственному за процедуры дают внешний ресурс для запуска программы.

Первыми важными шагами является разработка списка вопросов и стандартизация формата. Единый ответственный должен обеспечить, чтобы все процедуры имели одинаковый алгоритм, для того, чтобы предотвратить недоразумения специалиста, который читает эти инструкции. Существенным является тестирование каждого проекта документа. Это нужно делать с наименее подготовленным членом команды, и для каждого процесса это будут разные сотрудники. Также нужна интуитивная система файлинга, как в электронной, так и в бумажной версии, чтобы в чрезвычайной ситуации легко было найти тот или иной документ. Менее важные разделы процедур, такие как задачи по упреждающему обслуживанию и инспекции площадки (не связанные с кардинальными изменениями), не требуют такого же уровне формализации.

Примеры документирования правил и процедур критического объекта

По интернет-ссылкам ниже можно найти множество образцов рабочих правил и процедур

Система поощрений для удержания персонала

Наличие опыта работы с системами уникальной конфигурации в дата-центре вносит существенный вклад в обеспечение непрерывности рабочего процесса. Руководители должны внедрять такие методы, которые позволят сохранить ценных, лояльных работников, будь то сотрудники или внешние консультанты по контракту. Каждый дополнительный год опыта работы увеличивает вероятность того, что работник выберет наиболее правильное решение в случае кризиса и эффективно выполнит соответствующие процедуры в процессе работы над плановыми задачами. Хорошо зарекомендовали себя следующие методы, хотя и не каждый из них подходит для любой организации:

  • Отслеживать уровень компенсаций и поощрений в других критических дата-центрах для того, чтобы на вашем объекте их размер был немного выше, чем по рынку.
  • Предлагать денежные вознаграждения и публичные поощрения конкретных специалистов и групп, по мере завершения тех или иных программных этапов.
  • Внедрить ротацию зон ответственности отдельных процессов и систем инфраструктуры каждые два или три года для расширения уровня компетенции и уверенности всех членов команды.
  • Активно продвигать инновационные идеи сотрудников, с фокусом на эффективность и надежность системы.
  • Привлекать каждого сотрудника в качестве инструктора для остальной части группы, когда изучается часть системы, находящаяся в зоне ответственности такого сотрудника, или когда проводится инструктаж нового персонала.
  • В случаях, когда происходит переход от одного внешнего провайдера к другому, требовать, чтобы новый провайдер нанимал ценных компетентных сотрудников.

Очевидно, что для внедрения высокоэффективной и надежной стратегии требуется пожертвовать временем. При этом каждый компонент, указанный выше, достижим при наличии соответствующего бюджета. Но как только программа внедрена, на ее поддержание будет уходить значительно меньше времени. Организации, успешно внедрившие эти процедуры, свидетельствуют, что непрерывное время работы их дата-центра увеличилось экспоненциально, до пяти-десяти лет без единой остановки какого-либо устройства. А ведь для многих это означает экономию миллионов долларов ежегодно!

Дэйвид Бостон начал свою карьеру в 1985-1995 гг., в критически важном дата-центре компании GTE Data Services как руководитель отдела эксплуатации. Далее, в Uptime Institute он оказывал поддержку командам дата-центров в течение 14 лет в двух ипостасях: как директор Site Uptime Network и как консультант по оценке состояния объекта. С 2006 года по сей день его фирма является независимым провайдером услуг по экспертной оценке, составлению организационных структур и развитию общих процедур и тренинговых программ. С ним можно связаться по е-мейлу dfboston@DavidBostonConsulting.com.

Теги: Кадры

Чтобы оставить свой отзыв, вам необходимо авторизоваться или зарегистрироваться

Комментариев: 0

Регистрация
Каталог ЦОД | Инженерия ЦОД | Клиентам ЦОД | Новости рынка ЦОД | Вендоры | Контакты | О проекте | Реклама
©2013-2024 гг. «AllDC.ru - Новости рынка ЦОД, материала по инженерным системам дата-центра(ЦОД), каталог ЦОД России, услуги collocation, dedicated, VPS»
Политика обработки данных | Пользовательское соглашение