Экспертные оценки

Признаки надвигающегося кризиса для вашего дата-центра

01 декабря 2015 г. | Кирби Ли | Категория: Обсуждаем статью

Авария и даунтайм – наименее желательный способ обнаружения недостатков в системе управления рисками и эксплуатации вашего дата-центра. Сегодня в мире экономики, работающей 24 часа в сутки, IT-инфраструктура организации является критическим элементом ее бизнеса.

Любая крупная сложная система, подобная дата-центру, требует постоянно быть на чеку, чтобы поддерживать ее работоспособность.

Как бы идеально ни был спроектирован дата-центр на бумаге, его надежность в конечном счете достигается (или не достигается) в ходе ежедневной эксплуатации. Если команда управляющих не занимается постоянным улучшением качества, то в результате это неизбежно приведет не к равновесию, а к ухудшению. Как понять, эффективна ли ежедневная эксплуатация? Как узнать, достаточны ли культура и практики эксплуатации для управления рисками, или ваш объект находится в опасности и может подвергнуться неожиданному сбою или отключению?

Эксплуатация также важна, как инфраструктура

Проектирование и строительство нового критического для бизнеса дата-центра – перспектива сложная и дорогостоящая. Но даже самый надежный проект и инфраструктура не уберегут площадку от сбоя, если люди, занимающиеся эксплуатацией, не следуют процедурам. С того дня, когда дата-центр открыл двери для клиентов, все инвестиции в инфраструктуру высокой доступности, а также в коммерческие миссии, которые она поддерживает, окажутся в зоне риска, если фактически отсутствуют или не выполняются процедуры управления и эксплуатации.

Легко сказать, что оператор уделяет время состоянию инфраструктуры и оборудования и этим гарантирует бесперебойную работу. Однако статистика гласит, что наиболее значительная причина аварий в дата-центрах – это не механические повреждения, а результат действий человека, человеческий фактор.

Часто проблемы дата-центра оказываются вызваны накопительным эффектом ненадлежащего управления, процесса принятия решений и неподходящей организационной структуры. В то время как многие ошибки кажутся очевидными и виновника вроде бы установить элементарно, они, почти всегда, являются результатом действий руководства, политики управления и хода принятия решений либо отражением более широкой эксплуатационной среды и культуры организации. Даже самая замечательная команда управляющих может оказаться в тупике из-за нехватки ресурсов, неясности указаний или отсутствия поддержки руководства.

Применение лучших практик управления и эксплуатации на всех уровнях организации может уменьшить риск человеческой ошибки. Существующие дата-центры могут иметь слабые места ввиду устаревания зданий или оборудования, но они тем не менее могут уменьшить риск отключения и даже обогнать площадки с более качественными проектами «на бумаге», если их эксплуатационная команда работает эффективно. Никогда не поздно обозначить проблемные места и закрыть все дыры, обновить процессы, скорректировать дурные привычки, которые могли со временем сложиться в ЦОДе.

Последствия отказа могут быть весьма значительны для площадки, дорого обойтись бизнесу, нанести ущерб репутации на рынке, так что результат стоит усилий. Введение жестких лучших практик поможет извлечь максимум возможностей из стареющего актива, при этом поддерживая эксплуатацию в оптимальном режиме, снизить риски и достичь максимальной эффективности.

Пять вопросов, которые вы должны себе задать

Чтобы обнаружить эксплуатационные риски и сделать качественный рывок в области культуры и управления, организации должны начать с того, чтобы честно ответить на некоторые трудные вопросы.

1. Можете ли вы легко заменить любого члена команды?

Если нет, это сигнал того, что роли и ответственность определены нечетко, а процессы плохо задокументированы.

2. Защищены ли вы от миграции ненадлежащих практик эксплуатаций со старых площадок на новые, более критические дата-центры?

Если нет, то это указывает, что вам не хватает целостности подхода к стандартам управления вашими активами.

3. Есть ли у вас площадки, работающие в изоляции, игнорирующие корпоративные стандарты?

Этот вопрос часто возникает в ходе сделок по слиянию и поглощению, либо в связи с проблемой «одинокого хуторянина» на отдельных площадках.

4. Есть ли у вас вообще глобальные корпоративные стандарты?

Каждый работник организации должен четко представлять общую миссию и цели.

5. Если вы отдаете часть операций дата-центра на аутсорсинг, как вы защитились от того, что не с кого будет спросить и никто не будет отчитываться?

Вам нужно создать команду специалистов, которые будут обучены тем же политикам и процедурам и будут их неукоснительно соблюдать.

Оценка рисков

Даже передовые дата-центры планеты могут что-то упустить из виду и испытывают проблемы с эксплуатацией. Исследования показали, что определенные условия в дата-центре соотносятся с повышенным количеством ошибок. Некоторые из этих условий – это просто симптомы наличия такой операционной культуры или среды, где весьма вероятны ошибки. Но любое из них должно служить красным флажком, призывающим вас более внимательно взглянуть на практики и процедуры вашего дата-центра.

Все они свидетельствуют о том, что у вас недостаток персонала и что практики ежедневной эксплуатации не позволяют персоналу обеспечить регулярное и упреждающее управление процессами, и это в итоге ставит вашу организацию под удар непредвиденного отключения.

Теги: Авария, даунтайм, риски

Чтобы оставить свой отзыв, вам необходимо авторизоваться или зарегистрироваться

Комментариев: 0

Регистрация
Каталог ЦОД | Инженерия ЦОД | Клиентам ЦОД | Новости рынка ЦОД | Вендоры | Контакты | О проекте | Реклама
©2013-2024 гг. «AllDC.ru - Новости рынка ЦОД, материала по инженерным системам дата-центра(ЦОД), каталог ЦОД России, услуги collocation, dedicated, VPS»
Политика обработки данных | Пользовательское соглашение