ЛЕНТА НОВОСТЕЙ

09 ноября

05 июля

12 января

10 ноября

03 ноября

30 сентября

29 июля

13 июля

Для клиентов ЦОД / FAQ / Как разобраться в отказоустойчивости дата-центра

Как разобраться в отказоустойчивости дата-центра

В контексте дата-центров термин «отказоустойчивость» может быть лучше всего сформулирован, как «способность предоставления ИКТ-услуг в условиях чрезвычайных ситуаций таких, как воздействие человеческого фактора или преднамеренное вредительство». Как правило, наиболее высокий уровень отказоустойчивости зависит от самой механической и электрической инфраструктуры. Стоит отметить, что ошибка человека в 70% случаев является причиной сбоев в ЦОДе, но даже этого можно избежать при правильном проектировании. Конечно, если Вы – клиент ЦОД, Вы хотите знать, за что конкретно Вы платите деньги, в чем мы и поможем разобраться.

Как отличить одну систему измерения от другой?

Существует два вида метрик, которые используются для определения отказоустойчивости ЦОД. Они в некоторой степени взаимосвязаны, и ими, к сожалению, очень часто злоупотребляют:

  • Уровни надежности от Uptime Institute (I-IV), типы по стандарту TIA-942 (I-IV), рейтинг BICSI (1-4) и класс доступности по стандарту EN50600;
  • Доступность, например, 99.999% (так называемые пять девяток).

Несмотря на то, что правила от Uptime больше не доступны широкой общественности, стандарты TIA-942 и BICSI больше популярны и применимы в США, а EN50600 в принципе мало кем используется, мы так или иначе можем выделить в каждом стандарте конкретные четыре уровня, характеризующих возможность инфраструктуры к отказоустойчивости и техобслуживанию без прекращения работы ЦОДа.

Больше всего злоупотреблению понятиями подвергается доступность: ее легко посчитать, но не так легко правильно интерпретировать. Первая проблема заключается в том, что для подсчета необходимы две величины: среднее время между отказами (MTBF, mean time between failure, hours) и среднее время восстановления (MTTR, mean time to repair, hours); MTBF необходимо поделить на сумму двух величин и умножить на 100%.

Таким образом, при длительном времени между отказами и небольшом времени на восстановление, Вы получаете очень высокий результат. К сожалению, обе эти величины – это всего лишь числа, о которых отдел маркетинга лишь догадывается, если вообще их использует. Например, маркетологи могут указать 99,999% доступности для ИБП, просто предположив, что служба эксплуатации обладает навыками и необходимым ЗИПом для самостоятельной починки оборудования в течение 20 минут вместо вызова инженеров сервисной компании, ожидания необходимых компонентов и повторного тестирования перед вводом в эксплуатацию.

Вторая проблема – это сочетание числа отказов системы (сумма нескольких MTTR) и MTBF. В техническом описании Tier Uptime Institute попытались связать доступность с уровнями надежности, но не определили период, в течение которого эта доступность будет измеряться. Это приводило к странным ситуациям, когда дата-центр с низким Tier мог предлагать 53 минуты простоя в год, тогда как Tier IV – 5,3 минуты, а это практически нереальные цифры.

Важно понимать, за какой период времени считается доступность, особенно это касается кратковременных сбоев. Проще всего объяснить на примере: примем, что наше сердце доступно на 99,9%. Звучит здорово, пока Вы не посчитаете, что эта цифра означает 36 тысяч пропущенных сердцебиений в год, и если они были пропущены единовременно, то Вы уже давно мертвы, а даже если они распределены равномерно в течение года, то Вам в любом случае стоит обратиться к врачу.

Если переводить это на терминологию ЦОДов, надо рассмотреть напряжение, подаваемое на нагрузку. Многие современные серверы не могут выдержать простой дольше, чем 10 мс, а некоторые еще меньше, поэтому предложение о 99.9999999% доступности в системе энергопитания все равно может привести к трем простоям в течение года, каждый из которых продлится до 10 мс.

И что же с этим делать?

В первую очередь должны отметить, что нет ничего плохого в такой метрике, как доступность, до тех пор, пока Вы понимаете, на чем основаны расчеты. Пример: «Доступность 99,99% на 10 лет с одним сбоев в работе системы продолжительностью не более 10 часов», что будет означать 10 лет как среднее время между отказами и 10 часов как среднее время восстановления работы инфраструктуры.

Конечно, это округленная цифра от 99.98859…%, но этого достаточно, чтобы понять, что в этом уравнении главная величина – среднее время между отказами, ведь именно она необходима в первую очередь при расчете доступности. Поэтому, когда увидите в предложении оператора ЦОД «доступность 99.999%», в первую очередь спросите, за какой период был произведен расчет, и понаблюдайте за тем, как изменятся лица представителей оператора дата-центра. Никто не утверждает, что каждый оператор стремится обмануть своего клиента, но в любом случае умение разобраться в подобных величинах сыграет обеим сторонам на руку.

Регистрация
Каталог ЦОД | Инженерия ЦОД | Клиентам ЦОД | Новости рынка ЦОД | Вендоры | Контакты | О проекте | Реклама
©2013-2024 гг. «AllDC.ru - Новости рынка ЦОД, материала по инженерным системам дата-центра(ЦОД), каталог ЦОД России, услуги collocation, dedicated, VPS»
Политика обработки данных | Пользовательское соглашение