Инструментарий DCIM: под разными углами

Экспертные оценки

Инструментарий DCIM: под разными углами

24 февраля 2014 г. | Цодиков Евгений | Категория: Круглый стол

Число проектов по автоматизации управления ЦОДом растет. Считается, что качественный инструментарий современных систем DCIM не только повышает уровень доступности инфраструктуры ЦОДа, но и позволяет достичь значительного экономического эффекта. Для обсуждения специфики использования современных систем управления ЦОДом за круглым столом собрались участники отрасли.

1. Какие новые технические требования предъявляются к современным системам по управлению ЦОДом?

Михаил Балкаров, технический эксперт, ATD, CDCDP компании Emerson:

Современная система DCIM подразумевает одно-единственное требование — максимальную интеграцию разноплановых сервисов, обеспечивающих функционирование ЦОД. По отдельности любая из задач давно уже решена, и решена неплохо.

Алексей Сапожков, менеджер по работе с госсектором компании Emerson:

Отдельно следует отметить вопрос интеграции в DCIM, BMS (Building Management System — система управления зданием) и ИТ-мониторинга. При этом необходимо учитывать политическую разобщенность между ИТ-департаментом и АХО, которую приходится решать на уровне высшего руководства. Главным критерием принятия решения может являться создание единого центра мониторинга и управления в критических ситуациях.

Крайне важно иметь средства аналитики для предсказания и прогнозирования критических ситуаций и их последствий при принятии решений.

Даниил Мясников, разработчик Javascript / Ruby on Rails компании FAST (Fujitsu Australia Software Technology):

С учетом того, что в мои должностные обязанности входило написание программного обеспечения по спецификации требований к системе, я могу судить лишь о тех требованиях, которые к нам переходили в виде задач на реализацию.

Масштабируемость (scalability) — пожалуй, самое важное на сегодняшний день техническое требование к такого вида системам. Это обусловлено громадным количеством запросов к серверу, их частотой и важностью оперативного ответа (quick response) — то есть быстротой оповещения пользователя.

Удобный пользовательский интерфейс (Good user experience) — в головном офисе компании Fujitsu в Японии есть два тестовых центра, где разрабатываемый в компании софт проверяется на технические баги и баги безопасности, а также выполняется тест на пользовательский интерфейс (UX testing). Зачастую тесты во втором центре являются более скрупулезными и тщательными, нежели в первом.

Техническая безопасность — в техническом современном мире уже давно никто не удивляется кросс-сайтовым атакам (XSS) на системы. Поэтому для безопасной работы систем работает целая команда специалистов по технической безопасности, которая проводит анализ системы и занимается консультированием разрабатывающих программное приложение сотрудников разных уровней, включая специалистов по сетям (network specialists), программных разработчиков функционала системы (back end developers) и разработчиков той ее части, с которой взаимодействуют пользователи (front end developers).

Соерен Шрёдер, директор по программному обеспечению для ЦОДов в регионе EMEA корпорации Schneider Electric:

Зрелость системы DCIM необязательно означает реализацию новых технических требований. То, что мы видим сейчас повсеместно в индустрии дата-центров, — это изменение в целом подхода к спецификации новых ЦОДов, что обусловлено озабоченностью в отношении всего жизненного цикла дата-центра. Раньше эта спецификация была всецело сфокусирована на технических особенностях дата-центра (например, на таких факторах, как мощность ИБП, параметры потоков воздуха в прецизионных кондиционерах и т. д.). И очень небольшое внимание уделялось тому способу, которым предстояло управлять дата-центром на протяжении многих лет.

Время показало, что это очень неэффективный подход. Управление новым дата-центром начинается не в тот день, когда вы получили, образно говоря, ключи от ЦОДа и принялись «рулить» им. На самом деле управление ведет отсчет с того момента, когда вы стали определять свои требования. После того, как новый, только что построенный дата-центр начал наполняться сотнями и тысячами серверами, — к этому моменту вы уже можете отойти от первоначального плана, например, по причине того, что уменьшились инвестиции.

Единственный способ удержать дата-центр под контролем — это планировать и документировать каждое изменение: в этом случае все отклонения от первоначального плана будут заранее намечены, тщательным образом спланированы, их результирующее влияние на то, какие реальные физические изменения это за собой повлечет, будет понятно. Именно для этого и нужна система DCIM.

Михаил Балкаров Алексей Сапожков Даниил Мясников Соерен Шрёдер

На фото слева направо: Михаил Балкаров, Алексей Сапожков, Даниил Мясников, Соерен Шрёдер

2. Традиционный функционал системы управления ЦОДом включает автоматизированный сбор и трансляцию данных об инженерной инфраструктуре дата-центра, а также ее моделировании и составлении аналитических отчетов о состоянии инженерной инфраструктуры. Какие новые инструменты (новый функционал) включены в системы управления ЦОДом нового поколения?

Михаил Балкаров:

DCIM — гораздо более широкое понятие, чем управление физической инфраструктурой ЦОДа, это именно управление информацией. Соответственно, помимо разнообразных задач инженерной инфраструктуры в нее могут/должны интегрироваться и экономические модули, и биллинговые системы, и управление виртуальными серверами, и анализ сетевого трафика. В идеальном случае весь ЦОД должен быть встроен в рамки одного программного комплекса, именно это и должно обеспечить новое качество.

Даниил Мясников:

Мне сложно сказать, какой новый функционал включен в системы нового поколения, поскольку мой опыт работы в компании Fujitsu начинается с 2011 года, — не так много временя прошло для анализа систем. Но с уверенностью могу сказать, что один из ключевых принципов, который менеджмент пытался внедрить в систему, нашел отражение в функционале health threshold («уровень здоровья» ) серверов. На протяжении всего жизненного цикла у сервера случаются неполадки, запись о каждой из них заносится в журнал (log), тем самым понижая этот самый «уровень здоровья» сервера. Чем ниже этот показатель, тем хуже сервер. Серверы с низким уровнем заменяют новыми.

3. Возможно ли установить набор правил в системе управления ЦОДом для немедленного оповещения в случае экстренной ситуации?

Игорь Занегин, ведущий специалист компании Rittal:

Да, возможно. Более того, в ряде проектов это часто бывает принципиально необходимо. Для этих целей современная DCIM-система должна иметь встроенный редактор сценариев, в котором в рамках разрабатываемого проекта определяются логические взаимосвязи между компонентами ЦОДа по принципу: «что произойдет, если…». Так как в данном случае мы, по сути, имеем дело уже с визуальным программированием событий, то еще одним требованием является то, чтобы процесс настройки и программирования сценариев был интуитивно понятен рядовому пользователю DCIM-системы и не требовал особых технических навыков.

Алексей Сапожков:

Безусловно, должны быть разработаны и отлажены бизнес-процессы реагирования на критические ситуации. А вот правила, по которым включается триггер на их исполнение, должны иметь возможность изменяться в зависимости от государственного регулирования или внутреннего регулирования компании.

Михаил Балкаров:

Одно из опасных заблуждений современного строительства информационных систем — перекладывание на модули общего назначения функционала реального времени. DCIM, как следует из изложенного ранее, в первую очередь — средство автоматизации бизнес-процессов. Это большая система, сложная в настройке и относительно медленно работающая. Выдать заказ-наряд — нормальный функционал, а вот зажигать лампочки, включать сирены, рассылать SMS (кроме новогодних) — все это должна делать отдельная маленькая самодостаточная система, которая делится данными, но принимает решения самостоятельно.

Соерен Шрёдер:

Конечно, возможно. Но опять же, если мы ориентируемся в основном на устройства, то мы рискуем вернуться к реактивному способу, который сводится к ежедневному «тушению пожара». Включая события в общее понимание состояния дата-центра, мы можем принимать обоснованные решения и включать существующие изменения в будущие стандарты, для того чтобы избежать в дальнейшем инцидентов, подобным тем, что уже случились.

В качестве примера можно привести дата-центр, в котором одновременно произошло пять инцидентов с отклонением температуры от нормы. О чем это может свидетельствовать?
Опираясь только на знания об отклонениях, мы не можем с уверенностью ответить на этот вопрос. Это дело оператора — выяснять причину и принимать решение по устранению инцидента. Если, например, все пять сенсоров находятся в одной и той же зоне дата-центра, то мы, вероятно, обратим внимание на точки перегрева, появляющиеся в этой области, которые надо быстро устранить. Однако если все пять сенсоров располагаются в разных зонах дата-центра, то проблемы могут быть совершенно разными (возможно, кто-то установил блейд-серверы в стойку, или прецизионный кондиционер требует наладки, или что-то еще). Главное — это понимать последствия изменений до того, как они наступили (например, выполнив одно или больше моделирования окружающей среды дата-центра), а также фиксировать все запланированные и выполняемые изменения, которые могут пригодиться при анализе причин возникновения проблем, если таковые появятся.

Даниил Мясников:

На мой взгляд, это самый главный функционал в системе управления. На панели оповещения, которая независимо от интерфейса остается на одном и том же месте, отражается состояние серверов — как "«здоровых», так и тех, у которых есть определенные предупреждения или серьезные ошибки. Панель оповещения в последняя время стала камнем преткновения для менеджмента, так как большинство специалистов в компании считают, что не стоит показывать серверы со «здоровым» уровнем, а следует оповещать сотрудников только в том случае, если случились какие-либо неполадки.

4. При интеграции DCIM-системы в вышестоящую систему управления, например, систему управления зданием, какие параметры ЦОДа необходимо контролировать и передавать в такую систему в первую очередь? Какие коммуникационные протоколы необходимо использовать в этом случае?

Игорь Занегин:

На мой взгляд, к таким требованиям можно отнести возможность работы с широким кругом оборудования, как по его функциям (мониторинг ИБП, систем распределения питания, контроль физических параметров и др.), так и по используемым коммуникационным протоколам.

Еще одно важное требование связано с тем, что сегодня применение DCIM-систем может напрямую влиять на энергетическую эффективность ЦОД. Так, например, производя мониторинг систем распределения питания как на уровне главного распределительного щита ЦОД, так и на уровне IT-нагрузки, возможен контроль в режиме реального времени такого распространенного сегодня показателя энергоэффективности, как PUE.

Соерен Шрёдер:

В первую очередь, для мониторинга дата-центра система BMS могла бы стать очень хорошим решением, но вот для управления дата-центром система DCIM заточена наилучшим образом. Поэтому в зависимости от операционной зрелости применяют ту систему, которая подходит лучше всего.

При внедрении DCIM критерий дизайна в какой-то степени формируется теми системами, которые взаимодействуют с DCIM. Здесь нет правильных или неправильных ответов, так как все зависит от нужд заказчика, которому предстоит с этой системой работать и который занимается ее адаптацией. Я всегда рекомендую руководствоваться распределенной моделью, где все точки сбора данных связаны в систему, но при этом данные могут быть использованы в других системах и в другом окружении — либо в сыром виде, либо в преобразованном, в зависимости от текущего контекста.

5. Какие новые инструменты будут включены в системы управления DCIM помимо автоматизированного сбора и трансляции данных об инженерной инфраструктуре дата-центра, а также ее моделирования и составления аналитических отчетов о состоянии этой структуры?

Соерен Шрёдер:

В действительности DCIM состоит из трех строительных блоков.

Первый является точкой агрегации данных от различных устройств всего дата-центра, начиная от ключевых элементов инфраструктуры типа ИБП, PDU, переключателей и т. д. и заканчивая такими ИТ-устройствами, как серверы, коммутаторы и проч. Это та область, где обычно предпринимаются реактивные действия, когда решается проблема уже по факту случившегося события. В индустрии дата-центров я не видел большого количества инноваций в этой области.

Следующий уровень фокусируется на переходе от реактивного способа управления, ориентированного на устройства, к проактивному, бизнес-ориентированному управлению, при котором вы получаете ясное понимание потенциального влияния на бизнес любого запланированного или незапланированного события. Это может быть достигнуто только с помощью надлежащего управления активами и контроля текущих изменений в дата-центре, вместе с детализированным планированием ресурсов (электрической мощности, охлаждения, пространства, вычислительных мощностей и т. д.) и установлением зависимости между ними. На этом уровне вы также используете моделирование и аналитику как основные компоненты при принятии решения. И именно на этом уровне сейчас происходит большое количество инноваций: например, корпорация Schneider Electric разработала 3D-систему моделирования кондиционирования помещения, которая помогает понять актуальное состояние среды, состояние в будущем, если использовать интеллектуальное моделирование вместе с реальными данными, полученными от датчиков (автономных или встроенных в сервер), измеряющих температуру, влажность, и теми данными, что будут получены в последующие годы.

Наконец, третий уровень появляется там, где наступает интеллектуальная автоматизация (я имею в виду автоматизацию, которая контролирует гораздо больший спектр устройств, чем традиционно принято, когда один сенсор устанавливается на одно устройство). С помощью такой автоматизации уже можно перейти к более целостному подходу, от рекомендаций типа «если температура обратной воды меньше X, поверните вентиль смесителя на Y %» к решению, которое подразумевает включение множества промежуточных устройств в большее количество систем по управлению дата-центром, то есть к рекомендациям типа «если нагрузка меньше X, то уменьшите емкость ИБП до Y, а производительность холодильной установки до Z». На этом уровне реализуются основные инновации, и именно на этом уровне может быть достигнута истинная оптимизация дата-центра.

Игорь Занегин:

Здесь общая тенденция заключается в том, что DCIM-система и реализуемые на базе нее проекты перестают быть только системой мониторинга для ЦОД. DCIM-система позволяет также производить активное управление любым оборудованием (например, активизация резервного охлаждения, отключение серверов, контроль доступа, запуск видеонаблюдения), а также инициировать запуск программных процессов (резервное копирование данных, отправка сообщений по электронной почте и др.).

6. Каким образом вендоры могут создать DCIM-платформу, которая помогает клиентам объединить людей, процессы и технологии?

Игорь Занегин:

На мой взгляд, здесь речь идет о возможности интеграции DCIM-системы в вышестоящие системы управления, например, в систему управления зданием либо взаимодействия с ERP-системами. Для этого важно грамотно определить интегральные параметры ЦОД, которые будут передаваться в вышестоящую систему. Кроме того, здесь также важна возможность поддержки необходимых коммуникационных протоколов между сервером с DCIM-системой и вышестоящей системой управления.

7. Каким образом вендор устанавливает связи между DCIM и хозяйственной деятельностью для принятия стратегических решений?

Игорь Занегин:

Эта задача решается, прежде всего, максимально гибкой системой архивирования измеряемых параметров ЦОД, поддержкой распространенных баз данных для архивирования (как встроенные, так и внешние БД) и гибкой структурой генерации отчетов. Имея возможность оценить тенденции, например, роста энергопотребления, мощности охлаждения и количества аппаратных ошибок в IT-инфраструктуре, можно более эффективно обосновать принятие решений о расширении, модернизации или дополнительной защите IT-инфраструктуры.

8. Какие коммуникационные протоколы должна поддерживать DCIM-система для обмена данными со сторонним оборудованием (т. е. оборудованием производителей, отличных от производителя DCIM-системы)?

Соерен Шрёдер:

На этот вопрос есть два ответа, поскольку необходимо рассмотреть, как мы получаем данные для DCIM-системы и как DCIM-система делится этими знаниями со сторонними системами. Что касается данных, которые поступают в DCIM (от различных устройств типа ИБП, ЗВГ, CRAC и так далее), я думаю, что самая важная вещь заключается в том, что DCIM-система имеет гибкий механизм для этого. Например, зачастую DCIM внедряется не на пустом месте. Обычно точки сбора таких данных уже существуют, — например, если уже реализованы системы BMS, NMS или подобные им системы, которые не является частью внедрения DCIM. В подобных случаях существующие данные есть смысл передавать в DCIM для будущего анализа. Если же речь идет об инсталляции нового дата-центра, DCIM-система должна быть способна обеспечить сбор таких данных на основе собственного использования необходимых протоколов типа SNMP, MODBUS, IPMI и так далее.

Что касается данных, которыми DCIM делится с другими системами, то они представляют собой еще одну значительную ценность DCIM-системы. Если бы DCIM функционировала в изоляции, то она быстро бы превратилась в еще одну закрытую систему (подобно промышленным или ИТ-системам), которые реально не добавляют каких-то качественных улучшений, но становятся частью проблемы. Система с широким набором открытых API — вот ключ к успешной реализации DCIM.
Не столь важно, какой механизм для этого выбран. Важно, чтобы система была способна управлять обменом данными с достаточно высокой производительностью.

9. Каким образом должно быть организовано архивирование событий и измеряемых величин в DCIM-системе (встроенная база данных или внешний сервер БД, если внешний сервер, то поддержка каких БД актуальна — MS SQL, Oracle и др.)?

Соерен Шрёдер:

Я думаю, что это детали реализации, существенно менее важные, чем многие другие аспекты, на которые надо обратить внимание в критерии выбора. Что касается Schneider Electric, то мы выбрали «черный ящик» в рамках нашей архитектуры StruxureWare для дата-центров. При использовании комплексного решения StruxureWare в рамках специфицированных ограничений конечному пользователю не приходится выбирать конкретный тип технологии, так как мы гарантируем ему оптимальную производительность, соответствующую его потребностям.

10. Одна из причин критики в адрес DCIM заключается в том, что внедрение этих инструментов обходится недешево. Организациям бывает непросто выделить необходимые денежные средства на эти цели. Как можно изменить сложившуюся стацию?

Игорь Занегин:

Здесь нужно указать на два ключевых момента. Во-первых, DCIM-система — это фактически один из элементов, гарантирующий безопасность и бесперебойность работы IT-инфраструктуры в целом. В последнее время бизнес-процессы компаний все больше зависят от бесперебойности и надежности IT-инфраструктуры. DCIM-система является весьма действенным инструментом по снижению рисков, которые угрожают IT-инфраструктуре. Зачастую благодаря DCIM имеется возможность принять верное решение в сбойных и аварийных ситуациях — до того момента, как наступят какие-либо нежелательные последствия, в том числе отказ и простой оборудования, влекущий за собой ощутимые финансовые потери.

Кроме того, общая стоимость проекта может быть снижена благодаря гибкой модели предоставления лицензий на DCIM-системы, в зависимости от количества единиц подключаемого оборудования (IP-узлов) и количества пользователей в системе.

Наконец, положительным образом на принятие решения о внедрении DCIM-систем влияет наличие бесплатных пробных версий, а также всесторонняя квалифицированная поддержка со стороны производителя.

Теги: DCIM, круглый стол, Михаил Балкаров, Алексей Сапожков, Даниил Мясников, Соерен Шрёдер, Emerson, FAST, Schneider Electric

Чтобы оставить свой отзыв, вам необходимо авторизоваться или зарегистрироваться

Экспертные оценки