Осенний ЦОДопад и «гремлины» в серверных залах
06 октября 2014 г. | Механиков Олег | Категория: Обсуждаем статью
«Неприятности случаются даже в почтенных домах», говорят в Англии. Можно добавить – «даже в ИТ-сфере и даже на объектах с Tier». В начале осени было зафиксировано несколько отключений в западных дата-центрах. О том, какими техническими методами компании ликвидировали сбои, мы не узнаем. Но интересен опыт общения с клиентами.
Недавно пользователи британской компании EE (полное официальное название компании Everything Everywhere − в переводе с английского языка означает «все и всюду») испытывали проблемы с доступом к данным и отправкой MMS-сообщений по причине неисправности в одном из дата-центров ЕЕ.
И сразу же на веб-странице корпоративного форума ЕЕ, посвященной проблемами и решениям, появилось сообщение, что специалисты приступили к устранению «отказа в доступе к ресурсам».
Представитель компании EE объяснил: «В сети EE 27 миллионов клиентов – и они используют все большее количество данных. У нас есть ряд дата-центров. В одном из них возникла незначительная проблема, которая имела ограниченное влияние на сервис для небольшого количества клиентов. Для передачи большинства данных был изменен маршрут через другой центр данных. Проблема с доступом была устранена в течение нескольких часов». Тем не менее, эксперты отметили, что подобная неприятность возникала в сети второй раз в течение одной недели, как сказали в компании, «по техническим причинам, связанным с дата-центром». О каких точно сбоях в ЦОДе идет речь, в компании предпочли не уточнять.
Нужно отметить, что ранее в этом году у EE был еще более серьезный сбой, когда сеть зависла на более чем 12 часов. Первое отключение началось 19 марта около 7:30 вечера по Гринвичу и сеть не могла работать в полном объеме приблизительно до 11:30 утра следующего дня. Случай со двойным сбоем сохранить в тайне не удалось – клиенты начали обмениваться сообщениями в форумах и чатах, спрашивая друг друга: «Кому-нибудь удалось сегодня установить связь с ЕЕ?» и бурно критиковали компанию. Конкуренты попытались использовать происшествие для пиара, заявляя, что если абоненты их сети не могут связаться с клиентами ЕЕ, то это проблема другой компании.
Компания опубликовала на своей веб-странице EE-сообщества сообщение о том, что сеть «упала» из-за той же причины, что и в прошлый раз, но заверили, что подобное уже не повторится. Какова же была «аналогичная причина», так и не уточнили.
Пытаясь успокоить разгневанных клиентов, представитель сети ЕЕ попытался (и не безуспешно) апеллировать к чувству юмора соотечественников и заявил, что причиной его выхода сети из строя могли быть… сказочные Гремлины. Затем представитель ЕЕ принес официальные извинения, и компания возобновила работу в прежнем режиме. На этом история в этой компании и завершилась.
Отключения не избежали другие провайдеры. Оказалось, в отрасли дата-центров компании иногда страдают от проблемы «недоступности» сети для клиентов. В этот же период некоторые пользователи сайта управления паролями американской компании LastPass испытали трудность с регистрацией и захода в аккаунты из-за сбоя на одном из ЦОДов компании. Джо Сигрист, генеральный директор LastPass, написал в корпоративном блоге, что уже в 3 часов 57 минут утра сотрудники приняли меры и перенесли данные LastPass на другой объект.
Ряд интернет-провайдеров (ISP) в Америке испытали те или иные технические проблемы в середине сентября, в результате чего клиенты получили некачественный сервис на всей территории Америки и в некоторых частях Канады.
Level 3 Communications, одна из крупнейших мировых телекоммуникационных компаний со штаб-квартирой в Брумфилде (штат Колорадо) и сервисом в США и Европе, также призналась, что в работе дата-центра были сбои. Представитель компании сообщил: «Наша сеть в настоящее время испытывает ограничения и не может предоставить полный сервис, что влияет на работу наших клиентов Обеспечение стабильности наших сетевых и коммуникационных услуг является нашей главной задачей, и мы нацелены на минимизацию последствий для потребителей. Наш технический персонал в настоящее время занят восстановлением услуги в кратчайшие сроки, и мы находимся в тесном контакте с пострадавшими клиентами».
Хотя компания осуществляла поддержку работы интернет-провайдеров, как заявили в ZDNet, реальная проблема состояла в том, что таблицы маршрутизации Border Gateway Protocol (BGP) разрослись и стали слишком велики для обработки в некоторых Интернет-маршрутизаторов верхнего уровня. Это означает, маршрутизаторы больше не могли справляться с интернет-трафиком.
Одним из пострадавших был провайдер веб-хостинга LiquidWeb, также переживший блокировку своего сайта. Пользователи с утра не могли установить соединение с компанией LastPass и воспользоваться ее услугами. Так что отделаться шутками уже не удалось. Нужно было успокаивать клиентов и постоянно информировать о перспективах восстановления работы. Джо Сигрист уточнил, что интересы большинства пользователей не были затронуты, поскольку LastPass заранее позаботилась о «правильном резервировании», чтобы нейтрализовать отключения в ЦОДе. До пяти утра руководство LastPass приняло решение мигрировать в другой дата-центр, в результате чего соединения из двух ЦОДов сократились до одного.
Джо Сигрист писал в блоге едва ли не стиле хроники:
«12:00 - мы разыскали источник проблемы во втором дата-центре. Там были установлены дополнительно три машины, которые работали на скорости 100 Мбит/секунду вместо гигабайта (несмотря на наличие гигабитных карт и подключения к гигабитным коммутаторам)». Представитель LastPass объявил к 8:45 вечера, что техническая служба завершила тестирование и подтвердила, что репликация на второй ЦОД прошла хорошо, и данные с обоих дата-центров были полностью восстановлены.
Каждая компания выбирает для себя PR-политику в период сбоев – туманные объяснения или много технических подробностей. Главное - не замалчивать происшествие.
Дополнительную информацию можно найти на сайте www.theinquirer.net Теги: Everything Everywhere, LastPass
|
Чтобы оставить свой отзыв, вам необходимо авторизоваться или зарегистрироваться
Комментариев: 0