
Полная версия
Эксплуатация ЦОД. Практическое руководство
Несмотря на очевидную простоту и эффективность резервирования по схеме N + R, ее не всегда бывает достаточно для обеспечения необходимого уровня надежности. Существуют системы, где, несмотря на избыточность отдельных компонентов, сохраняются единые точки отказа, являющиеся уязвимым местом системы в целом. В качестве примера можно привести систему бесперебойного электропитания из нескольких ИБП с общим байпасом. Для устранения рисков выхода таких систем из строя применяют резервирование более высокого уровня – не на уровне компонентов, а на уровне систем. На практике это означает установку двух (или более) идентичных взаиморезервирующих систем, а само резервирование в таком случае обозначают формулой ХN, где N – система из N компонентов, а Х – число таких систем. Наиболее частой схемой резервирования такого рода является 2N, где устанавливаются две идентичные системы. Такая схема резервирования является сравнительно дорогой (фактически необходимо приобрести удвоенное количество оборудования), однако именно она позволяет обеспечить для ИТ-нагрузки два независимых ввода питания и/или контура охлаждения, что необходимо для безостановочной работы ИТ-оборудования и, следовательно, непрерывной работы сервисов, предоставляемых ЦОД.
Зачастую используется комбинация двух оговоренных выше схем резервирования – и на уровне систем, и на уровне компонентов. В этом случае формула приобретает вид X(N + R). Сравнительно популярной схемой такого рода является 2(N + 1), широко применявшаяся в первом десятилетии XXI в.; сегодня ее можно встретить все реже, что обусловлено высокой стоимостью ее реализации.
Выше мы отметили, что резервирование XN (обычно 2N) позволяет обеспечить для нагрузки независимые линии электропитания. Данное преимущество имеет обратную сторону в виде удвоенной стоимости системы электропитания. Для сохранения возможности обеспечения двух независимых линий электропитания нагрузки и при этом снижения вложений в систему электропитания в последние годы все чаще используются дробные схемы резервирования, которые можно выразить в формате (X/Y)N. В этом случае X означает число установленных элементов в системе, а Y – число групп нагрузок, подключенных к каждому из элементов. Иными словами, суть построения таких систем заключается в сегментировании нагрузки и применении элементов меньшей мощности, нежели в случае резервирования 2N. Поясним это на примере систем ИБП на схемах ниже.
Отношение мощности ИБП к мощности нагрузки можно понимать как коэффициент загрузки оборудования. Чем меньше это соотношение, тем эффективнее загрузка. То есть при резервировании 2N загрузка оборудования составляет 50 %, при резервировании (3/2)N – 66,7 %, а при резервировании (4/3)N – 75 %.
Как можно заметить, во всех приведенных случаях каждая группа нагрузок получает электропитание от двух независимых линий, однако при этом уровень затрат на систему электропитания снижается за счет установки менее мощных (и, следовательно, более дешевых) устройств и понижения общего уровня установленной мощности системы электропитания.
При построении систем с дробным уровнем резервирования усложняется система кабельной разводки, увеличивается объем необходимых материалов и работ. Также схемы, отражающие работу подобных систем, менее наглядны для персонала и трудны для понимания, что увеличивает риск человеческой ошибки. Однако стоимость систем при низких уровнях дробного резервирования все равно сравнительно невелика. Предел рациональности при построении систем с дробным резервированием достигается на уровне (6/5)N; более сложные уровни резервирования перестают быть привлекательными как в силу значительного усложнения систем, так и в силу потери экономических преимуществ.

Рис. 3. Резервирование 2N

Рис. 4. Резервирование (3/2)N

Рис. 5. Резервирование (4/3) N
Оценка текущего уровня процессов службы эксплуатации. Чек-лист для проверки ЦОД
Как руководителю определить текущий уровень процессов службы эксплуатации своего предприятия? Каким образом можно оценить состояние службы эксплуатации ЦОД для потенциального размещения своего оборудования? Во втором случае мы говорим исключительно об оценке эксплуатационной деятельности, не затрагивая вопросы резервирования и прочего, а также вопросов физической безопасности службы поддержки клиентов, так как это отдельные большие темы.
Для этого требуется посетить ЦОД, просмотреть эксплуатационную документацию, совершить обход как серверных помещений, так и помещений с инженерным оборудованием, провести беседы с руководителями эксплуатации и дежурным персоналом.
Примерный чек-лист для определения уровня зрелости службы эксплуатации ЦОД
• Есть ли проактивные меры по уменьшению загрязнений (бахильная машина, липкие ковры)?
• Не просрочены ли огнетушители или газ в системе газового тушения? Даты поверки и заправки указаны на огнетушителях и баллонах с газом?
• Чисто ли на территории? Нет ли посторонних предметов в серверных, не относящихся к деятельности ЦОД (например, шкафы, мебель, упаковочные материалы и т. п.)?
• Есть ли посторонние предметы в стойках (например, коробки и пакеты)?
• Присутствуют ли заглушки в холодных коридорах, закрыты ли излишние отверстия и щели в полу?

Рис. 6. Применение бахильной машины

Рис. 7. Применение липких ковров
• Есть ли заглушки на выключенных кондиционерах, препятствующие обратному перетоку холодного воздуха?
• Поддерживается ли подпор подаваемого вентиляцией воздуха внутри серверных помещений? Каким образом это контролируется?
• Каково состояние подфальшпольного пространства? Нет ли мусора под фальшполом?

Рис. 8. Мусор под фальшполом
• Есть ли документ, описывающий процедуру уборки? Указано ли там, где и каким способом следует ее проводить?
• Есть ли маркировка оборудования в едином формате? Хорошо ли она видна?
• Есть ли в щитовом оборудовании, кондиционерах, задвижках и т. д. маркировка положений по умолчанию? Запишите положение выключателей любого щита. Запишите положение любой задвижки. Это пригодится дальше.
• Аккуратно ли хранятся материалы на складе? Как происходит учет материалов и мест их хранения? Сфотографируйте одну из полок стеллажа на складе. Это пригодится дальше.
• Есть ли оборудование, в данный момент выведенное из работы? Запишите его маркировку (если имеется), зафиксируйте, какое именно это оборудование и где оно находится. Сверьтесь с дежурным инженером, может ли он подтвердить все это документально.
• Есть ли информация о версионности документов, доступных вам для обозрения? Помните, что схемы не должны быть старше двух лет, а документация – старше трех лет от текущей даты.

О чем спросить главного инженера / руководителя ЦОД (желательно без предварительной подготовки со стороны службы эксплуатации):
• За организацию эксплуатации каких систем он отвечает? Записано ли это в его должностной инструкции?
• Актуальный список обслуживания оборудования, не выполненного в срок за последний год. Где его можно посмотреть?
• Актуальный список дежурных инженеров, не прошедших плановые тренировки в текущем месяце. Где его можно посмотреть?
• История всех отказов и обслуживания кондиционера ХХ (подставьте номер, который вы запомнили из предыдущего обхода) за последний год.
• Сколько подобных аварий было на другом аналогичном оборудовании? Есть ли учет ошибок и их анализ?
• При каком уровне нагрузки ЦОД надо начинать закупку дополнительных новых ИБП? Задокументировано ли это, есть ли планирование, можно ли все подтвердить документально?
• Какие риски существуют на данный момент для вашего ЦОД? Где это задокументировано?
• Что такое парные нагрузки? Как вы контролируете парные нагрузки? Какие именно парные нагрузки контролируете?
• Спросите о выведенном из работы оборудовании, которое вы отметили в прошлой части во время обхода. Есть ли соответствующие записи в отчете дежурных за смену?
• В каком виде и где хранится текущая документация по эксплуатации, внутренние политики и процедуры?
Затем посетите дежурную смену без руководителя и спросите по очереди дежурных инженеров (лучше в режиме один на один):
• За оперативное управление какими системами отвечает дежурный? Почему и где это записано?
• Кому дежурный отправляет отчеты при передаче смены? Почему и где это записано?
• Использует ли дежурный на обходе чек-лист? Почему и где это записано?
• Как дежурный контролирует работу подрядчиков? Почему и где это записано? (Во всех этих ответах информация должна совпадать с рассказом главного инженера.)
• В каком штатном положении должны быть выключатели из щита, который вы отметили? Почему и где это записано?
• В каком штатном положении должна быть задвижка, которую вы отметили? Почему и где это записано?
• Что хранится на полки Х стеллаже Y склада? Сравните данные из файла учета склада с фотографией, сделанной ранее.
• В какой момент надо заказывать материалы на склад? Почему и где это записано?
• Что дежурный будет делать в случае пожара, повышения температуры, отключения внешнего электроснабжения (любая аварийная ситуация на ваш выбор) и почему именно так? Может ли он рассказать, когда он в последний раз тренировался действовать в такой ситуации?
• Когда следующая тренировка у дежурного и на какую тему?
• Где хранится отчет о последнем ТО оборудования, за которое отвечает дежурный?
• Опять спросите о выведенном из работы оборудовании. Есть ли эти данные? Совпадают ли с информацией главного инженера?
Методики оценки
В беседах с персоналом, от руководителей до инженеров (в последнем случае это особенно важно), мы всегда оцениваем три вещи, на которые ориентируются практически все аудиторы. Для оценки используется принцип PDCA: Plan – Do – Check – Act, где:
• PLAN – установлены ли цели, запланированы ли ресурсы, процессы?
• DO – выполняется ли запланированное?
• CHECK — отслеживается и измеряется ли этот процесс? Есть ли понимание, что должно быть на выходе? Как это проверяется и каким способом?
• ACT – есть ли действия по улучшению процесса по выявленным замечаниям?
Применительно к процессу эксплуатации ЦОД приведем простой пример.
Для оценки регулярного технического обслуживания мы проверяем календарь технического обслуживания (выполняем PLAN ), далее смотрим, выполняются ли в сроки задачи ТО, есть ли отложенное обслуживание (выполняем DO ). Каковы результаты выполненного ТО? Есть ли подтверждающие документы? Ведется ли контроль качества выполнения работ? Указано ли это в явном виде (выполняем CHECK )? И далее – смотрим, были ли замечания во время ТО (выполняем ACT ).
Uptime Institute предлагает более сокращенную версию, соответствующую тем же принципам:
• Проактивность. Есть ли совершенствование процессов, процедур?
• Практическое использование. Применяются ли в реальности описываемые в документах процессы, процедуры?
• Информированность. Все ли сотрудники знают о документах, необходимых им для выполнения служебных обязанностей? Знают ли места хранения?
Мы указали примерный и выборочный список вопросов, которые могут быть заданы при оценке ЦОД и ответы на которые будут понятны даже неспециалисту в области эксплуатации ЦОД.
Если вы хотите провести глубокую оценку состояния эксплуатации ЦОД, то можно использовать следующие документы:
• Facility Operations Maturity Model[33] с методологией оценки уровня зрелости процессов – опросник, который в полной мере охватывает деятельность ЦОД. Можно использовать как чек-лист.
• BICSI 009-2019 Datacenter Operations and Maintenance Best Practices (пункт 5.4.3. Datacenter Operations and Maintenance Assessment), менее подробный рекомендательный план для оценки состояния эксплуатации.
• На ресурсе Uptime Institute Inside Track также можно найти материалы для оценки, например Data Center Walkthrough Checklist для быстрой и углубленной оценки соответственно. В кратком виде материалы представлены в общедоступной брошюре Executive Handbook: Risk Management for IT Infrastructure[34].
Если сотрудники уверенно и без подготовки дают ответы на подобные вопросы, то, скорее всего, уровень процессов службы эксплуатации довольно высокий, и эта книга будет лишь инструментом для возможного их улучшения.
В противном случае следует обратить пристальное внимание на организацию работы службы эксплуатации и в дополнение к этой книге для оценки реального состояния привлечь компании, специализирующиеся на организации процессов эксплуатации и обучении персонала. Такое решение поможет вам сэкономить несколько лет непрерывной самостоятельной работы по освоению стандартов и практике их внедрения. В очередной раз напомним, что не стоит недооценивать важность хорошо построенной и организованной службы эксплуатации, ведь в противном случае даже ЦОД уровня Tier IV, в инфраструктуру которого вложены миллиарды рублей, не будет защищен от падений и простоев.
Персонал службы эксплуатации
Качество организации процессов управления персоналом напрямую влияет на надежность ЦОД. Как многократно упоминалось, основной фактор, влияющий на надежность ЦОД, – человеческая ошибка.
В большинстве случаев все эти ошибки – результат недоработок управляющего звена ЦОД (недостаточность персонала, непроработанные сценарии аварий, недостаточность документации, недостаточность знаний персонала, отсутствие тренировок и контроля знаний и т. д.).
За отправную точку при формировании службы эксплуатации принимаются требования действующего законодательства, которые дополняются требованиями различных стандартов и систем сертификаций, уже упомянутых выше. При этом следует помнить о необходимости применять процессы к сотрудникам ЦОД, отвечающим за все критические системы ЦОД, а не только за электроустановки, как того требуют нормы российского законодательства.
Приведем ключевые задачи руководителей и сотрудников службы эксплуатации ЦОД.
Руководитель должен:
• оценить объем предполагаемой сферы деятельности, наметить необходимый объем документации;
• написать обязательные и полные инструкции, процедуры и т. п.;
• ознакомить сотрудников с документацией;
• провести тренировки по этим инструкциям;
• обучить новых сотрудников, не допустить к работе неготовых сотрудников;
• периодически проверять качество подготовки сотрудников;
• создать условия для работы сотрудников, снабдить их инструментом, одеждой, комфортными местами отдыха и приема пищи во время смены;
• обеспечить комфортный график работы без превышения допустимого уровня переработок, чтобы сотрудники выполняли свои задачи качественно;
• установить четкие критерии оценки успешной работы каждого сотрудника и регулярно отслеживать их выполнение.
Сотрудник в созданных ему условиях должен:
• четко знать свои должностные обязанности и полностью выполнять их;
• знать перечень систем, за которые он отвечает, и принципы работы оборудования этих систем;
• знать относящиеся к его сфере деятельности инструкции, процедуры и другие документы;
• неукоснительно следовать инструкциям и процедурам в повседневной деятельности;
• принимать меры по устранению аварийных ситуаций согласно введенным инструкциям и процедурам;
• поддерживать свои знания по документации и оборудованию в актуальном состоянии;
• уделять внимание самостоятельному образованию, повышению уровня знаний и расширению профессионального кругозора.
Необходимая численность персонала ЦОД
Как вы знаете, ЦОД бывают разные: отличающиеся по своим размерам, задачам, требуемым SLA и пр.; следовательно, не существует универсальной формулы для определения численности и состава сотрудников, в каждом случае требуется индивидуальный подход. Тем не менее при формировании команды следует руководствоваться описываемыми ниже принципами.
Достаточность персонала в первую очередь определяется действующими нормами (он не может быть меньше определенной численности), а во-вторых, требованиями различных стандартов, которым предполагается соответствовать. Важно понимать, что у большого количества дежурного персонала и руководителей, занимающихся эксплуатацией, в должностной инструкции (ДИ) может не быть явного указания на системы, за которые они отвечают. В итоге с формальной точки зрения аудитора и проверяющих органов (например, Ростехнадзора) за эти системы никто не отвечает. То есть необходимо распределить и записать все критические системы в ДИ ответственным сотрудникам и их заместителям.
Далее, нужно руководствоваться следующим принципом: для каждой критической системы должны быть определены ответственный за нее руководитель и оперативный персонал.
Один руководитель может отвечать за несколько систем, но у каждого ответственного сотрудника должен быть его дублер, способный выполнить те же обязанности.
Например: главный энергетик, отвечающий за ДГУ, уходит в отпуск, и его замещает другой сотрудник. Это может быть как компетентный руководитель другого направления того же уровня, так и, например, старший электрик, работающий в дневном графике. Такое замещение должно быть записано в ДИ заместителя и отражено в соответствующей схеме заместителей по всем направлениям службы эксплуатации ЦОД.
Чтобы это замещение было максимально эффективным, вам потребуется универсальная система документации (которая будет описана ниже), позволяющая максимально упростить процесс замещения сотрудника, не оставляя без внимания вопросы предварительной подготовки, аттестации знаний и пр.
При определении оптимальной численности персонала необходимо учесть следующие важные моменты:
• Соблюдение численности персонала, требуемой нормами, – это необходимый минимум.
• Достаточность персонала для обеспечения операционной устойчивости – желательный оптимум.
• Нельзя допустить раздувания штата сотрудников и наличия работников, не имеющих постоянных задач большую часть рабочего времени.
• Нужно исключить превышение допустимого уровня переработок. Трудовой кодекс РФ ограничивает допустимый уровень переработки 120 часами в год, а Uptime Institute допускает объем переработок, не превышающий 10 % основного рабочего времени.
Аутсорсинг эксплуатации
Аутсорсинг сейчас очень популярен, и некоторые руководители хотят применить его во всех возможных плоскостях. Следует сразу пояснить, о каком именно аутсорсинге идет речь у нас. Задачу выбора модели технического обслуживания оборудования (Concept of Maintenance) часто путают с моделью эксплуатации (Сoncept of Operations). В первом случае речь идет о функции сервис-инженера, а во втором – о функции дежурного инженера, и это две принципиально разные задачи. Действующая служба эксплуатации ЦОД находится на стыке между ними. Вопрос о выборе концепции технического обслуживания подробно рассмотрен в соответствующей главе.
Uptime Institute уделяет очень большое внимание вопросу выбора между своим персоналом и внешним, наемным исполнителем при построении службы эксплуатации ЦОД; в обучающих материалах этому посвящена целая глава. По факту для территории РФ такой подход не слишком актуален, так как подобных сервисов аутсорсинга очень немного. Все примеры использования внешнего персонала в качестве службы эксплуатации ЦОД – это исключительно аутстаффинг, когда по разным причинам в штате организации – владельца ЦОД нет места для инженерных служб.
Рассмотрим этот вопрос более детально на примере аутсорсинга служб эксплуатации, охраны, уборки ЦОД.
Вспомним основные плюсы аутсорсинга:
• быстрое предоставление персонала требуемой квалификации;
• опыт работы (что актуально при выборе модели эксплуатации с самого начала работы ЦОД);
• легкая замена сотрудника по любой причине, ведь он не у вас в штате, и все проблемы с его увольнением ложатся на компанию, предоставляющую услуги аутсорсинга;
• отсутствие необходимости получать лицензию (например, лицензию частного охранника).
Эти плюсы отлично оправдываются в классических аутсорс-задачах – охране и клининге, а также в службах эксплуатации бизнес-центров, где нет высоких требований к надежности и квалификации персонала (в результате чего, впрочем, на таких объектах существует видимая даже сторонним взглядом неразбериха).
С эксплуатацией критического объекта ЦОД вопрос сложнее:
• Квалификация сотрудника должна быть не на уровне «электрик для замены ламп», а на уровне «электрик для эксплуатации ИБП и ДГУ». Согласитесь, это разные уровни сложности.
• Необходима не только высокая квалификация сотрудника, но и прохождение всех процедур обучения на технологически сложном объекте. В итоге сотрудник не может приступить к работе немедленно, и плюс аутсорсинга относительно опыта работы тут неприменим. Требуется длительное вводное обучение нового, пусть даже и опытного сотрудника. Он должен понять логику документации, узнать проект, запомнить принципы работы ЦОД и его топологию.
• Как было сказано выше, квалификация дежурного персонала и его подготовка на конкретном объекте является ключевым фактором надежности ЦОД. Стоит ли отдавать эту роль в чужие руки? Даже возложив ответственность за отключение клиентов на аутсоринг-компанию, как вы исключите репутационные риски?
• После того как вы нашли сотрудника с требуемой квалификацией и потратили время (примерно месяц) на обучение этого сотрудника, радоваться опции его легкой замены – не лучшая идея. Если сотрудник вам не подходит, он должен быть отсеян на стадии обучения и испытательного срока. Даже если подготовка будет происходить на стороне подрядчика – в любом случае это длительный процесс.
• Лицензирования функций службы эксплуатации не предусмотрено, за исключением допусков Ростехнадзора к работе в электроустановках и лифтах, так что это преимущество аутсорсинга также незначимо.
В результате, на наш взгляд, именно в случае со службой эксплуатации ЦОД плюсы аутсорсинга не работают, а минусы, наоборот, сильно проявляются. Косвенным подтверждением этого является очень малое число примеров на рынке.
Теоретически, конечно, такие службы могут быть применены для однотипных проектов ЦОД – модульных решений или стандартных ЦОД гиперскейлеров с одинаковыми наборами оборудования, – но в любом случае это требует значительной подготовки.
Что можно порекомендовать, если хочется воспользоваться внешними услугами при построении службы эксплуатации? Найти консультантов с большим опытом в эксплуатации и получить внешние услуги, по которым вы составите эффективную оргструктуру. Вам покажут, какая документация должна быть на объекте и в каком объеме, как подойти к обучению персонала; тогда вам не придется тратить годы на постижение всего этого на собственном опыте. Это особенно актуально, если вы планируете сертифицировать вашу службу эксплуатации.
Состав службы эксплуатации ЦОД
В этом разделе мы рассмотрим состав службы эксплуатации ЦОД, который можно условно разделить на три типа: технические руководители, дежурные инженеры и технические эксперты. Изучим подробнее каждую из этих категорий.
Технические руководители ЦОД
Классические роли руководителей ЦОД
Технический директор / руководитель ЦОД, менеджер дата-центра – отвечает за все процессы по организации эксплуатации и поддержанию высокого уровня качества предоставления услуг клиентам ЦОД на данной площадке. Также он может отвечать за службы охраны и поддержки клиентов. Этими службами удобно управлять из одной точки, так как они тесно взаимосвязаны на объекте и постоянно взаимодействуют по различным процедурным вопросам.