Правила эксплуатации инженерных инфраструктур ЦОД
Для обеспечения бесперебойной и надежной работы всех компонентов и служб ЦОД используется специальная система. Инженерная инфраструктура обеспечивает стабильное функционирование хранилищ дата-центров и серверов. Чтобы все ее подразделения и подсистемы оставались в работоспособном состоянии, необходимо проводить диагностические и профилактические мероприятия. Правильная профилактика – это, в первую очередь, соблюдение правил эксплуатации инженерных подсистем.
Самые частые проблемы происходят и выявляются:
- при работе с оборудованием – установка ОС, замена компонентов и т.д.;
- при подключении и/или наладке коммутатора КВМ;
- при перезагрузке, подсоединении, а также монтаже/демонтаже оборудования;
- во время работ по СКС;
- при нанесении маркировки;
- в процессе визуального осмотра и мониторинга (по запросу);
- при предоставлении сведений об оборудовании клиенту.
Для стабильной работы ЦОД и всех его компонентов необходимо регулярно выполнять сервисное обслуживание, что гарантирует его бесперебойную эксплуатацию. Для каждой системы выполняются различные задачи:
- У ДГУ, ИБП проверяется время реакции на аварийную ситуацию (не более 4 часов в режиме 24/7) и гарантия обеспечения бесперебойной энергией;
- Для систем кондиционирования – достижение и подтверждение отказоустойчивости, максимально допустимый простой ЦОД должен быть максимум 20 мин в год;
- В системах автоматического тушения пожаров работоспособность должна быть восстановлена максимум за 4 часа;
- В системах контроля и управления доступом/видеонаблюдения меняют вышедшие из строя запасные части (ЗИП);
- Для систем кабелей связи и коммутационного оборудования проводят регулярное ежемесячное обслуживание подсистем согласно регламенту;
- При сервисе выделенной электросети выполняют работы по созданию, поддержанию комплекта документов обслуживаемой системы и ее описаний в надлежащем состоянии;
- У систем мониторинга окружающей среды и параметров электроэнергии, потребляемых сервисными помещениями, контролируется работа горячей линии, которая должна функционировать 24/7;
- В серверных помещениях меняют лампочки, проверяют кондиционеры, настраивают системы мониторинга;
- В фальшполе серверных тестируется доступ к системе, регистрирующей запросы;
- Выполняются вспомогательные работы, чтобы гарантировать бесперебойность и постоянную доступность ресурсов;
- При заправке дизельных генераторных установок топливом осуществляют экспертизу, которая докажет эффективность инженерной системы.
В руководстве по эксплуатации ЦОД указан так называемый ежегодный процент гарантированной доступности инженерной инфраструктуры ЦОД, который должен быть минимум 99,95% в год. Требование к такому проценту доступности обусловлено предполагаемым размером ущерба в случае остановки сервисов, которые предоставляются ЦОД. Для обеспечения такого процента инженерных систем необходимо создать две дежурные смены:
- первая – непосредственно на площадке;
- вторая – коллектив инженеров, которые при необходимости будут на объекте в течение часа.
При этом состав персонала, обслуживающего ЦОД, минимален, стандартно он состоит из:
- системного администратора для отслеживания правильности работы серверов, ПО, систем хранения данных СХД и другой ИТ-инфраструктуры;
- инженера-механика, который следит за системами вентиляции, отопления, кондиционирования, канализации, водоснабжения;
- инженера-электрика для проверки освещения, электрощитового оборудования и обеспечения бесперебойного электроснабжения (ИБП, ДГУ).
На объекте всегда находится дежурная смена, в обязанности которой входит:
- отслеживать параметры состояния ЦОД и инженерной системы, ориентируясь на показания систем мониторинга;
- каждые 2 часа выполнять обход и осмотр обслуживаемой инфраструктуры;
- в течение максимум 5 минут после фиксирования отказа оборудования проверить, что осуществлен автоматический ввод резерва либо вручную включить резервное оборудование;
- максимум через 30 минут с того момента, как была зарегистрирована авария инженерного оборудования ЦОД, определить какое устройство вышло из строя, выяснить причину сбоя и устранить ее либо вызвать вторую дежурную смену;
- записать все выполненные действия и фактические параметры оборудования.
Запасные части, инструменты и принадлежности (ЗИП) приобретают под конкретный проект и регулярно проводят его обслуживание согласно регламенту.
Уровень оказываемых услуг по сервисному обслуживанию может быть различным в зависимости от степени критичности простоя инженерной инфраструктуры и эксплуатации ЦОД:
- Если критичность простоя невысокая и предусмотрены компоненты резервирования инфраструктуры (N + 1, 2(N + 1)), обслуживание и проведение регламентных работ возможны и после выхода оборудования из строя.
- При высокой степени критичности простоя необходимо постоянное выполнение сервисного обслуживания инженерной инфраструктуры ЦОД специалистами высокой квалификации, у которых есть опыт в обслуживании и эксплуатации подобных объектов.
Профилактические работы на отельных инженерных подсистемах должны проводиться с заданной периодичностью. Частота, с которой необходимо выполнять диагностику тех или иных сегментов, связана с интенсивностью их использования и функциональной значимостью. Например, систему кондиционирования и охлаждения нужно регулярно чистить, осматривать внешние и внутренние блоки, контролировать уровень давления охладителя.
Периодические сервисные работы
Выполнять профилактические осмотры и диагностические мероприятия необходимо согласно установленному графику, который соответствует ежегодному расписанию. Расписание – это официальный документ, который должен быть утвержден руководителем дата-центра, в нем указывается список работ, которые необходимо выполнять, месяцы проведения этих работ и время, в течение которого они должны проводиться.
Ремонт и диагностика дата-центров с высоким уровнем гарантии бесперебойности работы либо крупных ЦОД проводится таким образом, чтобы действующее оборудование не прекращало работу. Остановка в работе серверов и СХД может привести к сбоям, потому даже минутная остановка приведет к крайне негативным последствиям. К диагностике и ремонту ЦОД высших уровней применяются более жесткие стандарты. Соблюдение правил эксплуатации гарантирует долгий срок пригодности оборудования и подсистем. Если диагностика была проведена верно и профессионально, то вероятность сбоев и аварий, разнообразных проблем в сети исключены либо максимально минимизированы.
Дата-центры всех четырех уровней обслуживаются согласно собственному расписанию, разработанному для ЦОД каждого уровня. График должен быть согласован с типовой схемой регламентных профилактических мероприятий.
Перечень регламентных и профилактических работ
Инженеры ЦОД обязаны каждый месяц выполнять утвержденные регламентные процедуры:
- осматривать и очищать механические системы от грязи, смазывать металлические дверные доводчики, замки, петли, клапаны и приводы систем дымоудаления, элементов СКУД;
- осматривать и очищать от любых загрязнений электронные элементы;
- тестировать работоспособность электронных компонентов, проверять розетки;
- осматривать и сверять показатели манометров у баллонов для тушения пожаров;
- проводить сверку показаний манометра со значениями по техпаспорту в соответствии с требованиями пожарной безопасности;
- запускать дизельный генератор на короткое время с тестовой внешней нагрузкой;
- каждые 2 месяца ежегодно осматривать систему защиты от протечек, чистить датчики, тестировать систему, имитируя утечку.
Каждые 3 месяца необходимо проводить профилактику не только оборудования, но и самих помещений центров. Специалисты должны:
- осматривать электросхемы люков забора воздуха и дымоудаления;
- проверять систему газового тушения пожаров и работоспособность сигнализации о пожаре;
- контролировать состояние датчиков, предупреждающих о пожарах;
- осматривать полы, чтобы не было расхождений между плитами, расшатанных опор и других отклонения от норм;
- проводить диагностику основной/резервной системы энергоснабжения, системы вентиляции ИБП и контроллера, чтобы обнаружить вероятные повреждения, определить уровень заряда батарей;
- проверять компоненты СКУД, рабочие станции оператора, системы видеонаблюдения;
- очищать от загрязнений считывающие устройства и экраны камер;
- архивировать данные, зафиксированные системой видеонаблюдения.
Дважды в год проводят определенный перечень сервисных процедур, которые позволяют выявить сбои в подсистемах:
- проверяют состояние электросети;
- сверяют показания датчиков, показывающих параметры влажности и температуру, у кондиционеров, сравнивают их с теми, что указаны в базовых настройках;
- затягивают болтовые соединения на шине заземления;
- фиксируют показатели сопротивления.
Каждый год необходимо тестировать и проверять выборочные инженерные подсистемы для профилактики, чтобы вовремя определить вероятные сбои в них. Проверяют:
- АКБ и ИБП, при этом батареи не должны быть разряжены, а оборудование не должно отключаться;
- энергоснабжение, основную и резервную дизель-генераторной установку, их способность автоматически включаться;
- системы пожарной сигнализации, для чего меняют противогазы, которые более не пригодны к использованию, СИЗЫ с истекшим сроком годности.
Состояние внутренней ИТ-инфраструктуры, серверов и других составляющих ЦОД напрямую влияет на работоспособность и производительность всего вычислительного комплекса. Поддерживать их в надлежащем состоянии должны опытные специалисты.
Сколько стоит эксплуатация ЦОД
Для примера возьмем ЦОД на 10-20 стоек с высоким уровнем отказоустойчивости, потому дежурная смена должна работать круглосуточно, сервисное обслуживание проводиться регулярно, все это требует затрат. Фонд оплаты труда (ФОТ) выделяет средства на основные затраты, на оплату службам эксплуатации и подрядным организациям. Зарплату дежурной смены выплачивает либо сам Заказчик (владелец ЦОД), либо сервисная компания, которая его обслуживает.
Сервисное обслуживание, выполняемое специализированной подрядной организацией, в данном случае – это определенный перечень операций, который утвержден регламентов производителя оборудования. Подрядчики выполняют сервисное обслуживание в том случае, если у службы эксплуатации самого ЦОД нет специалистов с надлежащими компетенциями и сертификатом на его проведение. Например, работы с дизель-генераторной установкой ДГУ, так как требуется помощь квалифицированного специалиста, который будет проверять генератор, фильтры, работу статора, приводного ремня. А чтобы проверить системы кондиционирования и кондиционеры, потребуются сервисные пароли, которые производители зачастую нигде не указывают.
Практика показывает, что в целом цена обслуживания дата-центра на 10-20 стоек может быть более 3 млн ежегодно плюс расходы на обучение персонала, их сертификацию, закупку инструментов. При этом цена на услуги аутсорсинга, как правило, гораздо меньше. Самостоятельно использовать и обслуживать ЦОД на 10-20 стоек проблематично и затратно с точки зрения финансов, потому лучше привлечь специализированные организации.