Яндекс.Метрика
Каталог
Эксплуатация центров обработки данных

Эксплуатация центров обработки данных

Заказать звонок
Назад к списку

Правила эксплуатации инженерных инфраструктур ЦОД


Для обеспечения бесперебойной и надежной работы всех компонентов и служб ЦОД используется специальная система. Инженерная инфраструктура обеспечивает стабильное функционирование хранилищ дата-центров и серверов. Чтобы все ее подразделения и подсистемы оставались в работоспособном состоянии, необходимо проводить диагностические и профилактические мероприятия. Правильная профилактика – это, в первую очередь, соблюдение правил эксплуатации инженерных подсистем.

Самые частые проблемы происходят и выявляются:

  • при работе с оборудованием – установка ОС, замена компонентов и т.д.;
  • при подключении и/или наладке коммутатора КВМ;
  • при перезагрузке, подсоединении, а также монтаже/демонтаже оборудования;
  • во время работ по СКС;
  • при нанесении маркировки;
  • в процессе визуального осмотра и мониторинга (по запросу);
  • при предоставлении сведений об оборудовании клиенту.

Для стабильной работы ЦОД и всех его компонентов необходимо регулярно выполнять сервисное обслуживание, что гарантирует его бесперебойную эксплуатацию. Для каждой системы выполняются различные задачи:

  • У ДГУ, ИБП проверяется время реакции на аварийную ситуацию (не более 4 часов в режиме 24/7) и гарантия обеспечения бесперебойной энергией;
  • Для систем кондиционирования – достижение и подтверждение отказоустойчивости, максимально допустимый простой ЦОД должен быть максимум 20 мин в год;
  • В системах автоматического тушения пожаров работоспособность должна быть восстановлена максимум за 4 часа;
  • В системах контроля и управления доступом/видеонаблюдения меняют вышедшие из строя запасные части (ЗИП);
  • Для систем кабелей связи и коммутационного оборудования проводят регулярное ежемесячное обслуживание подсистем согласно регламенту;
  • При сервисе выделенной электросети выполняют работы по созданию, поддержанию комплекта документов обслуживаемой системы и ее описаний в надлежащем состоянии;
  • У систем мониторинга окружающей среды и параметров электроэнергии, потребляемых сервисными помещениями, контролируется работа горячей линии, которая должна функционировать 24/7;
  • В серверных помещениях меняют лампочки, проверяют кондиционеры, настраивают системы мониторинга;
  • В фальшполе серверных тестируется доступ к системе, регистрирующей запросы;
  • Выполняются вспомогательные работы, чтобы гарантировать бесперебойность и постоянную доступность ресурсов;
  • При заправке дизельных генераторных установок топливом осуществляют экспертизу, которая докажет эффективность инженерной системы.

В руководстве по эксплуатации ЦОД указан так называемый ежегодный процент гарантированной доступности инженерной инфраструктуры ЦОД, который должен быть минимум 99,95% в год. Требование к такому проценту доступности обусловлено предполагаемым размером ущерба в случае остановки сервисов, которые предоставляются ЦОД. Для обеспечения такого процента инженерных систем необходимо создать две дежурные смены:

  • первая – непосредственно на площадке;
  • вторая – коллектив инженеров, которые при необходимости будут на объекте в течение часа.

При этом состав персонала, обслуживающего ЦОД, минимален, стандартно он состоит из:

  • системного администратора для отслеживания правильности работы серверов, ПО, систем хранения данных СХД и другой ИТ-инфраструктуры;
  • инженера-механика, который следит за системами вентиляции, отопления, кондиционирования, канализации, водоснабжения;
  • инженера-электрика для проверки освещения, электрощитового оборудования и обеспечения бесперебойного электроснабжения (ИБП, ДГУ).

На объекте всегда находится дежурная смена, в обязанности которой входит:

  • отслеживать параметры состояния ЦОД и инженерной системы, ориентируясь на показания систем мониторинга;
  • каждые 2 часа выполнять обход и осмотр обслуживаемой инфраструктуры;
  • в течение максимум 5 минут после фиксирования отказа оборудования проверить, что осуществлен автоматический ввод резерва либо вручную включить резервное оборудование;
  • максимум через 30 минут с того момента, как была зарегистрирована авария инженерного оборудования ЦОД, определить какое устройство вышло из строя, выяснить причину сбоя и устранить ее либо вызвать вторую дежурную смену;
  • записать все выполненные действия и фактические параметры оборудования.

Запасные части, инструменты и принадлежности (ЗИП) приобретают под конкретный проект и регулярно проводят его обслуживание согласно регламенту.

Уровень оказываемых услуг по сервисному обслуживанию может быть различным в зависимости от степени критичности простоя инженерной инфраструктуры и эксплуатации ЦОД:

  • Если критичность простоя невысокая и предусмотрены компоненты резервирования инфраструктуры (N + 1, 2(N + 1)), обслуживание и проведение регламентных работ возможны и после выхода оборудования из строя.
  • При высокой степени критичности простоя необходимо постоянное выполнение сервисного обслуживания инженерной инфраструктуры ЦОД специалистами высокой квалификации, у которых есть опыт в обслуживании и эксплуатации подобных объектов.

Профилактические работы на отельных инженерных подсистемах должны проводиться с заданной периодичностью. Частота, с которой необходимо выполнять диагностику тех или иных сегментов, связана с интенсивностью их использования и функциональной значимостью. Например, систему кондиционирования и охлаждения нужно регулярно чистить, осматривать внешние и внутренние блоки, контролировать уровень давления охладителя.


Периодические сервисные работы


Выполнять профилактические осмотры и диагностические мероприятия необходимо согласно установленному графику, который соответствует ежегодному расписанию. Расписание – это официальный документ, который должен быть утвержден руководителем дата-центра, в нем указывается список работ, которые необходимо выполнять, месяцы проведения этих работ и время, в течение которого они должны проводиться.

Ремонт и диагностика дата-центров с высоким уровнем гарантии бесперебойности работы либо крупных ЦОД проводится таким образом, чтобы действующее оборудование не прекращало работу. Остановка в работе серверов и СХД может привести к сбоям, потому даже минутная остановка приведет к крайне негативным последствиям. К диагностике и ремонту ЦОД высших уровней применяются более жесткие стандарты. Соблюдение правил эксплуатации гарантирует долгий срок пригодности оборудования и подсистем. Если диагностика была проведена верно и профессионально, то вероятность сбоев и аварий, разнообразных проблем в сети исключены либо максимально минимизированы.

Дата-центры всех четырех уровней обслуживаются согласно собственному расписанию, разработанному для ЦОД каждого уровня. График должен быть согласован с типовой схемой регламентных профилактических мероприятий.


Перечень регламентных и профилактических работ


Инженеры ЦОД обязаны каждый месяц выполнять утвержденные регламентные процедуры:

  • осматривать и очищать механические системы от грязи, смазывать металлические дверные доводчики, замки, петли, клапаны и приводы систем дымоудаления, элементов СКУД;
  • осматривать и очищать от любых загрязнений электронные элементы;
  • тестировать работоспособность электронных компонентов, проверять розетки;
  • осматривать и сверять показатели манометров у баллонов для тушения пожаров;
  • проводить сверку показаний манометра со значениями по техпаспорту в соответствии с требованиями пожарной безопасности;
  • запускать дизельный генератор на короткое время с тестовой внешней нагрузкой;
  • каждые 2 месяца ежегодно осматривать систему защиты от протечек, чистить датчики, тестировать систему, имитируя утечку.

Каждые 3 месяца необходимо проводить профилактику не только оборудования, но и самих помещений центров. Специалисты должны:

  • осматривать электросхемы люков забора воздуха и дымоудаления;
  • проверять систему газового тушения пожаров и работоспособность сигнализации о пожаре;
  • контролировать состояние датчиков, предупреждающих о пожарах;
  • осматривать полы, чтобы не было расхождений между плитами, расшатанных опор и других отклонения от норм;
  • проводить диагностику основной/резервной системы энергоснабжения, системы вентиляции ИБП и контроллера, чтобы обнаружить вероятные повреждения, определить уровень заряда батарей;
  • проверять компоненты СКУД, рабочие станции оператора, системы видеонаблюдения;
  • очищать от загрязнений считывающие устройства и экраны камер;
  • архивировать данные, зафиксированные системой видеонаблюдения.

Дважды в год проводят определенный перечень сервисных процедур, которые позволяют выявить сбои в подсистемах:

  • проверяют состояние электросети;
  • сверяют показания датчиков, показывающих параметры влажности и температуру, у кондиционеров, сравнивают их с теми, что указаны в базовых настройках;
  • затягивают болтовые соединения на шине заземления;
  • фиксируют показатели сопротивления.

Каждый год необходимо тестировать и проверять выборочные инженерные подсистемы для профилактики, чтобы вовремя определить вероятные сбои в них. Проверяют:

  • АКБ и ИБП, при этом батареи не должны быть разряжены, а оборудование не должно отключаться;
  • энергоснабжение, основную и резервную дизель-генераторной установку, их способность автоматически включаться;
  • системы пожарной сигнализации, для чего меняют противогазы, которые более не пригодны к использованию, СИЗЫ с истекшим сроком годности.

Состояние внутренней ИТ-инфраструктуры, серверов и других составляющих ЦОД напрямую влияет на работоспособность и производительность всего вычислительного комплекса. Поддерживать их в надлежащем состоянии должны опытные специалисты.


Сколько стоит эксплуатация ЦОД


Для примера возьмем ЦОД на 10-20 стоек с высоким уровнем отказоустойчивости, потому дежурная смена должна работать круглосуточно, сервисное обслуживание проводиться регулярно, все это требует затрат. Фонд оплаты труда (ФОТ) выделяет средства на основные затраты, на оплату службам эксплуатации и подрядным организациям. Зарплату дежурной смены выплачивает либо сам Заказчик (владелец ЦОД), либо сервисная компания, которая его обслуживает.

Сервисное обслуживание, выполняемое специализированной подрядной организацией, в данном случае – это определенный перечень операций, который утвержден регламентов производителя оборудования. Подрядчики выполняют сервисное обслуживание в том случае, если у службы эксплуатации самого ЦОД нет специалистов с надлежащими компетенциями и сертификатом на его проведение. Например, работы с дизель-генераторной установкой ДГУ, так как требуется помощь квалифицированного специалиста, который будет проверять генератор, фильтры, работу статора, приводного ремня. А чтобы проверить системы кондиционирования и кондиционеры, потребуются сервисные пароли, которые производители зачастую нигде не указывают.

Практика показывает, что в целом цена обслуживания дата-центра на 10-20 стоек может быть более 3 млн ежегодно плюс расходы на обучение персонала, их сертификацию, закупку инструментов. При этом цена на услуги аутсорсинга, как правило, гораздо меньше. Самостоятельно использовать и обслуживать ЦОД на 10-20 стоек проблематично и затратно с точки зрения финансов, потому лучше привлечь специализированные организации.