Сервер потерял RAID: как действовать, чтобы не добить данные
Что делать при degraded, foreign config, failed disk и ошибках RAID-контроллера Dell, HP, Lenovo. Безопасный порядок действий для бизнеса.
Инженерная редакция РемФикс · проверено сервисной лабораторией · обновлено

Коротко
- ✓При сбое RAID нельзя хаотично переставлять диски, создавать новый массив или запускать rebuild без понимания состояния.
- ✓Сначала фиксируют порядок дисков, логи контроллера, модель сервера, уровень RAID и состояние каждого накопителя.
- ✓Ремонт сервера и восстановление данных — разные задачи, но они должны координироваться.
Можно не дочитывать — пришлите симптом инженеру
Опишите устройство в разговоре: ИБП, плату, сервер, медоборудование или косметологический аппарат. Достаточно имени и телефона.
Первая ошибка — паника и rebuild
Когда сервер показывает degraded или failed disk, хочется сразу заменить диск и нажать rebuild. Это правильно только если точно известно, какой диск отказал и остальные живы. Если в массиве уже есть второй деградирующий диск, rebuild может добить данные. Еще хуже — создать новый массив поверх старого: контроллер может перезаписать служебную информацию.
Что нужно зафиксировать сразу
До любых действий нужно записать порядок дисков в корзине, серийные номера, модель сервера, модель RAID-контроллера, уровень RAID, ошибки iDRAC/iLO/контроллера и последние события. Диски лучше промаркировать физически. Если сервер еще работает, срочно проверить резервные копии и не нагружать его лишними задачами.
Когда виноват не диск
RAID может сыпаться из-за батареи/кэша контроллера, прошивки, бэкплейна, блока питания, перегрева или плохого контакта корзины. Иногда диск исправен, но порт на бэкплейне теряет связь. Если заменить накопитель без диагностики, массив снова уйдет в ошибку. Поэтому вместе с данными смотрят железо сервера: питание, охлаждение, контроллер и корзину.
Как действовать, если данные важны
Если резервной копии нет или она сомнительна, приоритет — не ремонт сервера, а сохранение данных. В таком случае диски клонируют, анализируют конфигурацию массива и работают с копиями. Сервисный ремонт сервера выполняется после того, как понятен риск для данных. Для бизнеса это неприятнее по срокам, но безопаснее.
Что проверять после восстановления
После замены диска, контроллера или ремонта питания нужно проверить логи, SMART, rebuild, температуру, работу вентиляторов, состояние кэша и батареи RAID. Затем настраивается мониторинг уведомлений. RAID не является резервной копией: он помогает пережить отказ диска, но не защищает от удаления, шифрования, ошибки контроллера или пожара.
Заметка инженера
Если сервер потерял RAID и данные критичны, лучше остановиться на этапе фиксации состояния. Чем меньше импровизации, тем выше шанс восстановить систему.
Короткий чек-лист
- ✓не создавать новый RAID поверх старого массива
- ✓не переставлять диски без маркировки
- ✓сохранить логи контроллера и сервера
- ✓проверить актуальность резервной копии
- ✓при ценных данных сначала клонировать диски
Куда перейти дальше
Частые вопросы
RAID заменяет бэкап?
Нет. RAID снижает риск простоя при отказе диска, но не является резервной копией данных.
Можно ли чинить RAID-контроллер?
Часть отказов контроллера и питания ремонтопригодна, но приоритет зависит от состояния данных и массива.
Сервер Dell, HP или Lenovo показывает degraded RAID или foreign config? Привезите сервер или контроллер — начнем с безопасной диагностики.