3.8. Исправление отказавших служб

Кластер переводит службу в состояние Сбой (Failed), если он не смог запустить службу ни на одном из узлов, а затем не смог корректно её остановить. Состояние Сбой (Failed) может возникать по разным причинам, например, в результате неверных настроек работающей службы, а также при отказе или повисании службы. В программе Состояние кластера (Cluster Status Tool) эта служба отображается с признаком Сбой (Failed).

Рисунок 3-2. Служба в состоянии Сбой (Failed)

ЗамечаниеЗамечание
 

Вы должны отключить службу в состоянии Сбой (Failed), прежде чем вы сможете изменять её параметры или включить её снова.

Будьте осторожны при обращении с отказавшими службами. Если ресурсы службы по-прежнему принадлежат одному узлу, запуск службы на другом узле может привести к серьезным проблемам. Например, если файловая система останется смонтированной на одном узле кластера, и вы запустите службу на другом, файловая система будет подключена к двум узлам одновременно, что приведёт к разрушению данных. Если при включении службы происходит сбой, служба остаётся в режиме Отключён (Disabled).

Выделив службу и нажав Отключить (Disable), вы можете попытаться исправить проблему, вызвавшую состояние Сбой (Failed). Если вы измените параметры службы, программное обеспечение кластера включает службу на узле-владельце, если это возможно; в противном случае, служба остаётся в режиме Отключён (Disabled). Ниже приведён подробный список действий, которые следует выполнить в случае отказа службы:

  1. Настройте в протоколировании событий кластера генерацию отладочных сообщений. Изучение журналов может помочь определить область возникновения проблемы. За дополнительной информацией обратитесь к разделу 7.6 Настройка протоколирования событий кластера.

  2. С помощью программы Состояние кластера (Cluster Status Tool) попытайтесь включить или отключить службу на одном из узлов кластера или домена переноса. За дополнительной информацией обратитесь к разделу 3.3 Отключение службы и разделу 3.4 Включение службы.

  3. Если служба не запускается и не останавливается на этом узле, изучите файл журнала /var/log/messages и (если журнал ведётся в отдельном файле) /var/log/cluster, определите и решите проблему. Возможно вам понадобится изменить настройки службы для исправления неверной информации в файле конфигурации кластера (например, неверного сценария запуска) или выполнить вручную некоторые действия на узле, владеющем службой (например, отключить файловые системы).

  4. Повторите попытки включить или отключить службу на этом узле. Если и эти попытки решить проблему и включить или отключить службу оканчиваются неудачей, перезапустите этот узел.

  5. Если вы по-прежнему не можете запустить службу, проверьте, запускается ли эта служба вручную вне кластерного окружения. Например, вы можете вручную подключить файловые системы и выполнить сценарий запуска службы.