7.10. Диагностика и решение проблем в кластере

Для выполнения в кластере диагностики проблем, необходимо включить протоколирование событий. Кроме этого, если в кластере возникли проблемы, установите для демонов кластера уровень важности DEBUG. При этом в журнал будут записываться подробные сообщения, которые помогут решить проблемы.

ЗамечаниеЗамечание
 

Разрешив возникшие проблемы, верните уровень важности отслеживаемых сообщений к первоначальному значению WARN, чтобы избежать излишнего роста файлов журналов. За дополнительной информацией обратитесь к разделу 7.6 Настройка протоколирования событий кластера.

Используйте для решения проблем в кластере таблицу 7-3.

ПроблемаПризнакРешение
SCSI-шина не окончена терминаторамиВ файле журнала появляются ошибки SCSI

К каждой шине SCSI должны быть подключены терминаторы, причем только в начале и конце. В зависимости от конфигурации шины, может потребоваться включить или выключить терминаторы на хост-адаптерах шины, RAID-контроллерах или внешних хранилищах. Горячая замена устройств поддерживается только при внешних терминаторах SCSI шины.
Кроме этого, убедитесь в том, что к SCSI шине не подключены устройства с окончанием длиннее 0.1 метра.
Информацию об установке терминаторов на шинах SCSI различных типов вы найдёте в разделе 1.4.4 Настройка общего дискового хранилища и разделе B.3 Терминаторы шины SCSI.

Длина шины SCSI превышает допустимые пределыВ файле журнала появляются ошибки SCSI

Каждый тип шины SCSI имеет определённые ограничения длины шины, как описано в разделе B.4 Длина шины SCSI.
Кроме этого, убедитесь в том, что к шине LVD SCSI не подключены линейные (single-ended) устройства, так как тогда вся шина становится линейной, и на её длину накладываются более строгие ограничения, чем у дифференциальной шины.

Идентификационные номера SCSI не уникальныВ файле журнала появляются ошибки SCSIКаждое устройство на шине SCSI должно иметь уникальный идентификационный номер. За дополнительной информацией обратитесь к разделу B.5 Идентификационные номера SCSI.
Таймаут команд SCSI до окончания их выполненияВ файле журнала появляются ошибки SCSI

Использование на SCSI шине схемы арбитража с приоритетами может привести к блокировке устройств с низким приоритетом на некоторой промежуток времени. При этом могут происходить таймауты команд, если устройство хранения с низким приоритетом, например диск, не сможет выиграть арбитраж и завершить выполнение запроса, заданного хост-адаптером. В некоторых случаях эту проблему можно решить, назначив идентификационные номера SCSI с более низким приоритетом хост-адаптерам шины.
За дополнительной информацией обратитесь к разделу B.5 Идентификационные номера SCSI.

Подключенный кворумный разделВ файле протокола появляются сообщения об ошибках контрольной суммы на кворумном разделе.

Убедитесь в том, что неформатированные устройства кворумных разделов используются для хранения только состояния кластера. Они не должны содержать файловую систему и использоваться для кластерных служб или применяться за рамками кластера. Обратитесь к разделу 1.4.4.3 Настройка общих разделов кластера за дополнительной информацией.
Эти сообщения могут также говорить о том, что специальный файл блочного устройства кворумного раздела был ошибочно использован не службами кластера.

Файловая система службы в подозрительном состоянииОтключенная служба не может быть включена

Вручную запустите программу проверки файловой системы, например fsck. Затем включите службу.
Обратите внимание, инфраструктура кластера по умолчанию запускает программу fsck с параметром -p для автоматического исправления ошибок файловой системы. В случае критических ошибок для исправления файловой системы вам может понадобиться вручную задать дополнительные параметры.

Кворумные разделы не настроены правильноВ файле протокола появляются сообщения об ошибках при обращении к кворумному разделу.Выполните команду /sbin/shutil -t для проверки доступности кворумных разделов. Если эта команда завершилась успешно, выполните в каждой кластерной системе команду shutil -p. Если выводимые данные отличаются в разных кворумных системах, это означает, что кворумные разделы указывают на разные устройства. Убедитесь в том, что неформатированные устройства определены и правильно указаны в файле /etc/sysconfig/rawdevices. Обратитесь к разделу 1.4.4.3 Настройка общих разделов кластера за дополнительной информацией.
Сбой в работе кластерной службы Сообщения, говорящие о сбое в работе, появляются на консоли или в файле протокола.Сбой в работе службы может произойти по разным причинам (например, при остановке или запуске службы). Чтобы определить источник проблемы, установите для демонов кластера уровень важности DEBUG для отслеживания подробных сообщений. Затем повторите действия, вызывающие сбой, и просмотрите файл протокола. За дополнительной информацией обратитесь к разделу 7.6 Настройка протоколирования событий кластера.
Происходит сбой при остановке кластерной службы, так как файловая система не может быть отключена.Сообщения, говорящие о сбое в работе, появляются на консоли или в файле протокола.

Выполните команды fuser и ps для определения процессов, использующих файловую систему. Выполните команду kill для завершения этих процессов. Выполните команду lsof -t file_system для просмотра идентификационных номеров процессов, использующих указанную файловую систему. Если нужно, перенаправьте вывод этой команды на ввод команды kill.
Чтобы избежать этой проблемы, убедитесь в том, что только связанные с кластером процессы могут обращаться к общему хранилищу данных. Кроме этого, вы можете изменить настройки службы и разрешить принудительное отключение файловой системы. При этом кластерная служба сможет отключить файловую систему, даже если она используется приложением или пользователем.

Некорректная запись в базе данных кластера.Работа кластера нарушенаС помощью программы Состояние кластера (Cluster Status Tool) можно просмотреть и изменить конфигурацию службы. Для изменения параметров кластера используется Настройка кластера (Cluster Configuration Tool).
Ошибочная запись о пульсирующем канале Ethernet в базе данных кластера или файле /etc/hostsВ состоянии кластера указывается, что пульсирующий Ethernet канал в состоянии OFFLINE, хотя соответствующий интерфейс исправен

Просмотрев и изменив конфигурацию кластера с помощью программы Настройка кластера (Cluster Configuration Tool), как описано в разделе 7.4 Изменение конфигурации кластера, разрешите проблему.
Кроме этого, с помощью команды ping проверьте работоспособность всех сетевых интерфейсов, используемых в кластере.

Потеряно соединение с переключателем питанияПри попытке получить состояние переключателя питания с помощью clufence происходит ошибка или повисаниеПроверьте подключение кабеля к последовательному порту.
Последовательный порт переключателя питания неверно указан в базе данных кластераСостояние переключателя питания, возвращаемое clufence, выявляет проблемуПросмотрев текущие настройки и изменив конфигурацию кластера с помощью программы Настройка кластера (Cluster Configuration Tool), как описано в разделе 7.4 Изменение конфигурации кластера, разрешите проблему.

Таблица 7-3. Диагностика и решение проблем в кластере