Диагностика и решение проблем в кластере

Для выполнения в кластере диагностики проблем, необходимо включить протоколирование событий. Кроме этого, если в кластере возникли проблемы, установите уровень важности событий кластерных демонов debug (отладка). При этом в журнал будут записываться подробные сообщения, которые помогут решить проблемы. После разрешения проблем верните уровень важности отслеживаемых сообщений к первоначальному значению info, чтобы избежать излишнего роста файлов журналов.

Если проблемы возникают во время работы программы cluadmin (например, проблемы при включении службы), установите для уровня важности событий демона clusvcmgrd значение debug. При этом во время работы программы cluadmin на экране будут появляться отладочные сообщения. Обратитесь к разделу Настройка протоколирования событий кластера за дополнительной информацией.

Используйте для решения проблем в кластере таблицу 8-5.

Таблица 8-5. Диагностика и решение проблем в кластере

ПроблемаПризнакРешение
SCSI-шина не окончена терминаторамиВ файле журнала появляются ошибки SCSI

К каждой шине SCSI должны быть подключены терминаторы, причем только в начале и конце. В зависимости от конфигурации шины, может потребоваться включить или выключить терминаторы на хост-адаптерах шины, RAID-контроллерах или внешних хранилищах. Горячая замена устройств поддерживается только при внешних терминаторах SCSI шины.
Кроме этого, убедитесь в том, что к SCSI шине не подключены устройства с окончанием длиннее 0.1 метра.
Обратитесь к разделу Настройка общего дискового хранилища в Главе 2 и разделу Терминаторы шины SCSI в приложении A за информацией об использовании терминаторов в различных типах шин SCSI.

Длина шины SCSI превышает допустимые пределыВ файле журнала появляются ошибки SCSI

Каждый тип шины SCSI имеет определенные ограничения длины шины, как описано в разделе Длина шины SCSI в Приложении A.
Кроме этого, убедитесь в том, что к шине LVD SCSI не подключены линейные (single-ended) устройства, так тогда вся шина станет линейной, при этом на длину накладывается больше ограничений, чем для дифференциальной шины.

Идентификационные номера SCSI не уникальныВ файле журнала появляются ошибки SCSIКаждое устройство на шине SCSI должно иметь уникальный идентификационный номер. Обратитесь к разделу Идентификационные номера SCSI в приложении A за дополнительной информацией.
Таймаут команд SCSI до окончания их выполненияВ файле журнала появляются ошибки SCSI

Использование на SCSI шине схемы арбитража с приоритетами может привести к блокировке устройств с низким приоритетом на некоторой промежуток времени. При этом могут происходить таймауты команд, если устройство хранения с низким приоритетом, например диск, не смог выиграть арбитраж и завершить выполнение запроса, заданного хост-адаптером. В некоторых случаях эту проблему можно решить, назначив идентификационные номера SCSI с более низким приоритетом хост-адаптерам шины.
Обратитесь к разделу Идентификационные номера SCSI в приложении A за дополнительной информацией.

Задействованный кворумный разделВ файле протокола появляются сообщения об ошибках контрольной суммы на кворумном разделе.

Убедитесь в том, что неформатированные устройства кворумных разделов используются для хранения только состояния кластера. Они не должны содержать файловую систему и использоваться для кластерных служб или применяться за рамками кластера. Обратитесь к разделу Настройка кворумных разделов в главе 2 за дополнительной информацией.
Эти сообщения могут также говорить о том, что специальный файл блочного устройства кворумного раздела был ошибочно использован не службами кластера.

Файловая система службы в подозрительном состоянииОтключенная служба не может быть включена

Вручную запустите программу проверки файловой системы, например fsck. Затем включите службу.
Обратите внимание, инфраструктура кластера по умолчанию запускает программу fsck с параметром -p для автоматического исправления ошибок файловой системы. В случае критических ошибок для исправления файловой системы вам может понадобиться вручную задать дополнительные параметры.

Кворумные разделы не настроены правильноВ файле протокола появляются сообщения об ошибках при обращении к кворумному разделу.

Выполните команду cludiskutil -t для проверки доступности кворумных разделов. Если эта команда завершилась успешно, выполните в каждой кластерной системе команду cludiskutil -p. Если выводимые данные отличаются в разных кворумных системах, это означает, что кворумные разделы указывают на разные устройства. Убедитесь в том, что неформатированные устройства определены и правильно указаны в файле /etc/sysconfig/rawdevices. Обратитесь к разделу Настройка кворумных разделов в главе 2 за дополнительной информацией.
Эти сообщения могут также говорить о том, что на предложение инициализировать кворумные разделы не был дан положительный ответ yes при настройке кластера в утилите cluconfig. Для решения этой проблемы запустите эту утилиту снова.

Сбой в работе кластерной службы Сообщения, говорящие о сбое в работе, появляются на консоли или в файле протокола.Сбой в работе службы может произойти по разным причинам (например, при остановке или запуске службы). Чтобы определить источник проблемы, установите уровень важности кластерных демонов debug для отслеживания подробных сообщений. Затем повторите действия, вызывающие сбой, и просмотрите файл протокола. Обратитесь к разделу Настройка протоколирования событий кластера за дополнительной информацией.
Происходит сбой при остановке кластерной службы, так как файловая система не может быть отключена.Сообщения, говорящие о сбое в работе, появляются на консоли или в файле протокола.

Выполните команды fuser и ps для определения процессов, использующих файловую систему. Выполните команду kill для завершения этих процессов. Выполните команду lsof -t file_system для просмотра идентификационных номеров процессов, использующих указанную файловую систему. Если нужно, перенаправьте вывод этой команды на ввод команды kill.
Чтобы избежать этой проблемы, убедитесь в том, что только связанные с кластером процессы могут обращаться к общему хранилищу данных. Кроме этого, вы можете изменить настройки службы и разрешить принудительное отключение файловой системы. При этом кластерная служба сможет отключить файловую систему, даже если она используется приложением или пользователем.

Некорректная запись в базе данных кластера.Работа кластера нарушенаС помощью утилиты cluadmin можно просмотреть и изменить конфигурацию службы. Помимо этого, утилита cluconfig применяется для изменения параметров кластера.
Ошибочная запись о пульсирующем канале Ethernet в базе данных кластера или файле /etc/hostsВ состоянии кластера указывается, что пульсирующий Ethernet канал ОТКЛЮЧЕН, хотя соответствующий интерфейс исправен

Просмотрев и изменив конфигурацию кластера, с помощью утилиты cluconfig, как описано в разделе Изменение конфигурации кластера, решите проблему.
Кроме этого, с помощью команды ping проверьте работоспособность всех сетевых интерфейсов, используемых в кластере.

Потеряно соединение с переключателем питанияПереключатель питания находится в состоянии Timeout (Таймаут)Проверьте подключение кабеля к последовательному порту.
Последовательный порт переключателя питания неверно указан в базе данных кластераСостояние переключателя питания говорит о проблемеПросмотрев и изменив конфигурацию кластера, с помощью утилиты cluconfig, как описано в разделе Изменение конфигурации кластера, решите проблему.
Проблемы с пульсирующим каналомПульсирующий канал находится в состоянии OFFLINE (ОТКЛЮЧЕН)

Просмотрев и изменив конфигурацию кластера, с помощью утилиты cluconfig, как описано в разделе Изменение конфигурации кластера, решите проблему.
Убедитесь в том, что для соединения пульсирующего канала используется подходящий кабель.
Выполните команду ping для сетевого интерфейса каждой кластерной системы, организующего пульсирующий канал Ethernet.