Процесс снятия снимка состояния виртуальной машины замер на 89%, что делать?

Произошла неудачная попытка резервного копирования. Попытка снять снимок состояния (снапшот) программой резервного копирования застряла на 89% и в таком состоянии пробыла более восьми часов. После прерывания этого процесса машина перестала загружаться. Машина была не критична для деятельности компании.

В vCenter так же более восьми часов наблюдался процесс снятия снимка машины на 89%. Одновременно с этим был процесс SDRS на эту же машину. В программе резервного копирования тоже была задача копирования снимков виртуальных машин. Все эти процессы не прерывались стандартными методами и никак не реагировали.

Как починил:

  1. Включил SSH сервис на нужном гипервизоре. Подключился терминалом.
    •  Заходим в VSphere Client -> Host & Clusters:vsphere-1
    • Выбираем сервер, на котором находится проблемная виртуальная машина:vsphere-2
    • Заходим в конфигурацию сервера:vsphere-3
    • Выбираем сервис SSH:vsphere-4
    • Запускаем сервис SSH:vsphere-5
  2. Подключаемся терминальным клиентом, например putty, к серверу.
    • Выполняем команду:

      ps|grep vmx|grep <name>

      Где <name> – имя проблемной виртуальной машины (имя виртуальной машины чувствительно к регистру).

    • vsphere-6
    • Получаем вывод вида: 13154828 13089289 vmx-… Вторая цифра – ID основного процесса проблемной виртуальной машины.
  3. Выполняем команду: kill 13089289 Эта команда завершит процесс выполнения виртуальной машины.
    • Теперь все задачи перечисленные выше остановлены с ошибками. Значит можно разбираться с виртуальной машиной и последствиями сбоя.

В данном конкретном случае я решил восстановить виртуальную машины из прошлой работающей резервной копии.

Comments

comments