Comandos Básicos del Sistema de Colas usando Slurm

 

srun Lanza un job
Lanza un job interactivo
squeue Muestra el estatus de todos los jobs
scancel Cancela un job en ejecución o pendiente
Ejemplo: Cancela el trabajo con identificador 1221
scancel 1221
sinfo Informa el estado de las particiones y los nodos gestionados por SLURM. Cuenta con una amplia variedad de opciones de filtrado, clasificación y formato.
sacct Muestra los jobs en ejecución, los encolados y los bloqueados.
Se utiliza para reportar la información de las cuentas de jobs o pasos de jobs activos o completados.
sbatch Se utiliza para enviar un job por medio de un script para su ejecución. El script contendrá típicamente uno o más comandos srun para lanzar tareas paralelas.
salloc Se utiliza para asignar recursos a un job en tiempo real. Normalmente se utiliza para asignar recursos y generar un intérprete de comandos shell. Dicha terminal es utilizada entonces para ejecutar comandos srun para iniciar tareas en paralelo.
smap Reporta la información del estado de los job, particiones y nodos gestionados por SLURM, pero muestra gráficamente la información para reflejar la topología de red.
  Resumen de comandos Slurm

 

 

Información básica para el envío de tareas de cálculo en SLURM

Los siguientes son los comandos de información básica para que usuarios puedan ejecutar programas en SLURM:

Se requiere crear un archivo script con los detalles del cálculo y enviarlo al sistema de colas SLURM mediante la orden:

  • sbatch nombre_script
    donde nombre_script es el nombre del archivo creado.

Para monitorear los jobs en SLURM se realiza con el comando

  • squeue -u user_name
    donde user_name es el nombre de su cuenta de usuario.

Para monitorear todos los jobs corriendo en la supercomputadora

  • squeue

Para cancelar alguna tarea se hace con el comando

  • scancel job_id
    donde job_id es el identificador que aparece en la salida de squeue

Para conocer detalles sobre un job específico usar

  • scontrol show job job_id
    donde job_id es el identificador que aparece en la salida de squeue