Comandos Básicos del Sistema de Colas usando Slurm
srun | Lanza un job Lanza un job interactivo |
squeue | Muestra el estatus de todos los jobs |
scancel | Cancela un job en ejecución o pendiente Ejemplo: Cancela el trabajo con identificador 1221 scancel 1221 |
sinfo | Informa el estado de las particiones y los nodos gestionados por SLURM. Cuenta con una amplia variedad de opciones de filtrado, clasificación y formato. |
sacct | Muestra los jobs en ejecución, los encolados y los bloqueados. Se utiliza para reportar la información de las cuentas de jobs o pasos de jobs activos o completados. |
sbatch | Se utiliza para enviar un job por medio de un script para su ejecución. El script contendrá típicamente uno o más comandos srun para lanzar tareas paralelas. |
salloc | Se utiliza para asignar recursos a un job en tiempo real. Normalmente se utiliza para asignar recursos y generar un intérprete de comandos shell. Dicha terminal es utilizada entonces para ejecutar comandos srun para iniciar tareas en paralelo. |
smap | Reporta la información del estado de los job, particiones y nodos gestionados por SLURM, pero muestra gráficamente la información para reflejar la topología de red. |
Resumen de comandos Slurm |
Información básica para el envío de tareas de cálculo en SLURM
Los siguientes son los comandos de información básica para que usuarios puedan ejecutar programas en SLURM:
Se requiere crear un archivo script con los detalles del cálculo y enviarlo al sistema de colas SLURM mediante la orden:
- sbatch nombre_script
donde nombre_script es el nombre del archivo creado.
Para monitorear los jobs en SLURM se realiza con el comando
- squeue -u user_name
donde user_name es el nombre de su cuenta de usuario.
Para monitorear todos los jobs corriendo en la supercomputadora
- squeue
Para cancelar alguna tarea se hace con el comando
- scancel job_id
donde job_id es el identificador que aparece en la salida de squeue
Para conocer detalles sobre un job específico usar
- scontrol show job job_id
donde job_id es el identificador que aparece en la salida de squeue