【热门云产品免费试用活动】| 【最新活动】| 【企业应用优惠】
Slurm是一个开源,高度可扩展的集群管理工具和作业调度系统,用于各种规模的Linux集群。主要提供如下集中关键的特性。
资源分配
分配独占或者非独占的资源给用户,可以控制分配的时长,供用户运行作业。
作业管理框架
提供一个框架,可以帮助用户控制并行作业在所分配资源上的启动、运行和监控。
队列
提交的作业资源需求超出了可用资源,将作业放入队列。
不同的作业调度策略
提供资源预留,公平分享,回填等高级作业调度策略供使用。
其他工具
提供作业信息统计,作业状态诊断等工具。
软件架构
Slurm有一个集中式的管理进程,“slurmctld”,来监控资源和作业;
每个计算节点有一个“slurmd”守护进程,用来等待接受作业、执行作业、返回结果、再等待下一个作业;
“slurmdbd”是可选的,用于在一个 数据库 中记录多个slurm管理集群的作业统计信息。
更多相关文章: