2007年7月22日星期日

重建服务器的pbs服务

今天下午停了将近2周的计算服务器终于启动了。前一段时间服务器房间里的一台空调的压缩机坏了,为了安全期间,把计算服务器停掉了,刚好那些时间忙着举行会议,也没有放在心上。今天重新启动了之后,原来的作业肯定不行了,而且因为作业排队id已经到了2000多了,也需要重新建一下服务器了。
服务器使用的是曙光公司的bewolf机群,33个节点,包括一个主节点,每个节点2个AMD的皓龙cpu,每个cpu分配1G内存,装的redhat操作系统,总的说来性能还不错。

重建pbs服务,需要以下几个步骤:
1,停掉原来的服务,/etc/init.d/pbs_server stop。
因为重建的时候如果检测到已经有服务在运行,将会停止重建。
2,重建服务,/usr/sbin/pbs_server -t create。
这个命令也只能是在重建的时候用,否则的话正在算的作业都将完蛋。
3,这个时候用于配置pbs的配置文件也回到初始状态了,需要重新导入,这需要最开始配置好的时候使用qmgr -c "print server" > pbscfg导出。导入时使用qmgr < pbscfg。
另外还有关于节点信息的配置文件,使用一样的操作。
4,现在需要杀掉重建pbs服务的那个进程了,使用killall pbs_server。
5,然后重新启动pbs服务,使用/etc/init.d/pbs_server restart,这将会启动3个进程pbs_server,pbs_mom,pbs_sched。
6,到现在为止,服务端已经配置好了,需要配置客户端了。对于我们实验室这台服务器,每个账户都是放在主节点上的一个scsi硬盘上,通过nfs加载到其他客户端上。
对每个节点使用mount node1:/public /public加载,这个可以使用shell脚本很方便的完成
7,最后就是启动客户端pbs服务,即pbs_mom
这个也可以用脚本很方便的完成。
至此,整个pbs服务就重建完成了,可以叫一个作业试试了。

没有评论: