2008年5月20日星期二

升级服务器批处理作业管理系统torque

今天老板的作业终于算的差不多了,尽管还有两个大的没算,也管不了那么多了,占了那么多天服务器了也该停停了。
春节过后升级服务器时,那边公司的维护把原来的OpenPBS升级为现在的加强版Torque-2.1.2,同时我也想充分发挥软件自身带的强大功能。但是当自己想应用某个功能时才发现是在2.1.3之后才有的,而且已经发展到2.3.0了,因此觉得有必要升级一下。
很早就把这个版本的编译好了,就等老板的作业算完make install了。当然小心谨慎是必须的,把原来的都备份过了,以防万一再恢复过来。
安装是简单的,不过为了谨慎还是现在主节点和两个控制节点上先装上,测试一下是否正常。在这三个主机上make install,很顺利,没有发现问题。但这时实际上原来的那套还在运行-linux的一个特性,不知道是优点还是缺点,即使把整个机器格式化了还会在运行!
首先是主节点,需要重建一下pbs服务器,以下操作:
qterm -t quick,快速的把原来的pbs_server给停掉;
killall pbs_sched,把原来的调度器给搞掉;
/usr/local/sbin/pbs_server -t create,重建pbs服务器,选择yes;
过一会儿之后把进程里还存在的pbs_server给搞掉,killall pbs_server;
然后运行
/usr/local/sbin/pbs_server;
/usr/local/sbin/pbs_sched;
再导入cluster的信息
qmgr < pbssrv.lab(自己写的所有节点的简单信息)
但是这个信息有点简单了,需要再初始化一下服务器,使其本身得到服务器各节点的详细信息:
qterm -t quick
/usr/local/sbin/pbs_server;
最后进入其他节点(比如测试的node2,node3)
killall pbs_mom,杀掉原来的mom
/usr/local/sbin/pbs_mom,重启升级后的;
这时整个初始的pbs服务器就完成了,接下来需要对服务器再作一些设置,比如队列设置,服务器设置等。

经过测试正常,最后就把所有的都升级了。

本来想把默认的调度器换成maui(一个免费的更为强大的调度器),但是无奈觉得还没有搞清楚,以后再说吧;
另外本来想这次把服务器调的控制性更大些,但是有陷入两难,是对用户进行约束还是对用户的作业进行约束?前者的话就直接到用户了,感觉不好做人,对后者则显示不出来用户的等级。实际上也是也不是没有办法,但就是觉得麻烦,等下次再搞吧。

追悼地震中遇难的同胞

没有评论: