万兆以太网现在有光纤SPF+和铜揽10GBASE-T两种接口,在性能上主要是延迟方面的差距。比较IBM BNT、Dell Force10、Arista等数据中心交换机的参数可以发现,SPF+的延迟在350ns(Arista 7150S-24)~880ns,而10GBASE-T则需要3.2us~3.3us,现在在追求高性能的环境应该是用SPF+。
GPFS pagepool cache策略
经过测试发现,GPFS的page pool只能为本地读写的文件提供缓存,也就是说如果IO节点本地没有读写的话,IO节点配置大内存没有太大必要
DELL MD3800f 性能初测
DELL MD3820f 双控
测试命令:iozone -i 0 -i 1 -r 1M -s 128G
| write | rewrite | read | reread | |
| 4TByte 3.5-inch 7.2Krpm NL-SAS 6个盘做一组RAID6,1组RAID6 |
532 | 558 | 911 | 765 |
xCAT 更新root ssh key方法
流程如下:生成新的key,分发新key,替换所有节点key,替换xcat key
ssh-keygen //生成新的key命令为id_rsa1 pscp id_rsa1.pub all:/root/.ssh/authorized_keys mv id_rsa id_rsa.old mv id_rsa.pub id_rsa.pub.old mv id_rsa1 id_rsa mv id_rsa1.pub id_rsa.pub pscp id_rsa all:/root/.ssh/ pscp id_rsa.pub all:/root/.ssh/ cp /root/.ssh/id_rsa.pub /install/postscripts/_ssh/authorized_keys
限制root用户登陆IP
在/etc/ssh/sshd_config中添加
DenyUsers root@”!10.1.0.0/16,*”
表示禁止root用户从除10.1网段以外的其它IP登陆
超级网银限额
| 单笔限额 | 日累计限额 | 月累计限额 | 日累计笔数 | 月累计笔数 | |
| 工行 | 5,000 | 5,000 | 50,000 | 100 | 100 |
| 招行 | 50,000 | 100,000 | 500,000 | ||
| 中信 | 50,000 | 100,000 | 500,000 | 10000000 | 10000000 |
| 华夏 | 50,000 | 10,000,000,000,000 | 10,000,000,000,000 | 10000000 | 10000000 |
NetApp E2600 High Performance Tier 测试
浪潮 AS500H (NetApp E2600,MD3600也一样),双控制器,每控制器 4GB 带电池保护缓存,Write caching with mirroring, High Performance Tier。IO节点与存储双控通过MiniSAS冗余连接
测试命令:iozone -i 0 -i 1 -r 128K -s 128G
| Basic | High Performance Tier (MB/s) | |||||||
| write | rewrite | read | reread | write | rewrite | read | reread | |
| 900GByte 2.5-inch 10Krpm 6Gb/s SAS 2个盘做一组RAID1 |
171 | 172 | 177 | 175 | 173 | 171 | 176 | 175 |
| 900GByte 2.5-inch 10Krpm 6Gb/s SAS 每5个盘做一组RAID5,4组RAID5 |
689 | 688 | 1892 | 1971 | 1447 | 1539 | 2440 | 2531 |
| 3TByte 3.5-inch 7.2Krpm 6Gb/s NL-SAS 每6个盘做一组RAID6,2组RAID6 |
629 | 617 | 832 | 867 | 839 | 801 | 819 | 856 |
Platform LSF ELIM
LSF可以让用户自定义一些资源,其中动态资源可以通过ELIM向LSF汇报,下面以本地磁盘(一个机械盘一个SSD)负载为例:
在$LSF_ENVDIR/lsf.shared的Begin Resource中增加
diskut Numeric 60 Y (Percentage of CPU time during which I/O requests were issued to local disk) ssdut Numeric 60 Y (Percentage of CPU time during which I/O requests were issued to local SSD disk)
在$LSF_ENVDIR/lsf.cluster.的Begin ResourceMap中增加一行
diskut [default] ssdut [default]
在$LSF_SERVERDIR/下新建一个文件elim.disk内容如下并且chmod +x elim.disk
#!/bin/sh
declare -a util
while true; do
util=(`sar -d 60 1|grep Average|grep dev8|awk '{print $10}'`)
case "${#util[@]}" in
1)
echo 1 diskut ${util[0]}
;;
2)
echo 2 diskut ${util[0]} ssdut ${util[1]}
;;
esac
done
所有节点需要lsadmin limrestart,然后用lsload -l就可以看到多出来两列了
bsub时可以使用这些参数
-R “order[diskut]” 优先选择disk负载最轻的
-R “select[diskut < 10]” 要求disk负载小于10%
-R “rusage[diskut=10]” 为这个任务预留10%的disk负载。rusage不影响lsload的显示,但是会叠加到lsload显示的实际值上面从而影响order select的结果,除非lsf确定预留的资源被这个job所使用了(比如mem)。
Platform LSF Compute Units 调度策略
Compute Units(CU)可以对一个队列中的机器在调度时进行分组,可以控制作业在这些组中的分配。
假设有三个cu,每个cu空闲的job slots如下:
| cu name | free job slots |
| cu1 | 4 |
| cu2 | 6 |
| cu3 | 8 |
cu[pref=minavail]:把cu按照空闲的job slots从小到大排序,按顺序填充分配使用cu。例:-n 4则使用cu1的4个;-n 6则使用cu1的4个和cu2的2个。
cu[pref=maxavail]:把cu按照空闲的job slots从大到小排序,按顺序填充分配使用cu。例:-n 6则使用cu3的6个;-n 10则使用cu3的8个和cu2的2个。
上面的情况下,如果cu中空闲的job slots数量一样,则按照其在lsb.hosts中Begin ComputeUnitvs中的顺序使用
cu[balance]:按照在lsb.hosts中Begin ComputeUnitvs中的顺序,在尽量少的cu中分配使用且每个cu中使用的job slots尽量平衡。例:-n 6则使用cu2的6个;-n 8则使用cu3的8个;-n 10则使用cu2和cu3的各使用5个;-n 12则cu2和cu3个使用6个;-n 14则cu1使用4个、cu2和cu3各使用5个。
cu[balance:pref=minavail]和cu[balance:pref=maxavail]:把cu按照空闲的job slots排序,在尽量少的cu中分配使用且每个cu中使用的job slots尽量平衡。例:-n 4 -R “cu[balance:pref=minavail]”使用cu1,-n 4 -R “cu[balance:pref=maxavail]”使用cu3。
对于HPC来说,其实更想要一种类似于minavail但是又尽量分布到最少cu上的策略,如果必须跨cu则应尽量不等分减少跨cu通讯。
Plextor M5p 256GB vs Intel SSD 530 240GB
Dell R620, 2*E5-2643, 32GB RAM, RHELS 5.3, Iozone 3.414,SSD分区4K对齐, ext4打开trim
./iozone -a -i 0 -i 1 -i 2 -y 4k -q 1m -s 64g -Rb ./test.xls
结果就是Intel SSD 530全面大幅超越Plextor M5p,具体结果如下:
Plextor M5p 256GB:
| record size | 4 | 8 | 16 | 32 | 64 | 128 | 256 | 512 | 1024 |
| Writer Report | 73495 | 49706 | 53834 | 55819 | 51266 | 51434 | 52833 | 51928 | 52610 |
| Re-writer Report | 82056 | 80580 | 81662 | 71514 | 71218 | 70992 | 70998 | 71210 | 73930 |
| Reader Report | 437508 | 437398 | 437296 | 436977 | 437826 | 437586 | 437788 | 436948 | 437527 |
| Re-reader Report | 437118 | 437650 | 437002 | 436111 | 437281 | 437213 | 442700 | 437818 | 437569 |
| Random Read Report | 36441 | 64764 | 91808 | 129377 | 190359 | 231620 | 309157 | 278560 | 273607 |
| Random Write Report | 53990 | 53750 | 52256 | 52058 | 52626 | 51981 | 51429 | 52504 | 52852 |
Intel SSD 530 240GB:
| record size | 4 | 8 | 16 | 32 | 64 | 128 | 256 | 512 | 1024 |
| Writer Report | 498716 | 523831 | 500965 | 527952 | 524793 | 525040 | 528580 | 529695 | 529030 |
| Re-writer Report | 523820 | 524679 | 527672 | 528101 | 525403 | 528344 | 526986 | 526756 | 527916 |
| Reader Report | 399111 | 405611 | 403717 | 401873 | 404561 | 401628 | 401842 | 401729 | 403944 |
| Re-reader Report | 399121 | 402200 | 399726 | 399718 | 408133 | 401520 | 401671 | 401337 | 401857 |
| Random Read Report | 26518 | 51309 | 81293 | 126808 | 209616 | 265063 | 336988 | 382371 | 409023 |
| Random Write Report | 270073 | 370813 | 443589 | 489812 | 511003 | 520004 | 521321 | 521664 | 524645 |