NVMe 热移除

  1. 通过主板BMC确认拟移除物理位置NVMe盘对应的SN
  2. 使用 nvme list 查找SN对应的盘符
  3. 使用 mmlsnsd -m|grep $HOSTNAME 查找盘符对应的NSD名称
  4. 使用 mmdeldisk 从文件系统中移除NSD
  5. 使用 mmdelnsd 删除NSD
  6. ls -l /sys/class/block/ 查找盘符对应的BUS ID
  7. 使用 lspci -vvv|grep -a1 NVMe 查找BUS ID对应的 Physical Slot
  8. cd /sys/bus/pci/slots/$slot ($slot替换为上一步查到的Physical Slot)
  9. cat address 确认BUS ID正确
  10. echo 0 > power 下电
  11. lsblk 中已无此盘符
  12. 执行 mmnsddiscover 刷新
  13. 此时对应NVMe盘指示灯应熄灭,拔出此盘

UniverStor P20000 (ActiveScale P100) NFS性能测试

首先这是一个不严谨的测试,Client和Server都是在有生产压力的情况下做额外测试,仅使用了一个Client和Server(仅使用三个Server中的一个),结果仅供参考。

NFS Client:mirrors.nju.edu.cn 的生产虚拟机,负载不轻,VMXNET 3网卡,主机万兆网卡,通过下面一个系统节点的IP挂载NFS。
mount -t nfs -o nfsvers=3,wsize=1048576,rsize=1048576,proto=tcp,async,lookupcache=none,timeo=600 x.x.x.x:/yaoge123 /mnt

NFS Server: UniverStor P20000 (ActiveScale P100) 5.5.0.40,三分之一配置,三个系统节点六个存储节点,box.nju.edu.cn的后端存储。
access_type=RW,clients=x.x.x.x,sec=sys

Continue reading

HPE ProLiant DL380 Gen10 不同BIOS设置内存性能测试

硬件环境

2*Intel(R) Xeon(R) Gold 5122 CPU @ 3.60GHz
12*HPE SmartMemory DDR4-2666 RDIMM 16GiB

iLO 5 1.37 Oct 25 2018
System ROM U30 v1.46 (10/02/2018)
Intelligent Platform Abstraction Data 7.2.0 Build 30
System Programmable Logic Device 0x2A
Power Management Controller Firmware 1.0.4
NVMe Backplane Firmware 1.20
Power Supply Firmware 1.00
Power Supply Firmware 1.00
Innovation Engine (IE) Firmware 0.1.6.1
Server Platform Services (SPS) Firmware 4.0.4.288
Redundant System ROM U30 v1.42 (06/20/2018)
Intelligent Provisioning 3.20.154
Power Management Controller FW Bootloader 1.1
HPE Smart Storage Battery 1 Firmware 0.60
HPE Eth 10/25Gb 2p 631FLR-SFP28 Adptr 212.0.103001
HPE Ethernet 1Gb 4-port 331i Adapter – NIC 20.12.41
HPE Smart Array P816i-a SR Gen10 1.65
HPE 100Gb 1p OP101 QSFP28 x16 OPA Adptr 1.5.2.0.0
HPE InfiniBand EDR/Ethernet 100Gb 2-port 840QSF 12.22.40.30
Embedded Video Controller 2.5

软件环境

CentOS Linux release 7.6.1810 (Core)
Linux yaoge123 3.10.0-957.el7.x86_64 #1 SMP Thu Nov 8 23:39:32 UTC 2018 x86_64 x86_64 x86_64 GNU/Linux
Intel(R) Memory Latency Checker – v3.6

Continue reading

浪潮刀片和机架的一些问题

用了四年的浪潮NF5270M3机架服务器、I8000刀箱和NX5440刀片服务器,总结一下碰到的管理问题

  1. 浪潮认为刀片BMC的IP应该紧跟着刀箱管理模块的IP顺序增加,比如刀箱管理模块是192.168.1.10,那么第一个刀片就应该是192.168.1.11。不这样设置会出现一些问题,如按刀片上的KVM按钮会亮红灯无法切换,需要SSH到刀片的BMC里用命令行修改一些配置文件
  2. 使用浏览器访问刀片的BMC必须用IP,用hostname的访问打开IP KVM会报错无法使用
  3. 在Linux下打开刀片的IP KVM报错无法使用,Windows下则正常,新的刀片已解决此问题
  4. 刀箱管理模块无法发送报警邮件,NTP配置无法保存且也没有同步时间,无发送syslog功能
  5. 机架BMC发送报警测试邮件正常,但是实际出现故障(如移除电源模块)时却没有发送邮件
  6. 刀箱电源风扇模块故障时前面板报警灯不亮,只在刀箱背后的电源风扇模块上有指示灯变红
  7. 机架RAID卡故障,如硬盘故障,前面板报警灯不亮

IB存储的opensm

一台DDN 7700X,双控,每个控制器两个FDR IB口。两台IO节点,每台两个双口FDR IB卡,一个卡双口与存储两个控制器连接,另一个卡单口与集群IB网络连接。

存储和IO节点间是IB直接连接的,没有通过交换机,每条IB链路都是独立的,所以在每条IB链路上都需要有subnet manager。因每个opensm进程只能绑定一个物理端口,而 service opensmd 只能启动一个opensm进程,所以只能在每个io节点上启动两个opensm专门用于管理存储IB链路。

首先用ibstat查一下和存储连接IB口的Port GUID,在/etc/rc.local中添加opensm并且绑定guid,注意前面的sleep是必须的,否则opensm启动失败。

sleep 30
/usr/sbin/opensm -B -g 0x7cfe900300a8bf41
/usr/sbin/opensm -B -g 0x7cfe900300a8bf42

 

HP MSA 2040 SAN 测试

HP MSA 2040 SAN,双控制器,每控制器4GB缓存。两台IO节点与存储双控通过16Gb FC冗余链接。

测试命令:iozone -i 0 -i 1 -r 128K -s 256G -t 2 -+m ./iolist -C
每个IO节点一个iozone进程,更多的进程更慢

write rewrite read reread
900GByte 2.5-inch 10Krpm 6Gb/s SAS
每5个盘做一组RAID5,4组RAID5
2421 2421 2419 2418
4TByte 3.5-inch 7.2Krpm 6Gb/s NL-SAS
每6个盘做一组RAID6,2组RAID6
1249 1228 1276 1279

 

Intel SSD 530 240GB vs Samsung 840 PRO 256GB

Dell R620, 2*E5-2643, 32GB RAM, RHELS 6.5, Iozone 3.420,SSD分区4K对齐, ext4打开trim

./iozone -a -i 0 -i 1 -i 2 -y 4k -q 1m -s 64g -Rb ./test.xls

结果是除了大块数据的随机写840大幅落后外其它的小胜530,具体结果如下:

Intel SSD 530 240GB:

record size 4 8 16 32 64 128 256 512 1024
Writer Report 524440 523974 526780 527053 526968 526036 527036 525766 525890
Re-writer Report 522612 522613 522275 523206 522439 523246 522352 521813 522232
Reader Report 401357 400040 402251 404237 404396 403728 404063 403219 402921
Re-reader Report 400585 399216 400826 402105 402526 402288 403591 402457 402526
Random Read Report 24057 42185 71473 116760 181263 257251 320765 373026 400579
Random Write Report 265987 367024 436929 485591 506996 523238 522900 522817 522449

Samsung 840 PRO 256GB:

record size 4 8 16 32 64 128 256 512 1024
Writer Report 531851 532568 532486 534077 535260 535288 535185 535542 535103
Re-writer Report 529750 530555 530921 530615 530606 530297 530888 530316 531189
Reader Report 527696 527396 527468 527315 527693 527813 527855 527261 527416
Re-reader Report 527420 527422 527873 527182 527601 527822 527689 527391 527203
Random Read Report 34822 58758 94271 145413 216819 295532 338092 374540 391692
Random Write Report 269031 373047 407259 288842 286163 284136 285640 290691 295829

Plextor M5p 256GB vs Intel SSD 530 240GB

Dell R620, 2*E5-2643, 32GB RAM, RHELS 5.3, Iozone 3.414,SSD分区4K对齐, ext4打开trim

./iozone -a -i 0 -i 1 -i 2 -y 4k -q 1m -s 64g -Rb ./test.xls 

结果就是Intel SSD 530全面大幅超越Plextor M5p,具体结果如下:

Plextor M5p 256GB:

record size 4 8 16 32 64 128 256 512 1024
Writer Report 73495 49706 53834 55819 51266 51434 52833 51928 52610
Re-writer Report 82056 80580 81662 71514 71218 70992 70998 71210 73930
Reader Report 437508 437398 437296 436977 437826 437586 437788 436948 437527
Re-reader Report 437118 437650 437002 436111 437281 437213 442700 437818 437569
Random Read Report 36441 64764 91808 129377 190359 231620 309157 278560 273607
Random Write Report 53990 53750 52256 52058 52626 51981 51429 52504 52852

Intel SSD 530 240GB:

record size 4 8 16 32 64 128 256 512 1024
Writer Report 498716 523831 500965 527952 524793 525040 528580 529695 529030
Re-writer Report 523820 524679 527672 528101 525403 528344 526986 526756 527916
Reader Report 399111 405611 403717 401873 404561 401628 401842 401729 403944
Re-reader Report 399121 402200 399726 399718 408133 401520 401671 401337 401857
Random Read Report 26518 51309 81293 126808 209616 265063 336988 382371 409023
Random Write Report 270073 370813 443589 489812 511003 520004 521321 521664 524645