目录
ceph_perf_msgr_client/ceph_perf_msgr_server
rdma_server, rdma_client (ping-pong测试)
本文作者:bandaoyu @UESTC 不断改进中,请到原文:https://blog.csdn.net/bandaoyu/article/details/115798045
1、下载源码:
wget https://github.com/linux-rdma/perftest
2、查阅REDME,按指导安装
安装依赖:
yum -y install automake &&yum -y install libtool &&yum -y install pciutils-devel
cd perftest/
./autogen.sh
./configure Note:If you want to install in a specific directory use the optional flag --prefix=<Directory path> , e.g: ./configure --prefix=<Directory path>
make && make install
sudo ./autogen.sh&&sudo ./configure&&sudo make&&sudo make install
报错:
[root@localhost perftest-master]# ./autogen.sh
./autogen.sh: line 5: aclocal: command not found
./autogen.sh: line 6: libtoolize: command not found
./autogen.sh: line 7: autoheader: command not found
./autogen.sh: line 8: automake: command not found
./autogen.sh: line 9: autoconf: command not found
原因:
缺少automake
解决方法:安装
yum -y install automake
报错:libtoolize: command not found
原因:缺少libtool
解决方法:安装
yum -y install libtool
报错:configure: error: pciutils header files not found, consider installing pciutils-devel原因:缺少pciutils-devel
解决方法:安装
yum -y install pciutils-devel
RDMA性能测试工具集-perftest
ib_send_lat latency test with send transactions
ib_send_bw bandwidth test with send transactions
ib_write_lat latency test with RDMA write transactions
ib_write_bw bandwidth test with RDMA write transactions
ib_read_lat latency test with RDMA read transactions
ib_read_bw bandwidth test with RDMA read transactions
ib_atomic_lat latency test with atomic transactions
ib_atomic_bw bandwidth test with atomic transactions
连接https://github.com/linux-rdma/perftest
注意,性能测试时,注意cpu、内存等是否会成为瓶颈。
使用ibv_xxx_pingpong可以测试RDMA设备的流量发送功能:
# 在服务端
ibv_rc_pingpong -g 0 -d mlx4_0 -i 1
local address: LID 0x000c, QPN 0x000a19, PSN 0xf31d1e, GID fe80::e41d:2d03:50:e831
remote address: LID 0x000e, QPN 0x000491, PSN 0xfefc9e, GID fe80::e41d:2d03:50:e801
8192000 bytes in 0.01 seconds = 11821.07 Mbit/sec
1000 iters in 0.01 seconds = 5.54 usec/iter#在客户端 192.168.10.27是服务端的地址
ibv_rc_pingpong -g 0 -d mlx4_0 -i 1 192.168.10.27
local address: LID 0x000e, QPN 0x000491, PSN 0xfefc9e, GID fe80::e41d:2d03:50:e801
remote address: LID 0x000c, QPN 0x000a19, PSN 0xf31d1e, GID fe80::e41d:2d03:50:e831
8192000 bytes in 0.01 seconds = 11797.66 Mbit/sec
1000 iters in 0.01 seconds = 5.55 usec/iter
Syntax
ibv_rc_pingpong [-p TCP_port][-d device][-i IB_port][-s size][-r depth] [-n iters][-l level][-e][-h][IP_address]
where:
TCP_port is the TCP port.
device is the InfiniBand device.
IB_port is the InfiniBand port.
size is the size of the ping-pong messages.
depth is the number of depth receives to post at one time.
iters is the number of message exchanges.
level is the service level of the queue pair.
IP_address is the IP address of the remote node host.
说明ibv_rc_pingpong Command - Sun Datacenter InfiniBand Switch 648 Topic Set
Options:
-p, --port= listen on/connect to port (default 18515)
-d, --ib-dev= use IB device (default first device found)
-i, --ib-port= use port of IB device (default 1) -s, --size= size of message to exchange (default 4096)
-m, --mtu= path MTU (default 1024)
-r, --rx-depth= number of receives to post at a time (default 500) -n, --iters= number of exchanges (default 1000)
-l, --sl= service level value
-e, --events sleep on CQ events (default poll)
-g, --gid-idx= local port gid index
-c, --contiguous-mr use contiguous mr
-t, --inline-recv= size of inline-recv
-a, --check-nop check NOP opcode
-o, --odp use on demand paging
-u, --upstream use upstream API
-t, --upstream use upstream API
-z, --contig_addr use specifix addr for contig pages MR, must use with -c flag
-b, --ooo enable multipath processing
-j, --memic use device memory
ib_send_bw/ ib_write_bw(带宽)
基本用法:
在A服务器上运行
# ib_send_bw -d rocepxxx # rocepxxx 是A服务器上IP为192.168.5.232的device
在B服务器上运行:
# ib_send_bw -d rocep94s0f0 192.168.5.232 --report_gbits -F #rocep94s0f0是B服务器上IP网段为192.168.5.xxx的device
原文链接:https://blog.csdn.net/bandaoyu/article/details/115791233
ib_send_bw -h查看可知,-a 参数可msg size 递增测试出最大带宽的msg size
[root@localhost ~]# ib_write_bw -R -d iwp175s0f0 -a -F
[root@localhost ~]# ib_write_bw -R -d iwp175s0f0 -i 1 192.169.31.164 -n 1000 -a -F
#bytes #iterations BW peak[MB/sec] BW average[MB/sec] MsgRate[Mpps]
2 30000000 0.00 12.97 6.801028
4 30000000 0.00 25.88 6.784450
8 30000000 0.00 47.67 6.247553
16 30000000 0.00 73.35 4.806851
32 30000000 0.00 144.83 4.745852
64 30000000 0.00 288.74 4.730646
128 30000000 0.00 578.88 4.742147
256 30000000 0.00 1154.31 4.728070
512 30000000 0.00 2303.88 4.718350
1024 30000000 0.00 4336.23 4.440301
2048 30000000 0.00 4390.40 2.247886
4096 30000000 0.00 4409.06 1.128718
……
其他例子:
(mellonx)server、client:
ib_write_bw -d mlx5_0 -i 1 -x 5 --rdma_cm --tos=33 -n 10000000 -s 1M
ib_write_bw 172.17.31.51 -d mlx5_1 -i 1 -x 5 --rdma_cm --tos=33 -n 10000000 -s 1M
(intel)server、client:
[root@localhost ~]# ib_write_bw -R -d iwp175s0f0 -a -F
[root@localhost ~]# ib_write_bw -R -d iwp175s0f0 -i 1 192.169.31.164 -n 1000 -a -F
启用多个QP
ib_write_bw -h
Usage:
ib_write_bw start a server and wait for connection
ib_write_bw connect to server at
Options:
-a, --all Run sizes from 2 till 2^23
-b, --bidirectional 测量双向带宽(默认为单向)
-c, --connection= 连接类型RC / XRC / UC / DC(默认RC)
-d, --ib-dev= 使用IB设备(找到第一个默认设备)
-D, --duration 在自定义的秒数内运行测试。
-f, --margin measure results within margins. (default=2sec)
-F, --CPU-freq 即使已加载cpufreq_ondemand模块,并且cpu-freq不在最大值,也不会显示警告。
-h, --help Show this help screen.
-i, --ib-port= 使用IB设备的端口<端口>(默认1)
-I, --inline_size= Max size of message to be sent in inline
-l, --post_list= Post list of WQEs of size (instead of single post)
-L, --hop_limit= 设置跳数限制值(对于IPv4 RawEth QP,为ttl)。值0-255(默认64)Set hop limit value (ttl for IPv4 RawEth QP). Values 0-255 (default 64)
-m, --mtu= MTU size : 256 - 4096 (default port mtu)
-n, --iters= 交换次数(至少5次,默认为5000次)
-N, --noPeak 取消峰值BW计算(默认情况下峰值不超过iters = 20000)
-O, --dualport 在双端口模式下运行测试。(Run test in dual-port mode.)
-p, --port= Listen on/connect to port (default 18515)
-q, --qp= qp的数量(默认为1)
-Q, --cq-mod 仅在<-cq-mod>完成后生成Cqe
-R, --rdma_cm Connect QPs with rdma_cm and run test on those QPs
-s, --size= (每个QP)交换消息的大小(默认为65536)
-S, --sl= SL (default 0)
-t, --tx-depth= 发送队列(tx)的大小(默认为128)
-T, --tos= Set to RDMA-CM QPs. available only with -R flag. values 0-256 (default off)
-u, --qp-timeout= QP超时,超时值为4 usec * 2 ^(超时),默认值为14
-V, --version 显示版本号
-w, --limit_bw= 设置验证器带宽限制(Set verifier limit for bandwidth)
-x, --gid-index= Test uses GID with GID index (Default : IB - no gid . ETH - 0)
-y, --limit_msgrate= Set verifier limit for Msg Rate
-z, --com_rdma_cm Communicate with rdma_cm module to exchange data - use regular QPs
--cpu_util 在报告中显示CPU使用率,仅在持续时间模式下有效(Show CPU Utilization in report, valid only in Duration mode )
--dlid Set a Destination LID instead of getting it from the other side.
--dont_xchg_versions Do not exchange versions and MTU with other side
--force-link= Force the link(s) to a specific type: IB or Ethernet.
--ipv6 Use IPv6 GID. Default is IPv4
--mmap=file Use an mmap'd file as the buffer for testing P2P transfers.
--mmap-offset= Use an mmap'd file as the buffer for testing P2P transfers.
--mr_per_qp Create memory region for each qp.
--odp Use On Demand Paging instead of Memory Registration.
--output= 设置详细度输出级别:带宽,message_rate,延迟 Set verbosity output level: bandwidth , message_rate, latency
Latency measurement is Average calculation
--perform_warm_up Perform some iterations before start measuring in order to warming-up memory cache, valid in Atomic, Read and Write BW tests
--pkey_index= PKey index to use for QP
--report-both Report RX & TX results separately on Bidirectinal BW tests
--report_gbits Report Max/Average BW of test in Gbit/sec (instead of MB/sec)
Note: MB=2^20 byte, while Gb=10^9 bits. Use these formulas for conversion:
Factor=10^9/(20^2*8)=119.2; MB=Gb_result * factor; Gb=MB_result / factor
--report-per-port Report BW data on both ports when running Dualport and Duration mode
--reversed Reverse traffic direction - Server send to client
--run_infinitely 永久运行测试,每隔秒打印结果
--retry_count= Set retry count value in rdma_cm mode
--tclass= Set the Traffic Class in GRH (if GRH is in use)
--use_exp Use Experimental verbs in data path. Default is OFF.
--use_hugepages Use Hugepages instead of contig, memalign allocations.
--use_res_domain Use shared resource domain
--verb_type= Set verb type: normal, accl. Default is normal.
--wait_destroy= Wait before destroying allocated resources (QP/CQ/PD/MR..)
Rate Limiter:
--burst_size= Set the amount of messages to send in a burst when using rate limiter
--typical_pkt_size= Set the size of packet to send in a burst. Only supports PP rate limiter
--rate_limit= Set the maximum rate of sent packages. default unit is [Gbps]. use --rate_units to change that.
--rate_units= [Mgp] Set the units for rate limit to MBps (M), Gbps (g) or pps (p). default is Gbps (g).
Note (1): pps not supported with HW limit.
Note (2): When using PP rate_units is forced to Kbps.
--rate_limit_type= [HW/SW/PP] Limit the QP's by HW, PP or by SW. Disabled by default. When rate_limit is not specified HW limit is Default.
Note: in Latency under load test SW rate limit is forced
--use_ooo Use out of order data placement
用法同ib_send_bw/ ib_write_bw。
[root@localhost ~]# ib_write_lat -R -d rocep175s0f0 -a -F
[root@localhost ~]# ib_write_lat -R -d rocep175s0f0 -i 1 192.169.31.164 -n 1000 -a -F
#bandwidth
echo "ib_send_bw"
ib_send_bw -n 10000 -d irdma1 -i 1 -F --report_gbits --use_old_post_send -I 96 > /dev/NULL &
sleep 3
ib_send_bw -n 10000 -d irdma1 -i 1 -F --report_gbits --use_old_post_send -I 96 192.168.1.2
sleep 3
echo "ib_read_bw"
ib_read_bw -n 10000 -d irdma1 -i 1 -F --report_gbits --use_old_post_send > /dev/NULL &
sleep 3
ib_read_bw -n 10000 -d irdma1 -i 1 -F --report_gbits --use_old_post_send 192.168.1.2
sleep 3
echo "ib_write_bw"
ib_write_bw -n 10000 -d irdma1 -i 1 -F --report_gbits --use_old_post_send > /dev/NULL &
sleep 3
ib_write_bw -n 10000 -d irdma1 -i 1 -F --report_gbits --use_old_post_send 192.168.1.2
sleep 3
#lat
echo "ib_send_lat"
ib_send_lat -n 10000 -d irdma1 -i 1 -F --report_gbits --use_old_post_send -I 96 > /dev/NULL &
sleep 3
ib_send_lat -n 10000 -d irdma1 -i 1 -F --report_gbits --use_old_post_send -I 96 192.168.1.2
sleep 3
echo "ib_write_lat"
ib_write_lat -n 10000 -d irdma1 -i 1 -F --report_gbits --use_old_post_send -I 96 > /dev/NULL &
sleep 3
ib_write_lat -n 10000 -d irdma1 -i 1 -F --report_gbits --use_old_post_send -I 96 192.168.1.2
sleep 3
echo "ib_read_lat"
ib_read_lat -n 10000 -d irdma1 -i 1 -F --report_gbits --use_old_post_send > /dev/NULL &
sleep 3
ib_read_lat -n 10000 -d irdma1 -i 1 -F --report_gbits --use_old_post_send 192.168.1.2
sleep 3
#ibv_xx_pingpong
echo "ibv_rc_pingpong"
ibv_rc_pingpong -d irdma1 -g 1 > /dev/null &
sleep 3
ibv_rc_pingpong -d irdma1 -g 1 192.168.1.2
sleep 3
echo "ibv_ud_pingpong"
ibv_ud_pingpong -d irdma1 -g 1 > /dev/null &
sleep 3
ibv_ud_pingpong -d irdma1 -g 1 192.168.1.2
sleep 3
echo "rping"
#rping
rping -s -a 192.168.1.2 -v -d -C 3 > /dev/NULL &
sleep 3
rping -c -a 192.168.1.2 -v -d -C 3
原文链接:https://blog.csdn.net/mounter625/article/details/114648380
--tos 字节, DSCP占高6bit, 后2bit 是ECN,不是用户赋值,1个bit是设备支持ECN功能就置1,另1个bit是当设备发现拥堵的时候,置1。
所以想给DSCP赋值4,二进制为100,加2bit怎为100xx,
tos=10000、10001、10010、10011,即16、17、18、19
想给DSCP赋值16,二进制为10000,加2bit怎为10000xx,
tos=1000000、1000001、1000010、1000011,即64、65、66、67
ceph的测试工具Messenger模块的基准测试工具:https://blog.csdn.net/bandaoyu/article/details/114292690
IP 地址指定服务器infiniband-diags 软件包中的 ibping 测试 RDMA 连接性,ibping程序 实现客户端/服务器模式,用法:使用 -? 或者 --help 选项即可查看 ibping的所有可用选项
首先在一台机器中启动 ibping 服务器,然后再另一台机器中将 ibping 作为客户端运行,并让它与 ibping 服务器相连。
因为我们是要测试基础 RDMA 功能,因此需要用于 RDMA 的地址解析方法,而不是使用 IP 地址指定服务器。
使用 ibv_devinfo 和 ibstat 命令输出 port_lid(或基础 lid)以及所要测试端口的端口 GUID(假设是上述接口的端口 1,则 port_lid/基础 LID 是 49,而端口 GUID 是 0x46d2c92000004821)。
[root@rac2 ~]# ibstat mlx4_0
CA 'mlx4_0'
CA type: MT4099
Number of ports: 2
Firmware version: 2.35.5100
Hardware version: 1
Node GUID: 0x248a0703005d0840
System image GUID: 0x248a0703005d0843
Port 1: ------------------------------>>这是双口卡
State: Active
Physical state: LinkUp
Rate: 56
Base lid: 3
LMC: 0
SM lid: 5
Capability mask: 0x02594868
Port GUID: 0x248a0703005d0841
Link layer: InfiniBand
Port 2: ------------------------------>>这是双口卡
State: Active
Physical state: LinkUp
Rate: 56
Base lid: 2
LMC: 0
SM lid: 2
Capability mask: 0x0259486a
Port GUID: 0x248a0703005d0842
Link layer: InfiniBand
[root@rac2 ~]# ibping -S -C mlx4_0 -P 1
---->此处会没有返回,也就是一直在运行.
---->解释:
-S是以服务器端运行
-C是CA,来自ibstat的输出
-P是端口号,来自ibstat的输出.
使用 -S 或 --Server 服务端
使用 -C 或者 --Ca 绑定网卡
以及 -P 或者 --Port :端口
注:这个实例中的端口不会指示端口号,但会在使用多端口网卡时指示物理端口号。要测试所使用 RDMA 结构的连接性,比如多端口网卡的第二端口,则需要让 ibping 捆绑至网卡的端口 49。使用单一端口网卡时不需要这个选项。例如:
[root@rac1 rdma]# ibping -c 10000 -f -C mlx4_0 -P 1 -L 3
--- rac2.(none) (Lid 3) ibping statistics ---
10000 packets transmitted, 10000 received, 0% packet loss, time 1096 ms
rtt min/avg/max = 0.028/0.109/0.321 ms
[root@rac1 rdma]#
---->解释:-c 10000的意思是发送10000个packet之后停止.
-f是flood destination
-C是CA,来自ibstat的输出
-P是端口号,来自服务器端运行ibping命令时指定的-P 参数值.
-L是Base lid,来自服务器端运行ibping命令时指定的端口(-P 参数值)的base lid(参考ibstat).注:。使用单一端口网卡时不需要这个选项
这个结果会验证端到端 RDMA 通讯是否在用户空间应用程序中正常工作。
源码:rdma-core-master\rdma-core-master\librdmacm\examples
rdma-core-master\rdma-core-master\libibverbs\examples
原文:RDMA卡的检测方法_weixin_34236869的博客-CSDN博客
该脚本涵盖了RDMA_CM UD连接。 (它使用librdmacm在两个节点之间建立了一组不可靠的RDMA数据报 通信路径,可以选择在节点之间传输数据报,然后断开通信)
在一台服务器(充当服务器)上运行以下命令:
#udaddy
在第二台服务器(作为客户端)上运行以下命令
# udaddy -s 12.12.12.1udaddy: starting client
udaddy: connecting
initiating data transfers
receiving data transfers
data transfers complete
test complete
return status 0"return status=0" means good exit (RDMA is running).
默认使用端口7174,
udaddy -b 172.17.31.53 #服务端绑定IP
udaddy -s 172.17.31.53 #客户端
这些命令是简单的RDMA CM连接和ping-pong测试(它使用同步librdmam调用在两个节点之间建立RDMA连接)。在一台服务器(充当服务器)上运行以下命令:
#rdma_server在第二台服务器(作为客户端)上运行以下命令:
rdma_client -s 12.12.12.1
rdma_client: start
rdma_client: end 0
"rdma_client: end 0" means good exit (RDMA is running).
该脚本涵盖RDMA_CM RC连接,但仅涉及用户空间(它使用librdmacm在两个节点之间建立一组可靠的RDMA连接,可以选择在节点之间传输数据,然后断开连接)。
在其中一台服务器(充当rping服务器)上运行以下命令
# rping -s -C 10 -v
在其中一台服务器(充当rping客户端)上运行以下命令
# rping -c -a 12.12.12.1 -C 10 -vping data: rdma-ping-0: ABCDEFGHIJKLMNOPQRSTUVWXYZ[\]^_`abcdefghijklmnopqr
ping data: rdma-ping-1: BCDEFGHIJKLMNOPQRSTUVWXYZ[\]^_`abcdefghijklmnopqrs
ping data: rdma-ping-2: CDEFGHIJKLMNOPQRSTUVWXYZ[\]^_`abcdefghijklmnopqrst
ping data: rdma-ping-3: DEFGHIJKLMNOPQRSTUVWXYZ[\]^_`abcdefghijklmnopqrstu
ping data: rdma-ping-4: EFGHIJKLMNOPQRSTUVWXYZ[\]^_`abcdefghijklmnopqrstuv
ping data: rdma-ping-5: FGHIJKLMNOPQRSTUVWXYZ[\]^_`abcdefghijklmnopqrstuvw
ping data: rdma-ping-6: GHIJKLMNOPQRSTUVWXYZ[\]^_`abcdefghijklmnopqrstuvwx
ping data: rdma-ping-7: HIJKLMNOPQRSTUVWXYZ[\]^_`abcdefghijklmnopqrstuvwxy
ping data: rdma-ping-8: IJKLMNOPQRSTUVWXYZ[\]^_`abcdefghijklmnopqrstuvwxyz
ping data: rdma-ping-9: JKLMNOPQRSTUVWXYZ[\]^_`abcdefghijklmnopqrstuvwxyzAclient DISCONNECT EVENT...
该脚本涵盖RDMA_CM RC连接,但仅覆盖用户空间(与rping相同)(它使用librdmacm在两个节点之间建立一组可靠的RDMA连接,可以选择在节点之间传输数据,然后断开连接)。在其中一台服务器(充当服务器)上运行以下命令
# ucmatose
在其他服务器(作为客户端)上运行以下命令
#ucmatose -s 12.12.12.1
cmatose: starting client
cmatose: connecting
receiving data transfers
sending replies
data transfers complete
test complete
return status 0
特点:第一可以支持RDMA测量,第二可进行循环遍历测试。
使用方法:Linux网络性能评估工具iperf|qperf|netperf:https://blog.csdn.net/bandaoyu/article/details/116758976
在centos7中,可以用以下命令查看RDMA内核模块的状态:
[root@power27 docs]# /etc/init.d/openibd status
HCA driver loaded
Configured IPoIB devices:
ib0Currently active IPoIB devices:
ib0
Configured Mellanox EN devices:Currently active Mellanox devices:
ib0The following OFED modules are loaded:
rdma_ucm
rdma_cm
ib_ipoib
mlx4_core
mlx4_ib
mlx4_en
mlx5_core
mlx5_ib
ib_uverbs
ib_umad
ib_ucm
ib_cm
ib_core
mlxfw
mlx5_fpga_tools
HCA即支持RDMA的网卡,driver loaded表示驱动已加载。
lspci | grep -i eth
libibverbs-utils工具:ibv_devices、ibv_devinfo
ibv_devinfo 和 ibstat 命令输出信息稍有不同(比如端口 MTU 信息是在 ibv_devinfo 而不是 ibstat 输出中显示,而端口 PUID 信息是在 ibstat 而不是 ibv_devinfo 输出中显示。同时有些信息的命名方式也不同,例如:ibstat 输出中的基础本地标识符(LID)与 ibv_devinfo 输出中的 port_lid 是相同的信息。
ibv_devices是一个包含在libibverbs-utils.rpm包里的工具,用于显示本机上的RDMA设备:
[root@power27 docs]# ibv_devices
device node GUID
------ ----------------
mlx4_0 e41d2d030050e830
ibv_devinfo 输出主要信息
ibv_devinfo -v 输出详细信息
ibv_devinfo -d mlx4_0 输出指定设备的主要信息
ibv_devinfo -d mlx4_0 -v 输出指定设备的详细信息
Options:
-d, --ib-dev=<dev> use IB device <dev> (default first device found)
-i, --ib-port=<port> use port <port> of IB device (default all ports)
-l, --list print only the IB devices names
-v, --verbose print all the attributes of the IB device(s)
ibv_devinfo也是libibverbs-utils.rpm包中的一个工具,它会打开一个设备查询设备的属性,通过它可以验证用户空间和内核空间的RMDA栈是否能够一起正常运作:
[root@power27 docs]# ibv_devinfo -d mlx4_0
hca_id: mlx4_0
transport: InfiniBand (0)
fw_ver: 2.42.5000
node_guid: e41d:2d03:0050:e830
sys_image_guid: e41d:2d03:0050:e833
vendor_id: 0x02c9
vendor_part_id: 4099
hw_ver: 0x1
board_id: MT_1100120019
phys_port_cnt: 1
Device ports:
port: 1
state: PORT_ACTIVE (4)
max_mtu: 4096 (5)
active_mtu: 4096 (5)
sm_lid: 1
port_lid: 12
port_lmc: 0x00
link_layer: InfiniBand
至少要有一个端口的状态是PORT_ACTIVE,才能说明RDMA相关组件已经正常运行起来。
使用ibstat命令显示InfiniBand的具体信息:
查看映射关系
mlnx_qos -i eth2 (mellonx)
设置用L3做流控
mlnx_qos -i eth2 --trust=dscp (mellonx)
修改dscp到priority 映射
dscp 30 映射到修改dscp到priority 6
# mlnx_qos -i eth2 --dscp2prio set,30,6 (mellonx)
使能PFC
# mlnx_qos -i <interface> --pfc 0,0,0,1,0,0,0,0
修改tc和prio的映射(默认除了tc0对应prio1,tc对应prio0,其他的都是对应的,如tc2-prio2,tc3-prio3,tc4-prio4……)
mlnx_qos -i ib3b-0 -p 0,1,2,3,4,5,6,7
端口各优先级的收发计数
#测量该接口发送和接收的 Xon 和 Xoff(传输开启和关闭)帧的数量:
# watch -n 1 "ethtool -S eth1 | grep prio"
(intel
请注意,Rx 计数器全为 0。当适配器通过交换机连接时,rx_priority_* 计数器可能为 0,表明适配器尚未从交换机收到任何暂停帧。根据网络中的压力水平,如果交换机有足够的缓冲来跟上主机需求,这是可以接受的。但是,对于高压力流量(例如更大规模的 HPC 应用程序),交换机通常会向主机发送暂停帧。通常,预计会同时看到 tx 和 rx_priority 计数器。
请注意,某些 Tx 计数器具有相同的值。在 800 系列 QoS 实施中,如果为traffic class中的任何priority启用 PFC,则该traffic class中的所有priority都会获得暂停帧。这意味着同一 TC 中所有priority的计数器都会一致递增,而不管导致 PFC 触发的特定单个priority如何。如果所有priority都映射到同一个 TC,它们都会一致增加。)
对于 RDMA CM 流量,将 RoCE 模式设置为 V2。
cma_roce_mode -d mlx5_0 -p 1 -m 2
将默认 ToS 设置为 24 (DSCP 6) 映射到 skprio 4
cma_roce_tos -d mlx5_0 -t 24
https://community.mellanox.com/s/article/howto-configure-roce-with-ecn-end-to-end-using-connectx-4-and-spectrum--trust-l2-x#jive_content_id_Debugging_ECN_and_PFC
查看GID
show_gids (mellonx;intel自己也写同样的脚本,脚本内容见末尾)
show_gids mlx5_5 (mellonx)查看设备可用端口, gid_index, rmda版本
查看端口丢弃
show_drop (mellonx;intel自己也写同样的脚本,脚本内容见末尾)
弃包统计
ethtool -S enp175s0f0 | grep drop
watch -n 1 “ethtool -S enp175s0f0 | grep drop” #1 s 刷新一次
各个优先级收发包统计
watch -n 1 "ethtool -S ib3b-0 | grep prio"
查看device
ibdev2netdev (mellonx;intel自己也写同样的脚本,脚本内容见末尾)
ibdev2netdev –v (mellonx)
验证 InfiniBand 链接是否已启动
hca_self_test.ofed (mellonx)
Mellanox OFED 安装的信息
/etc/infiniband/info
看自动加载的模块列表
/etc/infiniband/openib.conf
检查Mellanox网卡是否安装和版本
[root@rdma61 ~]# lspci | grep Mellanox
查看驱动版本:modinfo mlx5_core
查看系统里所有的网卡和工作状态:
[root@rdma63 tcpdump]# ip a
[root@rdma63 tcpdump]# ibv_devices
device node GUID
------ ----------------
mlx5_1 98039b03009a4296
mlx5_0 98039b03009a2b3a
[root@rdma63 tcpdump]# ibv_devinfo
或
[root@rdma63 tcpdump]# ibv_devinfo mlx5_0
重新启动RDMA驱动
/etc/init.d/openibd restart
如果驱动不正常,虽然service network restart 可以启动Ethernet端口,但实际rdma驱动并未成功加载。
执行/etc/init.d/openibd restart 可以看到很多的错误。(还有记得把ibacm启动, service ibacm start)
The ibacm service is responsible for resolving names and addresses to InfiniBand path information and caching such data.
It should execute with administrative privileges.
The ibacm implements a client interface over TCP sockets, which is abstracted by the librdmacm library.
mellonx信息搜集
/usr/sbin/sysinfo-snapshot.py
//****************************************************交换机****************************************
S6820《H3C S6820 系列以太网交换机 二层技术-以太网交换配置指导》P11:PFC 优先级高于FC,设置了PFC 则忽略FC
S6820《08-ACL和QoS命令参考》 http://www.h3c.com/cn/d_201904/1164329_30005_0.htm#_Toc5703597
2.配置H3C交换机
a) 配置优先级信任模式为DSCP:
例如:
[H3C]sys
[H3C]interface HundredGigE1/0/6
[H3C-HundredGigE1/0/6] 6
*配置信任模式为DSCP,交换机才会使用 报文自带的DSCP做映射。
设置信任模式为DSCP,则进入交换机的报文优先级映射会涉及到3个表:
进-->出 映射,
dscp-dot1p #入端口报文为dscp会被交换机映射到lp队列
dscp-dp #入端口报文为dscp会被交换机映射到dp队列
dscp-dscp #入端口报文的dscp会被交换机改为dscp转发
(优先级可分为两类:报文携带优先级和设备调度优先级。
设备调度优先级是指报文在设备内转发时所使用的优先级,只对当前设备自身有效。
设备调度优先 级包括以下几种:
• 本地优先级(LP):设备为报文分配的一种具有本地意义的优先级,每个本地优先级对应一 个队列,本地优先级值越大的报文,进入的队列优先级越高,从而能够获得优先的调度。
• 丢弃优先级(DP):在进行报文丢弃时参考的参数,丢弃优先级值越大的报文越被优先丢弃。)
display qos map-table dscp-dot1p
b) 配置PFC功能的开启模式
例如:
[H3C]sys
[H3C]interface HundredGigE1/0/6
[H3C-HundredGigE1/0/6] priority-flow-control enable
6.显示接口的PFC信息
display priority-flow-control interface 显示全部
display priority-flow-control interface [ interface-type [ interface-number ] ] 显示某个
关闭PFC:undo priority-flow-control
7,使能PFC后还需指定PFC作用的不弃包的等级priority-flow-control no-drop dot1p dot1p-list
如:
priority-flow-control no-drop dot1p 0
priority-flow-control no-drop dot1p 0,1,3
(dot1p和dscp的映射见display qos map-table dscp-dot1p )
http://www.h3c.com/cn/d_201906/1206016_30005_0.htm
显示端口是否开启FC:----不是PFC,设置了PFC就忽略FC
display interface [接口]
如: display interface HundredGigE1/0/2
缩写:dis int HundredGigE1/0/4
(1、端口入方向报文计数错误字段解释
input errors:各种输入错误的总数。
runts:表示接收到的超小帧个数。超小帧即接收到的报文小于 64 字节,且包括有效的 CRC 字段,报文格式正确。
giants:是超过端口设置的 Maximum Frame Length 的报文个数。 CRC:表示接收到的 CRC 校验错误报文个数。
frame:端口接收时出错的报文。
2、端口出方向报文计数错误字段解释
output errors:各种输出错误的总数。
aborts:表示发送失败的报文总数。
deferred:表示延迟报文的总数。报文延迟是指因延迟过长的周期而导致发送失败的报文,而这些报文由于发送媒质繁忙而等待了超过 2 倍的最大报文发送时间。
collisions:表示冲突帧总数,即在发送过程中发生冲突的报文。 l
ate collisions:表示延迟冲突帧,即发送过程中发生延迟冲突超过 512bit 时间的帧。
)
H3C 二层命令参考:http://www.h3c.com/cn/d_202104/1397802_30005_0.htm
****************************
显示和维护(H3C交换机)
****************************
大部分指令interface 可以缩写成int
1.显示指定优先级映射表配置情况
display qos map-table dot1p-dp | dot1p-exp | dot1p-lp | dscp-dot1p | dscp-dp | dscp-dscp | exp-dot1p | exp-dp ]
如:display qos map-table dscp-dscp
2. 显示接口优先级信任模式信息(sys视图)
display qos trust interface [ interface-type interface-number ]
如:
display qos trust interface HundredGigE1/0/1
3. 显示端口简单信息
display interface brief
4. 显示端口在该间隔时间内统计的报文信息
display interface
5. 显示Qos trust设置
display qos trust int
6. 显示接口的PFC信息
display priority-flow-control interface 显示全部
display priority-flow-control interface [ interface-type [ interface-number ] ] 显示某个
显示收发和暂停统计
-显示全部端口
-display interface
-显示某个端口
-display interface HundredGigE1/0/2
查看拥塞drop包(弃包/丢包)
display packet-drop
display packet-drop interface HundredGigE1/0/4
《接口管理命令参考》http://www.h3c.com/cn/d_201906/1206016_30005_0.htm
//===============================================================================测试================================================================
Tos=============
--tos=<tos value> Set <tos_value> to RDMA-CM QPs. available only with -R flag. values 0-256 (default off)
ibdump -d mlx5_0 -i 1 -w sniffer.acp #抓包
ib_send_bw -d mlx5_0 --rdma_cm #服务端
ib_send_bw 192.169.31.54 --rdma_cm --tos=12 –R #客户端1100
关闭交换机PFC:
[H3C]sys
[H3C]interface HundredGigE1/0/4
[H3C-HundredGigE1/0/4] undo priority-flow-control
# 显示所有接口的WRED配置情况和统计信息。
<Sysname> display qos wred interface
# 显示WRED表1的配置情况,表1是一个已经配置好的WRED参数表。
<Sysname> display qos wred table name 1
sys视图:
创建wred表:qos wred queue table table-name
显示wred表:display qos wred table
删除wred表:undo qos wred queue table table-name
接口应用/切换wred表:
[H3C]int HundredGigE1/0/2
[H3C-HundredGigE1/0/2]qos wred apply queue-table1
撤销接口的wred表:
[H3C]int HundredGigE1/0/2
[H3C-HundredGigE1/0/2]undo qos wred apply
http://www.h3c.com/cn/d_202107/1423314_30005_0.htm#_Toc76396377
queue 0 drop-level 0 low-limit 1000 high-limit 30000 discard-probability 1
queue 1 drop-level 0 low-limit 1000 high-limit 30000 discard-probability 1
queue 2 drop-level 0 low-limit 1000 high-limit 30000 discard-probability 1
queue 3 drop-level 0 low-limit 1000 high-limit 30000 discard-probability 1
queue 4 drop-level 0 low-limit 1000 high-limit 30000 discard-probability 1
queue 5 drop-level 0 low-limit 1000 high-limit 30000 discard-probability 1
queue 6 drop-level 0 low-limit 1000 high-limit 30000 discard-probability 1
queue 7 drop-level 0 low-limit 1000 high-limit 30000 discard-probability 1
queue 0 drop-level 1 low-limit 1000 high-limit 30000 discard-probability 1
queue 1 drop-level 1 low-limit 1000 high-limit 30000 discard-probability 1
queue 2 drop-level 1 low-limit 1000 high-limit 30000 discard-probability 1
queue 3 drop-level 1 low-limit 1000 high-limit 30000 discard-probability 1
queue 4 drop-level 1 low-limit 1000 high-limit 30000 discard-probability 1
queue 5 drop-level 1 low-limit 1000 high-limit 30000 discard-probability 1
queue 6 drop-level 1 low-limit 1000 high-limit 30000 discard-probability 1
queue 7 drop-level 1 low-limit 1000 high-limit 30000 discard-probability 1
queue 0 drop-level 2 low-limit 1000 high-limit 30000 discard-probability 1
queue 1 drop-level 2 low-limit 1000 high-limit 30000 discard-probability 1
queue 2 drop-level 2 low-limit 1000 high-limit 30000 discard-probability 1
queue 3 drop-level 2 low-limit 1000 high-limit 30000 discard-probability 1
queue 4 drop-level 2 low-limit 1000 high-limit 30000 discard-probability 1
queue 5 drop-level 2 low-limit 1000 high-limit 30000 discard-probability 1
queue 6 drop-level 2 low-limit 1000 high-limit 30000 discard-probability 1
queue 7 drop-level 2 low-limit 1000 high-limit 30000 discard-probability 1
缓冲区使用情况查询:
display buffer usage interface
display buffer usage interface HundredGigE1/0/6
display priority-flow-control interface HundredGigE1/0/2
display priority-flow-control interface HundredGigE1/0/4
display priority-flow-control interface HundredGigE1/0/6
display packet-drop interface HundredGigE1/0/2
reset counters interface HundredGigE1/0/2
reset counters interface HundredGigE1/0/4
reset counters interface HundredGigE1/0/6
qos wred apply queue-table1
==========================
Intel show_gids
==========================
#!/bin/bash
function show_gid()
{
for device in ` ls /sys/class/infiniband/` #注意此处这是两个反引号,表示运行系统命令
{
echo "****************"
echo "Device:"${device}
for port in ` ls /sys/class/infiniband/${device}/ports/`
{
echo "IB port:"${port}
for gid in `ls /sys/class/infiniband/${device}/ports/${port}/gids`
{
GID=`cat /sys/class/infiniband/${device}/ports/${port}/gids/${gid}` #在此处处理文件即可
if [[ $GID == *0000:0000:0000:0000:0000:0000:0000:0000* ]]
then
: #do nothing
#echo "包含"
else
#echo "不包含"
echo "GID"${gid}":"$GID
fi
}
}
}
}
show_gid
==========================
Intel show_drop
==========================
#!/bin/bash
function show_drop()
{
for device in `ls /sys/class/infiniband/`
{
echo ""
echo -e "\e[1;32m${device}\e[0m"
cd /sys/class/infiniband/${device}/hw_counters
for f in *Discards
{
echo -n "$f: "
cat "$f"
}
}
}
show_drop
*intel官方提供的脚本:
# cd /sys/class/infiniband/irdma-enp175s0f0/hw_counters
# for f in *Discards; do echo -n "$f: "; cat "$f"; done
==========================
Inetl ibdev2netdev
==========================
#!/bin/bash
echo "--------------------------------------"
echo "script locate:/usr/bin/ibvdev2netdev"
echo "Author:liangchaoxi"
echo "***************************************"
ibv_devices|awk '{system("echo "$1"\"-->\"`ls /sys/class/infiniband/"$1"/device/net`")}' |& grep -Ev '/device/net|device|-------->'
echo "***************************************"
ip route
echo "--------------------------------------"
@UESTC
很好奇,就使用rubyonrails自动化单元测试而言,你们正在做什么?您是否创建了一个脚本来在cron中运行rake作业并将结果邮寄给您?git中的预提交Hook?只是手动调用?我完全理解测试,但想知道在错误发生之前捕获错误的最佳实践是什么。让我们理所当然地认为测试本身是完美无缺的,并且可以正常工作。下一步是什么以确保他们在正确的时间将可能有害的结果传达给您? 最佳答案 不确定您到底想听什么,但是有几个级别的自动代码库控制:在处理某项功能时,您可以使用类似autotest的内容获得关于哪些有效,哪些无效的即时反馈。要确保您的提
我正在用Ruby编写一个简单的程序来检查域列表是否被占用。基本上它循环遍历列表,并使用以下函数进行检查。require'rubygems'require'whois'defcheck_domain(domain)c=Whois::Client.newc.query("google.com").available?end程序不断出错(即使我在google.com中进行硬编码),并打印以下消息。鉴于该程序非常简单,我已经没有什么想法了-有什么建议吗?/Library/Ruby/Gems/1.8/gems/whois-2.0.2/lib/whois/server/adapters/base.
大约一年前,我决定确保每个包含非唯一文本的Flash通知都将从模块中的方法中获取文本。我这样做的最初原因是为了避免一遍又一遍地输入相同的字符串。如果我想更改措辞,我可以在一个地方轻松完成,而且一遍又一遍地重复同一件事而出现拼写错误的可能性也会降低。我最终得到的是这样的:moduleMessagesdefformat_error_messages(errors)errors.map{|attribute,message|"Error:#{attribute.to_s.titleize}#{message}."}enddeferror_message_could_not_find(obje
我主要使用Ruby来执行此操作,但到目前为止我的攻击计划如下:使用gemsrdf、rdf-rdfa和rdf-microdata或mida来解析给定任何URI的数据。我认为最好映射到像schema.org这样的统一模式,例如使用这个yaml文件,它试图描述数据词汇表和opengraph到schema.org之间的转换:#SchemaXtoschema.orgconversion#data-vocabularyDV:name:namestreet-address:streetAddressregion:addressRegionlocality:addressLocalityphoto:i
我正在编写一个包含C扩展的gem。通常当我写一个gem时,我会遵循TDD的过程,我会写一个失败的规范,然后处理代码直到它通过,等等......在“ext/mygem/mygem.c”中我的C扩展和在gemspec的“扩展”中配置的有效extconf.rb,如何运行我的规范并仍然加载我的C扩展?当我更改C代码时,我需要采取哪些步骤来重新编译代码?这可能是个愚蠢的问题,但是从我的gem的开发源代码树中输入“bundleinstall”不会构建任何native扩展。当我手动运行rubyext/mygem/extconf.rb时,我确实得到了一个Makefile(在整个项目的根目录中),然后当
我构建了两个需要相互通信和发送文件的Rails应用程序。例如,一个Rails应用程序会发送请求以查看其他应用程序数据库中的表。然后另一个应用程序将呈现该表的json并将其发回。我还希望一个应用程序将存储在其公共(public)目录中的文本文件发送到另一个应用程序的公共(public)目录。我从来没有做过这样的事情,所以我什至不知道从哪里开始。任何帮助,将不胜感激。谢谢! 最佳答案 无论Rails是什么,几乎所有Web应用程序都有您的要求,大多数现代Web应用程序都需要相互通信。但是有一个小小的理解需要你坚持下去,网站不应直接访问彼此
我有一个围绕一些对象的包装类,我想将这些对象用作散列中的键。包装对象和解包装对象应映射到相同的键。一个简单的例子是这样的:classAattr_reader:xdefinitialize(inner)@inner=innerenddefx;@inner.x;enddef==(other)@inner.x==other.xendenda=A.new(o)#oisjustanyobjectthatallowso.xb=A.new(o)h={a=>5}ph[a]#5ph[b]#nil,shouldbe5ph[o]#nil,shouldbe5我试过==、===、eq?并散列所有无济于事。
我有一些Ruby代码,如下所示:Something.createdo|x|x.foo=barend我想编写一个测试,它使用double代替block参数x,这样我就可以调用:x_double.should_receive(:foo).with("whatever").这可能吗? 最佳答案 specify'something'dox=doublex.should_receive(:foo=).with("whatever")Something.should_receive(:create).and_yield(x)#callthere
Sinatra新手;我正在运行一些rspec测试,但在日志中收到了一堆不需要的噪音。如何消除日志中过多的噪音?我仔细检查了环境是否设置为:test,这意味着记录器级别应设置为WARN而不是DEBUG。spec_helper:require"./app"require"sinatra"require"rspec"require"rack/test"require"database_cleaner"require"factory_girl"set:environment,:testFactoryGirl.definition_file_paths=%w{./factories./test/
我遵循MichaelHartl的“RubyonRails教程:学习Web开发”,并创建了检查用户名和电子邮件长度有效性的测试(名称最多50个字符,电子邮件最多255个字符)。test/helpers/application_helper_test.rb的内容是:require'test_helper'classApplicationHelperTest在运行bundleexecraketest时,所有测试都通过了,但我看到以下消息在最后被标记为错误:ERROR["test_full_title_helper",ApplicationHelperTest,1.820016791]test