NVIDIA Mellanox IB交换机使用手册(中文简易版)
2023-07-28 16:27:06
昌辉
10246
Mellanox IB交换机使用手册(中文简易版)微信公众号原文链接
本文档以IB交换机NVIDIA SB7800为例,编写Mellanox IB交换机安装和使用方法。
1、SB7800是1U小机箱设备,硬件安装很简单,现场开箱也有硬件安装说明书,此处不再赘述。
2、SB7800是双电源冗余,给设备加电即系统自动运行
3、SB7800串口登录方式
串口设置方法如下:
SB7800, QM8700, 以及机框式大交换机CS7500系列和CS8500系列的串口波特率都是:115200,其他选项设置参考上图。
注:上图COM4为测试笔记本的串口号,通过“我的电脑”>> “管理“ >> "设备管理器" >> "端口(COM和LPT)" 查看端口,
如果没有显示,可能是没有安装驱动,系统不能识别USB串口,请自行安装驱动。
4、初始化向导配置,交换机首次开机大概需要10分钟,运行正常后,在终端显示如下
看到以上提示,直接回车(Enter),将会提示输入用户名和密码,默认用户名是 admin,密码是 admin
第一次登录交换机,自动进入配置向导,主要是配置主机名,管理ip,管理网关,变更密码(如果要变更密码,请务必牢记)
如果不需要进行配置向导,输入no,即可跳过,我们演示一下进入向导
输入yes,开始配置,
1、修改主机名为 test-7800
2、带外网口默认启用DHCP自动获取ip(如果管理网有DHCP服务器),输入no,则不启用DHCP模式
3、使用 zeroconf 配置, 如果第2步骤输入no,此步骤也是输入no
4、配置带外管理网口IP和掩码, 192.168.1.119/24
5、配置带外管理网口的网关,192.168.1.1
6、DNS,如果管理网有DNS服务器,则可以输入,没有则直接回车跳过
7、输入域名,根据需要输入,没有则直接回车跳过
8、启用IPv6,不启用输入no
9、输入 admin 用户的密码,默认输入 admin ,如果想变更,则自定义输入,但请务必牢记
10、输入monitor 用户的密码,默认输入admin,如果想变更,则自定义输入,但请务必牢记
最后 Choice: 输入回车即可。
然后就进入交换机提示符界面
5、交换机的三种模式
5.1、第一种模式,>
test-7800 [standalone: master] >
此模式不能配置和修改交换机,只可以进行一般查询,比如系统版本,交换机序列号,系统镜像等
test-7800 [standalone: master] > show version Product name: MLNX-OS Product release: 3.8.2102 Build ID: #1-dev Build date: 2019-11-26 21:48:40 Target arch: x86_64 Target hw: x86_64 Built by: jenkins@c776fa44be2b Version summary: X86_64 3.8.2102 2019-11-26 21:48:40 x86_64 Product model: x86onie Host ID: 0C42A1C9BBE0 System serial num: MT2028K00054 System UUID: 2d402054-c0f8-11ea-8000-043f720846f0 Uptime: 48m 34.980s CPU load averages: 3.02 / 3.04 / 3.00 Number of CPUs: 2 System memory: 476 MB used / 3287 MB free / 3763 MB total Swap: 0 MB used / 0 MB free / 0 MB total test-7800 [standalone: master] > show inventory ----------------------------------------------------------------------------- Module Part Number Serial Number Asic Rev. HW Rev. ----------------------------------------------------------------------------- CHASSIS MSB7800-ES2F MT2028K00054 N/A AH MGMT MSB7800-ES2F MT2028K00054 0 AH FAN1 MTEF-FANF-A MT2027K19897 N/A A6 FAN2 MTEF-FANF-A MT2027K19903 N/A A6 FAN3 MTEF-FANF-A MT2027K19908 N/A A6 FAN4 MTEF-FANF-A MT2027K19920 N/A A6 PS1 MTEF-PSF-AC-A MT2027K20709 N/A A4 PS2 MTEF-PSF-AC-A MT2027K20710 N/A A4 test-7800 [standalone: master] > test-7800 [standalone: master] > show images Installed images: Partition 1: version: X86_64 3.8.2102 2019-11-26 21:48:40 x86_64 Partition 2: version: X86_64 3.8.2102 2019-11-26 21:48:40 x86_64 Last boot partition: 2 Next boot partition: 2
5.2、第二种模式 #
IB-switch-7800 [standalone: master] > enable IB-switch-7800 [standalone: master] #
输入enable,进入 # 模式,此模式同样不可用配置和修改交换机,但可以查看更多信息,列如查看设备型号
IB-switch-7800 [standalone: master] # show system type MSB7800
5.3、第三种模式 (config)#
IB-switch-7800 [standalone: master] > enable IB-switch-7800 [standalone: master] # configure terminal IB-switch-7800 [standalone: master] (config) #
输入configure terminal ,进入config 配置模式,此模式为配置模式,可以配置和修改交换机,比如修改系统时区和时间
test-7800 [standalone: master] (config) # clock timezone ? Africa America Antarctica Arctic Asia Atlantic_Ocean Australia Europe Indian_Ocean Pacific_Ocean UTC UTC-offset test-7800 [standalone: master] (config) # clock timezone Asia Eastern Shanghai test-7800 [standalone: master] (config) # clock set ? :: test-7800 [standalone: master] (config) # clock set 10:04:00 ? Set the time but leave the date unchanged // test-7800 [standalone: master] (config) # clock set 10:04:00 2020/12/16 test-7800 [standalone: master] (config) # show clock Time: 10:04:08 Date: 2020/12/16 Time zone: Asia Eastern Shanghai (Asia/Shanghai) UTC offset: +0800 (UTC plus 8 hours)
6、远程访问交换机,交换机配置带外管理IP,通过远程访问软件(Xshell,CRT)可以ssh 远程登录到交换机
我们以xshell为例,在终端输入命令:
ssh admin@192.168.1.119
如上图提示,选择使用键盘输入用户身份验证,弹出输入密码对话框,输入密码
然后,进入交换机命令行界面,如下图:
7、一般情况下,建议在IB交换机开启子网管理器功能。如果没有特殊需求。几乎不需要其他配置。
开启子网管理器(SM)
test-7800 [standalone: master] > enable test-7800 [standalone: master] # configure terminal test-7800 [standalone: master] (config) # ib smnode test-7800 enable test-7800 [standalone: master] (config) # show ib sm enable test-7800 [standalone: master] (config) # show ib sm sm-priority 0 test-7800 [standalone: master] (config) # ib sm sm-priority 15 test-7800 [standalone: master] (config) # show ib sm sm-priority 15 test-7800 [standalone: master] (config) # write memory test-7800 [standalone: master] (config) #
如果是生产环境,在交换机开启SM,建议把SM 优先级调至最高(15),默认是0,优先级的范围 值为 0 ~ 15.
保存配置,使用命令 : write memory 或者 configuration write 都可以。
8、IB交换机常用查询命令演示:
查看交换机序列号(SN),报修时需要提供SN
test-7800 [standalone: master] (config) # show inventory ----------------------------------------------------------------------------- Module Part Number Serial Number Asic Rev. HW Rev. ----------------------------------------------------------------------------- CHASSIS MSB7800-ES2F MT2028K00054 N/A AH MGMT MSB7800-ES2F MT2028K00054 0 AH FAN1 MTEF-FANF-A MT2027K19897 N/A A6 FAN2 MTEF-FANF-A MT2027K19903 N/A A6 FAN3 MTEF-FANF-A MT2027K19908 N/A A6 FAN4 MTEF-FANF-A MT2027K19920 N/A A6 PS1 MTEF-PSF-AC-A MT2027K20709 N/A A4 PS2 MTEF-PSF-AC-A MT2027K20710 N/A A4
查看交换机系统版本
test-7800 [standalone: master] (config) # show version Product name: MLNX-OS Product release: 3.8.2102 Build ID: #1-dev Build date: 2019-11-26 21:48:40 Target arch: x86_64 Target hw: x86_64 Built by: jenkins@c776fa44be2b Version summary: X86_64 3.8.2102 2019-11-26 21:48:40 x86_64 Product model: x86onie Host ID: 0C42A1C9BBE0 System serial num: MT2028K00054 System UUID: 2d402054-c0f8-11ea-8000-043f720846f0 Uptime: 2h 7m 22.670s CPU load averages: 3.06 / 3.08 / 3.09 Number of CPUs: 2 System memory: 539 MB used / 3224 MB free / 3763 MB total Swap: 0 MB used / 0 MB free / 0 MB total
此命令输出结果可以显示交换机的已运行时间,比如上图 2小时7分钟
查看交换机各个组件状态
test-7800 [standalone: master] (config) # show module ------------------------- Module Status ------------------------- MGMT ready FAN1 ready FAN2 ready FAN3 ready FAN4 ready PS1 ready PS2 ready
全部都是ready
查看电源、风扇、温度
test-7800 [standalone: master] (config) # show power ----------------------------------------------------------------------------------------- Module Device Sensor Power Voltage Current Capacity Feed Status [Watts] [Volts] [Amp] [Watts] ----------------------------------------------------------------------------------------- PS1 power-mon input 37.62 236.50 0.17 460.00 AC OK PS2 power-mon input 29.75 236.50 0.14 460.00 AC OK Total power used : 67.38 Watts Total power capacity : 920.00 Watts Total power available : 852.62 Watts Maximum consumed power of all turned on modules: 400.00 Watts test-7800 [standalone: master] (config) # test-7800 [standalone: master] (config) # show fan ----------------------------------------------------------------------- Module Device Fan Speed Status (RPM) ----------------------------------------------------------------------- FAN1 FAN F1 8187.00 OK FAN1 FAN F2 7156.00 OK FAN2 FAN F1 8441.00 OK FAN2 FAN F2 7349.00 OK FAN3 FAN F1 8237.00 OK FAN3 FAN F2 7232.00 OK FAN4 FAN F1 8441.00 OK FAN4 FAN F2 7194.00 OK PS1 FAN F1 10336.00 OK PS2 FAN F1 10288.00 OK test-7800 [standalone: master] (config) # show temperature --------------------------------------------------------- Module Component Reg CurTemp Status (Celsius) --------------------------------------------------------- MGMT SIB2 T1 33.00 OK MGMT Board AMB temp T1 27.50 OK MGMT Ports AMB temp T1 31.00 OK MGMT CPU package Sensor T1 35.00 OK MGMT CPU Core Sensor T1 28.00 OK MGMT CPU Core Sensor T2 36.00 OK PS1 power-mon T1 25.00 OK PS2 power-mon T1 26.00 OK
所有状态都是OK
查看交换机IB接口状态
test-7800 [standalone: master] (config) # show interfaces ib status
从上图我们可以看到,此交换机有4个接口LinkUp,其中1/13和1/17使用qdr 40Gb/s的IB线缆接入,1/21 和 1/25 使用fdr 56Gb/s的IB线缆接入,由于没有EDR 100Gb/s线缆,此处没有演示。
查看交换机某个IB接口信息
test-7800 [standalone: master] (config) # show interfaces ib 1/25 IB1/25 state: Logical port state : Active Physical port state : LinkUp Current line rate : 56.0 Gbps Supported speeds : sdr, ddr, qdr, fdr10, fdr, edr Speed : fdr Supported widths : 1X, 4X Width : 4X Max supported MTUs : 4096 MTU : 4096 VL capabilities : VL0 - VL7 Operational VLs : VL0 - VL3 Description : IB Subnet : infiniband-default Phy-profile : high-speed-ber Width reduction mode : Not supported Telemetry sampling : Disabled Telemetry threshold : Disabled Telemetry record : Disabled Telemetry threshold level : N/A bytes RX bytes : 329687624 RX packets : 80041 RX errors : 0 Symbol errors : 0 VL15 dropped packets : 0 TX bytes : 164744 TX packets : 5175 TX wait : 0 TX discarded packets : 0
显示详细的接口信息,还可以检查接口接收和发送的数据包
查看交换机某个IB接口的线缆信息,可以显示线缆的长度、PN和SN
test-7800 [standalone: master] (config) # show interfaces ib 1/25 transceiver IB1/25 state: identifier : QSFP+ cable/module type : Passive copper, unequalized infiniband speeds : SDR , DDR , QDR , FDR vendor : Mellanox cable length : 3m part number : MC2207128-003 revision : A3 serial number : MT1749VS00784 test-7800 [standalone: master] (config) # show interfaces ib 1/17 transceiver IB1/17 state: identifier : QSFP+ cable/module type : Optical cable/ module infiniband speeds : SDR , DDR , QDR vendor : Finisar cable length : 15m part number : FCBN410QB1C15 revision : B serial number : DST04MR
9、收集交换机(sysdump),交换机系统运行如果出现问题,需要收集交换机sysdump日志
9.1 通过命令行收集交换机sysdump
生成sysdump,此过程大概需要5分钟,请耐心等待
test-7800 [standalone: master] (config) # debug generate dump Generated dump sysdump-test-7800-20201216-113019.tgz
发送sysdump 文件到远程主机或服务器
test-7800 [standalone: master] (config) # file debug-dump upload latest scp://root:123456@192.168.1.83/root/sysdump-test-7800-20201216-113019.tgz Uploading file sysdump-test-7800-20201216-113019.tgz
latest是指发送最后一次生成的sysdump,这样不容易出错。
因为如果之前生成过,会容易混淆而发送其他时间生成的sysdump。
查看所有sysdump 文件
test-7800 [standalone: master] (config) # show files debug-dump sysdump-switch-c9bbe0-20200918-044703.tgz sysdump-test-7800-20201216-113019.tgz
删除sys dump文件,如果交换机有多个sysdump文件,不建议长期保留在交换机
test-7800 [standalone: master] (config) # file debug-dump delete sysdump-switch-c9bbe0-20200918-044703.tgz test-7800 [standalone: master] (config) # show files debug-dump sysdump-test-7800-20201216-113019.tgz
9.2、通过web页面收集交换机sysdump,操作方便,推荐使用web方式。
在浏览器输入交换机管理IP地址: https://192.168.1.119 输入用户名和密码
默认进入 Status 页面,点击 Maintenance,然后点击 Generate Sysdump File,大概等待4分钟,生成结束,再点击Download Sysdump File
与 NVIDIA产品相关的图片或视频(完整或部分)的版权均归 NVIDIA Corporation 所有。