NVIDIA Mellanox IB交换机使用手册(中文简易版)

2023-07-28 16:27:06 昌辉 10246
Mellanox IB交换机使用手册(中文简易版)微信公众号原文链接
本文档以IB交换机NVIDIA SB7800为例,编写Mellanox IB交换机安装和使用方法。
1、SB7800是1U小机箱设备,硬件安装很简单,现场开箱也有硬件安装说明书,此处不再赘述。
2、SB7800是双电源冗余,给设备加电即系统自动运行
3、SB7800串口登录方式
      串口设置方法如下:
Sinoinfo_Pic
SB7800, QM8700, 以及机框式大交换机CS7500系列和CS8500系列的串口波特率都是:115200,其他选项设置参考上图。
注:上图COM4为测试笔记本的串口号,通过“我的电脑”>> “管理“ >> "设备管理器"  >> "端口(COM和LPT)" 查看端口,
如果没有显示,可能是没有安装驱动,系统不能识别USB串口,请自行安装驱动。
Sinoinfo_Pic
4、初始化向导配置,交换机首次开机大概需要10分钟,运行正常后,在终端显示如下

Sinoinfo_Pic

看到以上提示,直接回车(Enter),将会提示输入用户名和密码,默认用户名是 admin,密码是 admin
第一次登录交换机,自动进入配置向导,主要是配置主机名,管理ip,管理网关,变更密码(如果要变更密码,请务必牢记)
Sinoinfo_Pic
如果不需要进行配置向导,输入no,即可跳过,我们演示一下进入向导

Sinoinfo_Pic

输入yes,开始配置,
    1、修改主机名为 test-7800
    2、带外网口默认启用DHCP自动获取ip(如果管理网有DHCP服务器),输入no,则不启用DHCP模式
    3、使用 zeroconf 配置, 如果第2步骤输入no,此步骤也是输入no
    4、配置带外管理网口IP和掩码, 192.168.1.119/24
    5、配置带外管理网口的网关,192.168.1.1
    6、DNS,如果管理网有DNS服务器,则可以输入,没有则直接回车跳过
    7、输入域名,根据需要输入,没有则直接回车跳过
    8、启用IPv6,不启用输入no
    9、输入 admin 用户的密码,默认输入 admin ,如果想变更,则自定义输入,但请务必牢记
    10、输入monitor 用户的密码,默认输入admin,如果想变更,则自定义输入,但请务必牢记
    最后 Choice:  输入回车即可。
然后就进入交换机提示符界面
5、交换机的三种模式

    5.1、第一种模式,>

    test-7800 [standalone: master] >

         

    此模式不能配置和修改交换机,只可以进行一般查询,比如系统版本,交换机序列号,系统镜像等
test-7800 [standalone: master] > show version
Product name:      MLNX-OS
Product release:   3.8.2102
Build ID:          #1-dev
Build date:        2019-11-26 21:48:40
Target arch:       x86_64
Target hw:         x86_64
Built by:          jenkins@c776fa44be2b
Version summary:   X86_64 3.8.2102 2019-11-26 21:48:40 x86_64
Product model:     x86onie
Host ID:           0C42A1C9BBE0
System serial num: MT2028K00054
System UUID:       2d402054-c0f8-11ea-8000-043f720846f0
Uptime:            48m 34.980s
CPU load averages: 3.02 / 3.04 / 3.00
Number of CPUs:    2
System memory:     476 MB used / 3287 MB free / 3763 MB total
Swap:              0 MB used / 0 MB free / 0 MB total
test-7800 [standalone: master] > show inventory
-----------------------------------------------------------------------------
Module           Part Number        Serial Number        Asic Rev.    HW Rev.
-----------------------------------------------------------------------------
CHASSIS          MSB7800-ES2F       MT2028K00054         N/A          AH
MGMT             MSB7800-ES2F       MT2028K00054         0            AH
FAN1             MTEF-FANF-A        MT2027K19897         N/A          A6
FAN2             MTEF-FANF-A        MT2027K19903         N/A          A6
FAN3             MTEF-FANF-A        MT2027K19908         N/A          A6
FAN4             MTEF-FANF-A        MT2027K19920         N/A          A6
PS1              MTEF-PSF-AC-A      MT2027K20709         N/A          A4
PS2              MTEF-PSF-AC-A      MT2027K20710         N/A          A4
test-7800 [standalone: master] >
test-7800 [standalone: master] > show images
Installed images:
  Partition 1:
    version: X86_64 3.8.2102 2019-11-26 21:48:40 x86_64
  Partition 2:
    version: X86_64 3.8.2102 2019-11-26 21:48:40 x86_64
Last boot partition: 2
Next boot partition: 2
    5.2、第二种模式 #


IB-switch-7800 [standalone: master] > enable
IB-switch-7800 [standalone: master] #
        输入enable,进入 # 模式,此模式同样不可用配置和修改交换机,但可以查看更多信息,列如查看设备型号


IB-switch-7800 [standalone: master] # show system type
MSB7800
    5.3、第三种模式 (config)#


IB-switch-7800 [standalone: master] > enable
IB-switch-7800 [standalone: master] # configure terminal
IB-switch-7800 [standalone: master] (config) #
        输入configure terminal ,进入config 配置模式,此模式为配置模式,可以配置和修改交换机,比如修改系统时区和时间
test-7800 [standalone: master] (config) # clock timezone ?
Africa
America
Antarctica
Arctic
Asia 
Atlantic_Ocean
Australia
Europe
Indian_Ocean
Pacific_Ocean
UTC   
UTC-offset
test-7800 [standalone: master] (config) # clock timezone Asia Eastern Shanghai
test-7800 [standalone: master] (config) # clock set ?
::
test-7800 [standalone: master] (config) # clock set 10:04:00 ?
                           Set the time but leave the date unchanged
//
test-7800 [standalone: master] (config) # clock set 10:04:00 2020/12/16
test-7800 [standalone: master] (config) # show clock
Time:       10:04:08
Date:       2020/12/16
Time zone:  Asia Eastern Shanghai (Asia/Shanghai)
UTC offset: +0800 (UTC plus 8 hours)
6、远程访问交换机,交换机配置带外管理IP,通过远程访问软件(Xshell,CRT)可以ssh 远程登录到交换机
我们以xshell为例,在终端输入命令:
ssh admin@192.168.1.119
Sinoinfo_Pic
如上图提示,选择使用键盘输入用户身份验证,弹出输入密码对话框,输入密码

Sinoinfo_Pic

然后,进入交换机命令行界面,如下图:

Sinoinfo_Pic

7、一般情况下,建议在IB交换机开启子网管理器功能。如果没有特殊需求。几乎不需要其他配置。
        开启子网管理器(SM)
test-7800 [standalone: master] > enable
test-7800 [standalone: master] # configure terminal
test-7800 [standalone: master] (config) # ib smnode test-7800 enable
test-7800 [standalone: master] (config) # show ib sm
enable
test-7800 [standalone: master] (config) # show ib sm sm-priority
0
test-7800 [standalone: master] (config) # ib sm sm-priority 15
test-7800 [standalone: master] (config) # show ib sm sm-priority
15
test-7800 [standalone: master] (config) # write memory
test-7800 [standalone: master] (config) #
如果是生产环境,在交换机开启SM,建议把SM 优先级调至最高(15),默认是0,优先级的范围 值为 0 ~ 15.
保存配置,使用命令 : write memory 或者 configuration write 都可以。
8、IB交换机常用查询命令演示:
        查看交换机序列号(SN),报修时需要提供SN
test-7800 [standalone: master] (config) # show inventory
-----------------------------------------------------------------------------
Module           Part Number        Serial Number        Asic Rev.    HW Rev.
-----------------------------------------------------------------------------
CHASSIS          MSB7800-ES2F       MT2028K00054         N/A          AH
MGMT             MSB7800-ES2F       MT2028K00054         0            AH
FAN1             MTEF-FANF-A        MT2027K19897         N/A          A6
FAN2             MTEF-FANF-A        MT2027K19903         N/A          A6
FAN3             MTEF-FANF-A        MT2027K19908         N/A          A6
FAN4             MTEF-FANF-A        MT2027K19920         N/A          A6
PS1              MTEF-PSF-AC-A      MT2027K20709         N/A          A4
PS2              MTEF-PSF-AC-A      MT2027K20710         N/A          A4
        查看交换机系统版本
test-7800 [standalone: master] (config) # show version
Product name:      MLNX-OS
Product release:   3.8.2102
Build ID:          #1-dev
Build date:        2019-11-26 21:48:40
Target arch:       x86_64
Target hw:         x86_64
Built by:          jenkins@c776fa44be2b
Version summary:   X86_64 3.8.2102 2019-11-26 21:48:40 x86_64
Product model:     x86onie
Host ID:           0C42A1C9BBE0
System serial num: MT2028K00054
System UUID:       2d402054-c0f8-11ea-8000-043f720846f0
Uptime:            2h 7m 22.670s
CPU load averages: 3.06 / 3.08 / 3.09
Number of CPUs:    2
System memory:     539 MB used / 3224 MB free / 3763 MB total
Swap:              0 MB used / 0 MB free / 0 MB total
此命令输出结果可以显示交换机的已运行时间,比如上图 2小时7分钟
        查看交换机各个组件状态
test-7800 [standalone: master] (config) # show module
-------------------------
Module       Status
-------------------------
MGMT         ready
FAN1         ready
FAN2         ready
FAN3         ready
FAN4         ready
PS1          ready
PS2          ready
全部都是ready
查看电源、风扇、温度
test-7800 [standalone: master] (config) # show power
-----------------------------------------------------------------------------------------
Module  Device            Sensor  Power   Voltage  Current  Capacity  Feed  Status
                                  [Watts] [Volts]  [Amp]    [Watts]
-----------------------------------------------------------------------------------------
PS1     power-mon         input   37.62   236.50   0.17     460.00    AC    OK
PS2     power-mon         input   29.75   236.50   0.14     460.00    AC    OK
Total power used : 67.38 Watts
Total power capacity : 920.00 Watts
Total power available : 852.62 Watts
Maximum consumed power of all turned on modules: 400.00 Watts
test-7800 [standalone: master] (config) #
test-7800 [standalone: master] (config) # show fan
-----------------------------------------------------------------------
Module            Device                  Fan    Speed     Status
                                                 (RPM)
-----------------------------------------------------------------------
FAN1              FAN                     F1     8187.00   OK
FAN1              FAN                     F2     7156.00   OK
FAN2              FAN                     F1     8441.00   OK
FAN2              FAN                     F2     7349.00   OK
FAN3              FAN                     F1     8237.00   OK
FAN3              FAN                     F2     7232.00   OK
FAN4              FAN                     F1     8441.00   OK
FAN4              FAN                     F2     7194.00   OK
PS1               FAN                     F1     10336.00  OK
PS2               FAN                     F1     10288.00  OK
test-7800 [standalone: master] (config) # show temperature
---------------------------------------------------------
Module      Component              Reg  CurTemp    Status
                                        (Celsius)
---------------------------------------------------------
MGMT        SIB2                   T1   33.00      OK
MGMT        Board AMB temp         T1   27.50      OK
MGMT        Ports AMB temp         T1   31.00      OK
MGMT        CPU package Sensor     T1   35.00      OK
MGMT        CPU Core Sensor        T1   28.00      OK
MGMT        CPU Core Sensor        T2   36.00      OK
PS1         power-mon              T1   25.00      OK
PS2         power-mon              T1   26.00      OK
所有状态都是OK
查看交换机IB接口状态
test-7800 [standalone: master] (config) # show interfaces ib status
从上图我们可以看到,此交换机有4个接口LinkUp,其中1/13和1/17使用qdr 40Gb/s的IB线缆接入,1/21 和 1/25 使用fdr 56Gb/s的IB线缆接入,由于没有EDR 100Gb/s线缆,此处没有演示。
查看交换机某个IB接口信息
test-7800 [standalone: master] (config) # show interfaces ib 1/25
IB1/25 state:
        Logical port state          : Active
        Physical port state         : LinkUp
        Current line rate           : 56.0 Gbps
        Supported speeds            : sdr, ddr, qdr, fdr10, fdr, edr
        Speed                       : fdr
        Supported widths            : 1X, 4X
        Width                       : 4X
        Max supported MTUs          : 4096
        MTU                         : 4096
        VL capabilities             : VL0 - VL7
        Operational VLs             : VL0 - VL3
        Description                 :
        IB Subnet                   : infiniband-default
        Phy-profile                 : high-speed-ber
        Width reduction mode        : Not supported
        Telemetry sampling          : Disabled
        Telemetry threshold         : Disabled
        Telemetry record            : Disabled
        Telemetry threshold level   : N/A bytes
        RX bytes                    : 329687624
        RX packets                  : 80041
        RX errors                   : 0
        Symbol errors               : 0
        VL15 dropped packets        : 0
        TX bytes                    : 164744
        TX packets                  : 5175
        TX wait                     : 0
        TX discarded packets        : 0
显示详细的接口信息,还可以检查接口接收和发送的数据包
查看交换机某个IB接口的线缆信息,可以显示线缆的长度、PN和SN
test-7800 [standalone: master] (config) # show interfaces ib 1/25 transceiver
IB1/25 state:
        identifier                  : QSFP+
        cable/module type           : Passive copper, unequalized
        infiniband speeds           : SDR , DDR , QDR , FDR
        vendor                      : Mellanox
        cable length                : 3m
        part number                 : MC2207128-003
        revision                    : A3
        serial number               : MT1749VS00784
test-7800 [standalone: master] (config) # show interfaces ib 1/17 transceiver
IB1/17 state:
        identifier                  : QSFP+
        cable/module type           : Optical cable/ module
        infiniband speeds           : SDR , DDR , QDR
        vendor                      : Finisar
        cable length                : 15m
        part number                 : FCBN410QB1C15
        revision                    : B
        serial number               : DST04MR
9、收集交换机(sysdump),交换机系统运行如果出现问题,需要收集交换机sysdump日志
    9.1 通过命令行收集交换机sysdump
        生成sysdump,此过程大概需要5分钟,请耐心等待
test-7800 [standalone: master] (config) # debug generate dump
Generated dump sysdump-test-7800-20201216-113019.tgz
        发送sysdump 文件到远程主机或服务器
test-7800 [standalone: master] (config) # file debug-dump upload latest scp://root:123456@192.168.1.83/root/sysdump-test-7800-20201216-113019.tgz
Uploading file sysdump-test-7800-20201216-113019.tgz
latest是指发送最后一次生成的sysdump,这样不容易出错。
因为如果之前生成过,会容易混淆而发送其他时间生成的sysdump。
查看所有sysdump 文件
test-7800 [standalone: master] (config) # show files debug-dump
sysdump-switch-c9bbe0-20200918-044703.tgz  sysdump-test-7800-20201216-113019.tgz
删除sys dump文件,如果交换机有多个sysdump文件,不建议长期保留在交换机
test-7800 [standalone: master] (config) # file debug-dump delete sysdump-switch-c9bbe0-20200918-044703.tgz
test-7800 [standalone: master] (config) # show files debug-dump
sysdump-test-7800-20201216-113019.tgz
9.2、通过web页面收集交换机sysdump,操作方便,推荐使用web方式。
        在浏览器输入交换机管理IP地址: https://192.168.1.119  输入用户名和密码

Sinoinfo_Pic

默认进入 Status 页面,点击 Maintenance,然后点击 Generate Sysdump File,大概等待4分钟,生成结束,再点击Download Sysdump File

Sinoinfo_Pic

Sinoinfo_Pic

Sinoinfo_Pic




与 NVIDIA产品相关的图片或视频(完整或部分)的版权均归 NVIDIA Corporation 所有。

微信公众号