服务器基础知识

服务器基础知识

文章目录

服务器分类服务器介绍CPUCPU主要参数1. 缓存:2. 频率:3. 多核和超线程技术4. P-State和C-State定义,两者之间的关系,测试时常用加工具是什么5. NUMA的概念6. Sklake CPU PCIE扩展特性7. CPU性能查询厂商内存1. 服务器内存条配置原则2. 内存带宽计算厂商硬盘1. 硬盘的分类–接口类型2.硬盘关键指标厂商RAID1. RAID基本概念2. RAID级别RAID 0RAID 1RAID 5RAID 6RAID 10GPU1. GPU基础知识2. GPU 关键参数和技术指标厂商网卡1. 网卡的定义2. 网卡主要功能3.网卡的分类厂商服务器测试项常用的性能测试及压测工具SPECCPUstream压测stressapp压测MLC测试Lmbench-latency测试memtester压测CPU1. 常用查询CPU信息的命令如何设置CPU的工作频率,和设置CPU性能模式内存1. 查询硬盘的信息,包括型号、厂家、固件版本硬盘1. 查询硬盘的信息,包括型号、厂商、固件版本等。2. 查询硬盘的硬件链路速率和位宽以及盘是否有UE/CE/AER相关的报错3. 描述下暴力热拔插(带IO/不带IO)和通知式热插拔(带IO/不带IO)之间的区别4. 如何升级硬盘FW5. 描述下硬盘指示灯都代表什么意思6. 简要描述安全擦除case具体步骤7. 常用的分区工具8. 硬盘性能测试;稳定性测试包含哪些。预期结果是什么9. fio主要测试硬盘的那些指标,介绍下fio主要参数有哪些GPU网卡1. 查询网卡的信息,包括型号;厂商;固件版本,速率,当前队列情况等2. 查询网卡的硬件链路速率和位宽以及盘是否有UE/CE/AER相关的报错3. 如何获取网卡的传感器信息​​​​4. 网卡FW/驱动升级方式,如何加载卸载网卡驱动​​5. 描述下网卡指示灯状态都代表什么意思​​​​6. 介绍下网卡NCSI功能是什么意思,怎么设置​​7. 介绍下设置IP的命令,临时,永久都需要说​​8. 介绍下网卡常测试的几种bond,说明下不同bond模式的作用,如何设置bond。预期结果是什么。如何查询网卡是否丢包​​9. 如何设置网卡速率自协商功能​​11. 网络延迟测试用什么工具​​长稳装备自动化

服务器分类

分类方式 类别
按CPU指令集分类 Unix 服务器、X86服务器
按处理器数量分类 1路、双路、多路(一块主板上的CPU数量)、CPU Cores (Unix服务器)
按服务器外形分类 塔式、机架式、刀片式、高密
按负载类型分类 数据库服务器、应用服务器、接入服务器、Web服务器、文件服务器

服务器介绍

服务器主要由cpu 、 内存 、 硬盘(NVME 、 SATA) 、 GPU 、 网卡 、 RAID卡 、PCIE卡、 PROT(可信模块) 、 其它固件(电源、主板、风扇板、硬盘背板、电源背板、I/O面板等) + 操作系统 (本地OS + BMC + BIOS)+ 机箱

CPU

CPU(Center Processing Unit ,中央处理器)是一块超大规模的集成电路,是一台计算机的运算核心(Core)和控制核心(Control Unit)中央处理器主要包括运算器(算数逻辑运算单元,ALU,Arithmetic Logic Unit)和高速缓冲存储器(Cache)及实现它们之间联系的数据(Data)、控制及状态的总线(Bus)它与存储器(Memory)和输入/输出(I/O)设备合称为电子计算机三大核心部件。

CPU按指令集分为CISC(复杂指令集)和RISC(精简指令集)

CPU主要参数

架构
封装方式
主频
供电电压
CPU字长、功率、型号
微架构、平台
CPU核数

1. 缓存:

缓存(Cache Memory)是位于CPU与内存之间的临时存储器,目前的CPU拥有一级、二级和三级缓存(L1 L2 L3 Cache)

2. 频率:

CPU的频率主要包含主频、外频和倍频三部分。主频=外频*倍频,这是X86架构的CPU计算频率的公式。CPU主频为CPU的额定工作频率,当内核数目和缓存大小一样时,主频越高的CPU性能越好。
Intel Turbo Boost技术中文叫做Intel睿频加速技术,此技术运行Intel CPU 工作在标称频率(TSC)之上,性能分配上实现按需分配

3. 多核和超线程技术

多核处理器把多个CPU(核心)集成到单个集成电路芯片(integrated circuit chip)中

超线程(hyper-threading)其实就是同时多线程(simultaneous multi-theading),是一项允许一个CPU执行多个控制流的技术
超线程(HT/SMT):将一个物理CPU核心模拟成两个逻辑核心,共享核心的计算单元,以提高资源利用率
enable/disable:

BIOS/UEFI设置:这是最主要的方式,在CPU配置中寻找到 “Hyper-Threading Technology” (Intel) 或 “SMT” (AMD) 选项Linux运行时:​​ 可以随时开关每个核心的超线程


# 禁用CPU1的超线程(其对应的逻辑核心通常是CPU1+核心总数/2)
echo 0 > /sys/devices/system/cpu/cpu1/online
# 重新启用
echo 1 > /sys/devices/system/cpu/cpu1/online
4. P-State和C-State定义,两者之间的关系,测试时常用加工具是什么

P-State(Performance State):性能状态,指CPU通过调节电压和频率(DVFS)来动态调节性能功耗C-State(Idle State):休眠状态,指CPU在空闲时关闭部分单元以节省功耗,C-State数字越大,休眠越深,唤醒延迟越长关系:CPU先进入更浅的C-State,如果需要更高性能,则切换到更高的P-State(提高频率)。它们是协同工作的功耗管理机制加压工具:
通用:stress,stress-ng

5. NUMA的概念

NUMA概念:在计算机架构中,NUMA(非统一内存访问)是一种内存设计方式,用于处理多处理器系统的可伸缩性和效率。NUMA允许多个处理器访问本地内存,同时也能访问远程内存,但访问本地内存的速度更快,因此系统性能的优化变得至关重要NUMA工作原理:在NUMA架构中,系统中的每个处理器都有自己的本地内存。当一个处理器需要访问另一个处理器的内存时,性能会受到影响。因此,为了提高系统性能,操作系统需要有效地管理这些内存访问。NUMA的优势
并行性能:NUMA允许多个处理器并行处理,减少了竞争和延迟。可扩展性:新处理器可以轻松添加到现有的NUMA系统中。资源分配:可以更智能地分配内存和处理器资源,提高应用的性能
在BIOS 中的NUMA设置
进入BIOS设置,你可能会看到”NUMA”或”Memory Configuration”的选项。这些选项可以启用或禁用NUMA

6. Sklake CPU PCIE扩展特性

每个CPU有4个IO模块,IOU0用于连接PCH,IOU1~IOU3用于连接PCIE设备,每个IOU下有16个PCIE通道,可根据需要组合成为X4、X8、X16

7. CPU性能查询

SPEC CPU/tpmC

厂商

常见的CPU厂商:Intel / AMD (x86架构)、高通 / 华为 / 飞腾等(ARM架构)

内存

在服务器系统中,内存(Memory)也被称为内存储器,其作用是用于暂时存放CPU中的运算数据,以及与硬盘等外部存储器交换的数据

1. 服务器内存条配置原则

推荐采用平衡插法配置内存,所有内存通道配置一样的内存(包括速率、容量、Rank等),不支持不同类型DIMM的混插;多颗CPU配置时,首先保持各个CPU的内存配置一样;当单rank、双rank、四rank DIMM插入2DPC,总是先从最远的槽位开始插rank高的DIMM

注:2DPC :2 DIMM per Channel (每个通道插2根DIMM条)

2. 内存带宽计算

满配最大内存带宽 = 内存标称频率 * 内存总线位数 * 通道数 * CPU个数实际使用的内存带宽 = 内存标称频率 * 内存总线位数 * 实际使用的通道数

厂商

常见的内存生产厂商:Samsung 三星、SK Hynix 海力士、Micron 美光、Ramaxel 记忆科技、Kingston金士顿

硬盘

1. 硬盘的分类–接口类型
接口类型 图片
SATA 接口 服务器基础知识
mSATA接口 服务器基础知识
SAS接口 服务器基础知识
U.2接口、M.2接口、AIC接口 服务器基础知识
2.硬盘关键指标

硬盘容量(Volume)
硬盘容量单位一般为GB、TB,影响硬盘容量的因素有单碟容量和碟片数量转速(Rotational speed)
硬盘的转速指硬盘盘片每分钟转过的圈数,单位为RPM(Rotation Per Minute)。平均访问时间(Average Access Time)= 平均寻道时间 + 平均等待时间数据传输率(Date Transfer Rate)
硬盘的数据传输率是指硬盘读写数据的速度,单位为兆字节每秒(MB/s)。硬盘数据传输率包括内部传输率和外部传输率两个指标。IOPS(Input/Output Per Second)
即每秒的输入输出量(或读写次数),是衡量磁盘性能的主要指标之一。
随机读写频繁的应用,如OLTP(Online Transaction Processing),IOPS是关键衡量指标。另一个重要指标是数据吞吐量(Throughput),指单位时间内可以成功传输的数据数量。对于大量顺序读写的应用,如电视台的视频编辑,视频点播等则更关注吞吐量指标。

厂商

常见的硬盘供应商:Seagate希捷、HGST昱科(日立)、WD西数、Toshiba东芝、Micron镁光、Samsung三星、德明利、得瑞

RAID

1. RAID基本概念

定义:
RAID (Redundant Array of Independent Disks) 即独立磁盘冗余阵列,RAID技术将多个单独的物理硬盘以不同的方式组合成一个逻辑硬盘,从而提高硬盘的读写性能和数据安全性。

数据组织及存取方式:
分块:将一个分区分成多个大小相等的、地址相邻的块,这些块称为分块。它是组成条带的元素。
条带:同一磁盘阵列中的多个磁盘驱动器上的相同”位置” (或者说是相同编号)的分块。

热备、重构

热备(HotSpare)的定义:
当冗余的RAID组中某个硬盘失效时,在不干扰当前RAID系统的正常使用的情况下,用RAID系统中另外一个正常的备用硬盘自动顶替失效硬盘,及时保证RAID系统的冗余性。热备一般分为两种:
全局式:备用硬盘为系统中所有的冗余RAID组共享
专用式:备用硬盘为系统中某一组冗余RAID组专用重构
服务器基础知识

逻辑卷
在RAID的基础上可以按照指定容量创建一个或多个逻辑卷,通过LUN (Logic Unit Number)来标识
服务器基础知识

2. RAID级别

根据性能特征的不同,RAID级别分为多个类型,如RAID 0、RAID 1、RAID 5、RAID 6等。

RAID 0:条带化(数据分块)但没有冗余,提供较高的读写性能。RAID 1:镜像,数据完全复制到另一个驱动器,提供容错能力。RAID 5:条带化加分布式奇偶校验,提供数据冗余和读取性能。RAID 6:类似RAID 5,但提供更高级别的容错能力。RAID 10:RAID 1+0,将RAID 1镜像组合成RAID 0条带化,提供较高的容错能力和读写性能。RAID 50:RAID 5 组合成RAID 0,提供较高的性能和容错能力。RAID 60:RAID 6 组合成RAID 0,提供更高级别的性能和容错能力。

RAID 0

原理:
RAID 0使用数据条带化(striping)的方式将数据分散存储在多个磁盘驱动器上,而不进行冗余备份。数据被分成固定大小的块,并一次存储在每个磁盘上。例如,如果有两个驱动器(驱动器A和驱动器B),一块数据的第一个部分存储在驱动器A上,第二个部分存储在驱动器B上,以此类推。这种条带化的方式可以同时从多个驱动器读取或写入数据,从而提高系统的性能。

服务器基础知识

RAID 1

原理:
RAID 1 使用数据镜像(mirroring)的方式将数据完全复制到两个或多个磁盘驱动器上。当写入数据时,数据同时写入所有驱动器。这样每个驱动器都具有相同的数据副本,从而实现数据的冗余备份。如果其中一个驱动器发生故障,系统可以继续从剩余的驱动器中读取数据,确保数据的可用性和完整性。

服务器基础知识

RAID 5

原理:
RAID 5使用数据条带化(striping)的方式将数据分散存储在多个磁盘驱动器上,并通过分布式奇偶校验实现数据的冗余备份。数据和奇偶校验信息被组织成数据块,其中奇偶校验信息被分布式存储在不同的驱动器上。当写入数据时,奇偶校验信息也会被更新。如果其中一个驱动器发生故障,系统可以通过重新计算奇偶校验信息来恢复丢失的数据。这种方式可以同时提供性能增强和数据冗余。

Ap、Bp、Cp等为奇偶校验信息

服务器基础知识

RAID 6

原理
RAID 6使用数据条带化(striping)的方式将数据分散存储在多个磁盘驱动器上,并通过分布式奇偶校验和双重奇偶校验实现数据的冗余备份。数据和奇偶校验信息被组织成数据块,其中奇偶校验信息被分布式存储在不同的驱动器上,并通过双重奇偶校验提供更高的数据冗余性。当写入数据时,奇偶校验信息也会被更新。如果其中两个驱动器发生故障,系统可以通过重新计算奇偶校验信息来恢复丢失的数据。这种方式可以同时提供性能增强和更高级别的数据冗余。

服务器基础知识

RAID 10

原理
RAID 10使用条带化(striping)的方式将数据分散存储在多个磁盘驱动器上,并通过镜像(mirroring)实现数据的冗余备份。数据被分成固定大小的块,并依次存储在不同的驱动器上,类似于RAID 1。这样,RAID 10在提供性能增强的同时,也提供了数据的冗余保护。

服务器基础知识

GPU

1. GPU基础知识

GPU:图形处理器(Graphics Processing Unit),又称显示核心、视觉处理器、显示芯片,是一种专门在个人电脑、工作站、游戏机和一些移动设备(如平板电脑、智能手机等)图像运算工作的微处理器。GPU和CPU的硬件逻辑架构对比
服务器基础知识

2. GPU 关键参数和技术指标

CUDA核心:CUDA核心数量决定了GPU并行处理的能力,在深度学习、机器学习等并行计算类业务下,CUDA核心多意味着性能好一些。显存容量:其主要功能就是暂时储存GPU要处理的数据和处理完毕的数据。显存容量大小决定了GPU能够加载的数据量大小。显存位宽:显存在一个时钟周期内所能传送数据的位数,位数越大则瞬间所能传输的数据量越大,这是显存的重要参数之一。显存频率:一定程度上反应着该显存的速度,以MHz(兆赫兹)为单位,显存频率随着显存的类型、性能的不同而不同。显存频率和位宽决定显存带宽。显存带宽:指显示芯片与显存之间的数据传输速率,它以字节/秒为单位/显存带宽是决定显卡性能和速度最重要的因素之一。其他指标:除了显卡通用指标外,NVIDIA还有一些针对特定场景优化的指标,例如TsnsoCore、RTCoreRT等能力。例如TensenCore专门用于加速深度学习中的张量运算

厂商

GPU主流厂商:英特尔、NVIDIA、AMD

网卡

1. 网卡的定义

网卡是计算机与局域网互联的设备,在TCP/IP模型中,工作在物理层及数据链路层,用于接收和发送计算机数据。
网卡,又称为网络适配器或网络接口卡NIC(Network interface Card),是构成计算机网络系统中最基本的连接设备,计算机主要通过网卡接入网络。

2. 网卡主要功能

代表固定的网络地址数据的发送与接收数据的封装与解封
发送数据时,加上首部和尾部;接收数据时,剥去首部和尾部链路管理:主要是CSMA/CD (冲突检测的载波监听多路访问)的实现编码与译码:物理层数据的编码与译码

3.网卡的分类

MOC卡是一种物理形态,而DPU、ASIC网卡、FPGA网卡是“大脑”或“核心”功能。一个MOC卡可以内置DPU、ASIC或FPGA作为其处理核心。

MOC卡-物理形态层
MOC是夹层卡,一种专为刀片服务器设计的物理外形规格。ASIC网卡-固定功能、高性能
专用集成电路 作为处理核心的网卡。芯片功能在出厂时就已经固化,专为特定服务(如TCP/IP协议栈处理、VXLAN封装解封装)优化。
优点:性能极高、功耗极低。一旦量产,成本也低。我们日常使用的绝大多数普通网卡和交换芯片都是ASIC的。缺点:功能固化,不可编程。
FPGA网卡-灵活可编程
使用现场可编程门阵列作为处理核心的网卡。FPGA的硬件逻辑电路可以通过编程在后期重新配置。
优点:高度灵活、可重构。可以在不更换硬件的情况下,通过加载不同的比特流文件来实现全新的硬件功能(比如从网络加密功能切换到数据压缩功能)。性能和延迟介于ASIC和CPU之间缺点:开发难度大,成本高、功耗相对ASIC较高。
DPU-集成了CPU的网卡
数据处理单元。它本质上是一个“片上系统”,通常集成了一个多核通用CPU(通常是ARM架构)、高性能网络接口(如高速以太网)、灵活的加速引擎(这些引擎可能是可编程的ASIC,或者是FPGA逻辑块),用于加速网络、存储、安全等任务。
目标:将主机CPU上的基础设施任务(如虚拟化、网络、存储、安全)卸载到DPU上执行,让主机CPU更专注于运行业务应用。特点:它不再是一张简单的网卡,而是一个功能强大的、可以独立运行操作系统的微型服务器。DPU的实现方式可以是ASIC、FPGA,或者二者结合。

厂商

Tencent银杉网卡、博通网卡、玄灵网卡

服务器测试项

常用的性能测试及压测工具

SPECCPU

SPEC CPU 2017基准测试:

SPEC CPU 2017 基准测试包含SPEC的下一代行业标准化CPU密集型套件,用于测量和比较计算密集型性能,对系统的处理器、内存子系统和编译器施加压力。SPEC CPU 2017基准测试包包含43个基准测试,分为四个套件:
SPECspeed 2017 整数 和 SPECspeed 2017 浮点套件用于比较计算机完成单个任务的时间。SPECrate 2017 整数 和 SPECrate 2017 浮点套件测量单位时间的吞吐量或工作量。

stream压测
stressapp压测
MLC测试

MLC(Intel Memory Latency Checker) 是Intel发布的专业工具,主要测试:

内存延迟:测试空闲和负载下的内存读/写延迟内存带宽:测试读、写、拷贝等操作的最大带宽缓存延迟和带宽:测试各级缓存(L1,L2,L3)的性能并发负载下的延迟:模拟在多核心访问内存时,对特定核心造成的延迟影响。

Lmbench-latency测试
memtester压测

CPU

1. 常用查询CPU信息的命令


lscpu
:最常用最全面,显示架构、核心数、线程数、NUMA节点等
cat /proc/cpuinfo
:显示每个逻辑CPU的详细信息
nproc
:直接显示逻辑CPU核心总数
dmidecode -t processor
:从BIOS读取详细的CPU信息

如何设置CPU的工作频率,和设置CPU性能模式

内存

1. 查询硬盘的信息,包括型号、厂家、固件版本


dmidecode -t memory
:最详细,显示每个内存插槽的厂商、型号、大小、速率
lshw -short -C memory
:查看内存硬件信息
free -h
:查看系统已用和可用的内存总量
cat /proc/meminfo
:查看内核管理的内存详细信息

硬盘

1. 查询硬盘的信息,包括型号、厂商、固件版本等。

查询服务器硬盘


lsblk  

查看指定硬盘的详细信息(将/dev/nvme0n1 替换为你的硬盘设备)


smartctl -a /dev/nvme0n1
2. 查询硬盘的硬件链路速率和位宽以及盘是否有UE/CE/AER相关的报错

smartctl命令


smartctl -a /dev/sda

NVMe命令(可以快速查看硬盘固件版本)


nvme list

通用方法:查看内核日志和设备树


lspci -v #查看PCIe设备信息,包括链路速度和位宽

错误查询(UE/CE/AER):

UE(Uncorrectable Errors):不可纠正的错误CE(Correctable Errors):可纠正的错误AER(Advanced Error Reporting):高级错误报告
主要工具是smartctl:


smartctl -a /dev/sda | grep -i "error"

同时检查系统日志:


dmesg | grep -i "error|stata|scsi" | grep -i "disk|sda"
journalctl | grep -i "sda" | grep -i "error"
3. 描述下暴力热拔插(带IO/不带IO)和通知式热插拔(带IO/不带IO)之间的区别

暴力热插拔:物理上直接插拔硬盘,操作系统无预先准备
不带IO:风险相对较低,但依然可能导致系统日志报错、总线短暂重置,影响其他设备带IO:危险!可能导致正在读写的数据丢失/损坏、文件系统崩溃、进程卡死,甚至引发内核恐慌
通知式热插拔:通过软件命令先通知操作系统和设备驱动,使其做好准备后再进行物理操作
不带IO:最安全的方式。OS会卸载文件系统、停止设备IO、解除驱动绑定,然后提示“可以安全移除”带IO:通常不被允许。OS会等待当前IO完成或强制结束相关进程,但仍有数据不一致风险,应避免

4. 如何升级硬盘FW

工具包安装


yum install hdparm
yum install nvme-cli

M.2 ER3/PM893 硬盘


# 通用工具hdparm升降级
hdparm --fwdownload 固件文件 --yes-i-know-what-i-am-doing-please-destroy-my-drive /dev/sdX
# PM893厂商工具升降级
./SSDManager -d /dev/sdX -AF -p 固件文件 --force

NVME


# 通用工具nvme -cli
nvme fw-download /dev/nvmeXn1 -f 固件文件
# 老本版可能不支持,可以用 fw-activate
nvme fw-commit /dev/nvmeXn1 -a 3 -s 0/1
nvme fw-activate /dev/nvmeXn1 -a 3 -s 0/1

升级后需要重启系统!

5. 描述下硬盘指示灯都代表什么意思

常亮绿灯/蓝灯 : 硬盘已通电,系统识别闪烁绿灯/蓝灯:硬盘正在读写数据。闪烁频率越高,IO负载越重常亮/闪烁琥珀灯/红灯:严重警告!表示硬盘发生故障不亮:硬盘未通电或物理连接问题

6. 简要描述安全擦除case具体步骤

安全擦除会将盘上所有数据永久清除、无法恢复

step1:备份数据!
step2:检查是否支持安全擦除:smartctl -c /dev/sda | grep -i “security”
step3:设置密码(可选,但建议):hdparm –security-set-pass PassWord /dev/sda
step4:
执行安全擦除:
hdparm --security -erase PassWord /dev/sda

对于NVMe硬盘:
nvme format /dev/nvme0n1 --ses=1

step5:等待完成并重启

7. 常用的分区工具

fdisk:经典的MBR分区表工具parted/ gparted(GUI):功能强大,支持MBR和GPT分区表gdisk:用于GPT分区表cfdisk:基于ncurses的交互式分区工具

8. 硬盘性能测试;稳定性测试包含哪些。预期结果是什么

性能测试:​​ 顺序/随机读写带宽(Throughput/BW)、IOPS、延迟(Latency)。
工具:​​ fio, dd(简单顺序测试), ioping(延迟测试)。预期结果:​​ 达到或接近厂商标称的接口速率(如SATA 6Gbps ≈ 550MB/s, NVMe Gen4 x4 ≈ 7000MB/s)。
​​稳定性测试:​​ 长时间高负载、高队列深度、混合读写压力测试。
​ * 工具:​​ fio(长时间运行),stress-ng。
​​ * 预期结果:​​ 测试期间无错误、无宕机、性能曲线平稳,系统日志无相关报错。

9. fio主要测试硬盘的那些指标,介绍下fio主要参数有哪些

测试指标:带宽(BW)、IOPS、延迟(平均/最小/最大)、延迟分布、QOS(服务质量,如设定IOPS上限或延迟上限)主要参数:

–filename: 测试文件(如 /dev/sda1或一个文件)。
–direct=1: 绕过页面缓存,直接IO,测真实磁盘性能。
–rw: 读写模式(read, write, randread, randwrite, rw, randrw)。
–bs: 块大小(4k, 1M等)。
–size: 测试文件大小。
–numjobs: 并发任务数,模拟多线程。
–iodepth: IO队列深度。
–runtime: 测试运行时间。
–group_reporting: 汇总所有job的报告。
–output: 结果输出文件。

GPU

网卡

1. 查询网卡的信息,包括型号;厂商;固件版本,速率,当前队列情况等

ethtool命令:


# 查看基本信息,包括支持的速率、当前速率、驱动
ethtool eth0 
# 查看驱动版本、固件版本
ethtool -i eth0

lspci 命令:


lspci | grep -i ethernet
lspci -v -s <PCI地址>  # 查看指定网卡的详细信息,包括厂商和型号

ip命令:


ip link show  # 查看所有网络接口状态

lshw 命令:


lshw -class network
2. 查询网卡的硬件链路速率和位宽以及盘是否有UE/CE/AER相关的报错

链路速率:ethtool eth0 输出中的“Speed”字段位宽:这是PCIe总线特性,用lspci -vv -s <PCI地址>查看寻找 “LnkSta” 行,如 “Width x4”。​​错误查询:​​


ethtool -S eth0 | grep -i "error|drop|discard"查看网卡统计信息中的错误和丢包。
dmesg | grep -i "eth0|pcie" | grep -i error查看内核日志中的相关错误。
3. 如何获取网卡的传感器信息​​

网卡传感器信息(如温度)通常不通过标准工具暴露。可尝试:

​​厂商特定工具:​​ 如Mellanox的 mget_temp。​​sensors命令 (需要安装 lm-sensors):​​ 运行 sensors-detect后,再运行 sensors看是否包含网卡传感器。​​查询驱动:​​ 某些驱动在 /sys/class/net/eth0/device/目录下提供温度文件。

​​4. 网卡FW/驱动升级方式,如何加载卸载网卡驱动​​

​​* FW升级:​​ 从网卡厂商(Intel, Mellanox等)官网下载FW和刷新工具,通常在Linux下为命令行工具,操作类似硬盘FW升级。

​​驱动升级:​​
下载新驱动源码。
编译安装(通常是 make && sudo make install)。
重新加载驱动。
​​加载/卸载驱动:​​


sudo modprobe <驱动模块名>    # 加载
sudo rmmod <驱动模块名>       # 卸载(需先down掉网卡:`ip link set eth0 down`)
sudo modprobe -r <驱动模块名> # 强制卸载(有依赖时)
5. 描述下网卡指示灯状态都代表什么意思​​

链路指示灯 (常绿):​​ 表示物理链路已连通。活动指示灯 (闪烁黄/橙):​​ 表示有数据正在收发。速率指示灯 (不同颜色组合):​​ 某些网卡用不同颜色表示当前速率(如10/100/1000Mbps)。

​​6. 介绍下网卡NCSI功能是什么意思,怎么设置​​

NCSI (Network Controller Sideband Interface):​​ 一种带外管理协议。允许基板管理控制器(BMC)通过同一个物理网口与管理系统通信,而不会干扰主机操作系统的正常网络流量。常用于服务器的远程管理(如IPMI)。设置:​​ 通常在服务器BIOS/BMC的硬件管理界面中配置,而非在OS内设置。

7. 介绍下设置IP的命令,临时,永久都需要说​​

​​临时设置(重启后失效):


sudo ip addr add 192.168.1.100/24 dev eth0
sudo ip link set eth0 up
# 或者使用传统的ifconfig(已过时)
sudo ifconfig eth0 192.168.1.100 netmask 255.255.255.0 up

永久设置(基于主流Linux发行版,如RHEL/CentOS/Ubuntu):​​* RHEL/CentOS/Fedora (使用NetworkManager或ifcfg文件):​​
编辑 /etc/sysconfig/network-scripts/ifcfg-eth0文件,设置 BOOTPROTO=static, IPADDR=192.168.1.100, NETMASK=255.255.255.0,然后重启网络服务 systemctl restart network。Ubuntu/Debian (使用netplan):​​
编辑 /etc/netplan/01-netcfg.yaml文件,然后应用 sudo netplan apply。

8. 介绍下网卡常测试的几种bond,说明下不同bond模式的作用,如何设置bond。预期结果是什么。如何查询网卡是否丢包​​

​​常见Bond模式:​​
​​mode=0 (balance-rr):​​ 轮询,负载均衡和容错。
​​mode=1 (active-backup):​​ 主备,容错。
​​mode=4 (802.3ad):​​ 链路聚合(LACP),需要交换机支持,提供负载均衡和容错。设置Bond:​​ 使用 ip命令或编辑网络配置文件(如CentOS的ifcfg-bondX文件)。​​预期结果:​​ 负载均衡模式下带宽叠加,主备模式下一根网线断开业务不中断。查询丢包:​​


ethtool -S eth0 | grep -i "drop|error"  # 查看网卡层面的丢包
ip -s link show eth0                     # 查看OS网络栈的丢包统计(RX dropped/TX dropped)
netstat -i                              # 查看接口统计,包括丢包
9. 如何设置网卡速率自协商功能​​

# 开启自协商
sudo ethtool -s eth0 autoneg on
# 强制设置为1000Mbps,全双工,关闭自协商
sudo ethtool -s eth0 autoneg off speed 1000 duplex full

​​10. iperf性能测试常用参数,如何测试,预期结果​​

​​服务端:​​ iperf3 -s​​客户端:​​ iperf3 -c <服务器IP> -t 60 -P 4 -w 16M

-t 60: 测试60秒。
-P 4: 使用4个并行线程。
-w 16M: 设置TCP窗口大小为16MB。
-R: 反向测试(服务器发,客户端收)。
-u -b 1G: UDP测试,带宽1Gbps。
预期结果:​​ TCP测试应接近链路带宽,UDP测试的抖动(jitter)和丢包率应极低。

11. 网络延迟测试用什么工具​​

​​ping:​​ 测试ICMP回显延迟。​​hping3:​​ 更强大的ping,可测试TCP/UDP端口延迟。​​traceroute/ mtr:​​ 跟踪路径并显示每跳延迟。​​iperf3的 –udp模式:​​ 可以报告UDP流的抖动,这也是延迟的一种表现。

长稳

装备

自动化

© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
none
暂无评论...