服务器基础知识

文章目录

服务器分类服务器介绍CPUCPU主要参数1. 缓存：2. 频率：3. 多核和超线程技术4. P-State和C-State定义，两者之间的关系，测试时常用加工具是什么5. NUMA的概念6. Sklake CPU PCIE扩展特性7. CPU性能查询厂商内存1. 服务器内存条配置原则2. 内存带宽计算厂商硬盘1. 硬盘的分类–接口类型2.硬盘关键指标厂商RAID1. RAID基本概念2. RAID级别RAID 0RAID 1RAID 5RAID 6RAID 10GPU1. GPU基础知识2. GPU 关键参数和技术指标厂商网卡1. 网卡的定义2. 网卡主要功能3.网卡的分类厂商服务器测试项常用的性能测试及压测工具SPECCPUstream压测stressapp压测MLC测试Lmbench-latency测试memtester压测CPU1. 常用查询CPU信息的命令如何设置CPU的工作频率，和设置CPU性能模式内存1. 查询硬盘的信息，包括型号、厂家、固件版本硬盘1. 查询硬盘的信息，包括型号、厂商、固件版本等。2. 查询硬盘的硬件链路速率和位宽以及盘是否有UE/CE/AER相关的报错3. 描述下暴力热拔插（带IO/不带IO）和通知式热插拔（带IO/不带IO）之间的区别4. 如何升级硬盘FW5. 描述下硬盘指示灯都代表什么意思6. 简要描述安全擦除case具体步骤7. 常用的分区工具8. 硬盘性能测试；稳定性测试包含哪些。预期结果是什么9. fio主要测试硬盘的那些指标，介绍下fio主要参数有哪些GPU网卡1. 查询网卡的信息，包括型号;厂商;固件版本，速率，当前队列情况等2. 查询网卡的硬件链路速率和位宽以及盘是否有UE/CE/AER相关的报错3. 如何获取网卡的传感器信息4. 网卡FW/驱动升级方式，如何加载卸载网卡驱动5. 描述下网卡指示灯状态都代表什么意思6. 介绍下网卡NCSI功能是什么意思，怎么设置7. 介绍下设置IP的命令，临时，永久都需要说8. 介绍下网卡常测试的几种bond，说明下不同bond模式的作用，如何设置bond。预期结果是什么。如何查询网卡是否丢包9. 如何设置网卡速率自协商功能11. 网络延迟测试用什么工具长稳装备自动化

服务器分类

分类方式	类别
按CPU指令集分类	Unix 服务器、X86服务器
按处理器数量分类	1路、双路、多路（一块主板上的CPU数量）、CPU Cores (Unix服务器)
按服务器外形分类	塔式、机架式、刀片式、高密
按负载类型分类	数据库服务器、应用服务器、接入服务器、Web服务器、文件服务器

服务器介绍

服务器主要由cpu 、内存、硬盘(NVME 、 SATA) 、 GPU 、网卡、 RAID卡、PCIE卡、 PROT(可信模块) 、其它固件(电源、主板、风扇板、硬盘背板、电源背板、I/O面板等) + 操作系统（本地OS + BMC + BIOS）+ 机箱

CPU

CPU(Center Processing Unit ，中央处理器)是一块超大规模的集成电路，是一台计算机的运算核心（Core）和控制核心（Control Unit）中央处理器主要包括运算器（算数逻辑运算单元，ALU，Arithmetic Logic Unit）和高速缓冲存储器（Cache）及实现它们之间联系的数据（Data）、控制及状态的总线（Bus）它与存储器（Memory）和输入/输出（I/O）设备合称为电子计算机三大核心部件。

CPU按指令集分为CISC（复杂指令集）和RISC（精简指令集）

CPU主要参数

架构
封装方式
主频
供电电压
CPU字长、功率、型号
微架构、平台
CPU核数

1. 缓存：

缓存（Cache Memory）是位于CPU与内存之间的临时存储器，目前的CPU拥有一级、二级和三级缓存（L1 L2 L3 Cache）

2. 频率：

CPU的频率主要包含主频、外频和倍频三部分。主频=外频*倍频，这是X86架构的CPU计算频率的公式。CPU主频为CPU的额定工作频率，当内核数目和缓存大小一样时，主频越高的CPU性能越好。
Intel Turbo Boost技术中文叫做Intel睿频加速技术，此技术运行Intel CPU 工作在标称频率（TSC）之上，性能分配上实现按需分配

3. 多核和超线程技术

多核处理器把多个CPU（核心）集成到单个集成电路芯片（integrated circuit chip）中

超线程（hyper-threading）其实就是同时多线程（simultaneous multi-theading）,是一项允许一个CPU执行多个控制流的技术
超线程(HT/SMT)：将一个物理CPU核心模拟成两个逻辑核心，共享核心的计算单元，以提高资源利用率
enable/disable:

BIOS/UEFI设置：这是最主要的方式，在CPU配置中寻找到 “Hyper-Threading Technology” (Intel) 或 “SMT” (AMD) 选项Linux运行时：可以随时开关每个核心的超线程


# 禁用CPU1的超线程（其对应的逻辑核心通常是CPU1+核心总数/2）
echo 0 > /sys/devices/system/cpu/cpu1/online
# 重新启用
echo 1 > /sys/devices/system/cpu/cpu1/online

4. P-State和C-State定义，两者之间的关系，测试时常用加工具是什么

P-State(Performance State)：性能状态，指CPU通过调节电压和频率(DVFS)来动态调节性能功耗C-State(Idle State)：休眠状态，指CPU在空闲时关闭部分单元以节省功耗，C-State数字越大，休眠越深，唤醒延迟越长关系：CPU先进入更浅的C-State，如果需要更高性能，则切换到更高的P-State(提高频率)。它们是协同工作的功耗管理机制加压工具：
通用：stress,stress-ng

5. NUMA的概念

NUMA概念：在计算机架构中，NUMA（非统一内存访问）是一种内存设计方式，用于处理多处理器系统的可伸缩性和效率。NUMA允许多个处理器访问本地内存，同时也能访问远程内存，但访问本地内存的速度更快，因此系统性能的优化变得至关重要NUMA工作原理：在NUMA架构中，系统中的每个处理器都有自己的本地内存。当一个处理器需要访问另一个处理器的内存时，性能会受到影响。因此，为了提高系统性能，操作系统需要有效地管理这些内存访问。NUMA的优势
并行性能：NUMA允许多个处理器并行处理，减少了竞争和延迟。可扩展性：新处理器可以轻松添加到现有的NUMA系统中。资源分配：可以更智能地分配内存和处理器资源，提高应用的性能
在BIOS 中的NUMA设置
进入BIOS设置，你可能会看到”NUMA”或”Memory Configuration”的选项。这些选项可以启用或禁用NUMA

6. Sklake CPU PCIE扩展特性

每个CPU有4个IO模块，IOU0用于连接PCH，IOU1～IOU3用于连接PCIE设备，每个IOU下有16个PCIE通道，可根据需要组合成为X4、X8、X16

7. CPU性能查询

SPEC CPU/tpmC

厂商

常见的CPU厂商：Intel / AMD (x86架构)、高通 / 华为 / 飞腾等（ARM架构）

内存

在服务器系统中，内存（Memory）也被称为内存储器，其作用是用于暂时存放CPU中的运算数据，以及与硬盘等外部存储器交换的数据

1. 服务器内存条配置原则

推荐采用平衡插法配置内存，所有内存通道配置一样的内存（包括速率、容量、Rank等），不支持不同类型DIMM的混插；多颗CPU配置时，首先保持各个CPU的内存配置一样；当单rank、双rank、四rank DIMM插入2DPC，总是先从最远的槽位开始插rank高的DIMM

注：2DPC ：2 DIMM per Channel (每个通道插2根DIMM条)

2. 内存带宽计算

满配最大内存带宽 = 内存标称频率 * 内存总线位数 * 通道数 * CPU个数实际使用的内存带宽 = 内存标称频率 * 内存总线位数 * 实际使用的通道数

厂商

常见的内存生产厂商：Samsung 三星、SK Hynix 海力士、Micron 美光、Ramaxel 记忆科技、Kingston金士顿

硬盘

1. 硬盘的分类–接口类型

接口类型	图片
SATA 接口
mSATA接口
SAS接口
U.2接口、M.2接口、AIC接口

2.硬盘关键指标

硬盘容量（Volume）
硬盘容量单位一般为GB、TB，影响硬盘容量的因素有单碟容量和碟片数量转速（Rotational speed）
硬盘的转速指硬盘盘片每分钟转过的圈数，单位为RPM（Rotation Per Minute）。平均访问时间（Average Access Time）= 平均寻道时间 + 平均等待时间数据传输率（Date Transfer Rate）
硬盘的数据传输率是指硬盘读写数据的速度，单位为兆字节每秒（MB/s）。硬盘数据传输率包括内部传输率和外部传输率两个指标。IOPS(Input/Output Per Second)
即每秒的输入输出量（或读写次数），是衡量磁盘性能的主要指标之一。
随机读写频繁的应用，如OLTP（Online Transaction Processing）,IOPS是关键衡量指标。另一个重要指标是数据吞吐量（Throughput）,指单位时间内可以成功传输的数据数量。对于大量顺序读写的应用，如电视台的视频编辑，视频点播等则更关注吞吐量指标。

厂商

常见的硬盘供应商：Seagate希捷、HGST昱科（日立）、WD西数、Toshiba东芝、Micron镁光、Samsung三星、德明利、得瑞

RAID

1. RAID基本概念

定义：
RAID (Redundant Array of Independent Disks) 即独立磁盘冗余阵列，RAID技术将多个单独的物理硬盘以不同的方式组合成一个逻辑硬盘，从而提高硬盘的读写性能和数据安全性。

数据组织及存取方式：
分块：将一个分区分成多个大小相等的、地址相邻的块，这些块称为分块。它是组成条带的元素。
条带：同一磁盘阵列中的多个磁盘驱动器上的相同”位置” （或者说是相同编号）的分块。

热备、重构

热备（HotSpare）的定义：
当冗余的RAID组中某个硬盘失效时，在不干扰当前RAID系统的正常使用的情况下，用RAID系统中另外一个正常的备用硬盘自动顶替失效硬盘，及时保证RAID系统的冗余性。热备一般分为两种：
全局式：备用硬盘为系统中所有的冗余RAID组共享
专用式：备用硬盘为系统中某一组冗余RAID组专用重构
服务器基础知识

逻辑卷
在RAID的基础上可以按照指定容量创建一个或多个逻辑卷，通过LUN （Logic Unit Number）来标识
服务器基础知识

2. RAID级别

根据性能特征的不同，RAID级别分为多个类型，如RAID 0、RAID 1、RAID 5、RAID 6等。

RAID 0：条带化（数据分块）但没有冗余，提供较高的读写性能。RAID 1：镜像，数据完全复制到另一个驱动器，提供容错能力。RAID 5：条带化加分布式奇偶校验，提供数据冗余和读取性能。RAID 6：类似RAID 5，但提供更高级别的容错能力。RAID 10：RAID 1+0，将RAID 1镜像组合成RAID 0条带化，提供较高的容错能力和读写性能。RAID 50：RAID 5 组合成RAID 0，提供较高的性能和容错能力。RAID 60：RAID 6 组合成RAID 0，提供更高级别的性能和容错能力。

RAID 0

原理：
RAID 0使用数据条带化（striping）的方式将数据分散存储在多个磁盘驱动器上，而不进行冗余备份。数据被分成固定大小的块，并一次存储在每个磁盘上。例如，如果有两个驱动器（驱动器A和驱动器B），一块数据的第一个部分存储在驱动器A上，第二个部分存储在驱动器B上，以此类推。这种条带化的方式可以同时从多个驱动器读取或写入数据，从而提高系统的性能。

服务器基础知识

RAID 1

原理：
RAID 1 使用数据镜像（mirroring）的方式将数据完全复制到两个或多个磁盘驱动器上。当写入数据时，数据同时写入所有驱动器。这样每个驱动器都具有相同的数据副本，从而实现数据的冗余备份。如果其中一个驱动器发生故障，系统可以继续从剩余的驱动器中读取数据，确保数据的可用性和完整性。

服务器基础知识

RAID 5

原理：
RAID 5使用数据条带化（striping）的方式将数据分散存储在多个磁盘驱动器上，并通过分布式奇偶校验实现数据的冗余备份。数据和奇偶校验信息被组织成数据块，其中奇偶校验信息被分布式存储在不同的驱动器上。当写入数据时，奇偶校验信息也会被更新。如果其中一个驱动器发生故障，系统可以通过重新计算奇偶校验信息来恢复丢失的数据。这种方式可以同时提供性能增强和数据冗余。

Ap、Bp、Cp等为奇偶校验信息

服务器基础知识

RAID 6

原理
RAID 6使用数据条带化（striping）的方式将数据分散存储在多个磁盘驱动器上，并通过分布式奇偶校验和双重奇偶校验实现数据的冗余备份。数据和奇偶校验信息被组织成数据块，其中奇偶校验信息被分布式存储在不同的驱动器上，并通过双重奇偶校验提供更高的数据冗余性。当写入数据时，奇偶校验信息也会被更新。如果其中两个驱动器发生故障，系统可以通过重新计算奇偶校验信息来恢复丢失的数据。这种方式可以同时提供性能增强和更高级别的数据冗余。

服务器基础知识

RAID 10

原理
RAID 10使用条带化（striping）的方式将数据分散存储在多个磁盘驱动器上，并通过镜像（mirroring）实现数据的冗余备份。数据被分成固定大小的块，并依次存储在不同的驱动器上，类似于RAID 1。这样，RAID 10在提供性能增强的同时，也提供了数据的冗余保护。

服务器基础知识

GPU

1. GPU基础知识

GPU：图形处理器（Graphics Processing Unit）,又称显示核心、视觉处理器、显示芯片，是一种专门在个人电脑、工作站、游戏机和一些移动设备（如平板电脑、智能手机等）图像运算工作的微处理器。GPU和CPU的硬件逻辑架构对比
服务器基础知识

2. GPU 关键参数和技术指标

CUDA核心：CUDA核心数量决定了GPU并行处理的能力，在深度学习、机器学习等并行计算类业务下，CUDA核心多意味着性能好一些。显存容量：其主要功能就是暂时储存GPU要处理的数据和处理完毕的数据。显存容量大小决定了GPU能够加载的数据量大小。显存位宽：显存在一个时钟周期内所能传送数据的位数，位数越大则瞬间所能传输的数据量越大，这是显存的重要参数之一。显存频率：一定程度上反应着该显存的速度，以MHz(兆赫兹)为单位，显存频率随着显存的类型、性能的不同而不同。显存频率和位宽决定显存带宽。显存带宽：指显示芯片与显存之间的数据传输速率，它以字节/秒为单位/显存带宽是决定显卡性能和速度最重要的因素之一。其他指标：除了显卡通用指标外，NVIDIA还有一些针对特定场景优化的指标，例如TsnsoCore、RTCoreRT等能力。例如TensenCore专门用于加速深度学习中的张量运算

厂商

GPU主流厂商：英特尔、NVIDIA、AMD

网卡

1. 网卡的定义

网卡是计算机与局域网互联的设备，在TCP/IP模型中，工作在物理层及数据链路层，用于接收和发送计算机数据。
网卡，又称为网络适配器或网络接口卡NIC（Network interface Card）,是构成计算机网络系统中最基本的连接设备，计算机主要通过网卡接入网络。

2. 网卡主要功能

代表固定的网络地址数据的发送与接收数据的封装与解封
发送数据时，加上首部和尾部；接收数据时，剥去首部和尾部链路管理：主要是CSMA/CD (冲突检测的载波监听多路访问)的实现编码与译码：物理层数据的编码与译码

3.网卡的分类

MOC卡是一种物理形态，而DPU、ASIC网卡、FPGA网卡是“大脑”或“核心”功能。一个MOC卡可以内置DPU、ASIC或FPGA作为其处理核心。

MOC卡-物理形态层
MOC是夹层卡，一种专为刀片服务器设计的物理外形规格。ASIC网卡-固定功能、高性能
专用集成电路作为处理核心的网卡。芯片功能在出厂时就已经固化，专为特定服务（如TCP/IP协议栈处理、VXLAN封装解封装）优化。
优点：性能极高、功耗极低。一旦量产，成本也低。我们日常使用的绝大多数普通网卡和交换芯片都是ASIC的。缺点：功能固化，不可编程。
FPGA网卡-灵活可编程
使用现场可编程门阵列作为处理核心的网卡。FPGA的硬件逻辑电路可以通过编程在后期重新配置。
优点：高度灵活、可重构。可以在不更换硬件的情况下，通过加载不同的比特流文件来实现全新的硬件功能（比如从网络加密功能切换到数据压缩功能）。性能和延迟介于ASIC和CPU之间缺点：开发难度大，成本高、功耗相对ASIC较高。
DPU-集成了CPU的网卡
数据处理单元。它本质上是一个“片上系统”，通常集成了一个多核通用CPU（通常是ARM架构）、高性能网络接口（如高速以太网）、灵活的加速引擎（这些引擎可能是可编程的ASIC，或者是FPGA逻辑块），用于加速网络、存储、安全等任务。
目标：将主机CPU上的基础设施任务（如虚拟化、网络、存储、安全）卸载到DPU上执行，让主机CPU更专注于运行业务应用。特点：它不再是一张简单的网卡，而是一个功能强大的、可以独立运行操作系统的微型服务器。DPU的实现方式可以是ASIC、FPGA，或者二者结合。

厂商

Tencent银杉网卡、博通网卡、玄灵网卡

服务器测试项

常用的性能测试及压测工具

SPECCPU

SPEC CPU 2017基准测试：

SPEC CPU 2017 基准测试包含SPEC的下一代行业标准化CPU密集型套件，用于测量和比较计算密集型性能，对系统的处理器、内存子系统和编译器施加压力。SPEC CPU 2017基准测试包包含43个基准测试，分为四个套件：
SPECspeed 2017 整数和 SPECspeed 2017 浮点套件用于比较计算机完成单个任务的时间。SPECrate 2017 整数和 SPECrate 2017 浮点套件测量单位时间的吞吐量或工作量。

stream压测

stressapp压测

MLC测试

MLC(Intel Memory Latency Checker) 是Intel发布的专业工具，主要测试：

内存延迟：测试空闲和负载下的内存读/写延迟内存带宽：测试读、写、拷贝等操作的最大带宽缓存延迟和带宽：测试各级缓存（L1,L2,L3）的性能并发负载下的延迟：模拟在多核心访问内存时，对特定核心造成的延迟影响。

Lmbench-latency测试

memtester压测

CPU

1. 常用查询CPU信息的命令

lscpu ：最常用最全面，显示架构、核心数、线程数、NUMA节点等cat /proc/cpuinfo：显示每个逻辑CPU的详细信息nproc：直接显示逻辑CPU核心总数dmidecode -t processor：从BIOS读取详细的CPU信息

如何设置CPU的工作频率，和设置CPU性能模式

内存

1. 查询硬盘的信息，包括型号、厂家、固件版本

dmidecode -t memory：最详细，显示每个内存插槽的厂商、型号、大小、速率lshw -short -C memory：查看内存硬件信息free -h：查看系统已用和可用的内存总量cat /proc/meminfo：查看内核管理的内存详细信息

硬盘

1. 查询硬盘的信息，包括型号、厂商、固件版本等。

查询服务器硬盘


lsblk

查看指定硬盘的详细信息(将/dev/nvme0n1 替换为你的硬盘设备)


smartctl -a /dev/nvme0n1

2. 查询硬盘的硬件链路速率和位宽以及盘是否有UE/CE/AER相关的报错

smartctl命令


smartctl -a /dev/sda

NVMe命令（可以快速查看硬盘固件版本）


nvme list

通用方法：查看内核日志和设备树


lspci -v #查看PCIe设备信息，包括链路速度和位宽

错误查询（UE/CE/AER):

UE(Uncorrectable Errors)：不可纠正的错误CE(Correctable Errors)：可纠正的错误AER(Advanced Error Reporting)：高级错误报告
主要工具是smartctl：


smartctl -a /dev/sda | grep -i "error"

同时检查系统日志：


dmesg | grep -i "error|stata|scsi" | grep -i "disk|sda"
journalctl | grep -i "sda" | grep -i "error"

3. 描述下暴力热拔插（带IO/不带IO）和通知式热插拔（带IO/不带IO）之间的区别

暴力热插拔：物理上直接插拔硬盘，操作系统无预先准备
不带IO：风险相对较低，但依然可能导致系统日志报错、总线短暂重置，影响其他设备带IO：危险！可能导致正在读写的数据丢失/损坏、文件系统崩溃、进程卡死，甚至引发内核恐慌
通知式热插拔：通过软件命令先通知操作系统和设备驱动，使其做好准备后再进行物理操作
不带IO：最安全的方式。OS会卸载文件系统、停止设备IO、解除驱动绑定，然后提示“可以安全移除”带IO：通常不被允许。OS会等待当前IO完成或强制结束相关进程，但仍有数据不一致风险，应避免

4. 如何升级硬盘FW

工具包安装


yum install hdparm
yum install nvme-cli

M.2 ER3/PM893 硬盘


# 通用工具hdparm升降级
hdparm --fwdownload 固件文件 --yes-i-know-what-i-am-doing-please-destroy-my-drive /dev/sdX
# PM893厂商工具升降级
./SSDManager -d /dev/sdX -AF -p 固件文件 --force

NVME


# 通用工具nvme -cli
nvme fw-download /dev/nvmeXn1 -f 固件文件
# 老本版可能不支持，可以用 fw-activate
nvme fw-commit /dev/nvmeXn1 -a 3 -s 0/1
nvme fw-activate /dev/nvmeXn1 -a 3 -s 0/1

升级后需要重启系统！

5. 描述下硬盘指示灯都代表什么意思

常亮绿灯/蓝灯：硬盘已通电，系统识别闪烁绿灯/蓝灯：硬盘正在读写数据。闪烁频率越高，IO负载越重常亮/闪烁琥珀灯/红灯：严重警告！表示硬盘发生故障不亮：硬盘未通电或物理连接问题

6. 简要描述安全擦除case具体步骤

安全擦除会将盘上所有数据永久清除、无法恢复

step1：备份数据！
step2：检查是否支持安全擦除：smartctl -c /dev/sda | grep -i “security”
step3：设置密码（可选，但建议）：hdparm –security-set-pass PassWord /dev/sda
step4：
执行安全擦除：hdparm --security -erase PassWord /dev/sda
对于NVMe硬盘：nvme format /dev/nvme0n1 --ses=1
step5：等待完成并重启

7. 常用的分区工具

fdisk：经典的MBR分区表工具parted/ gparted(GUI)：功能强大，支持MBR和GPT分区表gdisk：用于GPT分区表cfdisk：基于ncurses的交互式分区工具

8. 硬盘性能测试；稳定性测试包含哪些。预期结果是什么

性能测试：顺序/随机读写带宽(Throughput/BW)、IOPS、延迟(Latency)。
工具： fio, dd（简单顺序测试）, ioping（延迟测试）。预期结果：达到或接近厂商标称的接口速率（如SATA 6Gbps ≈ 550MB/s, NVMe Gen4 x4 ≈ 7000MB/s）。
稳定性测试：长时间高负载、高队列深度、混合读写压力测试。
* 工具： fio（长时间运行），stress-ng。
* 预期结果：测试期间无错误、无宕机、性能曲线平稳，系统日志无相关报错。

9. fio主要测试硬盘的那些指标，介绍下fio主要参数有哪些

测试指标：带宽（BW）、IOPS、延迟（平均/最小/最大）、延迟分布、QOS（服务质量，如设定IOPS上限或延迟上限）主要参数：

–filename: 测试文件（如 /dev/sda1或一个文件）。
–direct=1: 绕过页面缓存，直接IO，测真实磁盘性能。
–rw: 读写模式（read, write, randread, randwrite, rw, randrw）。
–bs: 块大小（4k, 1M等）。
–size: 测试文件大小。
–numjobs: 并发任务数，模拟多线程。
–iodepth: IO队列深度。
–runtime: 测试运行时间。
–group_reporting: 汇总所有job的报告。
–output: 结果输出文件。

GPU

网卡

1. 查询网卡的信息，包括型号;厂商;固件版本，速率，当前队列情况等

ethtool命令：


# 查看基本信息，包括支持的速率、当前速率、驱动
ethtool eth0 
# 查看驱动版本、固件版本
ethtool -i eth0

lspci 命令：


lspci | grep -i ethernet
lspci -v -s <PCI地址>  # 查看指定网卡的详细信息，包括厂商和型号

ip命令：


ip link show  # 查看所有网络接口状态

lshw 命令：


lshw -class network

2. 查询网卡的硬件链路速率和位宽以及盘是否有UE/CE/AER相关的报错

链路速率：ethtool eth0 输出中的“Speed”字段位宽：这是PCIe总线特性，用lspci -vv -s <PCI地址>查看寻找 “LnkSta” 行，如 “Width x4”。错误查询：


ethtool -S eth0 | grep -i "error|drop|discard"查看网卡统计信息中的错误和丢包。
dmesg | grep -i "eth0|pcie" | grep -i error查看内核日志中的相关错误。

3. 如何获取网卡的传感器信息

网卡传感器信息（如温度）通常不通过标准工具暴露。可尝试：

厂商特定工具：如Mellanox的 mget_temp。sensors命令 (需要安装 lm-sensors)：运行 sensors-detect后，再运行 sensors看是否包含网卡传感器。查询驱动：某些驱动在 /sys/class/net/eth0/device/目录下提供温度文件。

4. 网卡FW/驱动升级方式，如何加载卸载网卡驱动

* FW升级：从网卡厂商（Intel, Mellanox等）官网下载FW和刷新工具，通常在Linux下为命令行工具，操作类似硬盘FW升级。

驱动升级：
下载新驱动源码。
编译安装（通常是 make && sudo make install）。
重新加载驱动。
加载/卸载驱动：


sudo modprobe <驱动模块名>    # 加载
sudo rmmod <驱动模块名>       # 卸载（需先down掉网卡：`ip link set eth0 down`）
sudo modprobe -r <驱动模块名> # 强制卸载（有依赖时）

5. 描述下网卡指示灯状态都代表什么意思

链路指示灯 (常绿)：表示物理链路已连通。活动指示灯 (闪烁黄/橙)：表示有数据正在收发。速率指示灯 (不同颜色组合)：某些网卡用不同颜色表示当前速率（如10/100/1000Mbps）。

6. 介绍下网卡NCSI功能是什么意思，怎么设置

NCSI (Network Controller Sideband Interface)：一种带外管理协议。允许基板管理控制器(BMC)通过同一个物理网口与管理系统通信，而不会干扰主机操作系统的正常网络流量。常用于服务器的远程管理（如IPMI）。设置：通常在服务器BIOS/BMC的硬件管理界面中配置，而非在OS内设置。

7. 介绍下设置IP的命令，临时，永久都需要说

临时设置（重启后失效）：


sudo ip addr add 192.168.1.100/24 dev eth0
sudo ip link set eth0 up
# 或者使用传统的ifconfig（已过时）
sudo ifconfig eth0 192.168.1.100 netmask 255.255.255.0 up

永久设置（基于主流Linux发行版，如RHEL/CentOS/Ubuntu）：* RHEL/CentOS/Fedora (使用NetworkManager或ifcfg文件)：
编辑 /etc/sysconfig/network-scripts/ifcfg-eth0文件，设置 BOOTPROTO=static, IPADDR=192.168.1.100, NETMASK=255.255.255.0，然后重启网络服务 systemctl restart network。Ubuntu/Debian (使用netplan)：
编辑 /etc/netplan/01-netcfg.yaml文件，然后应用 sudo netplan apply。

8. 介绍下网卡常测试的几种bond，说明下不同bond模式的作用，如何设置bond。预期结果是什么。如何查询网卡是否丢包

常见Bond模式：
mode=0 (balance-rr): 轮询，负载均衡和容错。
mode=1 (active-backup): 主备，容错。
mode=4 (802.3ad): 链路聚合（LACP），需要交换机支持，提供负载均衡和容错。设置Bond：使用 ip命令或编辑网络配置文件（如CentOS的ifcfg-bondX文件）。预期结果：负载均衡模式下带宽叠加，主备模式下一根网线断开业务不中断。查询丢包：


ethtool -S eth0 | grep -i "drop|error"  # 查看网卡层面的丢包
ip -s link show eth0                     # 查看OS网络栈的丢包统计（RX dropped/TX dropped）
netstat -i                              # 查看接口统计，包括丢包

9. 如何设置网卡速率自协商功能


# 开启自协商
sudo ethtool -s eth0 autoneg on
# 强制设置为1000Mbps，全双工，关闭自协商
sudo ethtool -s eth0 autoneg off speed 1000 duplex full

10. iperf性能测试常用参数，如何测试，预期结果

服务端： iperf3 -s客户端： iperf3 -c <服务器IP> -t 60 -P 4 -w 16M

-t 60: 测试60秒。
-P 4: 使用4个并行线程。
-w 16M: 设置TCP窗口大小为16MB。
-R: 反向测试（服务器发，客户端收）。
-u -b 1G: UDP测试，带宽1Gbps。
预期结果： TCP测试应接近链路带宽，UDP测试的抖动(jitter)和丢包率应极低。

11. 网络延迟测试用什么工具

ping: 测试ICMP回显延迟。hping3: 更强大的ping，可测试TCP/UDP端口延迟。traceroute/ mtr: 跟踪路径并显示每跳延迟。iperf3的 –udp模式：可以报告UDP流的抖动，这也是延迟的一种表现。

长稳

装备

自动化

内容分享

文章版权归作者所有，未经允许请勿转载。

用Python轻松创建交互式D3.js图表

内容分享

2个月前

100

layer弹出层显示自动关闭倒计秒数

内容分享

3个月前

000

2015中考英语：重点单词、短语用法归类，总结的太全啦！

内容分享

2周前

000

自己动手写第一个神经网络程序：零基础入门指南

内容分享

2个月前

100

暂无评论

您必须登录才能参与评论！

立即登录

暂无评论...

服务器基础知识

文章目录

服务器分类

服务器介绍

CPU

CPU主要参数

1. 缓存：

2. 频率：

3. 多核和超线程技术

4. P-State和C-State定义，两者之间的关系，测试时常用加工具是什么

5. NUMA的概念

6. Sklake CPU PCIE扩展特性

7. CPU性能查询

厂商

内存

1. 服务器内存条配置原则

2. 内存带宽计算

厂商

硬盘

1. 硬盘的分类–接口类型

2.硬盘关键指标

厂商

RAID

1. RAID基本概念

2. RAID级别

RAID 0

RAID 1

RAID 5

RAID 6

RAID 10

GPU

1. GPU基础知识

2. GPU 关键参数和技术指标

厂商

网卡

1. 网卡的定义

2. 网卡主要功能

3.网卡的分类

厂商

服务器测试项

常用的性能测试及压测工具

SPECCPU

stream压测

stressapp压测

MLC测试

Lmbench-latency测试

memtester压测

CPU

1. 常用查询CPU信息的命令

如何设置CPU的工作频率，和设置CPU性能模式

内存

1. 查询硬盘的信息，包括型号、厂家、固件版本

硬盘

1. 查询硬盘的信息，包括型号、厂商、固件版本等。

2. 查询硬盘的硬件链路速率和位宽以及盘是否有UE/CE/AER相关的报错

3. 描述下暴力热拔插（带IO/不带IO）和通知式热插拔（带IO/不带IO）之间的区别

4. 如何升级硬盘FW

5. 描述下硬盘指示灯都代表什么意思

6. 简要描述安全擦除case具体步骤

7. 常用的分区工具

8. 硬盘性能测试；稳定性测试包含哪些。预期结果是什么

9. fio主要测试硬盘的那些指标，介绍下fio主要参数有哪些

GPU

网卡

1. 查询网卡的信息，包括型号;厂商;固件版本，速率，当前队列情况等

2. 查询网卡的硬件链路速率和位宽以及盘是否有UE/CE/AER相关的报错

3. 如何获取网卡的传感器信息​​

​​4. 网卡FW/驱动升级方式，如何加载卸载网卡驱动​​

5. 描述下网卡指示灯状态都代表什么意思​​

​​6. 介绍下网卡NCSI功能是什么意思，怎么设置​​

7. 介绍下设置IP的命令，临时，永久都需要说​​

8. 介绍下网卡常测试的几种bond，说明下不同bond模式的作用，如何设置bond。预期结果是什么。如何查询网卡是否丢包​​

9. 如何设置网卡速率自协商功能​​

11. 网络延迟测试用什么工具​​

长稳

装备

自动化

什么是redis，怎么启动及如何压测

MySQL详细基础语法2

相关文章

3. 如何获取网卡的传感器信息

4. 网卡FW/驱动升级方式，如何加载卸载网卡驱动

5. 描述下网卡指示灯状态都代表什么意思

6. 介绍下网卡NCSI功能是什么意思，怎么设置

7. 介绍下设置IP的命令，临时，永久都需要说

8. 介绍下网卡常测试的几种bond，说明下不同bond模式的作用，如何设置bond。预期结果是什么。如何查询网卡是否丢包

9. 如何设置网卡速率自协商功能

11. 网络延迟测试用什么工具