当前位置: 首页 > 工具软件 > ftserver > 使用案例 >

Stratus ftServer Windows 现场人员快速诊断维护手册

松霖
2023-12-01

一、查看状态

1、现场机器物理状态灯查询

(1)系统提示灯

        电源灯:  绿灯常亮 = 已加电。
        绿灯熄灭 = 未加电。
        故障灯:  熄灭 = 系统工作正常(或者未加电)。
                        黄色常亮 / 黄色闪烁 = 请求服务。(请立即联系客服工程师)
        容错状态灯:  绿灯常亮 = 系统双工容错状态。
        				绿灯闪烁 = 系统正尝试使CPU-I/O模块进入全双工状态。
        				熄灭 = 系统单工运行,非容错状态(请立即联系服务工程师)
        系统识别指示灯   蓝灯常亮 =系统ID 识别命令正运行。
        				蓝灯闪烁 = 远程管理系统ID 识别命令正运行。
        				熄灭 = 没有系统ID 识别命令正运行。

(2)刀片运行指示灯状态

           上层:
           下层:
           
           说明:
           电源灯: 绿灯常亮 = DC电源工作正常。
          			 绿灯闪烁 = AC供电,DC电源没有,系统处于待机状态(电源按钮没有按下)。 
          Safe to Pull:     绿灯常亮 = 可以安全拔出该模块。
             		绿灯闪烁 = 不能拔出该模块!!! (请立即联系 客服工程师)
    				绿灯常亮 = 此模块中的I/O单元是主控,提供输入、输出功能。
  					熄灭 = 此模块中的I/O单元处于备份控制状态。

(3) 细分指示灯

			指示灯熄灭  =  工作正常
			指示灯亮起  =  请求服务 (请立即联系 客服工程师)

内部磁盘指示灯
磁盘状态灯位置
工作运行状态(双工,单工,故障)
磁盘读写状态

磁盘状态灯描述

		 指示灯熄灭: 全双工或空闲, 可以安全移除。
		 绿灯闪烁: 正常读写操作。可以移动该磁盘。
		 黄灯、或黄绿灯交替 闪烁, 不可移动该磁盘!!(请立即联系客服工程师)
		 固定红色, 该磁盘有故障, 请求服务。

网卡指示灯
TM端口
左上角活动状态指示灯 绿灯常量 = 物理连接正常,无数据传输。
绿灯闪烁 = 物理连接正常,有数据传输。
熄灭 = 没有物理连接, 检查网线(或联系客服工程师)
右上角连接速率指示灯 绿灯常量 = 端口速度100Mbps
绿灯闪烁 = 端口速度1Gbps。
熄灭 = 端口速度10Mbps

以太网端口

                     (左上角)活动状态指示灯     绿灯常量 = 物理连接正常,无数据传输。
                       绿灯闪烁 = 物理连接正常,有数据传输。
                       熄灭 = 没有物理连接, 检查网线(或联系客服工程师)
                     (右上角)*连接速率指示灯     
                     绿灯常量 = 1GB端口,连接速率为100Mbps 
                     			10GB端口,连接速率为10Gbps
                     黄灯常量 = 1G端口, 连接速率为1Gbps
                     			10GB端口,连接速率为1Gbps
                      熄灭 = 1GB端口,连接速率为10Mbps;
 							 10GB端口,连接速率为100Mbps.

HBA 卡
指示灯说明:

           没有加电
           加电, firmware 没有初始化。
           同时闪烁:加电,firmware 初始化,没有建立连接或连接中断;   
           顺序闪烁: 检测到firmware故障。(请立即联系客服工程师)
           8GB Link;空闲。
           8GB Link;数据在传输。
           4GB Link;空闲。
           4GB Link;数据在传输。
           2GB Link;空闲。
           2GB Link;数据在传输。

2、运行状态检查

点击运行桌面的 图标。并展开该图形窗口。分别检查CPU、IO,逻辑磁盘的工作状态
CPU 的运行图标和状态

查看双工图标和状态描述(Duplex)
** IO Enclosures的运行图标和状态**
对于有如下告警 图标。需要分别点击对应的选项卡,查看具体原因。

对于有如下错误提示的图标。要重点检查原因和问题(例如光纤卡、以太网,内部磁盘等)。
光纤端口未连接提示
正常连接以太网端口
未连接网线以太网端口
正常工作的内部磁盘RDR 状态(磁盘镜像Duplex状态)
单工运行的内部磁盘RDR 状态Simplex
需要检查磁盘故障,并联系客服。

3、VTM带外管理检查

登录到每台机器的VTM带外管理界面
(http://带外管理IP address)
Login: ADMIN
Password: ADMIN
正常情况下VTM 显示:
(上图红色圆圈的文字说明了系统的运行状态,如果发现显示信息不对,说明系统状态存在告警,并请通过Windows 桌面上的ftSys Management Tools 查看具体告警的位置和设备,并请立即联系客服)

二、异常情况报告

如果“状态查看”中有异常情况出现, 请立即联系客服工程师,并请按照如下说明进行采集容错机信息(Site ID)及日志文件

1、Site ID 获取

Site ID 位于机身后部右下角的标贴上,见下图:

2、Windows系统

对于机器中出现Simplex状态或错误标志 ; 必须及时检查,尽快报告并进行修复或更换
运行目录文件获取日志信息

C:\Program Files\ftSys\CustomerService\Support Tools\ftDataCollector
选中 和 , 然后按 。
日志文件存放的路劲和文件名

运行结束。按 。

然后将上面目录下的压缩目录文件保存并传送给客服。

3、Redhat Linux 系统

执行:
#/opt/ft/sbin/buggrabber.pl
收集的数据会保存在以下目录中。
/home/BugPool/

4、VMware 系统

log in管理机器(ftsysmgt,缺省用户名/口令:root/ftServer)执行:
#/opt/ft/sbin/buggrabber.pl
收集的数据会保存在以下目录中。
/tmp/BugPool/

三、附:Stratus ftServer容错机硬件说明

1、ftServer前视图

序号序号
1CPU 单元 0, I/O 单元 107服务器前面板指示灯
2CPU 单元 1, I/O 单元 118USB 接口
3机器识别 ID 按钮9服务器前面板集成单元
4模块运行状态指示灯10电源按钮
5NMI (dump) 按钮11内部磁盘驱动器插槽 (16个)
6DVD 驱动器12固定及拉出模块把手 (4)

2、ftServer后视图

序号序号
1USB 接口 (3)9集成以太网接口(100M/1000M) (4)
2Modem 调制解调器10集成以太网接口(1000M/10G) (4)
3PCI 适配器 slot 3 (Pie).11CPU-I/O 模块蓝色系统 ID LED (2)
4PCI 适配器 slot 4 (Pie).12VTM 接口 (2)
5PCI 适配器 slot 1 (Pie)13系统背板
6PCI 适配器 slot 2 (Pie)14串行口 (2)
7CPU-I/O 模块电源接口 (2)15VGA (监视器) 接口
8电源指示灯 (2)

四、附:运行状态及原因说明

附件1: 设备运行状态说明

Code运行状态值说明
1UNKNOWN部件的状态可能无法确定。
2EMPTY设备插槽中无设备或设备未加电。
3REMOVED设备在插槽中,但电源未打开并且该设备停止服务。
4SHOT部件设备有故障,系统逻辑将其推出服务,该部件设备与其它系统设备电子隔离。
5BROKEN部件设备有故障,会在故障原因表中说明。这是最终状态,用户必须采取行动,将其脱离BROKEN状态,如BringUp,BringDown或Remove该设备。
6DUMPINGCPU单元正在恢复系统崩溃信息。
7DIAGNOSTICS设备正在检查之中。
8DIAGNOSITCS_PASSED设备检查通过。
9INITIALIZING软件准备将设备带入到Online状态。
11FIRMWARE_UPDATE正在修改主板的固件。
12FIRMWARE_UPDATE_COMPLETE主板部件修改完成。
14OFFLINE设备单元被停止运行。
15STOPPED设备驱动停止,部件不在运行。
19ONLINE设备单元可以使用。
20SIMPLEX单工。设备单元在线,但没有配对部件。移除该部件系统不安全,但可以移除配对的部件。
21DUPLEX双工。设备单元在线,配对部件以锁步、镜像、或故障恢复方式工作。该部件或配对的部件可以被安全移除。

附件2:设备运行原因说明

Code运行状态值说明
1UNKNOWN原因未知。
2NONE没有原因。
3BELOW_MTBF当前的MTBF是少于对该设备的MTBF设置。
4DIAGNOSTICS_FAILED部件设备检测失败。
5HARDWARE_INCOMPATIBLE部件设备与在线的设备不兼容。
6HOLDING_DUMP启动失效,Dump进行中。
9MEDIA_DISCONNECT连接线被拔出,设备单工状态。
10FIRMWARE_BURN_FAIL模块主板的BIOS或firmware固件修改失败。
11FIRMWARE_FILE_NOT_FOUND输入个Firmware文件路径不对或文件不存在。
12FIRMWARE_FILE_ERROR磁盘上的firmware影像文件有错。
13FIRMWARE_PROM_ERROR不能完成firmware的擦写。
14AUTOBURN_DISABLED新的模块的BIOS或firmware与在线模块的不匹配。
16PRIMARY对双工设备,该设备在配对中为主设备。
17SECONDARY对双工设备,该设备在配对中为从设备
 类似资料: