找回密码
 立即注册
外置存储作为超融合存储的关键部分,既能优化数据读写,提升处理效率,还可灵活扩容,适配业务持续增长的存储需求,其健康状态直接牵系着系统运行的稳定性——
当医院影像传输出现 10 秒以上延迟,可能延误关键诊断;银行交易日志同步频繁卡顿,或将导致数据处理异常;制造企业设计图纸加载持续转圈,难免拖慢研发进度······这些看似偶然的"卡壳"现象,背后往往是外置存储链路亚健康在“作怪”。
外置存储链路暗藏亚健康
性能与效率的 “绊脚石”
维护链路健康,是保障数据流畅流转、业务高效运转的关键所在。为增强存储访问的冗余性和可靠性,业界普遍采用多路径 I/O 技术,实现负载均衡和故障切换。
然而,理想很丰满,现实却很骨感。在实际运行中,单条路径的亚健康状态可能会导致整个存储 LUN(逻辑单元号)设备的访问性能下降
负载均衡模式下,亚健康链路会拉低正常路径的 IOPS 效率,导致整体性能失衡;
在主备模式中,主路径的隐性延迟则会直接造成业务访问卡顿。更糟糕的是,由于备用路径的检测机制滞后难以及时接管,从而使业务连续性受到严重影响。
面对外置存储链路亚健康带来的诸多挑战,深信服超融合HCI6.11.1创新推出「外置存储链路亚健康检测与隔离技术」,精准解决多路径 I/O 中的性能隐患。
核心技术
构建「监测 - 隔离 - 恢复」全闭环
深信服超融合在外置存储链路管理中,通过 “精准监测异常→智能隔离风险→动态恢复链路” 三大核心模块,形成全流程健康防护体系。当系统检测到外置存储设备出现卡顿或性能下降时,会立即触发告警并启动隔离机制,避免亚健康链路影响业务。
相比传统方案(如 eBPF 的 kprobe 技术、内核 diskstats 功能),深信服直接在系统内核进行程序修改,资源占用低,检测精度高,对系统性能影响微乎其微。

ChMkLWiTDFWIfCqJAAFEf6vrGoAAACI3AHV_scAAUSX854.jpg

ChMkLWiTDFWIfCqJAAFEf6vrGoAAACI3AHV_scAAUSX854.jpg


外置存储链路亚健康检测与隔离架构图
具体来看三大核心模块如何协同工作——
毫秒级时延监测,精准定位异常链路
在数据读写过程中,系统通过慢IO监测与IO卡顿监测两种机制,构建多层次异常检测体系。
慢IO监测:毫秒级时延追踪
原理:记录每次 IO 操作的起始时间(P1)与完成时间(P2),用两者的时间差计算读写耗时,与预设阈值(默认 512ms,用户可自定义修改范围)对比。若读写延迟超过限时,系统记录时间、硬盘、数据区域等信息(每 5 秒最多记录 1 条日志,同时可临时关闭该限制)。
判定机制:支持灵活配置按统计周期(30 秒 - 30 分钟)分析,若外置存储盘超阈值操作占比≥50%,自动触发告警或隔离。
IO卡顿监测:内核级超时捕获
原理:在系统内核处理数据读写超时函数中,增加程序逻辑,未按时返回的请求计数为 “卡盘”,通过/proc/iostuck_stats实时查看分区卡盘状态。
告警机制:告警程序每 10 分钟扫描卡盘计数变化,即时通知用户异常。
智能隔离策略,平衡可靠性与可用性
平均时延,高低时延差超阈值(50% of 512ms)时,隔离异常路径;对于单主路径和策略分级:针对复杂场景(多主路径 /多备用路径/负载均衡),系统计算所有路径多条备用路径,一旦出现时延异常立即隔离。
隔离原则:隔离时保留至少 50% 可用路径且不少于 1 条,避免过度隔离导致链路冗余失效。
操作闭环:隔离时标记路径为不可用,设备离线;恢复时自动清除禁用设置并重新扫描,无需人工干预。
深度扫描恢复,保障链路资源动态更新
当IO链路因故障或高时延被隔离,深度扫描功能随即启动:
清除无效路径:删除多路径服务程序标记的不可用链路;
设备重连验证:通过 LUN ID 列表扫描存储设备,重建内核中缺失的路径设备;
效果:清理存储映射变更残留的无效路径,恢复已“自愈”且禁用中的高时延链路,保障链路资源动态更新。
功能远超友商
灵活适配多样需求
与友商产品对比,深信服超融合HCI 6.11.1 新版本在功能上更具优势。

ChMkLWiTDFWIQNewAAFeTbKPbusAACI3AHUoGIAAV5l166.jpg

ChMkLWiTDFWIQNewAAFeTbKPbusAACI3AHUoGIAAV5l166.jpg


1.在链路监测方面
深信服超融合广泛支持FC、iSCSI等常见外置存储链路的时延监测,相比部分友商产品链路监测协议覆盖不全的情况,能够更全面地满足不同用户的存储架构需求。支持单一的处置方式或不支持亚健康隔离。
2.在配置灵活性上
允许用户根据自身业务特点和需求,对时延监测的各项参数(时延阙值、监测周期)进行灵活多样的配置。而友商产品往往在配置方面存在一定的局限性,难以做到如此精细的个性化设置。
3.在异常处置方面
深信服不仅提供了丰富多样的处置方式,还兼顾了自动化和手动隔离两种模式。这种灵活的处置方式,充分满足了不同用户在不同场景下的多样化需求,而许多友商产品仅支持单一的处置方式或不支持亚健康隔离。
深信服外置存储链路健康技术通过 “监测 - 隔离 - 恢复” 闭环,可有效保障外置存储链路稳定运行,显著提升数据存储可靠性和业务运行效率。未来,深信服将持续深耕超融合技术,以更智能、更高效的解决方案,助力企业应对数字时代存储挑战。
分享至 : QQ空间
收藏

21 个回复

倒序浏览
感谢大家,感恩有你们。
回复 使用道具 举报
感谢楼主为我们打开了一个全新的视角,让我深受启发。
回复 使用道具 举报
感谢楼主为我们提供了这么好的交流平台。
回复 使用道具 举报
内容精彩,继续加油。
回复 使用道具 举报
期待后续的更新和讨论,继续关注中。
回复 使用道具 举报
路过
回复 使用道具 举报
期待这个论坛能够继续壮大,吸引更多热爱学习和交流的人。
回复 使用道具 举报
这个论坛真是卧虎藏龙,高手如云。
回复 使用道具 举报
期待这个论坛能够继续发展壮大,吸引更多优秀的网友。
回复 使用道具 举报
123下一页
您需要登录后才可以回帖 登录 | 立即注册