导读
日前在某公司向新员工做PHM技术分享。在确保内容准确的情况下,最大程度上只使用大白话,阐述了PHM技术是什么、能做什么的问题,希望对想要了解PHM技术的学习者有帮助,希望对行业内人士也能有所启发。作为一个PPT废柴,很用心地准备了分享材料,为此近乎加班了半个月,配图配色如有辣眼睛之处,请多多担待。原创不易,希望大家喜欢。
文章来源
本文作者:知乎网友@咣爱骑脚踏车,潍柴动力股份有限公司数据挖掘算法工程师。数字化企业经授权发布。大白话科普PHM技术第一弹——引言和案例篇 - 知乎
1
PHM技术是什么
Page 3. 扁鹊见蔡桓公
在开始正式地分享之前请容许花一分钟表演个才艺——有感情朗读课文。
扁鹊见蔡桓公。
(扁鹊)“君有疾在腠理,不治将恐深。”(蔡桓公)“寡人无疾。”
居十日。(扁鹊)“君之病在肌肤,不治将益深。”(蔡桓公)“哼!”
居十日。(扁鹊)“君之病在肠胃,不治将益深。”(蔡桓公)“哼!”
居十日。(扁鹊)“我走!”
居五日。桓侯卒。
Page 4. 《扁鹊见蔡桓公》与PHM技术的联系
可以将《扁鹊见蔡桓公》这则寓言与PHM技术建立起联系。蔡桓公是被监测的装备,扁鹊这位名医是一套优秀的PHM系统,扁鹊判断的“君之疾(病)在腠理、在肌肤、在肠胃”是指的被监测的装备的不同故障程度,不同的诊治方案“汤熨、针石、火齐之所及也”对应不同的维护方式,“在骨髓”意味着故障十分严重了,“无奈何也”表示修不好了,而最终“桓侯遂死”对应着被监测装备完全宕机了。
1.1 概述
Page 5. 概述
那么到底什么是PHM技术呢?下划线的部分可能涉及一些套话或专业名词,后续会有所解释。
PHM技术的全称是故障预测与健康管理(Prognostics and Health Management)。
PHM技术是一门新兴的、多学科交叉的综合性技术,是实现装备从预防性维护向预测性维护转变的关键技术。
PHM技术的价值从时间因素、空间因素、经济价值3个角度可以总结为减少紧急维修事件的发生、减少潜力驰援事件的发生、减少财务损失,降低系统费效比。
PHM技术能做什么呢?针对正在服役的大型设备,在维修更换数据和实时退化数据建模的基础上,进行可靠性的动态评估和故障的实时预测,以及基于评估和预测的信息制定科学有效的健康管理策略。
1.2 是什么
Page 6. 是多学科交叉的综合性技术
关于PHM技术是一门多学科交叉的综合性技术:在过去的十年中,PHM的研究和开发在学术界和工业界都得到了加强,涉及数学、计算机科学、运筹学、物理、化学、材料科学、工程等各个学科。
Page 7. 预防性维护向预测性维护转变的关键技术
在解释预防性维护和预测性维护这两个概念之前,首先需要解释一下一个复杂系统/设备/装备,在服役过程中会出现各种问题,可分为可见问题和不可见问题。这就像冰山一样,有露出水面的部分,而更多是隐藏在水面下的部分。在类比一下,设备就像人会生病,有外伤和内伤的区分,前者比如磕碰挫伤,后者如被七伤拳打了一顿五脏俱损。
可见问题,比如生产的产品出现缺陷、加工的不良率上升、设备效率下降、出现一些安全问题等。
不可见问题,比如设备的性能下降、健康衰减、零部件磨损、运行风险提升。
对比可见问题中的“出现安全问题”和不可见问题中的“运行风险提升”,举个例子:海恩法则指出,每一起严重事故的背后,必然有29次轻微事故和300起未遂先兆以及1000起事故隐患。
Page 8. 复杂装备或其关重件会表现出退化特性
复杂装备或者其关重件往往会表现出退化特性,如图中为某电池的健康状态衰退曲线。随着电池使用时间的增加,SOH(State of Health)逐渐减小,前十三年,SOH从1.0减小到0.8,被规定为“健康”状态;第十四、十五年,继续减小到0.7,这个区间被规定为“告警”状态;第十六、十七年,电池SOH会迅速降低到0.5,这个区间被规定为“需维修”状态;如果继续使用,SOH降低到0.5以下,则认为电池失效。
红点(SOH=0.5的点)被称为失效点,从当前时刻(绿点,SOH=0.7)到红点还有两年可使用,这两年被称为剩余使用寿命(RemAIning Useful Life, RUL)。
Page 9. 事后维护、预防性维护、预测性维护对比总览
了解了上述信息后,开始介绍预防性维护、预测性维护,以及刚才未提及的事后维护的概念。
事后维护,是指的故障发生后再去维护,就像是人生病了再去看病治疗。事后维护最大的缺点是,故障发生的危害或次生危害可能极大,比如战斗机在执行任务,导弹发射器失效了,老鹰变成了吉祥物;远洋巡逻舰在深海作业,引擎失效了,失去动力的水上堡垒变身一叶扁舟;炼钢厂因某故障停机,钢水凝固,机器重启时间和资金浪费甚巨。
预防性维护,就是根据一些制定好的定期维护策略去做维护。这些定期维护策略通常记录在设备维护手册上。往往在一些家电的说明书上也会写,比如洗衣机,一般建议半个月或一个月,使用专用清洗剂做个自清洁;再例如私家车,一般4S店建议每1万公里去给爱车做个保养。预防性维护相比事后维护有很好的提升,但往往存在“过维护”和“欠维护”的问题。“欠维护”是指维护不足,就是尽管已经按照操作手册给设备做维护了,但设备还是出人意料地出故障了;“过维护”是指过度维护,就是原本可以每5万公里给乘用车换个机油,但4S店还是要求你每1万公里就是保养一次,这会造成严重的隐形成本。
预测性维护是对预防性维护的升级。会根据监控对象的实时运行状态,预测其剩余使用寿命,按照需要对设备进行维护。
Page 10. 事后维护 vs 预测性维护,后者的维修前准备时间更充裕
从这张图中,可以清晰地看出,预测性维护通过对设备当前健康状态进行评估,并持续地预测剩余使用寿命,动态规划维护任务,相比事后维护有充裕的准备时间,因此仅仅在维修实施时需要停机;而事后维护因为需要在故障发生后再去调度人手、排查故障原因、运输维修需要的工具和零部件等,因此停机时间显著更长。
以下是对事后维护、预防性维护和预测性维护优缺点的详细描述。
Page 11. 事后维护的优缺点
事后维护的优点是便于操作。
缺点包括:高风险系统损坏导致维修费用昂贵;高风险故障导致的连带损坏,增加诊断难度和维修费用;急修产生高级维修技术人员加班费用;意外停机导致生产力损失,产生停机成本;备件存储费用。
Page 12. 预防性维护的优缺点
预防性维护的优点包括:便于实施;备件管理简便;有效减少非计划停机时间;降低系统损坏和灾难性事故风险。
缺点包括:难以寻找维护冗余和保养不足的平衡;维护间隔期间可能发生故障。
Page 13. 预测性维护的优缺点
预测性维护的优点包括:减少冗余维护和保养不足;极大减少计划外停机时间;有效降低灾难性事故和连带损坏的风险,提升系统的可靠性;能够获得备品备件最佳库存提供。
缺点包括:状态监测系统成本高;故障检测、故障诊断、寿命预测的技术难度高;如果检测、诊断和预测的结果不准确,可能造成系统损坏。
Page 14. 五种维护方式与神医扁鹊的类比
同样以神医扁鹊的例子做个对比,不同维护方式中:
- 事后维护类比生病头疼发烧腹痛呕吐,得赶紧叫个120。
- 预防性维护类比勤洗手、讲卫生。
- 很多人分不清周期性维护和预防性维护的区别:预防性维护包含周期性维护,周期性维护是预防性维护的一种形式。周期性维护往往指周期较长、维护程序较复杂的预防性维护。比如一些老人每年秋末会定期去医院打营养液,主要是为了疏通血管,改善身体血液循环的机能。
- 基于状态的监测(Condition Based Maintenance, CBM),也叫视情维护,算是使用PHM技术实施预测性维护这个概念诞生之前的前身。主要强调的是通过实时监测设备状态,出现小问题也及时按需维护了。类似扁鹊见蔡桓公的寓言中,扁鹊及早识别出蔡桓公之疾/病在腠理、在肌肤、在肠胃,此时可以使用较低成本的治疗方式消灭病灶。
- 预测性维护,相比CBM更多了寿命预测和基于寿命预测结果制定维护策略这关键的两部分。在扁鹊的例子里,扁鹊诊断到“君之病在骨髓”,预测桓公命不久矣,因“司命之所属,无奈何也”故(制定策略)及早脱身去秦。完成了从良医(CBM)到神医(PHM)的进化。
1.3 价值
Page 15. 价值
聊完了PHM技术是什么,继续举两个栗子说明PHM技术的价值。PHM技术最早应用在英美等发达国家的军事装备中。
- F-35攻击机:(降成本)维修人力减少20%~40%,后勤规模减小50%,飞机使用与保障费用相比过去JSF机种减少50%;(创收入)出动架次率提高25%。
- UH-60L“黑鹰”直升机:(降成本)非计划维修减少52%,总维修量减少17%;(创收入)出动率高27%。
Page 16. 评价系统可靠性的几个指标
补充几个衡量系统可用性或可靠性的指标。
- 对于不可修复系统
MTTF(Mean Time To Failure,平均失效前时间)是指某个元件预计可运作的平均时间。统计方法是收集大量的元器件的寿命然后取平均值,即平均寿命。
不可修复系统的可靠性指标指元器件寿命,即MTTF。
- 对于可修复系统
MTTR(Mean Time To Restoration,平均恢复前时间)源自IEC 61508中的平均维护时间。MTTR是从出现故障到完成修复的时间,包括故障检测时间、故障诊断时间、修复时间、设备重新投入使用的时间。MTTR 越短表示系统越易恢复。
MTBF(Mean Time Between Failures,平均故障间隔时间)指系统正常运行的平均时间,不包含MTTR。MTBF = 总的运行时间/总失效次数。
可修复系统的可靠性指标就是MTBF。
可修复系统的可用性是指系统正常运行的时间占比。Availability = MTBF/(MTBF+MTTR)。
顺便一说,对于不可修复系统,只要坏了就废弃,不存在正常运行时间占比这回事。
1.4 做什么
Page 17. 做什么
PHM技术能做什么?对(大型)设备,在维修更换数据和实时退化数据建模的基础上,进行可靠性的动态评估和故障的实时预测,以及基于评估和预测的信息制定科学有效的健康管理策略。
PHM技术的六大功能点分别是数据获取、特征提取、状态监测、健康评估、故障预测和维修决策。
数据获取。就是使用各种传感器把设备参数采集起来。一些大V口中常说的万物互联,就是基于物联网(或细分行业中常说的车联网、船联网)来实现,物联网就是把待监测设备的各类型参数采集起来的大网络。某世界500强、地方知名国企,就是建立了车联网和船联网,把终端产品的参数采集到,存储在自研的XX平台中。这个平台可以实现全集团数据的存储和管理,并支持不同部门、不同权限的人员使用数据。在建的YY平台和筹建的ZZ平台,未来可方便提供数据分析需求的一站式交付。
扯远了,快收回来。
特征提取。就是对信号进行预处理,提取一些能表征设备状态的特征。比如想要判断一个人有没有发烧,就去测量体温。这里体温就是表征这个人是否发烧的特征。
状态监测。比如对上述提取的特征设置个阈值(不一定是硬阈值,如模糊逻辑,这里就不细说了)。比如37 ℃或37.3 ℃作为阈值,超过了就判断发烧了。
健康评估。可以简单理解为使用上述众多特征及其对应的阈值,综合评估人的健康状态。比如使用体温、血压、心电图等等综合评估健康指数。
故障预测。基于上述结论,进一步预测病人病情是在好转还是恶化,如果可能恶化,那么恶化的速度会如何。
维修决策。基于故障预测结果,制定治疗方案。比如预测病人病情正在好转为轻症,那就继续疗养;否则重症监护室、准备手术等措施就要提早准备及时跟进。
多说一句,故障预测(或可表述成剩余使用寿命预测)在算法上非常复杂,可以基于机理或数据驱动或混合模型,需要根据被监测对象和数据特点开展研究。
1.5 适用场景
Page 18. 使用艾森豪威尔法则分析适用场景
谈谈什么时候适用PHM技术。
艾森豪威尔法则。非常实用,是日常生活和工作中理清思路的非常好的一个思维工具,比如按照紧急不紧急和重要不重要两个维度将各项工作任务分成四个象限,制定孰先孰后的优先级策略。
收!根据这个法则,按照设备故障频率和发生故障后的损失程度,分成四个象限。
- 左下角,故障频率低且损失不大,套用寒山问拾得的答复:只要忍他、让他,待他坏了且去修他,采取事后维护即可。
- 右下角,故障频率高但损失不大,可以采取预防性维护,做好备品备件管理。
- 左上角,故障频率低但损失严重,建议采取预测性维护,就像是毛爷爷说的“不打无准备之仗”。
- 右上角,如果故障频率高且损失还高,那可拉倒吧,这玩意要他何用,赶紧换个新设备吧。
2
PHM技术的前世今生
Page 19. 不同国家的制造战略对比
Page 20. 四次工业革命进程
简单一聊PHM技术的前世今生。工业4.0的一众背景,互联网+智能制造的国家政策倾斜等等。
Page 21. 一些大型事故现场
分享四起典型的事故。如果有可靠的PHM技术加持,可能会极大降低这类事故的发生。个人一点想法:除创收、降本、增效的评价维度,保障设备安全安全稳定运行同样是实施PHM技术的重要意义之一。
3
几个案例及思考
接下来分享几个PHM技术应用的典型案例。
3.1 航空
Page 22. 航空
首先绕不过的是航空。
PHM技术最早应用在战斗机上,后来移植到直升机,此后在民航客机上也有部署。“3·21空难”刚刚发生,个人不想在航空的案例上展开太多。唯一分享的信息是,波音747和777,空客A320和A330等机型上都部署了PHM系统,波音737-800上部署的是简化版的PHM系统。希望逝者安息。
3.2 高铁
Page 23. 高铁PHM概述
重点分享一下高铁案例。首先因为高铁的PHM技术是从航空借鉴过来的,他们的技术架构较为相似,其次,高铁和民航同属民生行业,重视“绝对安全”(严格地说,显然不存在绝对的安全),上PHM技术是一定程度上的政治正确,最后,高铁和民航的设备单价昂贵,比如2018年一架737-800价格 102.2 million美元,2017年一列“复兴号”动车组1.72 亿RMB,对几百万的PHM技术实施成本不太敏感。
做高铁PHM比较好的主要有日本川崎重工MON系统、美国通用电气的RM&D系统、法国阿尔斯通HealthHub、德国西门子Railigent以及加拿大庞巴迪的 MITRAC CC Remote系统。日本某期刊称通过应用PHM技术,减少了1/3维修人员,降低了故障率;法国阿尔斯通介绍基于HealthHub,目前35%的收入和50%的利润来自对已卖出的设备提供服务,很好得实现了从卖设备向卖服务的转型。
Page 24. 高铁PHM有国家政策支持
中国高铁作为后起之秀,得到了国家政策的加持。《中国制造2025》轨道交通的示范项目明确提出:以绿色智能轨道交通车辆为“移动终端”,集成车载智能化状态监测、故障灾难监测系统等网络化、智能化技术,探索建立“基于物联网的轨道交通装备全寿命周期服务体系”。研究和应用PHM技术的相关主机厂和科研院所有中国中车(如青岛四方股份)、母校西南交通大学、中南大学等。
Page 25. 高铁PHM的系统架构
高铁PHM的系统架构包括3部分:车载PHM系统、车地数据传输系统和地面PHM系统。
- 车载PHM系统,主要完成高铁各系统的数据采集、边缘计算。
- 车地数据传输系统负责将相关数据和边缘端计算结果传输到地面PHM系统中的数据存储服务器。
- 地面PHM系统完成数据的接收、存储、管理、处理、展示等。
3.3 风电
Page 27. 风电概述
与航空和高铁不同,风电更多民营,对投资汇报率(Return On Investment, ROI)是有计较的。在风电领域适合推广PHM技术的原因大致包括两个:
- 其一,充分性,风力发电机组单价昂贵,陆上2 MW的风力发电机单价在千万以上,对应用PHM技术实施预测性维护的成本增加不敏感;
- 其二,必要性,风电机组多位于高山、海滩、荒漠等风口处,交通不便,运维资源调度困难,且一旦发生故障停机,每日仅由于少发电所造成的损失高达1.2万元(2 MW风机)。齿轮箱安装于距离地面几十米高空塔顶的狭小机舱内,出现故障修复十分困难。如果齿轮箱故障比较复杂,无法在塔顶完成维修,还需要下塔处理,其维修费用高、维修周期长,严重影响风机的正常运行。
根据天泽智云的领先实践,风电的预测性维护主要用于检测风力发电机组早期故障,及时进行维护,避免发生运行事故和发展成为更为严重的故障破坏,延长部件使用寿命,降低风机运行维修成本。具体地,实施PHM技术可以提前28天预警齿轮箱故障,减少风机意外停机时间15%,提前20天预警发电机抱死事故。
3.4 机床刀具
Page 28. 机床刀具概述
再来个例子是机床刀具。刀具磨耗和主轴精度是数控机加工过程中影响产品品质的关键因子。由于无法精确预预测关键部件失效状态,可能造成成本浪费、品质异常、核心部件损坏等重大损失。根据天泽智云的实践,可以降低60%的意外停机、节约16%综合成本、产品良品率由99.4%提升至99.7%。
某世界500强地方国企企业博客中提到,因未及时更换刀具导致批量产品瑕疵。表明推行机床刀具寿命健康管理具有必要性。
3.5 翻转机
Page 29. 翻转机概述
某世界500强地方国企某工厂某关键工序的设备,一旦发生故障,将导致整个生产线宕机,直接影响工厂产量,产生较大的经济损失。初步调研关重件有增压器、滚珠丝杠、伺服电机、铰链等。如果能够应用PHM技术,预期可有效减少意外停机并节约综合成本。
分析过去一年该设备的相关故障,共发生31起故障,其中机械类故障5起,各类突发性人为操作不当、电气类故障等26起。根据艾森豪威尔法则,最终决定放弃应用PHM技术,而慎重选择某型号工业机器人替代该设备。
3.6 工业机器人
Page 30. 工业机器人概述
最后分享一个案例是工业机器人。工业机器人单价相比前面几个案例中的航空、高铁、风电等,单价较低,对成本敏感,因此不适合使用相对昂贵的振动和声学传感器。如果工厂中使用的工业机器人数量多、作业内容较相似,可以使用低成本控制器监控参数,实现变工况、复杂系统的产线级到工厂级的预测性维护和集群运维管理。采用了同类对比方法消除由于工况多样性造成的建模困难。根据天泽智云的领先实践,应用PHM技术可提高设备整体效率( OEE )、降低综合维护成本、能够提前2~3周发现大多数驱动电机早期故障。
该案例中,选择机械臂驱动马达作为待监测的关键部件。采集低成本控制器参数,如负载、扭矩、位置、周期时间、机器人型号,而不使用较为昂贵的振动等高频采样方案。计算每个动作循环的统计特征,使用peer to peer相似性聚类方法建立模型。其核心思想是不试图使用控制器参数直接评估设备健康状态,而是通过对比不同机器人控制器参数的统计特征,寻找离群点。将离群程度作为评价剩余使用寿命的关键指标。
某世界500强地方国企的自动化程度很高,引入的各类型工业机器人超过100台,但数量虽多,型号丰富、使用场景复杂。直接借用该思想实现工业机器人的健康评估存在困难。
4
PHM在实践中的挑战
Page 31. PHM在实践中的挑战
以上是分享的几个案例,并结合所从事行业的实际需求,提出了自己的一些思考。接下来简单分享一下PHM技术在实践中的挑战。后续将不定期扩充该部分内容。
在实践中部署PHM的主要挑战有一下几个。
- 待监测的系统(或装备、设备)等过于复杂,其故障机理、寿命衰退特性难以研究清楚。
- 无数据积累,或积累数据不可用,或积累数据难度大。例如,当前很多积极尝试数字化转型的企业,已经有了较长时间的数据累积,但积累的数据无标签,存储方法杂乱无章,导致数据价值大幅贬值;或者尝试开展一些项目时发现,数据采集难度很大,如因待监测装备结构奇异,不方便布置传感器等。
- 业务方对解决方案的要求极高,PHM技术实施方难以满足要求。
- 如对准确性的要求很高。PHM技术会基于剩余寿命预测结果制定维护策略,极端情况下可自动控制设备紧急停机。一旦RUL预测结果不准确,如过早控制设备停机可能造成重大经济损失。如冶炼行业一大炉铁水紧急停机凝固后再重新融化,耗时耗能,且可能导致冶炼设备萌生多种连带故障。
- 如对PHM模型的可解释性有要求。模型具有可解释性,则具有指导前端设计的潜在能力,且规避数据垄断导致的偏见和道德及法律风险。
- 如对数据安全性有要求。应用PHM技术,不可避免涉及到大量数据采集、传输、存储、管理、使用等操作,每个环节都存在数据安全风险。
与数据相关的挑战还涉及以下几个方面。
- 数据质量问题。数据的完整性、一致性、准确性、及时性、唯一性、有效性存在问题。
- 待监测系统或其零部件的衰退数据不完整,直接影响RUL预测。
- 不同类型的传感器信号种类繁多,数据管理和处理难度大。如物联网中涉及结构化数据、非结构化数据,结构化数据不同属性的采样频率从不足1 Hz到几十 kHz不等,非结构化数据的类型多样。这些大大增加了数据管理和处理难度。
- 用于训练和迭代更新PHM模型的数据受环境不断变化的影响。需考虑根据不断更新的数据自动训练和迭代PHM模型,也就是现在比较火的autoML和autoDL的概念。应用这类技术存在一定难度。
最后,作为一名从业一段时间的算法工程师,分享一点感悟:技术先进不牛B,效果好才牛B。(本文完)