从最早公元前2000年文(wén)字诞生起人类就开始采集数据,到1998年正式提出大数据这一概念,实际上数据的发展已经横跨了上下4000多(duō)年的时间。在这一漫長(cháng)的历史演变中,人类共经历了四次工业革命,从最早以蒸汽技术為(wèi)代表的工业1.0,到如今以智能(néng)和互联网為(wèi)代表的工业4.0,制造业也迎来了其全面蜕变的时刻——智能(néng)工厂时代的强势来袭。
毕业于美國(guó)卡内基梅隆大學(xué)、专注于制造业大数据研究的昆山(shān)杜克大學(xué)教授李昕认為(wèi),在人工智能(néng)和大数据愈发渗透的今天,如何更好地收集数据、分(fēn)析数据、利用(yòng)数据才是企业根本。尤其是制造业,作為(wèi)立國(guó)之本,量级更是惊人,如何用(yòng)数据助力智能(néng)制造,点“数”成金?
在李昕看来,数据分(fēn)析在制造业应用(yòng)有(yǒu)两大技术难点:第一个是数据变异性,第二个是工艺的变化。对于未来大数据的发展,李昕也表示,最大痛点在于“懂数据又(yòu)懂行业”的双料人才的匮乏。在这点上,不管是學(xué)校,还是企业,都任重道遠(yuǎn)。
以下是李昕教授在2017IT 价值峰会暨中國(guó)企业级技术峰会上的演讲,经ITValue编辑整理(lǐ):
我本人主要从事制造业大数据的研究,是台湾富士康集团总裁郭台铭先生的大数据顾问,同时也是香港两家公司的董事。
互联网时代,数据暴增。目前每两天创造的信息几乎相当于人类有(yǒu)史以来到2003年所创造的信息总和。这是什么概念?在美國(guó),每分(fēn)钟就会产生2.04亿封邮件,Facebook上会有(yǒu)180万次的点赞、20万张照片的上传。而且这个量级还会随着时间不断上升,大概每1.2年就会翻一番。
如此庞大的数据量怎么才能(néng)很(hěn)好利用(yòng)?我们先来看一下大数据应用(yòng)的现状。过去5-10年,大数据的发展主要集中在三个方向:图像、视频、语音。國(guó)内外很(hěn)多(duō)IT公司在这三个方向上都取得了非常成功的发展。今年3月,李克强总理(lǐ)在政府工作报告上强调,要把人工智能(néng)、大数据推广到各行各业中,包括商(shāng)业、医疗、制造、教育、城市等。这意味着,未来大数据将会渗透到我们生活的每个环节中,发挥越来越重要的作用(yòng)。
要利用(yòng)数据就要先分(fēn)析数据。大数据分(fēn)析需要两类人:数据分(fēn)析专家和行业专家,二者缺一不可(kě)。谷歌过去十年一直在推自动驾驶技术,但是两年前意识到,自动驾驶并不是一个IT公司的数据专家就能(néng)单独完成的事,还必须和各个整車(chē)厂包括本田、福特等的行业专家合作,共同研发产品。
智能(néng)工厂时代全面来临
就制造业来说,数据量的庞大难以想象。中國(guó)具有(yǒu)强盛的制造业,如果利用(yòng)大数据把制造业的效率提高10%,那么创造的利润非同小(xiǎo)可(kě)。在美國(guó),奥巴马时期就提出了智能(néng)制造的战略,欧洲老牌制造强國(guó)德國(guó)一直在提倡工业4.0,新(xīn)加坡也有(yǒu)明确的规定國(guó)家GDP必须有(yǒu)15%-20%的贡献是来自于制造业。
没有(yǒu)制造业,一个國(guó)家就丧失了生存之本。
回顾起来,制造业的发展大概经历了四次工业革命。第一次工业革命发生于18世纪60年代,主要以蒸汽技术為(wèi)代表的工业1.0时代;第二次工业革命是在19世纪50年代,以電(diàn)力為(wèi)主要能(néng)源的工业2.0时代;第三次是20世纪50年代,以计算机技术為(wèi)代表,把计算机技术应用(yòng)到工业控制中的工业3.0时代;最后一次就是当今以智能(néng)和互联网為(wèi)代表的第四次工业革命即工业4.0时代。
这次工业革命对制造业来说非比寻常,它意味着智能(néng)工厂时代的全面来临。什么是智能(néng)工厂?在每个工厂的每个車(chē)间的每个机台上都安装有(yǒu)很(hěn)多(duō)传感器,不断地采集数据,并对数据进行分(fēn)析,从而优化生产線(xiàn),降低成本。这个数据量有(yǒu)多(duō)大?制造业有(yǒu)一项技术叫自动光學(xué)检测(AOI),每个零部件生产出来后都会被拍照检验质量的好坏。倘若按每分(fēn)钟收集一张1M像素的图片来估算,一台机器一天产生的数据就是1.5G。每个工厂有(yǒu)N多(duō)个机台,N多(duō)个传感器,总的数据量可(kě)想而知。
大数据提升制造流程的4大应用(yòng)
这么多(duō)数据能(néng)拿(ná)来做什么?第一个应用(yòng)就是调度优化。
在智能(néng)車(chē)间里,机台与机台之间的产品传递主要靠机械手臂来完成,而車(chē)间与車(chē)间之间的产品传递则是通过传动带来完成。所谓调度优化就是通过数据分(fēn)析,了解每个产品在每个机台上需要处理(lǐ)的时间,然后决定出把某个产品送到哪个机台去处理(lǐ)的最优解决方案。这个事情看起来容易,操作起来却很(hěn)难,正如車(chē)辆在路上突然抛锚造成交通拥堵一样,如果一个机台出了问题,就会扰乱整个调度的优化方案,更糟的是如果发现某个产品不合格,就需要被重新(xīn)发配到某个机台重新(xīn)处理(lǐ),那么就会导致整个调度非常复杂,处理(lǐ)不好就会造成“拥堵”,甚至停工。
大数据的另外一个重要应用(yòng)就是设备监控。产品制造分(fēn)许多(duō)步骤,如果第一道工序出了故障没有(yǒu)立刻发现,等生产出来之后经检测时才发现,那就意味着这段时间里生产的全部产品都要报废。这是个很(hěn)严重的问题。设备监控就是在每个机台上都安置多(duō)个传感器来监测设备是否有(yǒu)故障。美國(guó)有(yǒu)个大型制造企业,曾经成品率总是提不上去,经多(duō)方查找后才发现,原来是一个机台在清理(lǐ)时出了问题,早班清洁工是从上往下清理(lǐ),晚班清洁工是从下往上清理(lǐ),就是这样一个个小(xiǎo)小(xiǎo)的瑕疵就会对整个生产線(xiàn)造成几百万甚至几千万美金的损失。
第三个应用(yòng)就是虚拟测试。在制造业中,测试占整个制造成本的25%-50%,怎么用(yòng)大数据降低测试成本?最根本的一点就是利用(yòng)数据的相关性,也就是用(yòng)数据去分(fēn)析不同的数据量之间是否相关,如果存在相关就可(kě)以用(yòng)一个数据量去估计另一个数据量。
这里有(yǒu)两个例子,一个是空间的相关性。在集成電(diàn)路制造中,一块硅片包含很(hěn)多(duō)芯片,传统的方法是每个芯片都要去测试,如果我们把整块硅片看作是一幅图像,那么不同的像素对应不同的芯片,像素点之间是有(yǒu)相关性的,我们可(kě)以通过测试少数几个像素点的值,利用(yòng)统计方法来估值另外的像素点,从而大大减少测试量。
另一个例子是给金属块钻孔。钻孔是否平整?是不是圆形?在制造业上是一个非常昂贵的测试过程。我们通过在钻孔机上安装各种非常廉价的传感器,包括震动传感器、声音传感器、压力传感器等,用(yòng)这些传感器的测试值去创建一个模型,然后预估钻孔的平整度和质量状况,从而节省很(hěn)大一筆(bǐ)成本。
第四个应用(yòng)是故障追踪。监控生产線(xiàn)中产品的制造过程,发现故障的根源。故障可(kě)能(néng)是某一个机台,可(kě)能(néng)是某一种原材料,也可(kě)能(néng)是某一位操作员。
大数据分(fēn)析在制造业应用(yòng)有(yǒu)两大技术难点:第一个就是数据变异性,不同机台,在不同时间、不同环境下的数据具有(yǒu)不同的统计特性,也就是说,在这个机台上采集的数据不可(kě)能(néng)直接拿(ná)来去用(yòng)于另一个机台的建模。当你把采集到的数据分(fēn)配到每个机台、每个时间点、每个不同的环境条件下去做分(fēn)析的时候,你会发现数据量其实并不大,甚至很(hěn)小(xiǎo)。另外一个难点是工艺的变化。制造工艺随时间在不断演变,同样一个产品,今年制造出来的测试结果和明年制造出来的测试结果完全不同,因為(wèi)产線(xiàn)在不断变化,这是大数据分(fēn)析的一个软肋。我们分(fēn)析的数据都是历史数据,所以大数据分(fēn)析实际上就是两步,第一步记录历史数据,第二步根据这些历史数据去预测未来。如果由于工艺变化导致未来和历史是不一致的,那么大数据分(fēn)析的最根本假设就已经不成立了。这也是大数据分(fēn)析的一个痛点所在。
怎么去解决这一问题?从我来看,大数据未来发展的一个最大难点就是缺乏复合型的人才。要找到一个既懂数据又(yòu)懂专业领域的双料人才非常困难,所以培养跨學(xué)科(kē)的人才是我们昆山(shān)杜克學(xué)校的一个重要任務(wù)。
昆山(shān)杜克大學(xué)刚刚成立了一个大数据中心,里面有(yǒu)很(hěn)多(duō)昆山(shān)杜克大學(xué)的教授,以及美國(guó)杜克大學(xué)的教授,我们一起合作致力于中國(guó)大数据人才的培养,也希望与中國(guó)的企业合作共同贡献一份力量。(本文(wén)首发钛媒體(tǐ),整理(lǐ)/胡江路)