工業大數據(Industrial big data)是構成工業人工智慧的重要元素,指由工業設備高速產生的大量數據,對應不同時間下的設備狀態[1],是物联网中的訊息[2]。此一詞語在2012年隨著工業4.0的概念而出現,也和信息技术行銷流行的大數據有關,工業大數據也意味著工業設備產生的大量數據有其潛在的商業價值[3]。工業大數據會配合工業互联网的技術,利用原始資料來支援管理上的決策,例如降低維護成本以及提昇對客戶的服務[2]。
大數據是指大量、多變且快速產生的數據,需要新的科技來處理,以便於決策、知識探索以及制程的最佳化[4],這也稱為大數據的3V(volume、variety、velocity)。有時也會加上第四個V,也就是資料真實性(veracity)此一特徵,強調資料的品質及整合性[5]。不過工業大數據還需要加上二個V。一個V是可見(visibility),意思是發現資產或是制程中一些未預期的事實,並且將不可見的知識轉換為可見的價值,另一個V也就是價值(value),因為工業環境會面對的風險及衝擊,工業大數據在分析上的準確性要求會遠高於比社會媒體分析或是客戶行為分析上的要求[6][7][8][9]。
工業大數據的數據是由自動化設備及程序自動產生,而其環境及操作也是受到控制的,目的是讓人為的介入降到最小,因此工業大數據的資料的結構化程度較高,彼此相關性也較高,會依發生時間順序排列,也比較適合進行分析[6]。不過即使設備機器都已經互相連線及網路化,工業大數據有以下的特點(Background、Broken、Bad-Quality,也稱為3B)也會造成在分析時的挑戰[6]:
一般的大數據分析重點在挖掘到資料之間的相關性,以及捕捉到現象。不過工業大數據更著重於由現象中找出其背後的物理性根本原因。因此有效的工業大數據分析會比一般的大數據分析更需要特定領域的專業知識。
相較於一般的大數據分析,工業大數據著重資料的完整性更甚於巨量的資料。因為若要建構一個準確的資料驅動分析系統,必需從不同的工作條件上採集資料。因為通訊特性,以及資料來源的不同,系統中的資料是離散未同步的。因此在正式進行分析之前,預處理格外的重要,可以確保資料是完整、連續及同步的。
大數據分析的重點是資料挖掘及發現,因此巨量的資料可以彌補資料的品質不良。但在工業大數據中,各變數都有明確的物理意義,在建立分析系統時,資料完整性非常重要。品質不良的資料或是不正確的記錄都會影響不同變數之間的關係,對於估測的準確性上有災難式的衝擊。
因此,單純一般泛用大數據分析的技巧不一定可以應用在工業數據中。工業大數據需要更多的領域知識、分析系統機能的清楚定義,也需要在正確的時機將提取到的見解給正確的人,以產生較佳的決策[6][10]。
因為自動化工業設備可以以極快的速度大量產生資料,所以要處理這些資料的公司,首先面臨的就是儲存及管理資料的基礎架構。傳統的商业智能主要專注於企業內部有結構的資料,依其固定出現的周期處理相關資訊[11],而工業大數據分析系統需要接近實時處理的分析,以及分析結果的視覺化。
第一個步驟是收集正確的資料[10],現代設備的自動化程度越來越高,可以由越來越多的感測器自動產生資料。識別其中設備狀態有關的參數就格外的重要了,可以減少需要和集的資料,也讓資料分析更加有效率及效果。
下一個步驟是建立資料管理系統,既可以處理大量資料,並且可以用接近實時的效率進行分析。為了可以快速的進行決策,資料儲存、管理及處理需要進一步的整合[10]。例如奇異公司為了其許多的燃氣渦輪發動機,建立了資料儲存基礎架構的原型[12]。所發展的系統以內存資料網格(in-memory data grids,IMDG)為基礎,已證實可以處理高速及大量的資料流,並且可以以近乎實時的方式來分析資料。他們認為這項技術展示了實現工業大數據管理基礎架構的可行作法。隨著這些設備越來越便宜,這類系統也會成為未來產業的中心及基礎。
網宇實體系統(Cyber-physical system)是工業大數據中的核心技術[6][7],是在運算模型以及實際元件之間進行無縫整合的系統[13]。網宇實體系統和傳統的運作技術不同,網宇實體系統的決策要以設備狀態的核心內容為其決策基礎。包括連結、轉換、網宇、認知及組態的5C架構[14]意味著網宇實體系統著重在將原始資料轉換成可以進行行動的資訊、有助於瞭解流程的內容、最終透過有良好資訊的決策來提昇流程。提昇後的流程會進一步的提昇生產力以及降低成本。網宇實體系統和工業大數據的使命(在大量的原始資料中找到相關見解,將資訊轉換為價值)是一致的。網宇實體系統結合了資訊科技以及運營技術,創建資訊透明的環境,作為不同階層用戶的決策基礎。
這類的技術已經有應用實例:美国国家科学基金会工业/大学智能维护系统协作研究中心(IMS)已在Cosen帶鋸機上實現此技術,而且2014年在芝加哥舉行的IMTS中展示[7]。IMS開發了適應性退化監控(Adaptive degradation monitoring)技術,來處理在切削過程產生的大量且高速的資料,以及負載變化的情形。當帶鋸退化條件出現時,會在最佳的時間建議使用者更換帶鋸,以確保安全,也減少在材料切削過程中造成的損失。所進行的分析計算是在雲端進行,可以透過乙太網以及行動設備存取[7]。
工業系統的元件無時無刻都可以產生大量的資料。一個生產線上,每台機器每天都可以產生上億筆的資料[1],例如波音787每次飛行就會產生500 Gigabyte的資料[15]。明顯的,工業系統中的一組單元產生的資料量遠超過傳統方式的能力範圍,因此在處理、管理及運算上都是挑戰。
有許多研究者、公司主動參與了收集、組織及分析巨量工業資料的工作,其中有些資料若因為研究需要,已可以公開給大眾。
NASA的資料存取庫[16]是工業大數據中最出名的資料存取庫。其中的許多資料會用在預測式分析、故障偵測及預診斷(英语:prognostics)機能等。
|url=
Lokasi Pengunjung: 18.119.160.181