![](http://www.easy221.com/epaper/images/author_11.jpg) |
【常見數據分析痛點】
企業常見數據分析痛點,包括需要等候專人製作、報表為非即時的靜態歷史資料、需要類似樞紐分析拖拉或寫程式較耗時、只有數據統計報表、進階分析需依賴精算/數據分析師(DA)/資料科學家(DS)、需要人工判斷與監控、需要多套系統協作、對使用者技術要求較高、專案開發費用高…等。
在選擇AI大數據平台時,首重能提供給營運端(OT)使用,上手簡單並且可規模化的通用型平台,其主要特徵包括可隨時隨地隨需數據分析、能提供即時動態資訊、使用自然語言方式即問即答 (即對話式數據分析)、有視覺化儀表板或戰情室、內建完整演算法功能、各單位可自行操作 ”No Code”、有洞見(Insight)輔助決策與即視監控示警,能實現整合數據分析不同軟體於一個平台裡,有本地技術研發團隊,售前溝通、專案開發或技術支援,都較靈活實惠。
表1. 常見數據分析痛點
【如何建立資料治理架構】
資料 (Data) 是數位經濟新能源,國內外企業數位轉型成功,端賴於全面建立數位化作業與完善數據治理機制,台灣保險業很多仍是紙本作業,所謂「沒有Data,就沒有AI」,當務之急是要建構「資訊架構」 (Information Architecture,簡稱IA),系統化蒐集數位數據,否則企業面臨最大的問題就是沒有數據。
數據分析,質比量更重要。許多公司各單位各自擁有數據,彼此沒有整合,就像一個個「資訊孤島」。有些企業內部有眾多不同資訊系統,沒有整合與流程再造,即使購買先進系統,舊的營運模式無法放棄,新的系統無法融入,只有工具無法成事。
所謂「數據治理」(Data Governance)是用統一的數據管理規則,確保數據的品質,讓企業數據處理流程的每個環節都有一致的標準。問題是如何把數據打通?如何控制數據品質?如何讓數據可以應用產生價值?
數據治理不是IT問題,而是營運問題,每個數據都需要有對應的營運部門 (OT) 承擔管理責任,而且必須有唯一的數據所有者 (Owner)。衡量一個企業數據治理體系水準的高低,端視是否有公司級的數據治理政策,是否有相對應的管理組織,以及管理流程運行的質量,以確保資料品質與共享性,能區分管理職權並確保資料安全性。
資料探勘步驟,首先是商業理解 (Business Understanding),根據商業需求,釐清痛點、問題、目標與計畫,然後是資料理解 (Data Understanding),對資料進行蒐集、識別與熟悉,再者是資料準備 (Data Preparation),對資料進行清理,建立模型(Modeling),評估 (Evaluation)所建立模型是否達成預設目標,最後是發佈(Deployment)使用,從資料中發掘知識,創造價值。
大數據具有資料量龐大 (Volume)、資料變動速度快 (Velocity)、資料多樣性(Variety)與資料真實性(Veracity)的4V特性,一般數據處理流程如下圖所示,先將未經處理的數據全部儲放於資料湖 (Data Lake),利用ETL工具,進行清洗、轉換、整合,再載入到資料倉儲或資料市集中,成為聯機分析處理(On-Line Analytical Processing,簡稱OLAP)與資料探勘的基礎,ETL常用的三種工具是Datastage, Informatica, Kettle。
圖2. 數據處理流程圖
數據可分為結構化數據、非結構化數據、內部數據與外部數據。對於資料雜亂,分散在多個檔案中,有重複、不一致、沒有可對應ID欄位的數據,可透過建立資料的主數據 (Master Data),以供跨部門共同使用,減少合併時混亂,降低儲存空間,維護資料品質。另外,針對資料欄位記錄不正確、遺漏值或極端值,可移除、留空、補眾數/平均數/有意義值、或對數轉換等處理。
陳素敏顧問簡介
(歡迎有興趣的保險公司洽詢陳素敏顧聯絡)
|