對於人工智慧使用者而言,資料管理對於人工智慧專案是否成功扮演著重要角色,因此,企業如何建立出色的數據管理並決定與那些公司合作非常重要。
2024 年第一季度,近 1/3 的公司執行長在財報會議中提及人工智慧,但只有極小部分(占所有財報會議的 1%)討論資料管理的應用。事實上,資料管理對於人工智慧的成功至關重要,調研機構指出,從2023 年到2030 年,整體成長率預計為每年16%,到2030 年底,市場預計將達到5,130 億美元。若進一步觀察,人工智慧模型大幅依賴資料進行訓練和操作,而為了訓練專門設計用於特定業務流程和環境的模型,公司必須評估其資料管理技術堆疊的 7 個關鍵要素。
要素一:資料來源
資料來源包括來自多個儲存庫的多種資料格式,可能包括企業資源規劃 (ERP) 或客戶關係管理(CRM) 等企業系統、來自可程式邏輯控制器 (PLC) 或感測器等裝置的物聯網數據,或其他外部資料(例如社群媒體或政府數據)數據等。資料來源為人工智慧訓練奠定了基礎,因為複雜的人工智慧通常需要來自不同來源的大量資料組合。連接的資料來源越多,人工智慧模型就越強大、越通用。因此,確定需要那些數據、從那裡獲取數據以及如何收集數據是關鍵,例如生成式人工智慧主要處理非結構化數據,即無法完全適合關聯式資料庫的訊息,例如文字或圖像,這些非結構化資料必須被識別、整合並整合到資料儲存系統中,以最大限度來發揮人工智慧的潛力。
要素二:資料擷取
資料擷取主要來源(ERP、CRM、PLC 或外部來源)收集數據,並使用連接器將其統一到儲存系統中,以確保相容性和正確的格式處理,企業必須持續收集各種來源的數據並將其輸入人工智慧演算法,為了確保人工智慧模型發揮作用,避免可能導致資料缺口的連接問題至關重要,連續資料流對於需要即時資料的應用程式尤其重要,延遲可能會導致錯失機會或增加風險。一個例子是,美國非營利組織Apache的 Kafka(分散式事件流平台)等技術可以以高吞吐量和低延遲促進即時資料收集和處理,這使業者能夠數據生成時採取行動,從而提高回應能力和營運效率。例如,線上串流服務Netflix運用Kafka 管理超過 7,000 億個日常事件,確保資料流與即時處理,以維持超過 2.6 億訂閱者的高品質用戶體驗。
要素三:資料儲存
儲存使用技術和架構來保護、組織和儲存資料。有兩個主要組成部分,分別是(1)儲存技術,包括用於資料儲存的硬體(HDD 或 SSD)和軟體(資料庫管理系統 (DBMS));(2)資料架構,包括資料倉儲、資料湖或雲,用作資料架構和資料存取的藍圖。資料儲存可確保有效存取所需資料。儲存至關重要,因為它提供了必要的基礎設施來集中組織和管理人工智慧模型所需的大量資料。儲存技術確保資料的快速訪問,直接影響人工智慧應用的效能。此外,隨著人工智慧專案的擴展和發展,可擴展的儲存系統支援不斷增長的資料需求。
資料儲存市場是由資料架構細分市場的成長所推動的,隨著資料量持續成長,多家機構預測,到 2030 年資料架構細分市場的年複合成長率將達到 18%,這顯示出企業資料以產生有價值的見解的重要性日益增加。相較之下,儲存技術同期複合年增長率預計將低於平均 8%;過去十年,硬體儲存成本大幅下降,例如,2016 年,記憶體成本為每 TB 203 美元,此後固態儲存成本已降至每 TB 49.50 美元,預計該趨勢將導致儲存技術細分市場的成長率低於平均值。另外,向量資料庫在產生人工智慧用例中越來越受歡迎,這些資料庫對於索引和搜尋用於相似性搜尋,及模式匹配的高維向量至關重要,該趨勢表示特定人工智慧應用正在轉向新的、先進的資料管理系統。
要素四:資料轉換
資料轉換為將資料細化並重組為適合詳細分析的格式,堆疊的這一部分涉及清理、整合和修改數據,以確保品質以及與分析工具和儲存結構的兼容性,提取數據,將其轉換為標準化格式,並將其加載到目標儲存中,此流程可確保資料乾淨、結構化並可供分析。資料轉換對於人工智慧至關重要,因為它將原始資料轉換為乾淨的結構化格式,使其易於人工智慧訓練和操作,此過程包括檔案格式轉換、資料清理、保護敏感資料(對於生成式人工智慧尤其重要)以及巨集資料以支援查詢,預測人工智慧和產生人工智慧都將需要預處理資料以保持資料品質和有用性。
此外,反向 ETL 對於將 AI 產生的見解整合到業務流程中非常重要。與將資料移至集中式儲存系統(例如集中式資料倉儲、資料湖或雲端)進行分析的傳統 ETL 不同,反向 ETL 從這些系統中提取資料並將其同步回營運應用程式。透過將 AI 產生的見解轉移到 ERP 等系統,反向 ETL 使組織能夠將 AI 結果整合到業務流程中,確保這些見解能夠及時應用以增強業務營運、決策等。
要素五:資料分析
分析將資料轉換為有意義且可操作的資訊,這部分堆疊包括商業智慧工具,將數據轉換為視覺化報告、儀表板和指標,使理解和交流見解變得更加容易。第二是數據科學工具,透過識別傳統方法可能無法立即看到的更深層的模式、趨勢和相關性來增強分析。資料分析對於人工智慧至關重要,它提供開發和完善人工智慧模型所需的工具,業者透過利用資料探勘、統計分析和機器學習等技術,分析有助於發現模式和趨勢,從結構化和非結構化資料中提取洞見。到2030 年,分析細分市場的年複合成長率(CAGR) 為20%,而商業智慧細分市場預計將成長最快,年複合成長率為27%,這些預測強調數據驅動決策的重要性和投資日益增加。
舉例而言,Airbnb利用人工智慧來改進其主人-客人匹配流程,透過使用A/B 測試、圖像辨識和預測建模等技術來增強用戶體驗和增加預訂,公司的模型根據用戶搜尋來預測預訂機率,並且他們的價格提示功能可以為房東提供最佳定價建議,此外,為了解決某些亞洲遊客的高跳出率問題,Airbnb 對網站進行修改,使將轉換率提高10%。
【本文未完,完整內容請見《北美智權報》358期:看全球11大企業如何利用人工智慧加速公司發展】
※如欲轉載本文,請與北美智權報聯絡