想要搭建一個AI平臺?
想要搭建一個AI平臺,需要什么樣的基礎架構?數據架構又該如何選擇?
想要搭建一個AI平臺,在哪里搭建?這是企業首先需要考慮的問題。是署在本地,還是部署在云端?這需要根據自身業務特點來選擇,不過,無論你的AI平臺在哪個地方,其基本流程都可分為四個步驟:
1、把原始數據從各種數據源導入到數據湖,進行數據拆分、清洗等數據預處理工作;
2、把數據交給AI訓練集群通過機器學習神經算法框架進行訓練;
3、訓練完成后就可以把得到的最優參數設置模型,進行人工智能應用的部署;
4、最后把機器學習的數據進行歸檔。
有人說人工智能應用構建最重要的是算法框架。這種說法并不準確,框架或平臺盡管重要,但也可能因行業發展流行或衰退,所以,AI平臺的構建并不能只懂算法,因為算法實現不等于問題解決,問題解決不等于現場問題解決。
追求高可用、高性能、靈活易用的基礎架構才是永恒不變的。Google就是依靠強大的基礎架構能力讓AI研究領先于業界,因為基礎架構知識是AI工程師進行高效團隊協作的共同語言。
而存儲架構在AI平臺基礎架構中也起到了至關重要的作用。如果把機器學習訓練集群中的GPU比作飛馳的高鐵列車,那么一個優秀的AI平臺數據管道就像高鐵網絡中的鐵軌。當你考慮如何從你的AI部署中獲取最佳結果時,數據管道或許是最重要的考量點。
我們知道企業級存儲主要有三種模式:基于數據塊的SAN存儲,基于文件的NAS存儲和對象存儲。首先SAN存儲因為自身無法實現跨不同主機共享數據,不適合直接用于AI平臺,可以排除;其次對象存儲達不到AI平臺數據管道所需的高性能也可以排除,所以文件存儲是一個不錯的選擇,但有些因素必須考慮:
1、選擇何種文件系統
? 橫向擴展架構例如Lustre 或者 GPFS;
? HDFS,通用的大數據文件系統;
? NFS,最廣泛部署的共享文件系統。
2、能夠存放各種來源的結構化和非結構化數據,而不犧牲性能
? 日志和傳感器數據;
? 數據庫數據:包括關系型數據庫和非關系型數據庫;
? 郵件日志;
? 個人主目錄;
? 其他數據類型。
3、同時滿足隨機小IO和順序大IO的性能
? 從上面列舉的數據來源可以看到一些數據源產生的是隨機小IO,而有些數據源是順序大IO;
? 文件系統必須能夠在兩者之間平衡性能。
4、最大性能和數據移動的能力:
? 文件系統的最大性能;
? 能夠高效的移動數據。
5、數據生命周期的自動化
? 自動分層智能決定不同數據集的存儲位置,比如高性能層,歸檔層等;
? 同時滿足數據分類和過濾過程的實時性能;
6、支持最新的存儲和內存介質如NVMe和SCM等,從而在性能和延遲上獲得數量級的提升
? 你的AI平臺選擇的文件系統和數據架構至少應該滿足以上條件,這對AI平臺的長久發展非常重要。
AI數據集能夠輕易地增長到很大規模,為適應這種數據大規模增長,需要一個可以橫向擴展的單一命名空間文件系統,并且能夠隨著客戶端訓練節點的擴展而線性提升存儲性能。
客戶端訪問這個單一命名空間有不同的方式,不同方式意味著不同的性能要求,一種訓練模型為異步訓練,數據集被靜態地分布于訓練集群節點,每次訓練只有一個節點訪問命名空間中的一部分特定數據。
另一種訓練模型為同步進行,數據集相互關聯緊耦合在一起,需要被訓練集群中所有節點同時訪問。這種情形明顯需要更高的文件系統性能。
還有一種多層神經網絡訓練模型,每個訓練節點有序地從文件系統中讀出數據集進行訓練,這樣就導致整個數據集不斷地被反復讀取,一個節點讀一次,不斷地換手。
除了上述幾點外,在選擇AI平臺的文件系統存儲時還有一些其他因素也需要考慮,包括易于管理、擴展簡單、支持多租戶和存儲QoS、支持客戶端緩存、產品技術持續更新能力。
戴爾易安信的AI解決方案就滿足上述所有要求,包括Lustre橫向擴展高性能存儲解決方案,原生支持HDFS的ISilon橫向擴展NAS 解決方案,自動分層的橫向擴展Fluid NFS解決方案。
戴爾易安信Lustre橫向擴展高性能存儲架構戴爾易安信橫向擴展高性能文件系統在這些可選項中,每一種方案都在國內的AI研究機構和相關企業已有落地的案例參考。正在籌劃搭建自己的AI平臺的企業機構,可以咨詢戴爾易安信專業的人工智能解決方案專家了解各方案的優劣和特點,從而根據自己的建設需要,從長遠考慮選擇最適合自己的AI平臺。