首頁 導報現場 正文

無數據,不模型——亞馬遜云科技持續引領數據基座構建三大核心能力

2024-05-11 15:05 中國發展網 成靜
亞馬遜云科技

摘要:作為全球云計算的開創者和引領者,亞馬遜云科技正在幫助各個行業、各種規模的企業打造強健的數據基座,在確保用戶業務和數據安全的前提下,將數據的獨特價值賦予基礎模型和生成式AI應用,加速企業業務增長。

 中國發展網記者 成靜

 “企業需要的是懂業務、懂用戶的生成式AI應用,而打造這樣的應用需要從數據做起。”日前,在亞馬遜云科技召開的“無數據 不模型”——生成式AI時代的數據基座媒體溝通會上,亞馬遜云科技大中華區產品部總經理陳曉建表示。

在生成式AI時代,數據是企業脫穎而出的關鍵。一個例子能很好地說明這一點:生成式AI基礎模型誕生于大規模、高質量數據集。如果一本書按500KB算,現在的500T參數的模型已經有332億本,相當于現存每個人類擁有4本書。

基礎模型依賴于大規模高質量數據集,生成式AI的差異化優勢來源于企業的專有數據,生成式AI應用產生的大量新數據也需要及時有效地加以管理和利用。為此,亞馬遜云科技著力構建數據基座的三大核心能力,即模型微調和預訓練所需的數據處理能力、利用專有數據與模型快速結合以產生獨特價值的能力,以及有效處理新數據以助推生成式AI應用持續快速發展的能力,涵蓋從基礎模型訓練到生成式AI應用構建的重要場景,能夠幫助企業輕松應對海量多模態數據,提升基礎模型能力??梢哉f,作為全球云計算的開創者和引領者,亞馬遜云科技正在幫助各個行業、各種規模的企業打造強健的數據基座,在確保用戶業務和數據安全的前提下,將數據的獨特價值賦予基礎模型和生成式AI應用,加速企業業務增長。

優秀的數據處理能力,快速提高模型微調和預訓練質量

 生成式AI基礎模型微調和預訓練需要將海量的多樣化原始數據轉化為高質量的大數據集,這對數據存儲、清洗和治理都提出了更嚴峻的挑戰。

在數據存儲方面,擴展性和響應速度是關鍵。Amazon Simple Storage Service(Amazon S3)對象存儲幾乎是云上擴展性的代名詞,它支持廣泛的數據協議,能夠輕松應對各種數據類型,還支持智能分層以降低訓練成本。專門構建的文件存儲服務Amazon FSx forLustre則能夠提供亞毫秒延遲和數百萬IOPS的吞吐性能,能夠進一步加快模型優化的速度。

在數據清洗方面,企業面臨著繁重的數據清洗加工任務,Amazon EMR Serverless和Amazon Glue可以幫助企業輕松完成數據清理、去重、乃至分詞的操作,讓企業專注于生成式AI業務創新。Amazon EMRserverless采用無服務器架構,幫助企業運行任何規模的分析工作負載,自動擴展功能可在幾秒鐘內調整資源大小,以滿足不斷變化的數據量和處理要求。Amazon Glue是一個簡單可擴展的無服務器數據集成服務,可以輕松快速地完成微調或預訓練模型的數據準備工作。

在數據治理方面,企業難以在多個賬戶和區域中查找數據,也缺乏有效的數據治理工具。Amazon DataZone讓企業能夠跨組織邊界大規模地發現、共享和管理數據,不但能夠為多源多模態數據進行有效編目和治理,而且還提供簡單易用的統一數據管理平臺和工具,從而為用戶解鎖所有數據的潛能。

數據與模型快速結合,讓企業專有數據釋放更大價值

“生成式AI基礎模型的局限性之一在于無法及時擁有企業專有數據,因此通過技術手段加速數據與模型的結合成為企業數據基座的第二項關鍵能力。”陳曉建說。

檢索增強生成(Retrieval-Augmented Generation,RAG)技術被普遍認為是實現數據與模型結合的主要途徑之一,它通過將數據轉換為向量并存儲到向量數據庫中,從而將語義的關聯性轉化為向量間的數學距離問題,以實現內容的關聯性計算。現代應用程序需精準理解用戶需求并正確關聯產品或內容,這一需求廣泛存在于搜索、評論、購物車及產品推薦等交互框架中,這些框架又依賴于功能各異的數據庫,這使得數據庫成為實施RAG技術的理想平臺。

亞馬遜云科技將向量搜索的支持功能加入到主流的數據服務中,通過將數據和向量存儲在一起來提升數據查詢性能。這能夠讓企業輕松利用RAG技術將專有數據提供給基礎模型,從而釋放更大價值。此外,亞馬遜云科技還為圖數據庫Amazon Neptune推出了分析數據庫引擎,以結合圖數據庫與大模型的優勢,從而能夠快速從圖形數據中獲取洞察,并進行更快的向量搜索。

有效處理生成式AI應用的新數據,降低模型頻繁調用成本并提升性能

 對生成式AI應用程序而言,基礎模型頻繁調用將會導致成本的增加和響應的延遲,因此如何處理生成式AI應用程序新生成的數據,提升模型調用效率成為企業數據基座的第三項關鍵能力。Amazon Memory DB內存數據庫通過緩存之前問答生成的新數據,實現對類似問題的快速響應和準確回答,同時有效降低基礎模型的調用頻率。Amazon Memory DB能夠存儲數百萬個向量,只需要幾毫秒的響應時間,能夠以99%的召回率實現每秒百萬次的查詢性能。

此外,生成式AI應用程序需要快速占領市場。亞馬遜云科技通過提供無服務器數據庫服務和Amazon OpenSearch Serverless用于向量搜索,最大限度為企業減少運維負擔和成本,消除性能瓶頸,使企業能夠專注于生成式AI業務創新。

Amazon Music通過分析用戶和歌曲的特征,并將它們轉換成向量以提高推薦精準度。Amazon Music已通過Amazon OpenSearch將1億首歌曲編碼成向量并進行索引,以為全球用戶提供實時音樂推薦。Amazon Music目前在Amazon OpenSearch中管理著10.5億個向量,并能夠處理每秒高達7,100次的查詢峰值,有效支撐其推薦系統。

我們希望每一個企業在生成式AI時代借助亞馬遜云科技的服務打造堅實的數據基礎。這樣企業就可以高效安全地將海量的多模態數據和各種基礎模型結合在一起,創建出一系列具有獨特的價值的生成式AI應用程序并收到終端用戶的歡迎,進而產生更多的數據。這些新數據又會繼續提升模型的準確度,創造更好的用戶體驗,從而實現生生不息的正向生成式AI數據飛輪,帶動我們企業的業務走向成功。”陳曉建說。

責任編輯:成靜


返回首頁
相關新聞
返回頂部
国产福利一区二区麻豆