數(shù)據(jù)處理全鏈路將被重塑
AI大模型是基于海量多源數(shù)據(jù)打造的模型,需要通過不斷地訓(xùn)練從大量標(biāo)記和未標(biāo)記的數(shù)據(jù)中捕獲知識(shí),并將知識(shí)存儲(chǔ)到大量的參數(shù)中,以建立對(duì)各種任務(wù)進(jìn)行高效處理的技術(shù)架構(gòu)。它具備通用、可規(guī)模化復(fù)制等諸多優(yōu)勢(shì),是實(shí)現(xiàn)AGI(通用人工智能)的重要方向。
“‘數(shù)據(jù)倉庫’‘數(shù)據(jù)平臺(tái)’和‘大模型’本質(zhì)上都是為了更好地回答決策問題。從某種意義上講,它們之間是相輔相成的。”簡(jiǎn)麗榮表示,一方面,數(shù)據(jù)倉庫成熟的數(shù)據(jù)管理、清洗、并行處理技術(shù),可以有效提升訓(xùn)練、微調(diào)大模型所需訓(xùn)練數(shù)據(jù)的處理流程;另一方面,數(shù)倉作為天然的事實(shí)數(shù)據(jù)或知識(shí)管理平臺(tái),可以為生成式AI提供正確答案所需的上下文,有效解決大模型普遍存在的“幻覺”問題。數(shù)倉和大模型的有機(jī)結(jié)合,可以更好地幫助企業(yè)實(shí)現(xiàn)輔助決策。
區(qū)別在于,大模型處理數(shù)據(jù)的方式明顯不同于現(xiàn)在主流的數(shù)據(jù)倉庫、數(shù)據(jù)平臺(tái)。數(shù)據(jù)倉庫、數(shù)據(jù)平臺(tái)往往會(huì)把原始數(shù)據(jù)編制成二維表格,然后進(jìn)行數(shù)據(jù)清洗、規(guī)整、補(bǔ)全等處理,最終通過復(fù)雜的SQL實(shí)現(xiàn)商業(yè)智能。而大模型則需要不斷把原始文本信息用提示的方式進(jìn)行投喂,讓其進(jìn)行深度學(xué)習(xí),從而實(shí)現(xiàn)對(duì)任務(wù)的高效處理,這與傳統(tǒng)的基于二維表格的形式存儲(chǔ)、管理數(shù)據(jù)完全不同。
簡(jiǎn)麗榮分析稱:“傳統(tǒng)數(shù)據(jù)處理需要消耗大量人力、物力以及時(shí)間,而且有很多環(huán)節(jié)非常容易出錯(cuò),如數(shù)據(jù)清洗、數(shù)據(jù)血緣分析、主數(shù)據(jù)管理、數(shù)據(jù)質(zhì)量、數(shù)據(jù)治理、ETL、數(shù)據(jù)分析、數(shù)據(jù)庫運(yùn)維等。以ChatGPT為代表的通用人工智能模型的迅速應(yīng)用,將會(huì)大幅提升數(shù)據(jù)處理全鏈路各個(gè)環(huán)節(jié)的自動(dòng)化程度。”
比如,Text2SQL(即Text-to-SQL,指將自然語言文本轉(zhuǎn)換成結(jié)構(gòu)化查詢語言的過程),就是借助大模型的能力,自動(dòng)根據(jù)自然語言生成結(jié)構(gòu)化查詢語言,完成BI(商業(yè)智能)任務(wù),提升數(shù)據(jù)工程師工作效率。
簡(jiǎn)麗榮表示:“大模型的出現(xiàn),一方面,讓大家開始思考如何利用模型的能力去重構(gòu)數(shù)據(jù)處理全鏈路的各個(gè)環(huán)節(jié),以實(shí)現(xiàn)更高程度的智能化、自動(dòng)化;另一方面,也促使大家開始思考如何將數(shù)據(jù)倉庫、數(shù)據(jù)平臺(tái)的數(shù)據(jù)處理規(guī)則與大模型進(jìn)行適配,從而更好地支持大模型的訓(xùn)練、調(diào)優(yōu)、部署、推理及應(yīng)用。”
云計(jì)算資源消費(fèi)模式將被改變
眾所周知,大模型訓(xùn)練的關(guān)鍵在于算力、數(shù)據(jù)和算法。簡(jiǎn)麗榮認(rèn)為,云計(jì)算平臺(tái)正是提供這三個(gè)要素最合適的平臺(tái)。首先,大模型需要大量算力,特別是高端GPU;其次,需要海量的數(shù)據(jù),特別是一些高質(zhì)量的數(shù)據(jù);此外,大模型還需要算法的支持,Model as a Service將成為一種新的PaaS服務(wù)。這些都是新的需求,也是云平臺(tái)最擅長(zhǎng)做的事。所以,大模型的出現(xiàn)將會(huì)非常有效地提振云計(jì)算市場(chǎng)。同時(shí),擁有更強(qiáng)GPU算力的云廠商會(huì)更具競(jìng)爭(zhēng)優(yōu)勢(shì)。
簡(jiǎn)麗榮指出,大模型的出現(xiàn),將會(huì)對(duì)自然語言處理、計(jì)算機(jī)圖像,甚至自動(dòng)駕駛造成顛覆性的影響,改變這些領(lǐng)域的整個(gè)軟件和硬件技術(shù)棧,從而給云計(jì)算市場(chǎng)帶來全新的資源消費(fèi)模式。
以SaaS服務(wù)為例,大模型對(duì)低代碼的沖擊將會(huì)非常明顯。低代碼(或零代碼)核心價(jià)值是通過拖拉組合解決軟件開發(fā)慢、門檻高的問題。然而,大模型的出現(xiàn)顛覆了低代碼的整個(gè)開發(fā)模式。“低代碼能夠覆蓋的應(yīng)用場(chǎng)景是有限的,未來后臺(tái)的技術(shù)棧會(huì)被大模型徹底顛覆。”簡(jiǎn)麗榮表示。
像ChatGPT之類的大模型可以通過自然語言描述直接創(chuàng)建應(yīng)用程序,AI生成代碼的速度遠(yuǎn)超人工,甚至還可以通過對(duì)話持續(xù)提出改進(jìn)建議。此前,曾經(jīng)估值130億美元的AI寫作工具Grammarly在ChatGPT發(fā)布后就出現(xiàn)了網(wǎng)站用戶直線下降的情況。
簡(jiǎn)麗榮認(rèn)為,AI應(yīng)用的大規(guī)模推廣實(shí)際上增加了IT行業(yè)的競(jìng)爭(zhēng)維度,不同的企業(yè)在不同的維度上面的競(jìng)爭(zhēng)力是不一樣的。IT層會(huì)更加多元化,這自然也會(huì)推動(dòng)多云的普及程度。
未來,大部分普通的非科技企業(yè)用戶只需要調(diào)用云廠商提供的MaaS服務(wù)(模型即服務(wù))來構(gòu)建自己的垂類模型和應(yīng)用,而一些大型企業(yè)用戶出于數(shù)據(jù)安全、行業(yè)監(jiān)管要求、成本、自主可控等因素,可能會(huì)更傾向于建設(shè)自己的基礎(chǔ)平臺(tái)來完成專有模型訓(xùn)練和推理任務(wù)。
大模型加速數(shù)據(jù)庫分布化和并行化
伴隨“模型熱”的興起,龐大的數(shù)據(jù)量帶來了存儲(chǔ)和計(jì)算資源的壓力,這要求數(shù)據(jù)庫本身緊密跟云計(jì)算技術(shù)結(jié)合,通過元數(shù)據(jù)、計(jì)算和存儲(chǔ)層解耦,從而充分發(fā)揮云平臺(tái)的彈性和擴(kuò)展能力。
簡(jiǎn)麗榮認(rèn)為,在大模型爆發(fā)的背景下,數(shù)據(jù)庫需要提供可以橫向的并發(fā)訪問能力、多范式的數(shù)據(jù)處理分析能力(包括支持聲明式語言SQL,過程式語言Python/R,圖計(jì)算、全文檢索、流式計(jì)算、高性能計(jì)算、機(jī)器學(xué)習(xí)和人工智能)和海量異構(gòu)數(shù)據(jù)(結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)以及實(shí)時(shí)數(shù)據(jù))的存儲(chǔ)管理能力。
在這種趨勢(shì)下,基于云原生架構(gòu)的數(shù)據(jù)倉庫將成為未來數(shù)據(jù)庫行業(yè)發(fā)展的重要方向,而大中型企業(yè)考慮到高可用以及議價(jià)能力等因素,通常會(huì)選擇多云部署的模式。
“這種趨勢(shì)對(duì)我們做多云數(shù)據(jù)庫的企業(yè)也有明顯影響,用我們的核心產(chǎn)品HashData云數(shù)倉為例,設(shè)計(jì)之初,我們對(duì)多云部署場(chǎng)景的考慮是通過將系統(tǒng)的不同組件解耦,降低對(duì)特定接口的依賴,方便對(duì)接各種開放的云平臺(tái),滿足企業(yè)數(shù)據(jù)在不同云平臺(tái)流轉(zhuǎn)的需求。”簡(jiǎn)麗榮說,“我們現(xiàn)在在開發(fā)增強(qiáng)HashData數(shù)據(jù)倉庫支持向量數(shù)據(jù)存儲(chǔ)和處理檢索能力的功能組件,再結(jié)合云數(shù)倉的高擴(kuò)展性、高可用和高彈性,實(shí)現(xiàn)更好地支撐和擴(kuò)展大模型的應(yīng)用場(chǎng)景。”簡(jiǎn)麗榮表示。
與此同時(shí),分布式和并行化潮流將進(jìn)一步加速。“大模型的應(yīng)用將進(jìn)一步加速數(shù)據(jù)庫行業(yè)的分布式和并行化潮流,而且在一個(gè)更深更廣的層面上進(jìn)行分布式和并行化。”簡(jiǎn)麗榮表示,“更深指的是更多異構(gòu)的算力資源需要并行化,包括CPU、GPU、DPU等,更廣指的是類似‘東數(shù)西算’工程,這些都要求數(shù)據(jù)系統(tǒng)能夠更好地提供共享和協(xié)作能力。”
此外,除了類似ChatGPT一樣的To C的形態(tài)外,大模型在企業(yè)級(jí)市場(chǎng)將更多地以個(gè)性化、獨(dú)立部署的形態(tài)出現(xiàn),也就是說各行各業(yè)甚至同一家企業(yè)不同的部門都會(huì)有各自的大模型實(shí)例,類似行業(yè)專家。在這樣的背景下,需要在數(shù)據(jù)庫內(nèi)核集成深度學(xué)習(xí)和大模型的能力。
“無論是數(shù)據(jù)分析全鏈路的各個(gè)環(huán)節(jié)還是數(shù)據(jù)庫自身的運(yùn)維工作,都非常耗時(shí)和依賴經(jīng)驗(yàn),我們正在嘗試?yán)么竽P陀?xùn)練數(shù)據(jù)庫領(lǐng)域的專家系統(tǒng),期望提升數(shù)據(jù)分析和數(shù)據(jù)庫智能運(yùn)維能力,實(shí)現(xiàn)在數(shù)據(jù)庫范圍內(nèi)有類似于‘自動(dòng)駕駛’一樣的功能。”簡(jiǎn)麗榮表示。