來(lái)源:中國(guó)網(wǎng)信雜志 時(shí)間:2024-01-10 09:43:45 作者:
湯道生 騰訊集團(tuán)高級(jí)執(zhí)行副總裁、云與智慧產(chǎn)業(yè)事業(yè)群CEO
黨的十八大以來(lái),以習(xí)近平同志為核心的黨中央高度重視人工智能等新技術(shù)發(fā)展。習(xí)近平總書(shū)記指出:“把新一代人工智能作為推動(dòng)科技跨越發(fā)展、產(chǎn)業(yè)優(yōu)化升級(jí)、生產(chǎn)力整體躍升的驅(qū)動(dòng)力量,努力實(shí)現(xiàn)高質(zhì)量發(fā)展?!比斯ぶ悄芎蛯?shí)體經(jīng)濟(jì)深度融合將為高質(zhì)量發(fā)展注入強(qiáng)勁動(dòng)力。
具備自主創(chuàng)新能力的全鏈路人工智能技術(shù),不僅是產(chǎn)業(yè)發(fā)展所需,也是實(shí)現(xiàn)高水平科技自立自強(qiáng)的題中應(yīng)有之義。騰訊產(chǎn)業(yè)互聯(lián)網(wǎng)一直將人工智能作為重點(diǎn)領(lǐng)域。過(guò)去五年,騰訊在人工智能領(lǐng)域申請(qǐng)專(zhuān)利超1萬(wàn)項(xiàng),居全球互聯(lián)網(wǎng)行業(yè)榜首。騰訊優(yōu)圖實(shí)驗(yàn)室擁有1600多項(xiàng)人工智能相關(guān)專(zhuān)利,多次在國(guó)際權(quán)威比賽中創(chuàng)造世界紀(jì)錄。在大語(yǔ)言模型領(lǐng)域,騰訊打造了完整覆蓋自然語(yǔ)言處理、計(jì)算機(jī)視覺(jué)、多模態(tài)等能力的通用大模型,以及覆蓋金融、文旅、政務(wù)、醫(yī)療、教育等20多個(gè)行業(yè)的行業(yè)大模型,助力產(chǎn)業(yè)智能化提速。
產(chǎn)業(yè)場(chǎng)景是人工智能的最佳“練兵場(chǎng)”。結(jié)合行業(yè)專(zhuān)業(yè)知識(shí),大模型應(yīng)用在具體業(yè)務(wù)場(chǎng)景可為企業(yè)降本增效,提升用戶(hù)體驗(yàn),為實(shí)體經(jīng)濟(jì)發(fā)展帶來(lái)新動(dòng)能。
當(dāng)前,很多企業(yè)都在積極探索如何把大模型真正用起來(lái),但在實(shí)踐過(guò)程中遇到很多現(xiàn)實(shí)難題。例如,模型構(gòu)建(訓(xùn)練)和使用(推理)成本高、模型精度和準(zhǔn)確性不夠容易出現(xiàn)“幻覺(jué)”、敏感數(shù)據(jù)保護(hù)以及內(nèi)容安全合規(guī)等等。對(duì)此,騰訊提出“全自研、高可用、強(qiáng)安全”的大模型發(fā)展思路,通過(guò)打造模型精選商店、平臺(tái)工具和智能應(yīng)用,助力企業(yè)快速擁抱大模型,實(shí)現(xiàn)高質(zhì)量發(fā)展。
以全鏈路自研通用大模型實(shí)現(xiàn)人工智能關(guān)鍵技術(shù)自主可控
通用大模型既是人工智能的關(guān)鍵技術(shù),也是未來(lái)科技創(chuàng)新、產(chǎn)業(yè)鏈安全以及網(wǎng)絡(luò)信息安全的重要變量。騰訊始終堅(jiān)持“全鏈路自研”的大模型發(fā)展路線(xiàn),規(guī)避依賴(lài)國(guó)外開(kāi)源大模型可能存在的預(yù)訓(xùn)練數(shù)據(jù)集不透明、中文能力不足、調(diào)整不夠靈活等問(wèn)題。自研模式下,我們可以更好地篩選預(yù)訓(xùn)練語(yǔ)料,靈活調(diào)整模型架構(gòu)和參數(shù),提升大模型對(duì)中文語(yǔ)義的理解能力、生成內(nèi)容的合規(guī)性等,也能夠更好地運(yùn)用已有的技術(shù)棧體系與業(yè)務(wù)深度結(jié)合,實(shí)現(xiàn)模型能力的快速迭代,為用戶(hù)提供更加穩(wěn)定可靠的服務(wù)。在2023騰訊全球數(shù)字生態(tài)大會(huì)上,騰訊混元大模型正式亮相。騰訊混元從第一個(gè)token(大語(yǔ)言模型文本單位)開(kāi)始從零訓(xùn)練,擁有超千億參數(shù),預(yù)訓(xùn)練語(yǔ)料超兩萬(wàn)億tokens,整個(gè)過(guò)程從模型算法到機(jī)器學(xué)習(xí)框架再到人工智能基礎(chǔ)設(shè)施均采用自研技術(shù)。
在模型算法上,為解決大語(yǔ)言模型的“幻覺(jué)”問(wèn)題,騰訊在預(yù)訓(xùn)練階段通過(guò)“探真算法”進(jìn)行事實(shí)修正。與目前市場(chǎng)上常見(jiàn)的開(kāi)源大模型相比,能有效降低幻覺(jué)率達(dá) 30%~50%。通過(guò)強(qiáng)化學(xué)習(xí)方法,讓模型可以識(shí)別“陷阱”,對(duì)安全誘導(dǎo)類(lèi)問(wèn)題拒答率提升20%;通過(guò)位置編碼優(yōu)化,提高超長(zhǎng)文處理效果和性能;通過(guò)思維鏈的新策略,讓大模型可以同人類(lèi)一樣結(jié)合實(shí)際應(yīng)用場(chǎng)景進(jìn)行推理和決策。在中國(guó)信息通信研究院的標(biāo)準(zhǔn)符合性測(cè)試中,混元大模型在“模型開(kāi)發(fā)”和“模型能力”兩個(gè)重要領(lǐng)域的綜合評(píng)價(jià)均獲得當(dāng)前最高分。在學(xué)習(xí)框架和基礎(chǔ)設(shè)施上,騰訊自研的機(jī)器學(xué)習(xí)框架Angel(騰訊第三代高性能計(jì)算平臺(tái)),使混元大模型的訓(xùn)練速度比業(yè)界主流框架提升1倍,推理速度提升1.3倍。此外,騰訊自研新一代HCC(High-Performance Computing Cluster)高性能計(jì)算集群,采用騰訊云自研星星海服務(wù)器,加上自研高性能網(wǎng)絡(luò)“星脈”,具備業(yè)界最高的3.2T超高互聯(lián)帶寬、TB(太字節(jié),計(jì)算機(jī)存儲(chǔ)容量單位)級(jí)吞吐能力和千萬(wàn)級(jí)IOPS(每秒進(jìn)行讀寫(xiě)操作的次數(shù)),整體性能比過(guò)去提升3倍。最新推出的騰訊云向量數(shù)據(jù)庫(kù)能夠更高效地處理圖像、音頻和文本等非結(jié)構(gòu)化數(shù)據(jù),使大模型預(yù)訓(xùn)練數(shù)據(jù)的分類(lèi)、去重效率提升10倍,最高支持10億級(jí)向量檢索規(guī)模,延遲控制在毫秒級(jí)。
騰訊云自研星星海服務(wù)器。
以行業(yè)大模型和精調(diào)解決方案實(shí)現(xiàn)模型落地高可用
很多人把大模型應(yīng)用于聊天、答題等,但事實(shí)上,大模型與產(chǎn)業(yè)結(jié)合才是真正的“蛟龍入?!?,可以形成更強(qiáng)的生產(chǎn)力。因此,騰訊除打造混元大模型(也以此為底座)外,還推出面向行業(yè)的騰訊云MaaS(模型即服務(wù)),讓大模型真正做到產(chǎn)業(yè)可用。
一是推出大模型精選商店,以適配不同行業(yè)的差異化需求。各行各業(yè)場(chǎng)景不同,需求千差萬(wàn)別,往往需要不同的大模型支持。大模型精選商店既能提供混元大模型,也能提供幾十個(gè)行業(yè)大模型和開(kāi)源大模型。企業(yè)可以像在商店選購(gòu)商品一樣,通過(guò)API(應(yīng)用程序編程接口)調(diào)用這些模型,或者在這些模型基礎(chǔ)上構(gòu)建不同產(chǎn)業(yè)場(chǎng)景的專(zhuān)屬模型。目前,騰訊云行業(yè)大模型已經(jīng)覆蓋20多個(gè)行業(yè)。以能源行業(yè)為例,很多電網(wǎng)設(shè)備分布在偏遠(yuǎn)地區(qū),人工巡檢效率低,但通過(guò)電力視覺(jué)大模型,一個(gè)模型就可以有效適應(yīng)不同電網(wǎng)場(chǎng)景,具有高檢出率、低誤檢率、支持少樣本訓(xùn)練、泛化能力強(qiáng)的優(yōu)勢(shì),助力電網(wǎng)生產(chǎn)經(jīng)營(yíng)。
二是提供模型訓(xùn)練和精調(diào)工具鏈,一站式解決數(shù)據(jù)處理問(wèn)題。很多人注重大模型,但對(duì)數(shù)據(jù)關(guān)注不夠。企業(yè)在構(gòu)建專(zhuān)屬模型時(shí),需要把自身數(shù)據(jù)用起來(lái),海量數(shù)據(jù)預(yù)處理非常重要;構(gòu)建過(guò)程中,要關(guān)注數(shù)據(jù)保護(hù)與安全合規(guī)、管理好數(shù)據(jù)與標(biāo)簽等;構(gòu)建完成后,要根據(jù)數(shù)據(jù)的變動(dòng),反復(fù)精調(diào)和優(yōu)化模型的性能。騰訊云TI平臺(tái)行業(yè)大模型精調(diào)解決方案可以幫助模型開(kāi)發(fā)者與算法工程師高質(zhì)高效、安全合規(guī)處理數(shù)據(jù),并提供多機(jī)多卡訓(xùn)練加速能力。企業(yè)選擇合適的模型,灌入行業(yè)知識(shí)、專(zhuān)屬數(shù)據(jù),就能夠訓(xùn)練與精調(diào)出專(zhuān)屬大模型,高效率、低成本地構(gòu)建智能應(yīng)用。同時(shí),騰訊會(huì)對(duì)專(zhuān)屬數(shù)據(jù)做隔離,并支持模型本地訓(xùn)練和私有化部署,讓企業(yè)使用數(shù)據(jù)時(shí)更放心。
三是打造“開(kāi)箱即用”的智能化產(chǎn)品,推動(dòng)大模型走向普惠。騰訊基于大模型的能力,升級(jí)現(xiàn)有的企業(yè)級(jí)應(yīng)用,讓每個(gè)企業(yè)用戶(hù)都能享受到智能化便利,真正踐行“科技向善”。例如,騰訊打造的企業(yè)知識(shí)庫(kù)產(chǎn)品——騰訊樂(lè)享,內(nèi)部一線(xiàn)員工每天都在用它查詢(xún)產(chǎn)品、技術(shù)和經(jīng)營(yíng)文檔,以及反饋問(wèn)題。以前,用戶(hù)要從大體量的知識(shí)庫(kù)里獲取想要的信息并不容易,對(duì)此,騰訊基于行業(yè)大模型打造了人工智能助手,用戶(hù)用自然語(yǔ)言提問(wèn)就能從繁雜多樣的資料中快速獲取想要的信息。再如,騰訊會(huì)議即將上線(xiàn)人工智能小助手,它不僅具有多項(xiàng)基礎(chǔ)能力,還能完成會(huì)議內(nèi)容分析、生成會(huì)議摘要,未來(lái)可實(shí)現(xiàn)智能會(huì)管會(huì)控等任務(wù)。
以全鏈路安全合規(guī)解決方案確保大模型可信可靠
習(xí)近平總書(shū)記指出:“要重視通用人工智能發(fā)展,營(yíng)造創(chuàng)新生態(tài),重視防范風(fēng)險(xiǎn)。”安全是大模型的立身之本。數(shù)據(jù)安全和隱私是“底線(xiàn)”,內(nèi)容安全合規(guī)是“紅線(xiàn)”。騰訊將20多年積累的安全能力遷移到大模型的創(chuàng)建和應(yīng)用上,以幫助企業(yè)守護(hù)兩道防線(xiàn)。
在數(shù)據(jù)安全與隱私保護(hù)上,將騰訊安全玄武實(shí)驗(yàn)室的“隱私安全解決方案”用到大模型中,企業(yè)可以在端側(cè)部署使用,在與大模型交互時(shí),輸入的提示詞等數(shù)據(jù)也不會(huì)被系統(tǒng)記錄。在生成內(nèi)容的安全合規(guī)上,打造了全鏈路內(nèi)容合規(guī)解決方案,前中后過(guò)濾信息:在問(wèn)題側(cè),騰訊天御文本審核模型能對(duì)問(wèn)題進(jìn)行審核,識(shí)別涉黃、涉暴等問(wèn)題并拒答;在模型側(cè),通過(guò)強(qiáng)化學(xué)習(xí)等手段,自動(dòng)規(guī)避一些低質(zhì)量甚至垃圾答案的生成;在答案?jìng)?cè),模型生成答案后會(huì)再次通過(guò)騰訊天御文本審核模型,對(duì)不符合要求的答案進(jìn)行處理。
大模型時(shí)代,安全問(wèn)題不僅存在于模型本身,還存在于模型之外。在模型應(yīng)用普及過(guò)程中可能催生出一些新的安全敞口和攻擊手段,例如,欺詐分子通過(guò)生成式人工智能快速制作“釣魚(yú)郵件”,低成本復(fù)刻人臉和聲音用于不法活動(dòng)等,這些都會(huì)給人們的生產(chǎn)生活帶來(lái)新的安全挑戰(zhàn)。
騰訊安全擁有多年產(chǎn)業(yè)互聯(lián)網(wǎng)實(shí)戰(zhàn)經(jīng)驗(yàn),在威脅情報(bào)、風(fēng)控反欺詐、零信任等數(shù)字安全領(lǐng)域沉淀了豐富的能力,并在10億級(jí)用戶(hù)和海量業(yè)務(wù)場(chǎng)景中得到充分驗(yàn)證。人工智能技術(shù)的不斷增強(qiáng)讓企業(yè)獲得一種越來(lái)越重要的生產(chǎn)工具,將數(shù)據(jù)中的“信息能源”源源不斷地轉(zhuǎn)化為實(shí)體經(jīng)濟(jì)高質(zhì)量發(fā)展的新動(dòng)能。
未來(lái),騰訊將持續(xù)投入人工智能技術(shù)研發(fā)與產(chǎn)業(yè)落地,既發(fā)揮好科技平臺(tái)企業(yè)的技術(shù)和產(chǎn)品優(yōu)勢(shì),又用好在產(chǎn)業(yè)互聯(lián)網(wǎng)實(shí)踐中積累的行業(yè)經(jīng)驗(yàn),攜手伙伴打造“百行千模”,形成對(duì)行業(yè)的廣覆蓋、深助力,共同推動(dòng)產(chǎn)業(yè)高質(zhì)量發(fā)展。
責(zé)任編輯:張薇