來源:新華社研究院中國(guó)企業(yè)發(fā)展研究中心 時(shí)間:2023-11-20 14:20:58 作者:
近日,新華社研究院中國(guó)企業(yè)發(fā)展研究中心發(fā)布《人工智能大模型體驗(yàn)報(bào)告3.0》(以下簡(jiǎn)稱報(bào)告)。報(bào)告顯示,迭代風(fēng)潮之下,大模型產(chǎn)品正在迅速適應(yīng)并引領(lǐng)市場(chǎng)變革。其中,訊飛星火、商湯商量和智譜AI-ChatGLM等廠商表現(xiàn)總體優(yōu)秀。
報(bào)告顯示,大模型廠商在技術(shù)實(shí)力上呈現(xiàn)出百家爭(zhēng)鳴態(tài)勢(shì)。不同廠商在產(chǎn)品特點(diǎn)和優(yōu)勢(shì)上各有千秋。一些廠商在安全性能上表現(xiàn)出色,通過加強(qiáng)模型的魯棒性和數(shù)據(jù)保護(hù)措施,為用戶提供更可靠、更放心的服務(wù)。另一些廠商則在易用性上下功夫,致力于降低用戶的學(xué)習(xí)曲線,使產(chǎn)品更貼近用戶需求,提升用戶體驗(yàn)。
為進(jìn)一步直觀感受我國(guó)當(dāng)前主流科技企業(yè)所推出的大模型產(chǎn)品的現(xiàn)狀、優(yōu)勢(shì)和特點(diǎn),新華社研究院中國(guó)企業(yè)發(fā)展研究中心于今年10月啟動(dòng)了本次測(cè)評(píng)研究。與前兩次發(fā)布的《人工智能大模型體驗(yàn)報(bào)告》相比,本次測(cè)評(píng)在多個(gè)方面進(jìn)行了升級(jí)。
本次研究抓取了2023年10月25日-2023年11月6日的數(shù)據(jù),通過人機(jī)互動(dòng)提問等形式,對(duì)國(guó)內(nèi)主流大模型進(jìn)行使用體驗(yàn)評(píng)測(cè)。在評(píng)測(cè)過程中,不僅考慮模型產(chǎn)品的實(shí)際表現(xiàn),還深入評(píng)估了廠商的技術(shù)實(shí)力和未來發(fā)展?jié)摿?。此外,評(píng)測(cè)題庫擴(kuò)充到了1000道,并精選其中的400道進(jìn)行實(shí)際問答測(cè)試。這大大提升了評(píng)測(cè)的廣度和深度,能更準(zhǔn)確地反映大模型在不同場(chǎng)景和問題下的實(shí)際表現(xiàn)。
報(bào)告顯示,與2023年8月相比,當(dāng)前中國(guó)大模型產(chǎn)品進(jìn)步顯著。具體來看,科大訊飛星火繼續(xù)保持領(lǐng)先優(yōu)勢(shì),商湯商量、智譜AI-ChatGLM等廠商整體表現(xiàn)優(yōu)秀。針對(duì)各維度能力測(cè)評(píng),該報(bào)告還給出了相應(yīng)的案例展示和分析。
在基礎(chǔ)能力部分,科大訊飛星火表現(xiàn)搶眼,能夠準(zhǔn)確地理解指令,并且能夠生成圖像;字節(jié)跳動(dòng)豆包同樣能較為準(zhǔn)確地理解指令并且完成部分生產(chǎn)圖像的指令;智譜AI-ChatGLM和瀾舟科技孟子都能較為準(zhǔn)確地理解指令,表現(xiàn)優(yōu)良。
在智商部分,科大訊飛星火在回答基本正確的同時(shí)能夠理解指令,不給出多余的回答;商湯商量、瀾舟科技孟子和智譜AI-ChatGLM大多數(shù)時(shí)候能夠根據(jù)指令回答問題。
在情商部分,各大模型表現(xiàn)差距不大。在給定的場(chǎng)景中基本均能展現(xiàn)較高的靈活性及人文關(guān)懷。其中,商湯商量、騰訊混元所給方案詳盡,問題切入角度多樣,且一定程度上引導(dǎo)用戶進(jìn)行更深入的思考??拼笥嶏w星火、字節(jié)跳動(dòng)豆包、阿里通義千問、智譜AI ChatGLM和昆侖萬維天工在分析問題時(shí)能夠考慮到不同的策略,并給出令人信服的理由??傮w具備較高的情商能力。
在工作提效部分,在不同專業(yè)技能場(chǎng)景下測(cè)評(píng)模型均能一定程度上提升問題分析和解決水平??拼笥嶏w星火、商湯商量和字節(jié)跳動(dòng)豆包不僅能夠較好地解答日常疑惑,在法學(xué)、經(jīng)濟(jì)學(xué)、文學(xué)方向上也表現(xiàn)不凡,能夠以較快的速度響應(yīng)并給出較為準(zhǔn)確可信的結(jié)果。360智腦、瀾舟科技-孟子、智譜AI-ChatGLM在多語種翻譯、代碼編程和文字摘錄方面表現(xiàn)優(yōu)異,給出的回答能夠起到輔助作用,并為專業(yè)從業(yè)人員提供參考。
報(bào)告還顯示,隨著大模型快速升級(jí)迭代,大模型的技術(shù)能力開始越來越多地體現(xiàn)在產(chǎn)品能力上。在C端,職場(chǎng)、營(yíng)銷、出行、生活、公文、客服等多個(gè)場(chǎng)景個(gè)人助手陸續(xù)上線;在B端,制造、電力、金融、手機(jī)、傳媒等行業(yè)的大模型和產(chǎn)業(yè)融合優(yōu)秀案例也在不斷出現(xiàn)。
報(bào)告認(rèn)為,雖然人工智能大模型的發(fā)展取得了較大進(jìn)步,但不可忽視的是,人工智能大模型依然存在不穩(wěn)定等問題,需要進(jìn)一步解決,另外大模型的安全問題也不容忽視。報(bào)告同時(shí)指出,人工智能大模型將進(jìn)一步推動(dòng)數(shù)字經(jīng)濟(jì)和產(chǎn)業(yè)經(jīng)濟(jì)的深度融合,掀起新一輪技術(shù)革命,為社會(huì)經(jīng)濟(jì)發(fā)展提供源源不斷的科技動(dòng)力。
具體內(nèi)容如下:
責(zé)任編輯:張薇