人工智能大模型體驗(yàn)報(bào)告3.0

來源：新華社研究院中國(guó)企業(yè)發(fā)展研究中心時(shí)間：2023-11-20 14:20:58 作者：

　　近日，新華社研究院中國(guó)企業(yè)發(fā)展研究中心發(fā)布《人工智能大模型體驗(yàn)報(bào)告3.0》（以下簡(jiǎn)稱報(bào)告）。報(bào)告顯示，迭代風(fēng)潮之下，大模型產(chǎn)品正在迅速適應(yīng)并引領(lǐng)市場(chǎng)變革。其中，訊飛星火、商湯商量和智譜AI-ChatGLM等廠商表現(xiàn)總體優(yōu)秀。

　　報(bào)告顯示，大模型廠商在技術(shù)實(shí)力上呈現(xiàn)出百家爭(zhēng)鳴態(tài)勢(shì)。不同廠商在產(chǎn)品特點(diǎn)和優(yōu)勢(shì)上各有千秋。一些廠商在安全性能上表現(xiàn)出色，通過加強(qiáng)模型的魯棒性和數(shù)據(jù)保護(hù)措施，為用戶提供更可靠、更放心的服務(wù)。另一些廠商則在易用性上下功夫，致力于降低用戶的學(xué)習(xí)曲線，使產(chǎn)品更貼近用戶需求，提升用戶體驗(yàn)。

　　為進(jìn)一步直觀感受我國(guó)當(dāng)前主流科技企業(yè)所推出的大模型產(chǎn)品的現(xiàn)狀、優(yōu)勢(shì)和特點(diǎn)，新華社研究院中國(guó)企業(yè)發(fā)展研究中心于今年10月啟動(dòng)了本次測(cè)評(píng)研究。與前兩次發(fā)布的《人工智能大模型體驗(yàn)報(bào)告》相比，本次測(cè)評(píng)在多個(gè)方面進(jìn)行了升級(jí)。

　　本次研究抓取了2023年10月25日-2023年11月6日的數(shù)據(jù)，通過人機(jī)互動(dòng)提問等形式，對(duì)國(guó)內(nèi)主流大模型進(jìn)行使用體驗(yàn)評(píng)測(cè)。在評(píng)測(cè)過程中，不僅考慮模型產(chǎn)品的實(shí)際表現(xiàn)，還深入評(píng)估了廠商的技術(shù)實(shí)力和未來發(fā)展?jié)摿?。此外，評(píng)測(cè)題庫擴(kuò)充到了1000道，并精選其中的400道進(jìn)行實(shí)際問答測(cè)試。這大大提升了評(píng)測(cè)的廣度和深度，能更準(zhǔn)確地反映大模型在不同場(chǎng)景和問題下的實(shí)際表現(xiàn)。

　　報(bào)告顯示，與2023年8月相比，當(dāng)前中國(guó)大模型產(chǎn)品進(jìn)步顯著。具體來看，科大訊飛星火繼續(xù)保持領(lǐng)先優(yōu)勢(shì)，商湯商量、智譜AI-ChatGLM等廠商整體表現(xiàn)優(yōu)秀。針對(duì)各維度能力測(cè)評(píng)，該報(bào)告還給出了相應(yīng)的案例展示和分析。

　　在基礎(chǔ)能力部分，科大訊飛星火表現(xiàn)搶眼，能夠準(zhǔn)確地理解指令，并且能夠生成圖像；字節(jié)跳動(dòng)豆包同樣能較為準(zhǔn)確地理解指令并且完成部分生產(chǎn)圖像的指令；智譜AI-ChatGLM和瀾舟科技孟子都能較為準(zhǔn)確地理解指令，表現(xiàn)優(yōu)良。

　　在智商部分，科大訊飛星火在回答基本正確的同時(shí)能夠理解指令，不給出多余的回答；商湯商量、瀾舟科技孟子和智譜AI-ChatGLM大多數(shù)時(shí)候能夠根據(jù)指令回答問題。

　　在情商部分，各大模型表現(xiàn)差距不大。在給定的場(chǎng)景中基本均能展現(xiàn)較高的靈活性及人文關(guān)懷。其中，商湯商量、騰訊混元所給方案詳盡，問題切入角度多樣，且一定程度上引導(dǎo)用戶進(jìn)行更深入的思考?？拼笥嶏w星火、字節(jié)跳動(dòng)豆包、阿里通義千問、智譜AI ChatGLM和昆侖萬維天工在分析問題時(shí)能夠考慮到不同的策略，并給出令人信服的理由?？傮w具備較高的情商能力。

　　在工作提效部分，在不同專業(yè)技能場(chǎng)景下測(cè)評(píng)模型均能一定程度上提升問題分析和解決水平?？拼笥嶏w星火、商湯商量和字節(jié)跳動(dòng)豆包不僅能夠較好地解答日常疑惑，在法學(xué)、經(jīng)濟(jì)學(xué)、文學(xué)方向上也表現(xiàn)不凡，能夠以較快的速度響應(yīng)并給出較為準(zhǔn)確可信的結(jié)果。360智腦、瀾舟科技-孟子、智譜AI-ChatGLM在多語種翻譯、代碼編程和文字摘錄方面表現(xiàn)優(yōu)異，給出的回答能夠起到輔助作用，并為專業(yè)從業(yè)人員提供參考。

　　報(bào)告還顯示，隨著大模型快速升級(jí)迭代，大模型的技術(shù)能力開始越來越多地體現(xiàn)在產(chǎn)品能力上。在C端，職場(chǎng)、營(yíng)銷、出行、生活、公文、客服等多個(gè)場(chǎng)景個(gè)人助手陸續(xù)上線；在B端，制造、電力、金融、手機(jī)、傳媒等行業(yè)的大模型和產(chǎn)業(yè)融合優(yōu)秀案例也在不斷出現(xiàn)。

　　報(bào)告認(rèn)為，雖然人工智能大模型的發(fā)展取得了較大進(jìn)步，但不可忽視的是，人工智能大模型依然存在不穩(wěn)定等問題，需要進(jìn)一步解決，另外大模型的安全問題也不容忽視。報(bào)告同時(shí)指出，人工智能大模型將進(jìn)一步推動(dòng)數(shù)字經(jīng)濟(jì)和產(chǎn)業(yè)經(jīng)濟(jì)的深度融合，掀起新一輪技術(shù)革命，為社會(huì)經(jīng)濟(jì)發(fā)展提供源源不斷的科技動(dòng)力。

　　具體內(nèi)容如下：