來源:THU數(shù)據(jù)派 時間:2017-09-26 11:10:13 作者:舒怡 曾祥輝
[導(dǎo)讀]知識圖譜技術(shù)日益成為人工智能的基礎(chǔ),它是機(jī)器理解自然語言和構(gòu)建知識網(wǎng)絡(luò)的重要方法。近年來,知識圖譜在司法領(lǐng)域的運用悄然興起,它幫助從業(yè)人員快速地在線檢索相關(guān)的法務(wù)內(nèi)容,從而提高法院審判工作質(zhì)量和效率。
本期清華大數(shù)據(jù)“應(yīng)用·創(chuàng)新”系列講座,我們邀請到來自國雙科技的專家舒怡和曾祥輝分享知識圖譜在司法領(lǐng)域應(yīng)用的探索。
國雙科技 舒怡
舒怡:很開心能夠來到清華進(jìn)行分享,首先講一下我對知識圖譜的理解和認(rèn)識。
我認(rèn)為數(shù)據(jù)、信息和知識的共享傳播已經(jīng)創(chuàng)造了極大的市場價值,但是在知識的處理上還有很大的挖掘空間。我們認(rèn)為知識圖譜在現(xiàn)階段要解決的問題就是實現(xiàn)數(shù)據(jù)和信息的智能化處理,讓計算機(jī)像人一樣用知識處理信息。
知識圖譜在司法領(lǐng)域的探索和應(yīng)用
1、知識圖譜的定義
業(yè)界普遍使用圖作為表示知識的數(shù)據(jù)結(jié)構(gòu),因此稱為知識圖譜。
結(jié)點-邊-節(jié)點組成了表示知識和事實的陳述語句。
知識和事實陳述語句關(guān)聯(lián)起來,可以表達(dá)領(lǐng)域的專業(yè)知識。
2、知識圖譜的特點
知識圖譜在語義層面表示客觀世界的知識和事實。
集成(空間)。它是一個空間的概念,可以把相關(guān)的概念和實體用任何的維度去描述,組成一個整體。
積累(時間)。我們可以逐步增加知識圖譜上的知識結(jié)點,新的知識結(jié)構(gòu)和知識內(nèi)容能夠自然累積成一個完整的知識結(jié)構(gòu)。
總體來說,我們認(rèn)為知識圖譜最大的作用就是降低了結(jié)構(gòu)化知識的構(gòu)建和使用難度。
3、司法知識圖譜是司法智能應(yīng)用的必然路徑
知識圖譜表達(dá)的知識方法與人類認(rèn)知的模式相一致。與自然語言表達(dá)語義的方式相一致,對領(lǐng)域的概念分類、分層也一致,可以疊加無限的維度,允許知識與語言相對獨立的相關(guān)性。這其實跟知識圖譜技術(shù)、方法的本質(zhì)有關(guān)系。
法律知識體系是多種邏輯的結(jié)合。法律的知識體系非常復(fù)雜,可以從法律法規(guī)自上而下構(gòu)建體系,也可以從法學(xué)概念的相關(guān)性去構(gòu)建體系。
成文法體系。我們國家是一個成文法體系的國家,它跟英美不同,不是遵循先例的角度去看。這就有了一個條件,我們可能用一種比較統(tǒng)一的方法去處理整個中國的法律知識。
專業(yè)領(lǐng)域的知識圖譜的構(gòu)建和百科類知識的融合和構(gòu)建不同,需要非常嚴(yán)格的專家指導(dǎo)和監(jiān)督。如果說百度類的知識圖譜搭建屬于起步階段,那么專業(yè)領(lǐng)域內(nèi)的知識圖譜構(gòu)建更是處于初級階段,要經(jīng)歷非常長時間的發(fā)展。
4、司法知識體系建設(shè)思路
我們的思路就是把應(yīng)用當(dāng)成知識圖譜構(gòu)建的鑰匙,每一種法學(xué)領(lǐng)域內(nèi)的應(yīng)用都是一把觸動不同結(jié)點的鑰匙,應(yīng)用的結(jié)果都是結(jié)點上概念與屬性的預(yù)算。
司法知識:
法律概念知識
司法實踐知識
司法實踐涉及的領(lǐng)域知識
一般社會知識
我們對于法律的概念知識對接的是傳統(tǒng)的知識庫,而司法的實踐知識是通過批量的文書處理和專家的干預(yù)去構(gòu)建,以應(yīng)用為導(dǎo)向,小規(guī)模進(jìn)行突破。司法實踐涉及的領(lǐng)域知識是以專家構(gòu)建為主,以應(yīng)用為導(dǎo)向,在一定的領(lǐng)域內(nèi)做,而一般的社會知識對接的是百科的數(shù)據(jù)庫。
5、怎么去對接傳統(tǒng)的數(shù)據(jù)庫呢?
我們現(xiàn)在所接觸的傳統(tǒng)數(shù)據(jù)庫,就是法律類的專業(yè)數(shù)據(jù)庫,很多是以樹狀結(jié)構(gòu)去做。第一,它的構(gòu)建邏輯單一;第二,分層的隨意性大,第三層級之間的關(guān)系比較亂。右邊紅框,它的層級有的之間是父子包含關(guān)系,有的之間是并列關(guān)系;而左邊紅框的層級非常多,必須用目錄索引才能很好的使用它的知識庫。
如果我們把已經(jīng)做好了的傳統(tǒng)知識庫去復(fù)建知識圖譜,成本比較高。我們是以尊重現(xiàn)有的傳統(tǒng)知識庫為基礎(chǔ),將主要的精力放在兩個方面:
第一方面,探索多個不同邏輯傳統(tǒng)知識庫的知識融合。
第二方面,在弱化層級的概念上。(舉例略)
我們把知識圖譜用在了很多產(chǎn)品上。舉一個例子——文書生成系統(tǒng)。我們先解析前置文書,前置文書指的是起訴書、答辯狀,開庭筆錄等,我們解析了起訴書、答辯狀和開庭筆錄之后就會生成一個判決模板,從前置文書中解析出來當(dāng)事人、法官、適用程序,訴訟請求等數(shù)據(jù)填充到相應(yīng)的位置,同時給法院推送適當(dāng)?shù)慕裹c和裁判規(guī)則,并且我們還對裁判規(guī)則適用等進(jìn)行數(shù)據(jù)的統(tǒng)計。
事理圖譜在司法領(lǐng)域上的嘗試
事理圖譜是一個比較新的概念,哈工大提出事理圖譜的時候就非常明確地認(rèn)為:事件是人類社會的核心概念之一,人們的社會活動往往是事件驅(qū)動的。事件之間在時間上相繼發(fā)生的演化規(guī)律和模式是一種十分有價值的知識,而探索事件和事件之間的演化和演化的概率是事理圖譜非常重要的研究方向和研究點。
這是一張出行的事理圖譜,結(jié)點表示抽象、淡化的事件,有效的邊表示事件之間的順承、因果關(guān)系,邊上標(biāo)注有事件間轉(zhuǎn)移概率的信息。事理圖譜旨在揭示事件間的邏輯演化規(guī)律與模式,由此可作為對人類行為活動的直接刻劃。
為什么我們在司法領(lǐng)域去研究事理圖譜?是因為我們認(rèn)為事件不但是事理圖譜的研究起點,而且對司法領(lǐng)域有非常大的意義,所有判決的作出都是基于原被告之間在同一時序下的行為及行為形成的客觀結(jié)果。
這是我們研發(fā)事理圖譜的主要技術(shù)路徑,技術(shù)核心點就是事實類別識別和識別要素提取。
第一步,人工標(biāo)注事件,做每句話的標(biāo)注;
第二步,把人工標(biāo)注的事件做一個聚合;
第三步,人工標(biāo)注事件主體和客體。
司法圖譜的實踐啟發(fā)
我們認(rèn)為司法圖譜可實現(xiàn)智慧法院的技術(shù)底層,事理圖譜運用于司法領(lǐng)域具有開創(chuàng)性的意義。短時間內(nèi)可以做一個文書的摘要,長時間則可以把涉案事實結(jié)構(gòu)化,找到知識圖譜中間對應(yīng)的實體概念,觸發(fā)知識圖譜里的一些推送知識。我們還可以有一些配對的規(guī)則,用概率來實現(xiàn)推薦的排名,對類案作出法律事件發(fā)生概率及演化路徑的分析,還可以廣泛運用于要素式的審判,法律行為分析的預(yù)測,判決結(jié)果的高概率分析等等。知識圖譜和事理圖譜的搭建,可以支持法官和當(dāng)事人的語義問答以及探索性地獲取答案等等。
我們做的其實都是在模擬人的思維方式,該干什么、怎么干。該干什么,就是事理圖譜告訴我們下一步該干什么;怎么干,就是知識圖譜的事,通過知識告訴你方法,或者回答你需要的問題。我今天的分享就到這里,謝謝大家。
國雙科技 曾祥輝
隨后,曾祥輝先生從技術(shù)的角度告訴我們知識圖譜是如何搭建的。
知識圖譜概述
曾祥輝:知識圖譜的來源,屬于知識工程的一部分。谷歌提出之后,國內(nèi)的公司也在跟進(jìn)。
這是在司法領(lǐng)域的案例,我們平常在文書中看到的是一個文本的表述,然后結(jié)構(gòu)化圖譜,這是在我們案件中要做的事情。
1、知識表達(dá)方式各優(yōu)缺點
文本是自然語言的表達(dá)方式,但是它對機(jī)器來說是非常難以理解,現(xiàn)在的NLP還不足以達(dá)到理解的程度。
數(shù)據(jù)庫是我們用的最多的數(shù)據(jù)儲存的方式,它的好處就是機(jī)器獲取信息的效率比較高,技術(shù)鏈比較成熟;它的缺點在于對復(fù)雜信息或者復(fù)雜關(guān)系的表達(dá)比較難,因為它的模式是既定的,要演化這種模式所花費的成本會比較高。同時它對復(fù)雜關(guān)系的多度查詢,也就是跨表查詢,三個表就達(dá)到幾十秒的時間,這個對于我們實施系統(tǒng)來說無法接受。
我們現(xiàn)在開始走向非關(guān)系型的數(shù)據(jù)庫,圖就是其中一種。圖的好處就是在于它非常適合復(fù)雜關(guān)系和信息的表達(dá)和查詢。它的模式是一種路模式,對于信息的儲存非常易氧化,你要增加新的信息或者新的結(jié)點進(jìn)去,可以隨時加。那么它對多個以上的查詢就無法輸出這個結(jié)果,但是在圖上始終能夠保持在秒級的速度,這是我們對實施系統(tǒng)一個非常重要的條件;它的缺點就是對于我們常用的一些數(shù)據(jù)庫,它的技術(shù)還沒有成熟。
2、應(yīng)用方向
信息搜索和可視化分析
為自然語言理解提供背景知識庫
問答系統(tǒng)、醫(yī)療診斷、金融反欺詐、電商搜索推薦
圖譜構(gòu)建及應(yīng)用技術(shù)
1、整體的構(gòu)建流程:
1.1 明確需求
通用或垂直領(lǐng)域
業(yè)務(wù)需求關(guān)注的實體類型、關(guān)系類型
分類體系
1.2 確定數(shù)據(jù)來源
通用圖譜:百科網(wǎng)站、互聯(lián)網(wǎng)文本等
領(lǐng)域圖譜:垂直網(wǎng)站(法律咨詢網(wǎng)站、文書網(wǎng))、期刊、書籍等。
1.3 知識抽取
實體抽?。∟ER)及關(guān)系(屬性)抽取
基于規(guī)則和詞典的方法:在詞法、句法分析基礎(chǔ)上,見效快;規(guī)則難以窮盡、瓶頸
基于統(tǒng)計的方法:帶標(biāo)語料難以獲得,尤其是垂直領(lǐng)域
二者結(jié)合的方法:半監(jiān)督學(xué)習(xí),bootstrapping,種子學(xué)習(xí)+pattern,效果有待優(yōu)化
神經(jīng)網(wǎng)絡(luò):LSTM+CRF
事件抽?。红o態(tài)轉(zhuǎn)向動態(tài),將事件作為實體的一種,拓寬實體關(guān)系,豐富圖譜。事件識別與分類:觸發(fā)詞、機(jī)器學(xué)習(xí)分類。事件要素的抽取,包括實體和屬性:語法、語義分析。
概念抽?。簩⒏拍钭R別引入,主要豐富圖譜中IsA的關(guān)系,建立層級關(guān)系。
1.4 知識融合
實體對齊:不同數(shù)據(jù)同一實體、關(guān)系或?qū)傩缘膶R,基于規(guī)則或者統(tǒng)計
關(guān)系(屬性)對齊:如出生日期與出生時間
知識驗證:來源可靠性,概率評估
1.5 知識推理
基于規(guī)則的推理:如父親的父親是爺爺
基于統(tǒng)計的推理:如圖中三角關(guān)系的推斷
基于規(guī)則的推理:假設(shè)我們承認(rèn)A的父親是B,B的父親是C,但A和C的關(guān)系沒有儲存,或者在已有的信息是沒有獲取到,怎么辦呢?
第一種方法,可以通過人給圖譜做一些規(guī)則,我們說A的父親是B,B的父親C,我們就可以得到這個關(guān)系,A的爺爺是C。
第二種方法,基于統(tǒng)計的方法,比如我們現(xiàn)有的圖譜中已經(jīng)存在很多三角關(guān)系,通過很多三角關(guān)系的實例,讓機(jī)器學(xué)習(xí)父親的父親是爺爺,得到A和C的關(guān)系。
1.6 知識分布式表示
我們可以把知識圖譜的關(guān)系表示成一個向量,向量之間的相似度可以通過一些方法來計算,可以計算相似度,做一些融合,也可做一些推薦。
2、應(yīng)用方向:
這是知識圖譜應(yīng)用到的一些方向,大概都差不多,可能會涉及到實體鏈接、關(guān)系識別和路徑推理。問答系統(tǒng),它最重要的一點是意圖識別和語義分析?,F(xiàn)在百度為什么只能識別某一類型的問題而有些問題就識別不了,因為他們做了一些模板的問題。
總結(jié)
第一點,面向業(yè)務(wù)需求,決定用什么技術(shù)。我們做工程或者做項目跟做研究有點不同,知識圖譜的確非常有用,但是你的業(yè)務(wù)或許根本用不到這個技術(shù)。
第二點,工程性質(zhì)及快速迭代,粒度有大到小。我們在構(gòu)建知識圖譜的過程中發(fā)現(xiàn)這個度非常難以控制,因為要做到實體層和概念層是非常難的。
第三點,有效果的技術(shù)就是最好的技術(shù)。不用去拘泥于非得用什么高深的技術(shù)和最前沿的技術(shù),這和做學(xué)術(shù)研究不一樣。
第四點,重視人工協(xié)作的力量?;诰S基百科和百度百科的知識抽取,它們的基礎(chǔ)是什么?就是大量的網(wǎng)民朋友們無私的奉獻(xiàn),都是人工編輯出來的。
?
責(zé)任編輯:陳近梅