国模叶桐尿喷337p人体,国产乱xxⅹxx国语对白,国产精品人妻无码久久久郑州,国产一区二区内射最近更新,国产一区二区三区不卡在线看

首頁 自媒自媒體 THU數(shù)據(jù)派正文

大數(shù)據(jù)與AI技術(shù)助力金融科技:百融金服的探索實例

[導讀]本文選自百融金服CEO張韶峰和CRO季元于2017年9月14日晚在清華大數(shù)據(jù)“技術(shù)·前沿”系列講座——大數(shù)據(jù)與AI技術(shù)在金融科技的應(yīng)用上的分享。兩位學長結(jié)合自己在金融行業(yè)和金融科技領(lǐng)域多年的探索,結(jié)合金融領(lǐng)域的反欺詐、信用風險識別、不良資產(chǎn)催收、精準營銷等業(yè)務(wù)場景,深入淺出地闡述對抗生成網(wǎng)絡(luò)、遷移學習、強化學習等方法的金融行業(yè)建模實踐。

百融金服CEO張韶峰

百融金服CRO季元

張韶峰:首先非常激動能夠回到母校跟各位校友,還有各位朋友,來分享這次報告。我們進入到金融科技領(lǐng)域是2012年,我們最早跟銀行交流,想推動我們公司用機器學習算法作為模型在銀行應(yīng)用,銀行那時候習慣運用的算法叫邏輯回歸算法(Logistic regression algorithm),是一種比較簡單的算法。但是我堅定地認為數(shù)據(jù)有用,至于有什么用,其實想不清楚,只是后來遇到金融行業(yè)的大爆發(fā)、變革,才發(fā)現(xiàn)數(shù)據(jù)在金融領(lǐng)域的應(yīng)用那么直接。

金融領(lǐng)域一個非常重要的支柱就是信用體系。中國還有七八億有金融需求的人沒有信用記錄,這是制約中國所謂普惠金融,刺激小微企業(yè)發(fā)展、消費發(fā)展,這是屬于基礎(chǔ)設(shè)施的問題。

大數(shù)據(jù)應(yīng)用分層

從大數(shù)據(jù)行業(yè)來看,有些是共通的。

第一步,收集數(shù)據(jù)。

第二步,數(shù)據(jù)處理。把數(shù)據(jù)進行標準化,清洗臟數(shù)據(jù)、不準的數(shù)據(jù),或者做一些脫敏。

第三步,數(shù)據(jù)降維。如果表格的每一行是一個用戶,一個表的列數(shù)多達50萬列,這是非常龐大的一個維度,處理起來會導致效率下降,需要做一些數(shù)據(jù)的降維,需要做一些衍生變量。

第四步,數(shù)據(jù)建模。金融里有兩個模型最重要:第一類是營銷獲客模型,預(yù)測什么人需要什么樣的金融服務(wù),主要是預(yù)測客戶的需求。第二類是風控模型。

第五步,大數(shù)據(jù)應(yīng)用。不同的行業(yè)做的應(yīng)用不同。

金融行業(yè)可以在哪些方面具體使用呢

第一步,解決精準營銷。找好的而且有需求的客戶,這兩個標準要疊加。金融行業(yè)的精準營銷難度遠遠超過普通消費品,這是金融行業(yè)精準營銷的特殊性。

第二步,準入。他如果來申請你的貸款,或者買你的保險,你能不能把他放進來?你得審批一次。比如你去銀行辦個貸款,或者辦一個信用卡,讓你填一大堆資料。

第三步,存量客戶的經(jīng)營或者貸中管理。

第四步,逾期。這是貸后管理。

從營銷、準入、經(jīng)營、逾期,這四步每一步都可以充分使用大數(shù)據(jù)和人工智能算法來提升效率。

我們完善了一套反欺詐引擎評分,評估你有多大概率會欺詐。規(guī)則是遇到什么情況要采取什么措施。模型是抽像出決策邏輯以及跟欺詐相關(guān)的數(shù)據(jù)。

我們?yōu)榻鹑跈C構(gòu)提供定制化的服務(wù),因為你的產(chǎn)品和你的客戶跟別的金融機構(gòu)不可能一模一樣。我們的模型可以有差異化,數(shù)據(jù)的準備、初步篩選、交驗檢驗,篩選相關(guān)性比較高的變量、數(shù)據(jù)的分段,最后建立模型。

我們用一些可視化的算法使金融機構(gòu)和我們監(jiān)管人員看得更清楚,規(guī)則有沒有命中,客群分布怎么樣。在客觀的分數(shù)段中,比如我們公司是300分到1000分,比如700分的人對應(yīng)100個人里只有3個人違約,而500分的人對應(yīng)100個人里頭有7個人違約,不同的分數(shù)段意味著不同的違約率,這個時候你就知道我應(yīng)該給700分以上的放貸。這個評分對金融機構(gòu)很重要,你算清楚每給500分的人放款一萬塊錢出去會虧多少錢,評分系統(tǒng)會幫你預(yù)測。

隨后,百融金服CRO季元先生與大家分享了具體的應(yīng)用案例。

案例一:圖深度學習應(yīng)用于團伙欺詐偵測

季元:百融在群體欺詐的跟蹤、反欺詐方面主要通過無監(jiān)督-異常行為監(jiān)測,還有通過監(jiān)督學習-地理位置異常分析(Geohash),具體的實現(xiàn)方式是通過圖特征學習算法。

這是圖特征學習算法大概的框架。因為我們輸入的是我們客戶圖的特征,這張圖包括邊和點,圖的拓譜和節(jié)點的這些屬性構(gòu)造了客戶的基本特征。通過深度神經(jīng)網(wǎng)絡(luò),從這些基本特征出發(fā)衍生出更復雜的特征。最終我們輸出的是什么?一個是衍生后的特征,再一個是觀察,觀察為了從基礎(chǔ)端衍生數(shù)學特征,把這個算法形成好東西移植到其他部分。

左邊這個表是我們常用的一些特征算子。這個圖反映了某個局部的具體的階段,百融從DI特征出發(fā)通過Faier做衍生,衍生出新的特征。這個算法其實有四個優(yōu)點:

第一它支持不同的屬性圖,因為通常我們的圖只是節(jié)點和邊,只能反映拓撲結(jié)構(gòu);

第二它能輸出復雜關(guān)系函數(shù)用于跨網(wǎng)絡(luò)遷移學習;

第三它能夠?qū)W習出稀疏特征。

第四它支持并行,算法效率高。

這是我們某個客戶在2017年1月到5月份的用戶申請數(shù)據(jù),申請次數(shù)34萬,用戶數(shù)4.7萬,總共70個特征。通過我們的算法識別出了它有12000多欺詐用戶,隸屬于238個團體。

案例二:強化學習應(yīng)用于催收模型構(gòu)建

在你借了金融機構(gòu)的錢之后,如果你一旦逾期不還錢,這個時候金融機構(gòu)在內(nèi)部是按照你逾期的時間給你劃分的,M1代表逾期一個月,M2是兩個月,在不同的逾期時間,它會給你不同的催收動作。

我們應(yīng)該從序列的觀點看,因為不同的人對不同動作的響應(yīng)是不一樣的。實際上你每一步的動作都會影響到后續(xù)的結(jié)果,應(yīng)該以整個過程的最大的回饋,來決定我們在什么環(huán)節(jié)采取什么樣的動作。這塊我們就把催收過程定義成一個馬爾科夫決策過程。

通過強化學習來求解馬爾科夫決策過程。首先要定一個價格函數(shù),其次就是你在不同時間段收回的錢,用折現(xiàn)因子折算到當前來看你的最大值,我們要求價值函數(shù)的最優(yōu)點,這個算法是通過價值迭代來實現(xiàn)。

案例三:遷移學習應(yīng)用于客群評分構(gòu)建

我們的信用評分體系包括一個通用評分加上6個客群評分,通用評分類似于芝麻評分。這個評分在金融機構(gòu)是怎么用的呢?我們可以看到這個圖,柱狀圖表示不同分數(shù)段人數(shù)的占比,線圖是不同分數(shù)段人數(shù)的的違約率,我們看到最低的300分數(shù)段違約率達到20%以上,最高的700分以上的不到1%。所以一個金融機構(gòu)如果選擇了500分以上的人,那么就意味著500分左邊的這些人他都要拒絕掉,而且如果只要500分以上的人的不良率在8%以下,如果他想降低不良率,比如降低4%,那就意味著他要提高準入標準,可能把準入的門檻提高到600或者更高。

這是我們的6個客群評分,這個評分實際上對金融機構(gòu)來講非常重要,因為大家希望我們把壞人全過濾掉,好人全放進來,這是不可能實現(xiàn)的?,F(xiàn)實中我們的評分通常居于兩者之間,我們的目標是盡可能的靠近最好的那個部分。除了這7個標準評分之外我們還有定制產(chǎn)品,剛才邵峰介紹的給客戶做定制化的建模,因為好的客戶希望結(jié)合他的內(nèi)部數(shù)據(jù)和我們百融數(shù)據(jù)一起構(gòu)建一個專屬于他的評分,這樣效果會比標準評分更好。

在信用評分構(gòu)建的過程中存在一些現(xiàn)實問題,在講這些問題之前我先給大家簡單介紹一下什么叫遷移學習。兩個基本概念:

第一個是域,域?qū)嶋H上包括兩個元素,X是特征區(qū)間,這些變量的維度, P(X)是特征空間上的概率分布,實際上是我們的樣本和這些特征的分布。

第二個是任務(wù),任務(wù)包括一個標簽空間,是在樣本特征空間上好或者壞甚至更多的內(nèi)容,屬于監(jiān)督學習的一部分。

我們知道域和標簽空間來求這個條件概率。

在遷移學習里面需要兩個域和目標,一個是源域和源任務(wù),一個是目標域和目標任務(wù)。按照剛才定義我們現(xiàn)在有四種情況:

第一,源域的特征空間和目標域的特征空間不同;

第二,邊際概率分布不同;

第三,標簽空間不同;

第四,條件概率不同。

這四種組合起來就是16個,但是現(xiàn)實生活中這16種組合不會都存在。包括比較典型的就是這三類:

第一種是線上客群和線下客群,它們的特點不一樣,因為線上客群我們能采集的特征的維度更多;

第二種是同產(chǎn)品不同機構(gòu)的客群,主要體現(xiàn)在邊際概率分布和條件概率分布;

第三種是同機構(gòu)不同產(chǎn)品的客群,主要是特征空間和條件概率不一樣。

我們建模過程中碰到的比較現(xiàn)實的問題,有些客戶不會告訴你標簽空間,那這種情況下怎么建模?

第一步,通過域適應(yīng)算法對源目標域的特征進行降維處理。

第二步,構(gòu)造邊際分布實驗。構(gòu)造一個函數(shù)來刻畫源域和目標域的邊際分布的差異,度量兩個概率分布的差到底有多大。

第三步,策劃條件分布實驗。識別源任務(wù)的條件概率和目標任務(wù)的條件概率的差。

第四步,基于前兩步構(gòu)造目標函數(shù)做優(yōu)化。

第五步,進行迭代運算。

案例四:知識圖譜應(yīng)用于貸前反欺詐

知識圖譜本質(zhì)上是一個語義網(wǎng)絡(luò),在人工智能里一直有兩個流派,一個叫連接主義,我們第一個案例里面講的深度神經(jīng)網(wǎng)絡(luò)屬于連接主義,它是模擬人腦的硬件結(jié)構(gòu),本質(zhì)上是統(tǒng)計學。第二個流派叫符號主義,知識圖譜就歸屬于符號主義,它模擬的是人腦的推理方式,實際上是人腦軟件。這兩種流派實際上一直并行,上世紀五六十年代人工智能剛興起的時候是符號主義領(lǐng)先,近年來隨著計算能力的提升,連接主義開始突起。

知識圖譜相當于你要把人的經(jīng)驗做知識表示和推理,所以你要把經(jīng)驗固化成知識圖譜,通過這些語義的運算來做反欺詐判斷。我們通常把推理分為:不一致性驗證;機構(gòu)異常分析。

未知性的驗證,比方說兩個人用的是同一個單位電話,但是寫的單位名稱和單位地址不一樣,根據(jù)我們經(jīng)驗這不符合邏輯,通過知識圖譜能把這種欺詐方式識別出來。

靜態(tài)分析像我們第一個案例里面講的結(jié)構(gòu)。動態(tài)分析,通常情況下人的行為特征應(yīng)該是穩(wěn)定的,如果你短時間變化快的話,那我們認為你也有欺詐嫌疑。

以上是我分享的主要內(nèi)容,謝謝大家。

張韶峰先生畢業(yè)于清華大學,擁有清華大學電氣工程自動化學士、碩士學位。他有15年IT、大數(shù)據(jù)領(lǐng)域經(jīng)驗,持續(xù)創(chuàng)業(yè)者,先后效力Oracle、ESS、IBM等國際一流的科技公司。他曾經(jīng)創(chuàng)辦了專注于數(shù)據(jù)挖掘的公司天才博通,任執(zhí)行副總裁;2009年與兩位合伙人共同創(chuàng)辦大數(shù)據(jù)技術(shù)與應(yīng)用服務(wù)頂級公司百分點科技,目前該公司已占領(lǐng)國內(nèi)超90%的推薦引擎市場。2014年,張韶峰先生創(chuàng)辦專注服務(wù)于金融領(lǐng)域的大數(shù)據(jù)金融信息服務(wù)的公司百融金服,并擔任CEO。

季元先生是清華大學數(shù)學系博士,從事銀行風險管理近十年,諳熟金融風控量化管理、風險策略優(yōu)化等業(yè)務(wù),曾任中國光大銀行金融市場風險處處長,在金融行業(yè)的數(shù)據(jù)分析、平臺架構(gòu)、模型研究和風險策略等方面具有深刻的理解和深入的研究。2017年加入百融金服擔任CRO,全面負責百融金服整體風控業(yè)務(wù)。

責任編輯:陳近梅

分享: