來源:阿里云-云棲社區(qū) 時間:2017-02-10 16:24:34 作者:
▊Q1.下列哪一個項對欠擬合和過擬合的權(quán)衡影響最大?
A.多項式次數(shù)
B.是否通過矩陣倒置或梯度下降來學習權(quán)重
C.使用常數(shù)項
答案:A
選擇正確的多項式次數(shù)在回歸擬合中扮演重要角色,如果選擇的次數(shù)太高,過擬合的可能性將大大提高。
▊Q2.假設(shè)有如下一組輸入并輸出一個實數(shù)的數(shù)據(jù),則線性回歸(Y = bX+c)的留一法交叉驗證均方差為?
A. 10/27
B. 20/27
C. 50/27
D. 49/27
答案:D
我們需要計算每個交叉驗證點的殘差,擬合后得到兩點連線和一點用于交叉驗證。
留一法交叉驗證均方差為(2^2 +(2/3)^2 +1^2) /3 = 49/27
▊Q3.下列哪一項關(guān)于極大似然估計(MLE)的說法是正確的?
1.MLE并不總是存在
2.MLE一直存在
3.如果MLE存在,它可能不特異
4.如果MLE存在,它一定是特異的
A. 1 and 4
B. 2 and 3
C. 1 and 3
D. 2 and 4
答案:C
MLE可能不是一個轉(zhuǎn)折點,即它可能不是一個似然函數(shù)的一階導數(shù)消失的點
MLE可能并不特異
▊Q4.假設(shè)線性回歸模型完美擬合訓練數(shù)據(jù)(即訓練誤差為零),則下列哪項是正確的?
A.測試誤差一定為零
B.測試誤差一定不為零
C.以上都不對
答案:C
如果測試數(shù)據(jù)無干擾,則測試誤差可能為零。換言之,如果測試數(shù)據(jù)是訓練數(shù)據(jù)的典型代表,測試誤差即為零,但這種情況并不總是出現(xiàn)。
▊Q5.在線性回歸問題中,我們用“R方”來衡量擬合的好壞。在線性回歸模型中增加特征值并再訓練同一模型。下列哪一項是正確的?
A.如果R方上升,則該變量是顯著的
B.如果R方下降,則該變量不顯著
C.單單R方不能反映變量重要性,不能就此得出正確結(jié)論
D.都不正確
答案:C
單單R方不能表示變量顯著性,因為每次加入一個特征值,R方都會上升或維持不變。但在“調(diào)整R方”的情況下這也有誤(如果特征值顯著的話,調(diào)整R方會上升)。
▊Q6.下列關(guān)于回歸分析中的殘差表述正確的是:
A.殘差的平均值總為零
B.殘差的平均值總小于零
C.殘差的平均值總大于零
D.殘差沒有此類規(guī)律
答案:A
回歸的殘差之和一定為零,故而平均值也為零
▊Q7.下列關(guān)于異方差性哪項是正確的?
A.線性回歸有變化的誤差項
B.線性回歸有恒定的誤差項
C.線性回歸有零誤差項
D.以上都不對
答案:A
在誤差項中,非恒定方差的存在導致了異方差性。一般來說,非恒定方差的出現(xiàn)時因為異常值或極端杠桿值的存在??梢詤⒖歼@篇文章。
▊Q8.下列哪一項說明了X,Y之間的較強關(guān)系?
A.相關(guān)系數(shù)為0.9
B.Beta系數(shù)為0的空假設(shè)的p-value是0.0001
C.Beta系數(shù)為0的空假設(shè)的t統(tǒng)計量是30
D.都不對
答案:A
變量間的相關(guān)系數(shù)為0說明了變量間的較強關(guān)系;另一方面,p-value和t統(tǒng)計量僅僅衡量了非零聯(lián)系的證據(jù)有多強。在數(shù)據(jù)足夠多的情況下,哪怕弱影響都可能是顯著的。
▊Q9.在導出線性回歸的參數(shù)時,我們做出下列哪種假定?
1.因變量y和自變量x的真實關(guān)系是線性的
2.模型誤差是統(tǒng)計獨立的
3.誤差通常服從一個平均值為零,標準差恒定的分布
4.自變量x是非隨機的,無錯的
A. 1,2 and 3
B. 1,3 and 4
C. 1 and 3
D. 以上都對
答案:D
當導出回歸參數(shù)時,我們做出以上全部4種假設(shè),缺少任何一種,模型都會出錯。
▊Q10.為了檢驗連續(xù)變量x,y之間的線性關(guān)系,下列哪種圖最合適?
A.散點圖
B.條形圖
C.直方圖
D.都不對
答案:A
為了檢驗連續(xù)變量的線性關(guān)系,散點圖是最好的選擇,可以看出一個變量如何關(guān)于另一個變量變化。散點圖反映兩個定量變量之間的關(guān)系。
▊Q11.下列哪種方法被用于預測因變量?
1.線性回歸
2.邏輯回歸
A.1和2
B.1
C.2
D.都不是
答案:B
邏輯回歸是用于分類問題的
▊Q12.一個人年齡和健康之間的相關(guān)系數(shù)是-1.09,據(jù)此可以得出:
A.年齡是健康預測的好的參考量
B.年齡是健康預測的不好的參考量
C.都不對
答案:C
相關(guān)系數(shù)的范圍是[-1,1],-1.09 是不可能的。
▊Q13.下列哪個坐標用于最小二乘擬合?假設(shè)水平軸為自變量,垂直軸為因變量。
A.垂直坐標
B.正交坐標
C.都可以,視情況而定
D.都不對
答案:A
一般將殘差想作垂直坐標,正交坐標在PCA的例子中很有用
▊Q14.假設(shè)我們有由三次多項式回歸產(chǎn)生的數(shù)據(jù)(三次多項式完美契合數(shù)據(jù)),下列說法哪些是對的?
1.簡單線性回歸有高偏差和低方差
2.簡單線性回歸有低偏差和高方差
3.三次多項式有低偏差和高方差
4.三次多項式有低偏差和低方差
A.1
B.1和3
C.1和4
D.2和4
答案:C
如果選擇比3更高的次數(shù)來擬合,則會過擬合,因為模型會變得更復雜。如果選擇比3低的次數(shù),模型會變得簡單,這樣會有高偏差和低方差。但是在三次多項式擬合的情況下,偏差和方差都是低的。
▊Q15.假設(shè)你在訓練一個線性回歸模型,以下哪項是正確的?
1.數(shù)據(jù)越少越易過擬合
2.假設(shè)區(qū)間小則易過擬合
A.都是錯的
B.1是錯的,2是對的
C.1是對的,2是錯的
D.都是對的
答案:C
1.小訓練數(shù)據(jù)集更容易找到過擬合訓練數(shù)據(jù)的假設(shè)
2.從偏差和方差的權(quán)衡中可以看出,假設(shè)區(qū)間小,偏差更大,方差更小。所以在小假設(shè)區(qū)間的情況下,不太可能找到欠擬合數(shù)據(jù)的假設(shè)
▊Q16.假設(shè)我們用Lasso回歸擬合一個有100個特征值(X1,X2…X100)的數(shù)據(jù)集,現(xiàn)在,我們重新調(diào)節(jié)其中一個值,將它乘10(將它視作X1),并再次擬合同一規(guī)則化參數(shù)。下列哪一項正確?
A. X1很可能被模型排除
B. X1很可能被包含在模型內(nèi)
C.很難說
D.都不對
答案:B
大特征值= 小相關(guān)系數(shù)= 更少lasso penalty = 更可能被保留
▊Q17.關(guān)于Ridge和Lasso回歸在特征值選擇上的方法,一下哪項正確?
A. Ridge回歸使用特征值的子集選擇
B. Lasso回歸使用特征值的子集選擇
C.二者都使用特征值的子集選擇
D.以上都不正確
答案:B
Ridge回歸在最終模型中用到了所有自變量,然而Lasso回歸可被用于特征值選擇,因為相關(guān)系數(shù)可以為零。點擊此處閱讀更多細節(jié)。
▊Q18.在線性回歸模型中增加一個變量,下列哪一項是正確的?
1.R方和調(diào)整R方都上升
2.R方上升,調(diào)整R方下降
3.R方和調(diào)整R方都下降
4.R方下降,調(diào)整R方上升
A.1和2
B.1和3
C.2和4
D.以上都不對
答案:A
每次加入特征值,R方總是上升或維持不變。但調(diào)整R方并非如此,當它上升時,特征值是顯著的。
▊Q19.下圖顯示了對相同訓練數(shù)據(jù)的三種不同擬合模型(藍線標出),從中可以得出什么結(jié)論?
1.同第二第三個模型相比,第一個模型的訓練誤差更大
2.該回歸問題的最佳模型是第三個,因為它有最小的訓練誤差
3.第二個模型比第一、第三個魯棒性更好,因為它在處理不可見數(shù)據(jù)方面表現(xiàn)更好
4.相比第一、第二個模型,第三個模型過擬合了數(shù)據(jù)
5.因為我們尚未看到測試數(shù)據(jù),所以所有模型表現(xiàn)一致
A.1和3
B.1和2
C.1,3和4
D.只有5
答案:C
數(shù)據(jù)的趨勢看起來像以X 為自變量的二項式。更高的次數(shù)(最右邊的圖)的多項式對于訓練數(shù)據(jù)可能具有更高的準確性,但在測試集上毫無疑問的慘敗。在最左面一張圖中,由于數(shù)據(jù)欠擬合,將會得到最大訓練誤差。
▊Q20.下列哪項可以評價回歸模型?
1.R方
2.調(diào)整R方
3.F統(tǒng)計量
4.RMSE/MSE/MAE
A.2和4
B.1和2
C.2,3和4
D.以上所有
答案:D
以上這些都是評價回歸模型的指標
▊Q21.我們可以通過一種叫“正規(guī)方程”的分析方法來計算線性回歸的相關(guān)系數(shù),下列關(guān)于“正規(guī)方程”哪一項是正確的?
1.我們不必選擇學習比率
2.當特征值數(shù)量很大時會很慢
3.不需要迭代
A.1和2
B.1和3
C.2和3
D.1,2和3
答案:D
正規(guī)方程可替代梯度下降來計算相關(guān)系數(shù),參考這篇文章獲得更多關(guān)于正規(guī)方程的知識。
▊Q22.Y的預期值是關(guān)于變量X(X1,X2….Xn)的線性函數(shù),回歸線定義為Y = β0 + β1 X1 + β2 X2……+ βn Xn,下列陳述哪項正確?
1.如果Xi的變化量為 Xi,其它為常量,則Y的變化量為βi Xi,常量βi可以為正數(shù)或負數(shù)
2. βi 的值都是一樣的,除非是其它X的βi
3.X對Y預期值的總影響為每個分影響之和
提示:特征值間相互獨立,互不干擾
A.1和2
B.1和3
C.2和3
D.1,2和3
答案:D
1.Y的預期值是關(guān)于X的線性函數(shù),這表示:
1. 如果Xi的變化量為 Xi,其它變量不變,Y的預期值隨β i X i而變化,β i可以為正數(shù)或負數(shù)
2.βi 的值都是一樣的,除非是其它X的βi
3.X對Y預期值的總影響為每個分影響之和
2.Y的未知變化獨立于隨機變量(特別之處,當隨機變量為時間序列時,Y與隨機變量不是自動關(guān)聯(lián)的)
3.它們的方差一致(同方差性)
4.它們一般是分散的
▊Q23.為了評價一個簡單線性回歸模型(單自變量),需要多少個參數(shù)?
A.1
B.2
C.不確定
答案:B
在簡單線性回歸模型中,有一個自變量,需要兩個參數(shù)(Y=a+bX)
▊Q24.下圖展示了兩條對隨機生成的數(shù)據(jù)的回歸擬合線(A和B),請?zhí)骄緼,B的各自的殘差之和:
提示:
1.兩張圖的橫縱軸大小一致
2.X軸是自變量,Y 軸是因變量
下列對A,B各自殘差和的陳述哪項正確?
A.A比B高
B.A比B低
C.兩者相同
D.以上都不對
答案:C
殘差之和總為零
▊Q25.若兩個變量相關(guān),它們之間一定有線性關(guān)系嗎?
A.是
B.否
答案:B
不是必要條件,二者可以沒有線性關(guān)系
▊Q26.相關(guān)變量的相關(guān)系數(shù)可以為零,對嗎?
A.是
B.否
答案:A
▊Q27.假設(shè)對數(shù)據(jù)提供一個邏輯回歸模型,得到訓練精度X和測試精度Y。在數(shù)據(jù)中加入新的特征值,則下列哪一項是正確的?
提示:其余參數(shù)是一樣的
1.訓練精度總是下降
2.訓練精度總是上升或不變
3.測試精度總是下降
4.測試精度總是上升或不變
A.只有2
B.只有1
C.只有3
D.只有4
答案:A
向模型中加入更多特征值會提高訓練精度,低偏差;如果特征值是顯著的,測試精度會上升
▊Q28.下圖顯示了由X預測Y的回歸線,圖上的值展示了每個預期的離差,請據(jù)此計算SSE(殘差平方和):
A. 3.02
B. 0.75
C. 1.01
D. 以上都不對
答案:A
SSE是預估誤差的平方之和,所以SSE = (-.2)^2 + (.4)^2 + (-.8)^2 + (1.3)^2 + (-.7)^2 = 3.02
▊Q29.眾所周知,身高體重呈正相關(guān)。忽略圖表大?。ㄗ兞勘粯藴驶耍┫铝袃蓮垐D哪張更像描繪身高(X軸)體重(Y軸)的圖表?
A.圖2
B.圖1
C.兩張都是
D.無法確定
答案:A
圖2很明顯更好的展現(xiàn)了身高體重之間的聯(lián)系,個體身高更高,體積就越大,體重就相應越大,所以預期身高體重是正相關(guān)的。右圖是正相關(guān)而左圖是負相關(guān)。
▊Q30.假設(shè)X公司的員工收入分布中位數(shù)為$35,000,25%和75%比例處的數(shù)值為$21,000 和$53,000。收入$1會被認為是異常值嗎?
A.是
B.否
C.需要更多信息
D.以上都不對
答案:C
▊Q31.關(guān)于回歸和相關(guān),下列哪項是正確的?
提示:y是因變量,x是自變量
A.在兩者中,x、y關(guān)系都是對稱的
B.在兩者中,x、y關(guān)系都是不對稱的
C.x、y在相關(guān)情況下不對稱,在回歸中對稱
D.x、y在相關(guān)情況下對稱,在回歸中不對稱
答案:D
1.相關(guān)是衡量兩個變量線性聯(lián)系的統(tǒng)計度量,對待x、y是對稱的
2.回歸是用于根據(jù)x預測y,其關(guān)系不對稱
▊Q32.可以根據(jù)平均值和中位數(shù)計算斜率嗎?
A.可以
B.不可以
答案:B
斜率不是直接和平均值中位數(shù)相關(guān)的
▊Q33.假設(shè)你有n個有兩個連續(xù)變量的數(shù)據(jù)集(y是因變量,x是自變量)下表給出了這些數(shù)據(jù)集的信息總結(jié):
這些數(shù)據(jù)集都是一致的嗎?
A.是
B.不是
C.無法確定
答案:C
為了回答這個問題,你需要了解Anscombe的四幅圖,請參考這篇文章。
▊Q34.觀測值是如何影響過擬合的?
提示:余下所有參數(shù)都一致
1.觀測更少更易過擬合
2.觀測更少更不易過擬合
3.觀測更多更易過擬合
4.觀測更多更不易過擬合
A.1和4
B.2和3
C.1和3
D.都不正確
答案:A
特別地,當觀測值太少,規(guī)模太小,模型很容易過擬合。因為我們只有很少的點,當提升模型復雜度(比如多項式擬合)時,就會很容易覆蓋所有觀測值點。
另一方面,如果有很多很多觀測值,哪怕模型很復雜,也很難過擬合。
▊Q35.假設(shè)用一個復雜回歸模型擬合一個數(shù)據(jù)集,使用帶固定參數(shù)lambda的Ridge回歸來減小它的復雜度,下列哪項描述了偏差和方差與lambda的關(guān)系?
A.對于非常大的lambda,偏差很小,方差很小
B.對于非常大的lambda,偏差很小,方差很大
C.對于非常大的lambda,偏差很大,方差很小
D.對于非常大的lambda,偏差很大,方差很大
答案:C
Lambda很大表示模型沒有那么復雜,這種情況下偏差大,方差小
▊Q36. 假設(shè)用一個復雜回歸模型擬合一個數(shù)據(jù)集,使用帶固定參數(shù)lambda的Ridge回歸來減小它的復雜度,下列哪項描述了偏差和方差與lambda的關(guān)系?
A.對于非常小的lambda,偏差很小,方差很小
B.對于非常小的lambda,偏差很小,方差很大
C.對于非常小的lambda,偏差很大,方差很小
D.對于非常小的lambda,偏差很大,方差很大
答案:B
Lambda很小表示模型復雜,這種情況下偏差小,方差大,模型會過擬合數(shù)據(jù)
▊Q37.關(guān)于Ridge回歸,下列哪項正確?
1.lambda為0時,模型作用類似于線性回歸模型
2.lambda為0時,模型作用與線性回歸模型不相像
3.當lambda趨向無窮,會得到非常小,趨近0的相關(guān)系數(shù)
4.當lambda趨向無窮,會得到非常大,趨近無窮的相關(guān)系數(shù)
A.1和3
B.1和4
C.2和3
D.2和4
答案:A
當lambda為0時我們得到了最小的最小二乘解;當lambda趨近無窮時,會得到非常小、趨近0的相關(guān)系數(shù)。
▊Q38.下列三張殘差圖,哪張與其它相比是最糟糕的模型?
提示:
1.所有殘差都被標準化了
2.這些圖是關(guān)于預期值和殘差的
A. 1
B. 2
C. 3
D. 1和2
答案:C
預期值和殘差之間應該沒有任何關(guān)系,若果有則說明模型未能完美捕獲數(shù)據(jù)信息。
▊Q39.下列哪一種回歸方法的相關(guān)系數(shù)沒有閉式解?
A.Ridge回歸
B. Lasso回歸
C. Ridge回歸 and Lasso回歸
D.兩者都不是
答案:B
Lasso不允許閉式解,L1-penalty使解為非線性的,所以需要近似解。參考這篇文章獲得更多關(guān)于閉式解的知識。
▊Q40.參考如下數(shù)據(jù)集,移除哪一個黑點將會對回歸擬合線(黑虛線所示)產(chǎn)生最大影響?
A.a
B.b
C.c
D.d
答案:D
線性回歸對數(shù)據(jù)中的異常值敏感,雖然C也是給定數(shù)據(jù)區(qū)間內(nèi)的異常值,但它離回歸擬合線很近,所以不會造成太多影響
▊Q41.在簡單線性回歸模型中(單自變量),如果改變輸入變量1單元,輸出變量會變化多少?
A.1單元
B.無變化
C.截距值
D.斜率值
答案:D
簡單線性回歸公式為Y=a+bx,如果給x增加1,y就變成了a+b(x+1),即y增加了b
▊Q42.邏輯回歸是輸出結(jié)果落在[0,1]區(qū)間內(nèi),下列哪個函數(shù)用于轉(zhuǎn)換概率,使其落入[0,1]?
A. Sigmoid
B. Mode
C. Square
D. Probit
答案:A
Sigmoid函數(shù)用于轉(zhuǎn)換輸出結(jié)果,使之落在邏輯回歸區(qū)間[0,1]內(nèi)
▊Q43.考慮線性回歸和邏輯回歸中的重量/相關(guān)系數(shù),關(guān)于cost函數(shù)的偏導,下列哪一項是正確的?
A.都不一樣
B.都一樣
C.無法確定
D.以上都不對
答案:B
參考這個鏈接
▊Q44.假設(shè)使用邏輯回歸模型處理n元分類問題,可以用到One-vs-rest方法,則下列哪一項是正確的?
A.在n元分類問題中,需要擬合n個模型
B.為了分類為n類,需要擬合n-1個模型
C.為了分類為n類,只需要擬合1個模型
D.都不正確
答案:A
如果有n類,就有n個分散的邏輯回歸需要擬合,每一類的概率都是基于其余類來預測的。以三類分類(-1,0,1)為例,需要訓練三個邏輯回歸分類器:
1. -1 vs 0 and 1
2.0 vs -1 and 1
3.1 vs 0 and -1
▊Q45.下圖是兩種有不同β0 和β1值的邏輯回歸模型,下列關(guān)于兩種邏輯回歸模型中β0 和β1的敘述哪項是正確的?
提示:Y = β0 + β1*X,β0為截距,β1是斜率
A.綠線的β1比黑線的大
B.綠線的β1比黑線的小
C.兩個模型的β1是一樣的
D.無法得出結(jié)論
答案:B
β0和β1: β0 = 0, β1 = 1是黑線的情況;β0 = 0, β1 = 1是綠線的情況
總結(jié):
我們希望你能發(fā)現(xiàn)這個測試和提供的解決方法有趣而實用。這個測試注重回歸的理論知識和它的多種技巧。我們試著通過這篇文章解釋你們的所有疑惑,如果你發(fā)現(xiàn)了任何錯誤和遺漏,或者你有好的建議,請和我們聯(lián)系。
注:本文來源阿里云-云棲社區(qū)組織翻譯,作者:ANKIT GUPTA,由北郵@愛可可-愛生活老師推薦,原標題《45 questions to test a Data Scientist on Regression (Skill test – Regression Solution)》。版權(quán)著作權(quán)屬原創(chuàng)者所有。編輯:Fynlch(王培),數(shù)據(jù)觀微信公眾號(ID:cbdioreview),欲了解更多大數(shù)據(jù)行業(yè)相關(guān)資訊,可搜索數(shù)據(jù)觀(中國大數(shù)據(jù)產(chǎn)業(yè)觀察網(wǎng)m.yongsiang.cn)進入查看。
?點此進入 阿里云 在數(shù)據(jù)觀的企業(yè)欄目>>>
責任編輯:王培