国模叶桐尿喷337p人体,国产乱xxⅹxx国语对白,国产精品人妻无码久久久郑州,国产一区二区内射最近更新,国产一区二区三区不卡在线看

首頁 慕課課程正文

干貨丨數(shù)據(jù)科學家45題自測:回歸知識部分(答案+解析)

干貨丨數(shù)據(jù)科學家45題自測:回歸知識部分(答案+解析)

  ▊Q1.下列哪一個項對欠擬合和過擬合的權(quán)衡影響最大?

  A.多項式次數(shù)

  B.是否通過矩陣倒置或梯度下降來學習權(quán)重

  C.使用常數(shù)項

   答案:A

  選擇正確的多項式次數(shù)在回歸擬合中扮演重要角色,如果選擇的次數(shù)太高,過擬合的可能性將大大提高。

  Q2.假設(shè)有如下一組輸入并輸出一個實數(shù)的數(shù)據(jù),則線性回歸(Y = bX+c)的留一法交叉驗證均方差為?

  A. 10/27

  B. 20/27

  C. 50/27

  D. 49/27

   答案:D

  我們需要計算每個交叉驗證點的殘差,擬合后得到兩點連線和一點用于交叉驗證。

  留一法交叉驗證均方差為(2^2 +(2/3)^2 +1^2) /3 = 49/27

  Q3.下列哪一項關(guān)于極大似然估計(MLE)的說法是正確的?

  1.MLE并不總是存在

  2.MLE一直存在

  3.如果MLE存在,它可能不特異

  4.如果MLE存在,它一定是特異的

  A. 1 and 4

  B. 2 and 3

  C. 1 and 3

  D. 2 and 4

   答案:C

  MLE可能不是一個轉(zhuǎn)折點,即它可能不是一個似然函數(shù)的一階導數(shù)消失的點

  MLE可能并不特異

  Q4.假設(shè)線性回歸模型完美擬合訓練數(shù)據(jù)(即訓練誤差為零),則下列哪項是正確的?

  A.測試誤差一定為零

  B.測試誤差一定不為零

  C.以上都不對

   答案:C

  如果測試數(shù)據(jù)無干擾,則測試誤差可能為零。換言之,如果測試數(shù)據(jù)是訓練數(shù)據(jù)的典型代表,測試誤差即為零,但這種情況并不總是出現(xiàn)。

  Q5.在線性回歸問題中,我們用“R方”來衡量擬合的好壞。在線性回歸模型中增加特征值并再訓練同一模型。下列哪一項是正確的?

  A.如果R方上升,則該變量是顯著的

  B.如果R方下降,則該變量不顯著

  C.單單R方不能反映變量重要性,不能就此得出正確結(jié)論

  D.都不正確

   答案:C

  單單R方不能表示變量顯著性,因為每次加入一個特征值,R方都會上升或維持不變。但在“調(diào)整R方”的情況下這也有誤(如果特征值顯著的話,調(diào)整R方會上升)。

  Q6.下列關(guān)于回歸分析中的殘差表述正確的是:

  A.殘差的平均值總為零

  B.殘差的平均值總小于零

  C.殘差的平均值總大于零

  D.殘差沒有此類規(guī)律

   答案:A

  回歸的殘差之和一定為零,故而平均值也為零

  Q7.下列關(guān)于異方差性哪項是正確的?

  A.線性回歸有變化的誤差項

  B.線性回歸有恒定的誤差項

  C.線性回歸有零誤差項

  D.以上都不對

   答案:A

  在誤差項中,非恒定方差的存在導致了異方差性。一般來說,非恒定方差的出現(xiàn)時因為異常值或極端杠桿值的存在??梢詤⒖歼@篇文章。

  Q8.下列哪一項說明了X,Y之間的較強關(guān)系?

  A.相關(guān)系數(shù)為0.9

  B.Beta系數(shù)為0的空假設(shè)的p-value是0.0001

  C.Beta系數(shù)為0的空假設(shè)的t統(tǒng)計量是30

  D.都不對

   答案:A

  變量間的相關(guān)系數(shù)為0說明了變量間的較強關(guān)系;另一方面,p-value和t統(tǒng)計量僅僅衡量了非零聯(lián)系的證據(jù)有多強。在數(shù)據(jù)足夠多的情況下,哪怕弱影響都可能是顯著的。

  Q9.在導出線性回歸的參數(shù)時,我們做出下列哪種假定?

  1.因變量y和自變量x的真實關(guān)系是線性的

  2.模型誤差是統(tǒng)計獨立的

  3.誤差通常服從一個平均值為零,標準差恒定的分布

  4.自變量x是非隨機的,無錯的

  A. 1,2 and 3

  B. 1,3 and 4

  C. 1 and 3

  D. 以上都對

   答案:D

  當導出回歸參數(shù)時,我們做出以上全部4種假設(shè),缺少任何一種,模型都會出錯。

  Q10.為了檢驗連續(xù)變量x,y之間的線性關(guān)系,下列哪種圖最合適?

  A.散點圖

  B.條形圖

  C.直方圖

  D.都不對

   答案:A

  為了檢驗連續(xù)變量的線性關(guān)系,散點圖是最好的選擇,可以看出一個變量如何關(guān)于另一個變量變化。散點圖反映兩個定量變量之間的關(guān)系。

  Q11.下列哪種方法被用于預測因變量?

  1.線性回歸

  2.邏輯回歸

  A.1和2

  B.1

  C.2

  D.都不是

   答案:B

  邏輯回歸是用于分類問題的

  Q12.一個人年齡和健康之間的相關(guān)系數(shù)是-1.09,據(jù)此可以得出:

  A.年齡是健康預測的好的參考量

  B.年齡是健康預測的不好的參考量

  C.都不對

   答案:C

  相關(guān)系數(shù)的范圍是[-1,1],-1.09 是不可能的。

  Q13.下列哪個坐標用于最小二乘擬合?假設(shè)水平軸為自變量,垂直軸為因變量。

  A.垂直坐標

  B.正交坐標

  C.都可以,視情況而定

  D.都不對

   答案:A

  一般將殘差想作垂直坐標,正交坐標在PCA的例子中很有用

  Q14.假設(shè)我們有由三次多項式回歸產(chǎn)生的數(shù)據(jù)(三次多項式完美契合數(shù)據(jù)),下列說法哪些是對的?

  1.簡單線性回歸有高偏差和低方差

  2.簡單線性回歸有低偏差和高方差

  3.三次多項式有低偏差和高方差

  4.三次多項式有低偏差和低方差

  A.1

  B.1和3

  C.1和4

  D.2和4

   答案:C

  如果選擇比3更高的次數(shù)來擬合,則會過擬合,因為模型會變得更復雜。如果選擇比3低的次數(shù),模型會變得簡單,這樣會有高偏差和低方差。但是在三次多項式擬合的情況下,偏差和方差都是低的。

  Q15.假設(shè)你在訓練一個線性回歸模型,以下哪項是正確的?

  1.數(shù)據(jù)越少越易過擬合

  2.假設(shè)區(qū)間小則易過擬合

  A.都是錯的

  B.1是錯的,2是對的

  C.1是對的,2是錯的

  D.都是對的

   答案:C

  1.小訓練數(shù)據(jù)集更容易找到過擬合訓練數(shù)據(jù)的假設(shè)

  2.從偏差和方差的權(quán)衡中可以看出,假設(shè)區(qū)間小,偏差更大,方差更小。所以在小假設(shè)區(qū)間的情況下,不太可能找到欠擬合數(shù)據(jù)的假設(shè)

  Q16.假設(shè)我們用Lasso回歸擬合一個有100個特征值(X1,X2…X100)的數(shù)據(jù)集,現(xiàn)在,我們重新調(diào)節(jié)其中一個值,將它乘10(將它視作X1),并再次擬合同一規(guī)則化參數(shù)。下列哪一項正確?

  A. X1很可能被模型排除

  B. X1很可能被包含在模型內(nèi)

  C.很難說

  D.都不對

   答案:B

  大特征值= 小相關(guān)系數(shù)= 更少lasso penalty = 更可能被保留

  Q17.關(guān)于Ridge和Lasso回歸在特征值選擇上的方法,一下哪項正確?

  A. Ridge回歸使用特征值的子集選擇

  B. Lasso回歸使用特征值的子集選擇

  C.二者都使用特征值的子集選擇

  D.以上都不正確

   答案:B

  Ridge回歸在最終模型中用到了所有自變量,然而Lasso回歸可被用于特征值選擇,因為相關(guān)系數(shù)可以為零。點擊此處閱讀更多細節(jié)。

  Q18.在線性回歸模型中增加一個變量,下列哪一項是正確的?

  1.R方和調(diào)整R方都上升

  2.R方上升,調(diào)整R方下降

  3.R方和調(diào)整R方都下降

  4.R方下降,調(diào)整R方上升

  A.1和2

  B.1和3

  C.2和4

  D.以上都不對

   答案:A

  每次加入特征值,R方總是上升或維持不變。但調(diào)整R方并非如此,當它上升時,特征值是顯著的。

  Q19.下圖顯示了對相同訓練數(shù)據(jù)的三種不同擬合模型(藍線標出),從中可以得出什么結(jié)論?

  1.同第二第三個模型相比,第一個模型的訓練誤差更大

  2.該回歸問題的最佳模型是第三個,因為它有最小的訓練誤差

  3.第二個模型比第一、第三個魯棒性更好,因為它在處理不可見數(shù)據(jù)方面表現(xiàn)更好

  4.相比第一、第二個模型,第三個模型過擬合了數(shù)據(jù)

  5.因為我們尚未看到測試數(shù)據(jù),所以所有模型表現(xiàn)一致

  A.1和3

  B.1和2

  C.1,3和4

  D.只有5

   答案:C

  數(shù)據(jù)的趨勢看起來像以X 為自變量的二項式。更高的次數(shù)(最右邊的圖)的多項式對于訓練數(shù)據(jù)可能具有更高的準確性,但在測試集上毫無疑問的慘敗。在最左面一張圖中,由于數(shù)據(jù)欠擬合,將會得到最大訓練誤差。

  Q20.下列哪項可以評價回歸模型?

  1.R方

  2.調(diào)整R方

  3.F統(tǒng)計量

  4.RMSE/MSE/MAE

  A.2和4

  B.1和2

  C.2,3和4

  D.以上所有

   答案:D

  以上這些都是評價回歸模型的指標

  Q21.我們可以通過一種叫“正規(guī)方程”的分析方法來計算線性回歸的相關(guān)系數(shù),下列關(guān)于“正規(guī)方程”哪一項是正確的?

  1.我們不必選擇學習比率

  2.當特征值數(shù)量很大時會很慢

  3.不需要迭代

  A.1和2

  B.1和3

  C.2和3

  D.1,2和3

   答案:D

  正規(guī)方程可替代梯度下降來計算相關(guān)系數(shù),參考這篇文章獲得更多關(guān)于正規(guī)方程的知識。

  Q22.Y的預期值是關(guān)于變量X(X1,X2….Xn)的線性函數(shù),回歸線定義為Y = β0 + β1 X1 + β2 X2……+ βn Xn,下列陳述哪項正確?

  1.如果Xi的變化量為 Xi,其它為常量,則Y的變化量為βi Xi,常量βi可以為正數(shù)或負數(shù)

  2. βi 的值都是一樣的,除非是其它X的βi

  3.X對Y預期值的總影響為每個分影響之和

  提示:特征值間相互獨立,互不干擾

  A.1和2

  B.1和3

  C.2和3

  D.1,2和3

   答案:D

  1.Y的預期值是關(guān)于X的線性函數(shù),這表示:

  1. 如果Xi的變化量為 Xi,其它變量不變,Y的預期值隨β i X i而變化,β i可以為正數(shù)或負數(shù)

  2.βi 的值都是一樣的,除非是其它X的βi

  3.X對Y預期值的總影響為每個分影響之和

  2.Y的未知變化獨立于隨機變量(特別之處,當隨機變量為時間序列時,Y與隨機變量不是自動關(guān)聯(lián)的)

  3.它們的方差一致(同方差性)

  4.它們一般是分散的

  Q23.為了評價一個簡單線性回歸模型(單自變量),需要多少個參數(shù)?

  A.1

  B.2

  C.不確定

   答案:B

  在簡單線性回歸模型中,有一個自變量,需要兩個參數(shù)(Y=a+bX)

  Q24.下圖展示了兩條對隨機生成的數(shù)據(jù)的回歸擬合線(A和B),請?zhí)骄緼,B的各自的殘差之和:

  提示:

  1.兩張圖的橫縱軸大小一致

  2.X軸是自變量,Y 軸是因變量

  下列對A,B各自殘差和的陳述哪項正確?

  A.A比B高

  B.A比B低

  C.兩者相同

  D.以上都不對

   答案:C

  殘差之和總為零

  Q25.若兩個變量相關(guān),它們之間一定有線性關(guān)系嗎?

  A.是

  B.否

   答案:B

  不是必要條件,二者可以沒有線性關(guān)系

  Q26.相關(guān)變量的相關(guān)系數(shù)可以為零,對嗎?

  A.是

  B.否

   答案:A

  Q27.假設(shè)對數(shù)據(jù)提供一個邏輯回歸模型,得到訓練精度X和測試精度Y。在數(shù)據(jù)中加入新的特征值,則下列哪一項是正確的?

  提示:其余參數(shù)是一樣的

  1.訓練精度總是下降

  2.訓練精度總是上升或不變

  3.測試精度總是下降

  4.測試精度總是上升或不變

  A.只有2

  B.只有1

  C.只有3

  D.只有4

   答案:A

  向模型中加入更多特征值會提高訓練精度,低偏差;如果特征值是顯著的,測試精度會上升

  Q28.下圖顯示了由X預測Y的回歸線,圖上的值展示了每個預期的離差,請據(jù)此計算SSE(殘差平方和):

  A. 3.02

  B. 0.75

  C. 1.01

  D. 以上都不對

   答案:A

  SSE是預估誤差的平方之和,所以SSE = (-.2)^2 + (.4)^2 + (-.8)^2 + (1.3)^2 + (-.7)^2 = 3.02

  Q29.眾所周知,身高體重呈正相關(guān)。忽略圖表大?。ㄗ兞勘粯藴驶耍┫铝袃蓮垐D哪張更像描繪身高(X軸)體重(Y軸)的圖表?

  A.圖2

  B.圖1

  C.兩張都是

  D.無法確定

   答案:A

  圖2很明顯更好的展現(xiàn)了身高體重之間的聯(lián)系,個體身高更高,體積就越大,體重就相應越大,所以預期身高體重是正相關(guān)的。右圖是正相關(guān)而左圖是負相關(guān)。

  Q30.假設(shè)X公司的員工收入分布中位數(shù)為$35,000,25%和75%比例處的數(shù)值為$21,000 和$53,000。收入$1會被認為是異常值嗎?

  A.是

  B.否

  C.需要更多信息

  D.以上都不對

   答案:C

  Q31.關(guān)于回歸和相關(guān),下列哪項是正確的?

  提示:y是因變量,x是自變量

  A.在兩者中,x、y關(guān)系都是對稱的

  B.在兩者中,x、y關(guān)系都是不對稱的

  C.x、y在相關(guān)情況下不對稱,在回歸中對稱

  D.x、y在相關(guān)情況下對稱,在回歸中不對稱

   答案:D

  1.相關(guān)是衡量兩個變量線性聯(lián)系的統(tǒng)計度量,對待x、y是對稱的

  2.回歸是用于根據(jù)x預測y,其關(guān)系不對稱

  Q32.可以根據(jù)平均值和中位數(shù)計算斜率嗎?

  A.可以

  B.不可以

   答案:B

  斜率不是直接和平均值中位數(shù)相關(guān)的

  Q33.假設(shè)你有n個有兩個連續(xù)變量的數(shù)據(jù)集(y是因變量,x是自變量)下表給出了這些數(shù)據(jù)集的信息總結(jié):

  這些數(shù)據(jù)集都是一致的嗎?

  A.是

  B.不是

  C.無法確定

   答案:C

  為了回答這個問題,你需要了解Anscombe的四幅圖,請參考這篇文章。

  Q34.觀測值是如何影響過擬合的?

  提示:余下所有參數(shù)都一致

  1.觀測更少更易過擬合

  2.觀測更少更不易過擬合

  3.觀測更多更易過擬合

  4.觀測更多更不易過擬合

  A.1和4

  B.2和3

  C.1和3

  D.都不正確

   答案:A

  特別地,當觀測值太少,規(guī)模太小,模型很容易過擬合。因為我們只有很少的點,當提升模型復雜度(比如多項式擬合)時,就會很容易覆蓋所有觀測值點。

  另一方面,如果有很多很多觀測值,哪怕模型很復雜,也很難過擬合。

  Q35.假設(shè)用一個復雜回歸模型擬合一個數(shù)據(jù)集,使用帶固定參數(shù)lambda的Ridge回歸來減小它的復雜度,下列哪項描述了偏差和方差與lambda的關(guān)系?

  A.對于非常大的lambda,偏差很小,方差很小

  B.對于非常大的lambda,偏差很小,方差很大

  C.對于非常大的lambda,偏差很大,方差很小

  D.對于非常大的lambda,偏差很大,方差很大

   答案:C

  Lambda很大表示模型沒有那么復雜,這種情況下偏差大,方差小

  Q36. 假設(shè)用一個復雜回歸模型擬合一個數(shù)據(jù)集,使用帶固定參數(shù)lambda的Ridge回歸來減小它的復雜度,下列哪項描述了偏差和方差與lambda的關(guān)系?

  A.對于非常小的lambda,偏差很小,方差很小

  B.對于非常小的lambda,偏差很小,方差很大

  C.對于非常小的lambda,偏差很大,方差很小

  D.對于非常小的lambda,偏差很大,方差很大

   答案:B

  Lambda很小表示模型復雜,這種情況下偏差小,方差大,模型會過擬合數(shù)據(jù)

  Q37.關(guān)于Ridge回歸,下列哪項正確?

  1.lambda為0時,模型作用類似于線性回歸模型

  2.lambda為0時,模型作用與線性回歸模型不相像

  3.當lambda趨向無窮,會得到非常小,趨近0的相關(guān)系數(shù)

  4.當lambda趨向無窮,會得到非常大,趨近無窮的相關(guān)系數(shù)

  A.1和3

  B.1和4

  C.2和3

  D.2和4

   答案:A

  當lambda為0時我們得到了最小的最小二乘解;當lambda趨近無窮時,會得到非常小、趨近0的相關(guān)系數(shù)。

  Q38.下列三張殘差圖,哪張與其它相比是最糟糕的模型?

  提示:

  1.所有殘差都被標準化了

  2.這些圖是關(guān)于預期值和殘差的

  A. 1

  B. 2

  C. 3

  D. 1和2

   答案:C

  預期值和殘差之間應該沒有任何關(guān)系,若果有則說明模型未能完美捕獲數(shù)據(jù)信息。

  Q39.下列哪一種回歸方法的相關(guān)系數(shù)沒有閉式解?

  A.Ridge回歸

  B. Lasso回歸

  C. Ridge回歸 and Lasso回歸

  D.兩者都不是

   答案:B

  Lasso不允許閉式解,L1-penalty使解為非線性的,所以需要近似解。參考這篇文章獲得更多關(guān)于閉式解的知識。

  Q40.參考如下數(shù)據(jù)集,移除哪一個黑點將會對回歸擬合線(黑虛線所示)產(chǎn)生最大影響?

  A.a

  B.b

  C.c

  D.d

   答案:D

  線性回歸對數(shù)據(jù)中的異常值敏感,雖然C也是給定數(shù)據(jù)區(qū)間內(nèi)的異常值,但它離回歸擬合線很近,所以不會造成太多影響

  Q41.在簡單線性回歸模型中(單自變量),如果改變輸入變量1單元,輸出變量會變化多少?

  A.1單元

  B.無變化

  C.截距值

  D.斜率值

   答案:D

  簡單線性回歸公式為Y=a+bx,如果給x增加1,y就變成了a+b(x+1),即y增加了b

  Q42.邏輯回歸是輸出結(jié)果落在[0,1]區(qū)間內(nèi),下列哪個函數(shù)用于轉(zhuǎn)換概率,使其落入[0,1]?

  A. Sigmoid

  B. Mode

  C. Square

  D. Probit

   答案:A

  Sigmoid函數(shù)用于轉(zhuǎn)換輸出結(jié)果,使之落在邏輯回歸區(qū)間[0,1]內(nèi)

  Q43.考慮線性回歸和邏輯回歸中的重量/相關(guān)系數(shù),關(guān)于cost函數(shù)的偏導,下列哪一項是正確的?

  A.都不一樣

  B.都一樣

  C.無法確定

  D.以上都不對

   答案:B

  參考這個鏈接

  Q44.假設(shè)使用邏輯回歸模型處理n元分類問題,可以用到One-vs-rest方法,則下列哪一項是正確的?

  A.在n元分類問題中,需要擬合n個模型

  B.為了分類為n類,需要擬合n-1個模型

  C.為了分類為n類,只需要擬合1個模型

  D.都不正確

   答案:A

  如果有n類,就有n個分散的邏輯回歸需要擬合,每一類的概率都是基于其余類來預測的。以三類分類(-1,0,1)為例,需要訓練三個邏輯回歸分類器:

  1. -1 vs 0 and 1

  2.0 vs -1 and 1

  3.1 vs 0 and -1

  Q45.下圖是兩種有不同β0 和β1值的邏輯回歸模型,下列關(guān)于兩種邏輯回歸模型中β0 和β1的敘述哪項是正確的?

  提示:Y = β0 + β1*X,β0為截距,β1是斜率

  A.綠線的β1比黑線的大

  B.綠線的β1比黑線的小

  C.兩個模型的β1是一樣的

  D.無法得出結(jié)論

   答案:B

  β0和β1: β0 = 0, β1 = 1是黑線的情況;β0 = 0, β1 = 1是綠線的情況

   總結(jié):

  我們希望你能發(fā)現(xiàn)這個測試和提供的解決方法有趣而實用。這個測試注重回歸的理論知識和它的多種技巧。我們試著通過這篇文章解釋你們的所有疑惑,如果你發(fā)現(xiàn)了任何錯誤和遺漏,或者你有好的建議,請和我們聯(lián)系。

  注:本文來源阿里云-云棲社區(qū)組織翻譯,作者:ANKIT GUPTA,由北郵@愛可可-愛生活老師推薦,原標題《45 questions to test a Data Scientist on Regression (Skill test – Regression Solution)》。版權(quán)著作權(quán)屬原創(chuàng)者所有。編輯:Fynlch(王培),數(shù)據(jù)觀微信公眾號(ID:cbdioreview),欲了解更多大數(shù)據(jù)行業(yè)相關(guān)資訊,可搜索數(shù)據(jù)觀(中國大數(shù)據(jù)產(chǎn)業(yè)觀察網(wǎng)m.yongsiang.cn)進入查看。

?點此進入 阿里云 在數(shù)據(jù)觀的企業(yè)欄目>>>

責任編輯:王培

分享: