国模叶桐尿喷337p人体,国产乱xxⅹxx国语对白,国产精品人妻无码久久久郑州,国产一区二区内射最近更新,国产一区二区三区不卡在线看

首頁 自媒自媒體 THU數(shù)據(jù)派正文

谷歌與CMU聯(lián)合發(fā)文:審視數(shù)據(jù)對深度學習的重要性(附論文)

  深度學習在視覺問題上所取得的成功可歸因于以下幾點:

  高容量模型;

  高速增長的計算力;

  大規(guī)模標記數(shù)據(jù)的可用性。

  自2012年以來,模型的性能和GPU的計算力都已取得非常大的進步。但最大數(shù)據(jù)集的大小卻出乎意料地保持現(xiàn)狀。那如果我們將數(shù)據(jù)集的大小擴大10倍或是100倍會發(fā)生什么呢?本文在揭秘“超大規(guī)模數(shù)據(jù)”和深度學習之間那云里霧里的關(guān)系上取得了一大步進展。我們利用JFT—300 M數(shù)據(jù)集,圖片超過3億張中已逾有3.75億個具有噪聲的標簽。我們在研究,如果這個數(shù)據(jù)集用于表征學習,那么當前的視覺任務(wù)的性能將發(fā)生怎樣的變化。

  我們的論文提供了一些預期之外的(和一些預期之內(nèi)的)發(fā)現(xiàn):

  視覺任務(wù)的性能仍然以訓練數(shù)據(jù)大小的數(shù)量級線性增加;

  表征學習(或預訓練)仍然有很大的用途。通過訓練更好的基礎(chǔ)模型,便可以提高視覺任務(wù)的性能;

  正如預期的那樣,我們在包括圖像分類、目標檢測、語義分割和人體姿態(tài)評估等不同視覺任務(wù)上呈現(xiàn)出了新的基于目前技術(shù)水平的研究成果。

  我們真誠希望可以以此來激發(fā)那些機器視覺的相關(guān)社區(qū),不要低估數(shù)據(jù)的重要性,以及要發(fā)展集體努力從而建設(shè)更大的數(shù)據(jù)集。

  眾所周知,目前的卷積神經(jīng)網(wǎng)絡(luò)革命是大型標注數(shù)據(jù)集的產(chǎn)物(具體來說,來自ImageNet的大小為1M的標記圖像)和大規(guī)模計算能力(得益于GPU)。每年我們都在進一步增加計算能力(更新、更快的GPU),但是我們的數(shù)據(jù)集并沒有那么幸運。ImageNet是一個基于1000個類別的1M標記圖像的數(shù)據(jù)集,五年多以前用于訓練AlexNet。

  奇怪的是,雖然GPU和模型容量都在不斷增長,但是對這些模型進行訓練的數(shù)據(jù)庫仍然停滯不前。即使是具有明顯更多容量和深度的101層的ResNet,仍然使用來自ImageNet大約2011年的1M Image圖像進行訓練。為什么?在更深層次的模型和計算能力之前,我們再次貶低了數(shù)據(jù)的重要性嗎?如果我們將訓練數(shù)據(jù)的量增加10倍或100倍,性能會翻番么?

  

  視覺數(shù)據(jù)集的奇怪案例:盡管GPU計算能力和模型尺寸在過去五年中不斷增加,但是訓練數(shù)據(jù)集的大小卻驚人地保持不變。這是為什么?如果我們使用我們的資源來增加數(shù)據(jù)集大小,會發(fā)生什么?

  本論文采取的第一步,是明晰“超大規(guī)模數(shù)據(jù)”與深度學習之間的神秘關(guān)系。當然,重要的是,如何收集比ImageNet還大的數(shù)據(jù)集。為了測試當前模型的極限和上限,我們可能需要一個幾乎比ImageNet大100倍的數(shù)據(jù)集。事實表明,收集1M圖像的1000個類別,每個問題將需要1000萬美元。ImageNet使用了幾種啟發(fā)式(例如標簽層級)來減少問題,從而將成本降低到10萬美元。但是,大于100倍的數(shù)據(jù)集仍然需要超過1000萬美元。

  在本論文中,我們利用了一個已經(jīng)存在的JFT圖像數(shù)據(jù)集,該數(shù)據(jù)集由Geoffrey Hinton等科學家最早提出。JFT數(shù)據(jù)集擁有超過3億張圖像,標有18291個類別。注釋是自動獲得的,因此,這些注釋比較嘈雜,并不是詳盡無遺的。這些注釋已經(jīng)使用復雜的算法進行清理,以提高標簽的精度;然而,精度仍然有大約20%的誤差。我們將使用這些數(shù)據(jù)來研究數(shù)據(jù)量與視覺性能之間的關(guān)系。具體來說,我們將研究視覺表征學習(預訓練)的數(shù)據(jù)的能力。我們評估各種視覺任務(wù)的學習性能:圖像分類、對象檢測、語義分割和人體姿態(tài)評估。我們的實驗產(chǎn)生了一些令人驚訝(和一些預期)的發(fā)現(xiàn):

  更好的表征學習真的有用!

  我們的第一個觀察是,大規(guī)模數(shù)據(jù)有助于表征學習,這是被我們研究的每個視覺任務(wù)的性能改善所證明的。

  這表明,收集更大規(guī)模的數(shù)據(jù)集以研究預訓練過程,可能會對該領(lǐng)域產(chǎn)生極大的好處。我們的研究結(jié)果還表明,無監(jiān)督或自監(jiān)督表征學習方法的光明前景。數(shù)據(jù)量似乎可以超越標簽空間的噪音。

  性能隨著訓練數(shù)據(jù)的數(shù)量級線性增加!

  也許我們發(fā)現(xiàn)的最令人驚奇的要素是,視覺任務(wù)的性能與用于表示學習的訓練數(shù)據(jù)(對數(shù)量表)的數(shù)量之間的關(guān)系。我們發(fā)現(xiàn)這種關(guān)系還是線性的!即使是3億張訓練圖像,我們對所研究的任務(wù)也沒有觀察到任何平臺效應(yīng)。

  容量至關(guān)重要!

  我們還觀察到,為了充分利用3億張圖像,需要更高容量的模型。例如,在ResNet-50的情況下,COCO對象檢測的增益(1.87%),比使用ResNet-152(3%)時,要小得多。

  長尾訓練:我們的數(shù)據(jù)有相當長的尾巴,表征學習似乎有效。這種長尾似乎不會對卷積神經(jīng)網(wǎng)絡(luò)的隨機訓練產(chǎn)生不利影響(訓練仍然趨于收斂)。

  最新技術(shù)成果:最后,我們的論文使用從JFT-300M獲得模型,在幾個基準上提出了新成果。例如,一個單一的模型(沒有任何bell和whistle)AP(目標檢測中衡量檢測精度的指標)達到 37.4,而COCO檢測基準的AP為34.3。

責任編輯:陳近梅

分享: