5篇必讀的數據科學論文（以及如何使用它們）

本文作者： AI研習社-譯站

2020-11-10 11:07

導語：對每篇論文，我都給出了將其思想應用到自己手頭工作上的一些想法。

譯者：AI研習社（Champagne Jin）

雙語原文鏈接：https://www.yanxishe.com/TextTranslation/2999

5篇必讀的數據科學論文（以及如何使用它們）

數據科學可能是一個年輕的領域，但這并不意味著你不期待了解某些相關主題。本文涵蓋了最近幾個極為重要的發展以及頗有影響力的理論片段。

這些論文所涉及的主題包括：編制數據科學工作流、輕量化神經網絡的突破、重新思考使用統計學解決問題的基本方法。對每篇論文，我都給出了將其思想應用到自己手頭工作上的一些想法。

第一篇：Hidden Technical Debt in Machine Learning Systems

這是由谷歌研究院團隊傾情奉獻（2015年NeurIPS），當我們需要設置自己的數據科學工作流時，我們可以從該論文中學習到多個避免反模式的明確方案。（所謂反模式，就是讓系統逐漸惡化的典型場景）

5篇必讀的數據科學論文（以及如何使用它們） via DataBricks. （譯者注：你瞅瞅這圖，機器學習在最終的系統中看起來不過是滄海一粟）

下一篇將要介紹的論文里會更詳盡地探討這個問題，構建機器學習產品是軟件工程的一個高度專業化的子集，因此從軟件工程這個學科中吸取的許多經驗教訓應用于數據科學也是很有意義的。

那么究竟該怎么做呢？不妨試試論文中專家談到的實用技巧來簡化你的開發和生產。

第二篇：Software 2.0

這篇來自于Andrej Karpathy的優質博文闡明了機器學習模型是基于數據進行編程的軟件應用程序之范例。

如果數據科學是軟件，那么我們到底要朝著什么方向發展呢? Ben Bengafort在其頗具影響力的博文《The Age of the Data Product》中探究了這個問題。

5篇必讀的數據科學論文（以及如何使用它們）數據產品代表了機器學習項目的運作化階段。圖源：Noémi Macavei-Katócz on Unsplash.

那么如何使用呢？多讀讀數據產品適應模型選擇過程的相關文章吧。

第三篇：BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

這篇論文中，來自谷歌研究院的團隊提出了一種全新的自然語言處理(NLP)模型，該模型的出現堪稱機器文本分析能力的階梯式增長。

對于為何BERT能夠恐怖如斯仍有不少爭議，不過這也提醒了我們，機器學習領域可能已經發現了一些成功的方法，但可惜我們卻沒有完全理解它們是如何工作的。與大自然一樣，人工神經網絡也充滿神秘感。

(此處為一段YouTube視頻，??：在這個歡快的問答片段中，諾德斯特龍數據科學主任解釋了人工神經網絡是如何從自然中獲得靈感的。)

具體該怎么入手呢？

BERT 伯特這篇論文很快就能讀完，而且論文里還包含一些默認超參數設置，完全可以從這些參數著手開動起來（具體參見論文附錄A.3）。 This paper will be read in no time,
無論你是否是NLP新手，不妨看看Jay Alammar的<A Visual GUide to Using BERT for the First Time>，這篇文章里對于BERT的技能有著相當引人入勝的展示。
哦對了，記得看看ktrain，這是一個基于Keras的庫。ktrain能讓你在自己的工作中無痛實現BERT。Arun Maiya開發了這個強大的庫，目的就是讓我們快速獲取對于NLP，圖像識別以及圖相關方法的深刻認知。

第四篇：The Lottery Ticket Hypothesis: Finding Sparse, Trainable Neural Networks

誠然，NLP模型正在越變越大（你看，GPT-3的參數量達到了恐怖如斯的1750億！），不過也有一些研究人員偏愛“倒行逆施”，他們的目標是開發更小、更快、更高效的神經網絡。這些網絡能夠確保其更快的運行速度，更低的訓練成本以及對于計算資源的更少需求。

在這篇具有開創性意義的論文中，機器學習小天才Jonathan Frankle以及Michael Carbin概述了一種剪枝策略以尋找稀疏子網絡，這些子網絡可以達到堪比原始超大型神經網絡的性能。

5篇必讀的數據科學論文（以及如何使用它們）圖源：Nolan Day的論文《Breaking down the Lottery Ticket Hypothesis》

彩票（lottery ticket）是指剪枝策略與有效的初始權重之間的聯系（這可不就跟刮彩票一樣嘛）。神經網絡剪枝這一發明在存儲空間、運行時間和計算性能方面提供了諸多優勢，并贏得了ICLR 2019年度最佳論文獎。在此基礎上所進行的進一步研究證明了該方法的適用性，甚至將其應用于原本就很稀疏的網絡中。

具體怎么操作呢？

在將你的神經網絡部署到生產環境之前，不妨考慮一下對其進行剪枝。網絡權重剪枝能夠大幅降低參數數量（參數可減少達90%+）同時確保其與原始網絡相近的性能表現。
還有，聽聽Ben Lorica與Neural Magic在這一集數據交換播客里面的相關討論。Neural Magic是一家初創公司，其希望利用剪枝和量化等技術，搭配一個精巧的用戶界面，使實現網絡稀疏性更容易。

再來點加餐：