0
對于AI開發者來說,本周可謂喜訊不斷。首先是谷歌發布了全新的 tf.Transform 組件,大大簡化了機器學習中的數據預處理問題;同時,從去年秋天開始傳聞的 GPU 云端加速服務也終于在谷歌云平臺實現了;另外,微軟公司聯合劍橋大學在最近發布的一篇論文中闡述了一個名為 DeepCoder 的機器學習系統,據介紹,該系統擁有基礎編程能力,可以幫助不會寫代碼的人制作簡易程序。最后,我們推薦幾個本周內雷鋒網出品的“高能”開發者資源合集,祝各位周末愉快。

在實際的機器學習開發中,開發者通常需要對數據集進行大量的耗時費力的預處理過程,以適應各種不同標準的機器學習模型(例如神經網絡)。
針對這一難題,谷歌于 22 日通過開發者博客正式發布了一個基于 TensorFlow 的全新功能組件 —— tf.Transform。它允許用戶在大規模數據處理框架中定義預處理流水線(preprocessing pipelines),同時用戶還可以將這些流水線導出,并將其作為 TensorFlow 計算圖(TensorFlow graph)的一部分。
除了便于數據的預處理之外,tf.Transform 還允許用戶計算其數據集的統計概要(summary statistics)。對于每個機器學習項目的開發者而言,深刻理解其數據都非常重要,因為任何對底層數據做出的錯誤假設都可能會產生一些微妙的錯誤。通過更簡單和高效地計算數據的統計概要,tf.Transform 可以幫助開發者更好地檢查他們關于原始數據和預處理數據的假設。
詳情:http://www.specdd.com.cn/news/201702/Yi4oU1mSwKLc8Rad.html

微軟和劍橋大學的研究員近日發布了一篇介紹“會編程的機器學習系統——DeepCoder”的論文。論文中描述的 DeepCoder 系統可以解決編程比賽所涉及到的基礎編程題目,為不會編程的人提供了制作簡易程序的可能。
據介紹, DeepCoder 可以在一秒鐘之內寫出能夠跑通的程序,而且隨著該系統引入更多的編程數據進行學習之后,它的編程能速度也會越來越快。但是,DeepCoder 也存在自身的不足之處,那就是 DeepCoder 只能自動生成五行左右代的代碼程序。
詳情:http://geek.csdn.net/news/detail/159111
DeepCoder 論文地址:https://openreview.net/pdf?id=ByldLrqlx

在萬眾期待中,Google云計算平臺日前推出了支持云端GPU加速服務的公開測試版,第一款支持的GPU型號是NVIDIA 的Tesla K80,使Google云平臺的性能獲得了巨大提升。現在,用戶可以在谷歌云平臺的三個地區玩轉基于NVIDIA GPU的虛擬機,包括美東1區(us-east1),東亞1區(asia-east1)和西歐1區(europe-west1)。據介紹,目前用戶最多可以在自定義的 Google 云計端虛擬機上連接將8個GPU(4塊K80的板子),并且只支持使用gcloud的命令行工具,但從下周起就可以云終端UI界面來創建虛擬機了。
詳情:http://www.specdd.com.cn/news/201702/g1uGf9LG24pYNP8J.html

近日,今日頭條算數中心執行總監劉志毅在日前于深圳北京大學匯豐商學院舉行的“數據之美”論壇上進行技術分享。分享中,劉志毅詳細介紹了今日頭條是如何做到,向每個讀者推送不一樣的、據稱是符合讀者每個人不同興趣的內容的技術過程。
詳情:http://www.specdd.com.cn/news/201702/sWMJ4caPj5dxigGz.html

Ring Allreduce 本是 HPC (高性能計算)領域的一項技術。日前,百度硅谷 AI 實驗室已成功將其移植到深度學習平臺,借此來加速 GPU 之間的數據傳輸速率。目前,在 GPU 并行計算中,它們之間的通信瓶頸是制約深度學習模型訓練速度的主要障礙之一。百度宣布,Ring Allreduce 算法的引入將移除該瓶頸,大幅提升多 GPU 和分布式計算環境下的深度學習模型運算效率。雷鋒網獲得消息,該技術已被百度成功應用于語音識別。
該算法以庫和 Tensorflow 補丁的形式向開發者開源,分別為 baidu-allreduce 和 tensorflow-allreduce,已在 GitHub 上線。
詳情:http://www.specdd.com.cn/news/201702/QaSmvdQNbiY4CxBy.html
開源地址1:https://github.com/baidu-research/baidu-allreduce
開源地址2:https://github.com/baidu-research/tensorflow-allreduce
百度博客(英文):http://research.baidu.com/bringing-hpc-techniques-deep-learning/
下面送上三個本周內AI研習社發布的對開發者有益的資源合集。

資源1是國外大神總結的機器學習算法大合集,圖中幾乎包含了機器學習領域所有的常見算法。其中不但簡單介紹了每一種算法的大概含義,還整理了它們的常見應用和優缺點,各位開發者絕對不可錯過。
原圖:http://pan.baidu.com/s/1kVFhQqb
詳情:https://static.coggle.it/diagram/WHeBqDIrJRk-kDDY

資源2是2017年內與開發者密切相關的 17 場重磅的數據科學和AI 相關的重大學術會議,其中包括 AAAI 2017、DeveloperWeek 和 Domino 數據科學峰會在內的三場大會已經過去了,但還剩下 14 場沒開始的會議都有哪些呢?各位不妨了解下吧。
詳情:http://www.specdd.com.cn/news/201702/BmtqOlEk9kW7X3i8.html

資源3是幾位機器學習專家總結的 AI 領域含金量最高的開源數據庫合集,從計算機視覺,自然語言文本和語音,以及網絡和地理空間數據等幾乎無所不有,總有一款適合你,各位開發者不妨試試吧。
詳情:http://www.specdd.com.cn/news/201702/Can849ZwMlp66QBR.html
雷鋒網相關閱讀:
微軟劍橋聯合推出 DeepCoder 系統;谷歌工程師用“買芒果”理論解釋機器學習 |開發者頭條
百度將 HPC 技術引入深度學習;卡巴斯基操作系統;AMD Ryzen 預售等 | AI 開發者頭條