0
| 本文作者: 楊文 | 2018-01-06 16:10 |
雷鋒網AI科技評論按:本文介紹了NIPS 2017論文: Deep Learning for Precipitation Nowcasting: A Benchmark and A New Model 中提到的核心算法模型。在近期雷鋒網舉辦的GAIR大講堂線上直播課中,該論文的作者之一施行健給我們詳細講解了論文中的核心思想以及模型的演進過程,AI科技評論為大家整理了此次分享的主要內容。
施行健,香港科技大學四年級博士,師從楊瓞仁教授。現于Amazon AWS Deep Learning組實習,崗位為應用科學家。本科就讀于上海交通大學,導師為李武軍教授和王士林教授。他的主要研究方向為深度學習,時空序列分析和計算機視覺。他是apache/mxnet的開發成員,同時是DMLC協會會員。
視頻回放鏈接:http://www.mooc.ai/open/course/369
分享主題:深度學習用于短臨降雨預報:一個基準和一個新模型

分享大綱:
簡要介紹短臨降雨預報和之前用于解決此問題的ConvLSTM網絡。
介紹新的TrajGRU網絡
介紹HKO-7基準
總結
分享內容
短臨降雨預報是指對一個區域未來短時間段內的降雨進行預測。這一段時間通常是0到6小時。預測主要基于雷達回波圖或者是雨量陣的信息或者其他信息進行輔助預測。
雷達回波圖和雨量有一個直接對應關系。所以在文章中,我們只用了雷達回波圖預測。所以這個問題就變成了及時通過雷達回波序列之前的幾幀來預測未來的幾幀。

這個問題有很多應用場景,和居民生活息息相關。比如預測道路的積水情況,為航班提供天氣指引,在城市內給出短期強降水預警。由于大氣內部復雜的動態變化和短臨降雨要求的實時,我們需要大規模和高精度的預報,這個問題給氣象領域和機器學習領域提出了非常大的挑戰。
傳統降雨預測有的兩種方法
NWP 是對大氣進行一個物理建模,通過模擬物理模型去進行之后的預測。這種方法的好處是對于更長時間范圍的預測比較準確,但是在頭一兩小時并不能進行預報,所以對于短臨降預報不是使用NWP方法。

另一種在實際系統中的應用是基于光流矢量的方法。它的思想是先通過兩個雷達回波圖像來估算光流矢量,這個光流矢量可以理解為這些云是往哪個方向運動的。然后去使用這個光流矢量是不會變的,對最后一張雷達圖進行外推,得到最后的預測。這種方法在前一兩小時預測的準確度更高。香港天文臺就是基于光流矢量做的短臨降預測。
關于新模型ConvLSTM介紹
2015年,我們提出一種卷積長短期記憶網絡(Convolutional LSTM),這種基于深度學習方法的特點是基于機器學習,端到端的去解決這個問題的方案。

這種方案相比較光流矢量法有一些問題。
第一,因為這種方案第一步是去估算光流矢量,第二步是拿光流矢量做外推,這兩步是分開來做的,所以會存在累計誤差。
第二,光流矢量不是基于機器學習,所以不能發揮出雷達回波圖的優勢。
第三,在預測光流矢量方法中采用的是相鄰兩幀,并不能考慮更長時間段的一些關系,比如說三幀,四幀,五幀的光流矢量是預測不到的。
但是用深度學習來解決這個問題除了彌補光流失量法的缺陷,也有以下兩點難點。
我們要預測的東西是一個序列,所以說多步預測是一個難點。
我們要處理的是時空數據,所以我們的模型要充分利用時空數據的特點進行建模。
首先我們對這一問題進行簡述。
通過用一個編碼網絡對我們可以觀測到的東西進行一個特征描述。我們使用RNN 作為編碼器和預報器。

因為要提到RNN,如果使用LSTM作為encoder-forecaster的一個基本網絡,我們的模型可能是這樣的

這種方案的問題是LSTM并沒有對時空序列做一些特殊設計。所以我們提出了Convolutional LSTM, 它是專門針對時空序列所設計的一個結構。他們之間的區別是一般的LSTM是用全連接來作為不同狀態之間的轉換,而ConvLSTM不是使用全連接而是卷積。

我們的做法是把LSTM換為ConvLSTM來建立最后的模型,比較效果圖


卷積LSTM網絡并不是最優的,原因是在狀態轉換里面使用卷積相當于把循環連接結構變成了一個時空恒定的結構,但對于自然界出現的大部分運動而言, 時空并不是恒定的。比如旋轉,放縮,所以用遞歸卷積來刻畫這種運動關系肯定不是最優的。

第二個問題是之前這篇文章衡量這個模型的方案式遠遠還沒達到實際應用的標準。之前只是在一個很小的數據集上衡量,而且這是只選了一個閾值。
所以深度學習用于短臨降雨預報實際上還在一個初期階段,我們還不清楚到底如何來衡量這些模型,
為了解決這兩個問題,我們在這篇文章中提出一個新模型 TrajGRU(軌跡GRU), 它可以主動去學習卷積結構,我們還提出了一個新的基準稱為HKO-7,它的特點是有些新的貼近實際生活的性能評估。

簡單回顧一下基準模型ConvGRU, 它是和ConvLSTM比較類似的模型。不同之處是ConvGRU有兩個門(gate),一個更新門(update Gate),一個復位門(reset gate)。 ConvLSTM有三個Gate.

從ConvGRU到TrajGRU

我們還提出了一個Encoder-Forecaster 結構

我們為了理解這個模型以及方便和基準模型ConvGRU做一個簡單的比較,我們在Moving MNIST++的數據集上做了一個實驗。

MovingMNIST可視化效果圖

關于新基準HKO-7
這個數據是香港天文臺提供的2009年到2015年降雨雷達圖數據,簡單的來說我們用2009年到2014年數據作為訓練和確認, 用2015年數據作為測試數據。

數據去噪聲圖

在實際生活中,不斷有新的降雨數據進來,所以我們可以不斷用新數據動態訓練模型。實際上,大雨在現實生活中的影響是更加大的,我們的解決方案是在衡量模型的時候,對大的雨量給一個更加高的權重,就得到了新的B-MSE和B-MAE。

衡量結果

總結
在這篇文章中,我們提出了一個軌跡GRU,它的特點就是可以動態學習網絡遞歸結構,這種軌跡GRU在sythetic MovingMNIST++數據集和我們新的HKO-7基準上都是比ConvGRU效果好的。
第二點,我們提了一個新的HKO-7衡量標準。我們發現所有的深度模型都比光流失量效果要好的。TrajGRU模型是表現最好的。
第三點,動態的微調是對提升模型的表現是有效果的。
我們正在嘗試把這套算法融入到香港天文臺的系統里面。
雷鋒網視頻回放鏈接:http://www.mooc.ai/open/course/369
雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知。