0
| 本文作者: 張馳 | 2017-03-27 15:13 |
對事件做出預測相對容易,但分析因果關系則是一件很困難的事。就像路上很多人帶著雨傘,代表可能 會下雨,但雨傘不是下雨的原因。而當你想改變事件的結果時,了解因果關系就變得十分重要了,比如要阻止一場雨,不可能讓所有人都不帶雨傘。
美國一家公司Via Science,就希望能通過其專利性的因果分析技術,幫助電力、能源等公司找到電力系統中的風險所在。
公司CEO Colin Gounden向雷鋒網展示的下圖,是對美國麻省周圍各醫院出現電力故障的分析。系統會分析電力路線、植被、海拔、天氣、地理人口信息、金融市場等各類信息,得出風險值,并展示可能的原因所在。

經過一百多年的發展,電力系統已經是不可或缺的基礎設施,而且形成了極其復雜的網絡。電力公司想要的不僅是預測什么時候出現故障,更是想防止意外出現,這就需要找到導致電力事故的原因。
Gounden告訴雷鋒網,公司的技術核心是因果分析平臺Focus?,它應用了UCLA教授Judea Pearl發明的貝葉斯網絡,用于理解數據之間的關系。Pearl教授是2011年圖靈獎得主。
簡單來說,貝葉斯網絡會引入更多變量來創造一個圖(Graph),從而看這些變量之間的相互關系以及如何改變。比如展示雨、雨傘與天色的關系,會看到灰色的天空與下雨有關系,也會看到下雨時沒有雨傘 這個變量出現,但仍會出現灰色的天空。然后比較兩種場景就會發現,灰沉的天空與下雨的關系更強,也就是它出現的原因。
Gounden表示,貝葉斯網絡的優勢是用到了圖論(Graph Theory),相比于神經網絡,其運作過程有透明性,不是黑盒子。
他告訴雷鋒網,貝葉斯網絡兩個特點:一是能讓人類了解到底發生了什么;二是由于知道發生了什么, 就可以做出改變。而深度學習網絡可以重新訓練,但不能改變網絡模型。
改變網絡的理由是,可以讓它的效果更好。比如,如果已經知道了天氣會影響能源供給和購物的狀況,就可以直接告訴計算機這種結果,而不用讓它自己找到這種聯系。把這些規則輸入網絡,可以節省計算時間。
另外一個理由是,可以在虛擬中模擬可能發生的情況,模擬某個變量可能產生什么樣的結果。比如,在 現實中可能想了解,如果稍微改變電路,某片樓宇中的電力狀況會發生什么變化?但不能真的這么做,用戶不會想承受這種試驗的結果,而在計算機中可以做這種模擬。
Gounden畢業于哈佛大學,是一位連續創業者,他曾創立了兩家公司并成功退出,其中一家在1999年以9800萬美元的價格被收購。他在2000年聯合成立GNS Healthcare公司,也是用因果貝葉斯網絡分析基因等健康數據。再后來,他們開始尋找其它同樣可以應用機器學習的行業,并在去年8月成立了Via Science。
從健康到能源行業,跨度不可謂不大。不過他告訴雷鋒網,兩者有不少共性。
一是,考慮到從基因到蛋白質再到細胞的整個過程,它與能源從產生到經過復雜的網絡再抵達終端用戶,整個過程十分相似,有相似的架構。
二是兩者很復雜,有成千上萬的變量。人體與電力網絡的復雜性是一樣的,在規模上與復雜性上很相似。
三是問題的重要性。對人體來說,你不可能想做什么實驗就做什么,臨床試驗的成本很高。電力系統也一樣,不可能直接關掉某個地方的電源,看看會發生什么變化。而對于某地區是否應該新建發電廠這樣的問題, 由于建廠需要數年的時間,不可能等幾年再看看到底會有什么影響,這需要事先模擬。
對于新領域,數據是一個難點。機器學習需要的數據,但沒有成功的案例也就沒有數據。所以Via Science的做法是不要求用戶提供數據,而是使用公開數據。公開數據的豐富程度,也是他們考慮新應用的重要標準。
Gounden告訴雷鋒網,如果想知道接下來的幾分鐘哪里可能斷電,這需要實時的數據;但如果想知道未來幾年中,電力設施會出現哪些風險,這就不需要實時數據,而是需要趨勢數據,比如天氣、人口、地 域等。

他們的系統中會用到了衛星圖數據,無人機測繪數據。這樣可以看到建筑物、電力設施都在哪,而這些 數據不需要獲得授權。
當然,如果有員工工作年限、專家評估和設備狀況等企業內部數據,模型會更準確。他表示,在通過公開 數據建模,證明了效果后,再讓企業提供一些較隱私的數據就容易得多。
由于能源公司很保守,不到萬不得已不會改變,所以Gounden和同事們首先瞄準的是聯邦政府部門。因著與政府不錯的關系,他們首先申請了小范圍的試驗,由于對電力系統改善的效果不錯,也因此得到了政府的推薦。
Via Science也在考慮將同樣的技術用于中國市場。正如Gounden所說,各地電力系統的運作方式都一樣。而看中中國市場的另一個原因是,國內的電力公司,如上海電力,同時在印度、巴基斯坦等地也有項目,所以他們可以服務更廣泛的市場。
雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知。