0
| 本文作者: 劉偉 | 2017-11-22 10:14 |

“用大數(shù)據(jù)和人工智能服務(wù)企業(yè),這片市場相對更加藍(lán)海,門檻和壁壘更高”。火石創(chuàng)造創(chuàng)始人兼CEO楊紅飛如是說道。
火石創(chuàng)造將自己定位成“智能醫(yī)健大數(shù)據(jù)服務(wù)平臺”,要用人工智能和大數(shù)據(jù)賦能企業(yè)的研發(fā)、營銷、銷售和戰(zhàn)略制定。楊紅飛認(rèn)為,要做好這件事情,必須先組建一支復(fù)合型的技術(shù)團(tuán)隊。
火石創(chuàng)造的技術(shù)團(tuán)隊主要由三類人員構(gòu)成:一、負(fù)責(zé)研發(fā)和IT架構(gòu)的技術(shù)人員;二、算法專家;三、擁有深厚醫(yī)學(xué)背景和產(chǎn)業(yè)經(jīng)驗的技術(shù)人才。
楊紅飛對雷鋒網(wǎng)表示,和服務(wù)于疾病的醫(yī)療AI企業(yè)不同,火石創(chuàng)造的醫(yī)學(xué)人才不僅具備醫(yī)學(xué)專業(yè)知識,還對企業(yè)經(jīng)營有著深刻的理解。他說道:“我們的創(chuàng)始團(tuán)隊都是做產(chǎn)業(yè)出身的,過去自己做過企業(yè)經(jīng)營,有比較深入的體會。”
正因如此,國際醫(yī)藥巨頭默沙東在先后接觸了IBM、微軟等多家企業(yè)后,最終選擇和火石創(chuàng)造達(dá)成戰(zhàn)略合作,共同開發(fā)醫(yī)學(xué)指南機器輔助閱讀系統(tǒng)。
“客戶洞察”是默沙東醫(yī)學(xué)部的重要日常工作之一。默沙東希望利用人工智能技術(shù)對已出版的歷年英文醫(yī)學(xué)指南與文獻(xiàn)進(jìn)行機器閱讀,并深度挖掘出未被滿足的臨床需求、亟待完善的數(shù)據(jù)需求、競品醫(yī)學(xué)信息、最新臨床經(jīng)驗、近期被關(guān)注的話題等等。從而更好的了解客戶需求,為客戶提供更為精準(zhǔn)的醫(yī)學(xué)服務(wù)并造福于病患。
幾經(jīng)篩選之后,既懂醫(yī)療行業(yè),又對數(shù)據(jù)和算法有深入了解的火石創(chuàng)造成了最佳選項,二者一拍即合。
“醫(yī)學(xué)指南機器輔助閱讀系統(tǒng)能夠幫助用戶快速閱讀所需的指南信息,了解特定疾病治療領(lǐng)域的發(fā)展趨勢。”火石創(chuàng)造創(chuàng)新產(chǎn)品總監(jiān)周俊博士表示,這套系統(tǒng)將導(dǎo)入當(dāng)前已發(fā)布并可收集到的醫(yī)學(xué)指南文本,同時加載近10年發(fā)布的疾病相關(guān)文獻(xiàn)與經(jīng)過編輯的疾病醫(yī)學(xué)知識庫,輔助用戶挖掘價值信息,具體包括診斷標(biāo)準(zhǔn)、治療流程、藥物使用情況、治療療程、高頻文獻(xiàn)等。通過用戶的使用與反饋信息,系統(tǒng)運用自學(xué)習(xí)機制,不斷提高系統(tǒng)的信息挖掘和有效信息推薦的能力。
該醫(yī)學(xué)指南機器輔助閱讀系統(tǒng)的具體功能包括:
推薦醫(yī)學(xué)文獻(xiàn)中近期出現(xiàn)的高頻、熱點詞匯,并輸出參考文獻(xiàn)列表。系統(tǒng)將引導(dǎo)用戶輸入關(guān)注的內(nèi)容,并快速定位相關(guān)段落,根據(jù)內(nèi)容重要性和出現(xiàn)頻率進(jìn)行推薦。當(dāng)用戶聚焦于某一推薦段落閱讀時,系統(tǒng)將高亮段落中的重點醫(yī)學(xué)詞匯,提示用戶關(guān)注。此外,系統(tǒng)還可以智能化輸出標(biāo)準(zhǔn)化的指標(biāo)比對情況,以及提供用戶自定義對比。最終,在可視化交互界面中出現(xiàn)直觀的對比結(jié)果。
對已有醫(yī)學(xué)指南的質(zhì)量進(jìn)行評估:用戶在系統(tǒng)中提交醫(yī)學(xué)指南后,需要選擇指南的年份、疾病種類和打分敏感度,隨后打分輔助系統(tǒng)會依據(jù)火石創(chuàng)造所設(shè)計的,基于打分規(guī)則模型,給出23個評分點的分值。
楊紅飛表示,這套系統(tǒng)的推出得益于默沙東和火石創(chuàng)造的親密協(xié)作。默沙東的醫(yī)學(xué)科研人員主要負(fù)責(zé)幫助火石創(chuàng)造建立對產(chǎn)品的理解和認(rèn)知,比如人是如何閱讀醫(yī)學(xué)指南的,他的閱讀邏輯是什么,他們需要在醫(yī)學(xué)指南中提取哪些關(guān)鍵信息,如何將這些信息互相比對;以及如何找到信息變更的依據(jù)等。火石創(chuàng)造則負(fù)責(zé)具體的技術(shù)實現(xiàn)。
據(jù)火石創(chuàng)造創(chuàng)新產(chǎn)品總監(jiān)周俊博士介紹,醫(yī)學(xué)指南機器輔助閱讀系統(tǒng)的核心技術(shù)主要包括:
1.疾病知識庫的建立;
2.詞語特性的抽取 ;
3.語義理解;
4.系統(tǒng)的自學(xué)習(xí)功能(智能化識別)
周俊博士表示,實體識別與關(guān)系抽取是疾病知識庫構(gòu)建的一大技術(shù)難點。目前,流行的實體識別方法主要有基于規(guī)則(Pattern-based)的方法、基于深度學(xué)習(xí)的LSTM + CRF,以及BPS方法。
基于規(guī)則的方法要對識別的實體類型設(shè)計人工規(guī)則,通過多次迭代驗證來修改這些規(guī)則,逐漸提升識別的準(zhǔn)確率,也可利用標(biāo)注好的訓(xùn)練樣本來自動篩選這些規(guī)則。基于深度學(xué)習(xí)的方法可以把實體識別和關(guān)系抽取放到一起,作為一個端到端的系統(tǒng),用一套網(wǎng)絡(luò)同時識別出實體和關(guān)系,或用LSTM網(wǎng)絡(luò)提取特征,作為CRF的輸入,即在輸出端用CRF對結(jié)果校正。用端到端的神經(jīng)網(wǎng)絡(luò)方法可以省去規(guī)則方法的大量的特征工程,簡化開發(fā)過程,但是要求有大量的標(biāo)注樣本才能夠達(dá)到好的效果。
為此,火石創(chuàng)造計劃用一些半監(jiān)督訓(xùn)練的方法(如GAN),和對樣本需求量更少、效果更好的NTM網(wǎng)絡(luò)對LSTM網(wǎng)絡(luò)進(jìn)行修改,并利用遷移學(xué)習(xí)的方法,先在其他場景下的大量樣本下進(jìn)行訓(xùn)練,再把結(jié)果遷移到當(dāng)前的數(shù)據(jù)集。
另外,目前業(yè)內(nèi)的全文檢索方式都是通過關(guān)鍵詞匹配的方式去檢索的,但是意義相似關(guān)鍵詞不同的內(nèi)容可能無法檢索出。火石人工智能數(shù)據(jù)挖掘平臺利用word2vec和fasttext,訓(xùn)練了一個醫(yī)療健康語義模型。現(xiàn)在已經(jīng)可以完成一些簡單的語義級別的搜索,比方搜索機器學(xué)習(xí),人工智能的相關(guān)內(nèi)容會被檢索出,機器能自動計算出他們的相關(guān)性。
周俊博士向雷鋒網(wǎng)介紹,火石創(chuàng)造的醫(yī)學(xué)指南機器輔助閱讀系統(tǒng)目前已經(jīng)從Pubmed、Web Of Science、Springer、Wiley Interscience、 Science Direct等文獻(xiàn)數(shù)據(jù)庫中,采集了200多萬條相關(guān)醫(yī)學(xué)文獻(xiàn);同時還通過醫(yī)學(xué)詞匯字典和文獻(xiàn)中的自學(xué)習(xí)獲取了幾十萬條相關(guān)詞條。周俊博士坦言,這套系統(tǒng)目前還不夠完善,未來火石創(chuàng)造會繼續(xù)給機器輸入,或者讓它在文獻(xiàn)中自動挖掘更多的詞匯。
借助這套系統(tǒng),醫(yī)生和醫(yī)藥企業(yè)的醫(yī)學(xué)指南閱讀人員,包括醫(yī)藥新藥研發(fā)人員、醫(yī)藥推廣/銷售人員,可以更加方便快捷地抓取自己想要的信息。
與默沙東達(dá)成戰(zhàn)略合作是對火石創(chuàng)造的一次充分認(rèn)可,但火石創(chuàng)造對未來還有著更多的憧憬。
為了解決醫(yī)健行業(yè)中的數(shù)據(jù)之困,火石創(chuàng)造利用人工智能與大數(shù)據(jù)技術(shù)構(gòu)建全球醫(yī)健產(chǎn)業(yè)創(chuàng)新創(chuàng)業(yè)地圖 HSMAP為企業(yè)和政府賦能。通過自主研發(fā)的Spider智能數(shù)據(jù)源構(gòu)建系統(tǒng)和Darwin數(shù)據(jù)智能處理引擎,覆蓋全球635個官方數(shù)據(jù)源,10萬個數(shù)據(jù)采集點的數(shù)據(jù)合作和交換機制,以及基于全球主要搜索引擎的數(shù)據(jù)獲取框架和機制。
據(jù)雷鋒網(wǎng)了解,目前 火石創(chuàng)新創(chuàng)業(yè)地圖HSMAP 已有 229萬+創(chuàng)業(yè)公司、6萬+研究機構(gòu)、5萬+投資機構(gòu)、1400萬+專利、230萬+產(chǎn)品、1000萬+位創(chuàng)業(yè)者、22萬+臨床試驗及 2000萬+文獻(xiàn)數(shù)據(jù)。
火石創(chuàng)造CEO楊紅飛表示,未來火石創(chuàng)造將通過核心產(chǎn)品產(chǎn)業(yè)大腦系統(tǒng),與各區(qū)域政府建立合作,一方面在業(yè)務(wù)上成為政府大健康產(chǎn)業(yè)發(fā)展所依賴的戰(zhàn)略合作伙伴,實現(xiàn)第一階段的營收;另一方面從戰(zhàn)略上形成區(qū)域大健康產(chǎn)業(yè)數(shù)據(jù)的分級采集網(wǎng)絡(luò),使得系統(tǒng)運行產(chǎn)生源源不短的數(shù)據(jù)流,不斷完善產(chǎn)業(yè)數(shù)據(jù)。
同時通過企業(yè)大數(shù)據(jù)情報系統(tǒng)產(chǎn)品,以及后續(xù)企業(yè)AI中心產(chǎn)品和服務(wù),向大健康企業(yè)輸入大數(shù)據(jù)和人工智能技術(shù),建立企業(yè)對火石的技術(shù)和數(shù)據(jù)依賴。
通過各項業(yè)務(wù)的開展,最終形成生命健康產(chǎn)業(yè)的協(xié)同網(wǎng)絡(luò)和數(shù)據(jù)平臺。平臺可以精準(zhǔn)的實現(xiàn)產(chǎn)業(yè)的多邊組合和協(xié)作,發(fā)揮信息發(fā)布、鏈接、資源整合、以及中間信用服務(wù)等功能。
楊紅飛表示,從信息到數(shù)據(jù),從數(shù)據(jù)到資源,從資源到交易,是火石平臺化發(fā)展的路徑。在完善數(shù)據(jù)服務(wù)之后,火石將進(jìn)一步鏈接、整合各方資源,形成基于數(shù)據(jù)的精準(zhǔn)匹配。而要做到這些,不僅是要有先進(jìn)的技術(shù)能力、完整且實時在線的數(shù)據(jù)庫,還需要有較強的運營能力。火石將不斷加大技術(shù)研發(fā)投入,鍛造核心競爭力。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。