• <sub id="pqc61"><p id="pqc61"></p></sub><sub id="pqc61"></sub>
    在线精品视频一区二区,亚洲中文字幕无码一久久区,正在播放肥臀熟妇在线视频,国内精品视频一区二区三区八戒 ,国产毛片三区二区一区,国产精品一区中文字幕,丰满少妇被猛烈进出69影院,国产成人无码
    您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
    此為臨時鏈接,僅用于文章預覽,將在時失效
    人工智能開發者 正文
    發私信給汪思穎
    發送

    0

    AutoML在IEEE-ISI World Cup 2019競賽中的應用:冠軍團隊DeepBlueAI技術分享

    本文作者: 汪思穎 2019-07-08 11:17
    導語:細節分享

    雷鋒網 AI 科技評論按,近日,IEEE ISI 2019 國際大數據分析競賽結果出爐,今年的競賽包括企業投資價值評估和法律訴訟類型預測兩個賽題,來自深蘭科技北京 AI 研發中心的 DeepBlueAI 團隊分別取得了一項冠軍和一項季軍的優異成績,本文作者羅志鵬(深蘭科技北京 AI 研發中心),他為雷鋒網 AI 科技評論獨家撰寫了該團隊在企業投資價值評估賽題中的算法思路與技術細節分享。

    背景介紹

    IEEE 年度國際會議是安全信息學領域的旗艦會議,于 2003 年首次在美國亞利桑那州圖森市召開。在過去的 16 年中,IEEE ISI 會議已經從傳統的智能和安全領域發展到多領域聯合研究與創新。今年,第 17 屆 IEEE ISI 會議在中國深圳于 7 月 1 日至 3 日由深圳人工智能與數據科學研究所主辦。

    為了促進人工智能分析行業的發展,并為學術交流和技術討論提供一個平臺,IEEE ISI 會議發起了此次國際大數據分析競賽 (IEEE ISI 2019 年世界杯,IWC 2019)。本競賽面向全球高校、研究機構、企業、政府開放。共有來自中國、美國、巴基斯坦、伊拉克、英國、德國、挪威 7 個國家,來自華為、京東、滴滴等知名企業,以及來自清華大學、北京大學、浙江大學等知名高校的三百余支隊伍參賽,參賽總人數逾千人。

    團隊成績

    在企業投資價值評估賽題中 DeepBlueAI 團隊以較大領先優勢獲得冠軍,排名如下:

    AutoML在IEEE-ISI World Cup 2019競賽中的應用:冠軍團隊DeepBlueAI技術分享

    圖 1 最終排行榜

    AutoML在IEEE-ISI World Cup 2019競賽中的應用:冠軍團隊DeepBlueAI技術分享

    賽題介紹

    本次比賽提供了基于 3500 家上市公司全量信息,描述公司在財務、法務、股權、經營狀況、輿論等方面的屬性特征,包含企業的工商信息、年報、財務信息、納稅信息、股權信息、法務信息、知識產權信息、經營信息、購地信息等數據(以實際發布的數據集為準)。這些數據來自于官方統計平臺,數據真實可信。每一家企業對應一個類目 ID。參賽選手需要合理運用現有數據集材料,篩選出對競賽有價值的信息進行特征構建和模型訓練。

    本次會議共有兩個賽題:

    賽題 1 企業投資價值評估

    參賽者可參照企業的年報、財務信息、經營信息、資產信息、稅務信息,知識產權等企業綜合信息對企業投資情況進行打分,為投資者提供投資依據。

    賽題 2 法律訴訟類型預測

    參賽者可根據企業的法院公告、裁判文書、動產抵押、司法凍結、行政處罰、欠稅信息、開庭公告等法務信息預測企業未來一段時間可能收到的法律訴訟類型,為企業規避法律風險。

    本文接下來分享賽題 1 的思路與技術細節。

    評測指標

    使用均方根誤差 RMSE 作為本次競賽的主要性能指標。返回結果越小代表模型性能越好。比賽成績以參賽團隊提交的測試集結果為準,此部分占總成績 90%。同時會根據代碼的魯棒性、可擴展性、可讀性為算法模型打分,此部分占總成績 10%。比賽最終排名取決于以上兩部分成績總和。

    AutoML在IEEE-ISI World Cup 2019競賽中的應用:冠軍團隊DeepBlueAI技術分享

    題目特點以及主要工作

    在這次比賽中,主要有以下難點:

    1. 數據維度廣

      該賽題主辦方提供 37 張 xlsx 格式的數據表格,一共包括 304 列。

    2. 信息復雜

      包括公司產品信息、工商基本信息、購地信息、海關進出口信息、年報信息、融資信息、商標信息、上市財務信息、專利信息、招標信息等。

    3. 數據特征類型豐富

      包括字符串、數值型、類目型、時間等。

    4. 數據量小

      訓練集僅有 3000 條。

    對于這樣大量的字段,如果直接采用人工去做特征,一方面工作量巨大,另外一方面很多特征也難以想到。故團隊成員基于以上難點,采用了自研的 AutoML 系統進行建模,該系統包括了自動數據清洗、自動特征工程、自動特征選擇、自動模型調參、自動模型融合等步驟,能極大的提高任務建模的效率,并且在此次競賽中也大大提升了效果。

    自動化數據清洗

    在通常的競賽中,我們的數據往往是比較干凈的,要么采集比較規范,要么已經經過加工處理。這次競賽提供的數據是真實的工業界應用數據,含有大量的不規范字段。比如時間列,就存在各種各樣的格式,比如存在年份縮寫、中文年月日、標記格式不統一(有時用「\」,有時用「-」來分隔)等情況。

    AutoML在IEEE-ISI World Cup 2019競賽中的應用:冠軍團隊DeepBlueAI技術分享

    圖 2 原始數據展示

    考慮這些數據情況,可能是由于數據錄入的時候,不同年代采用不同的格式,并且數據保留了原來的格式,從而造成了大量數據不規范的問題。另外數據中存在著大量的噪聲。而我們的自動化數據清洗模塊,對不同類型的數據使用不同的清洗方法,能夠有效地清洗不規范數據。

    特征工程

    我們的特征工程部分包含兩個階段:AutoML 自動特征工程階段和業務特征強化階段。

    在 AutoML 自動特征工程階段,將原始數據清洗成 AutoML 系統可處理的格式后,進行自動特征生成,然后進行特征選擇迭代。在特征選擇階段我們采用 lightGBM 單模型。在自動特征工程中,我們假設通用場景類型,選擇和本次任務契合的場景類型進行自動特征工程,在每一輪特征迭代過程中我們參考了上一輪特征的重要性,在重要性高的特征上面進行迭代更新。篩選出的特征中比較重要的有:行業細類特征、資歷、年報等。具體地,原始特征包含了數值類型,分類類型,時間類型以及文本類型。我們對數值類型和類目特征生成了基本統計特征,以及數值和分類的聚合特征。對時間類型,提取了周期性特征。對文本特征,采用 TF-IDF、LDA 方法提取特征。同時我們也提取重要特征進行高階組合,從而避免了指數級的特征組合,并且能挖掘三階甚至四階不同類型的特征組合,有效地提升模型性能。

    AutoML在IEEE-ISI World Cup 2019競賽中的應用:冠軍團隊DeepBlueAI技術分享

    圖 3 AutoML 自動特征工程

    在自動特征階段生成的全部特征累計有 7000 多列,自動特征選擇采用遞減的方式,在業務特征強化階段,我們通過深入思考業務的邏輯,結合已有特征的重要性,挖掘出業務中我們認為應該考慮進去的信息,然后構造出能反應這些信息的特征。

    在自動特征工程階段,我們發現專利和資質認證兩個信息對模型效果提升較大。這很符合我們的直覺,在對企業價值評分時,專利的數量、種類等信息無疑是非常重要的。

    首先是針對專利信息,我們挖掘了公司的專利在時間線上的活躍度,公司在該專利領域的實力。我們猜測在長期專利數量較多或者存在上升趨勢的企業投資價值評分應該更高。根據實際專利的申請審核流程,提交申請到出審核結果的時間長度,我們提取了企業在最近 1、3、6、12、24 個月的專利數量以及專利數量較多的種類。其次我們挖掘了每個城市每個行業的企業競爭力,用城市中各個行業的公司數量以及他們之間的相對特征來表現。我們猜測公司地址在其行業密集度較高的城市具有更強的競爭意識和競爭氛圍,成長性較高,可能會得到較高的投資價值評分。之后我們挖掘了公司的認證資格競爭力信息,在行業內理論上應該是資歷認證更完善的公司實力更強,風險更小,我們通過構造公司在資歷全集中的完善度特征來反映這個信息。

    模型融合

    AutoML在IEEE-ISI World Cup 2019競賽中的應用:冠軍團隊DeepBlueAI技術分享

    圖 4 模型集成

    為了增強最終結果的穩定性,我們采用 Stacking+Bagging 的方式進行模型融合。融合的主體方法是 Stacking, 第一層我們采用過的模型有 LightGBM、XGBoost、Random Forest、Support Vector Regressor、ExtraTrees Regressor。每個模型采用交叉驗證的方式進行線下驗證。

    AutoML在IEEE-ISI World Cup 2019競賽中的應用:冠軍團隊DeepBlueAI技術分享

    圖 5 模型結果

    在 Stacking 的第二層中我們采用了基于約束的線性模型,在實驗中發現效果好于其他線性和非線性模型。

    在 Bagging 中我們使用不同 seed 以及隨機微調了一些參數分別生成 10 個 LightGBM 和 10 個 XGBoost 模型。最后將 Stacking 的結果與 Bagging 結果進行簡單線性加權融合作為最終預測結果。在這次競賽中模型融合提升并不是很大,從榜單來看我們的單模型結果就能獲得冠軍,因此 AutoML 自動特征工程部分是我們制勝的關鍵。

    AutoML在IEEE-ISI World Cup 2019競賽中的應用:冠軍團隊DeepBlueAI技術分享

    圖 6 模型融合

    工作總結

    在此次競賽中,我們的主要工作包括:

    • 對于相似的數據創建了一鍵清洗系統,這套系統可以自動計算來轉化貨幣格式、使用強規則收集時間戳和時間增量以及根據數據分布自動填寫缺失值。

    • 選擇使用 AutoML 自動特征工程和自動特征選擇。對于多維度,多字段的表單數據,AutoML 可以極大的提升開發效率和模型效果。

    • 設計了一些針對業務場景的特征。

    • 構建了多種不同類型模型的集成,使得集成之后的效果有所提升,也增加了結果穩定性。

    進一步工作

    此次競賽主辦方提供的數據量比較小,可以收集多年的數據根據滑窗的方式獲取更多的訓練數據。

    影響企業投資價值的因素多,可能需要更多公司動態信息,例如人員流動信息和招聘信息等,這些信息可能有助于提升預測效果。

    雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知

    AutoML在IEEE-ISI World Cup 2019競賽中的應用:冠軍團隊DeepBlueAI技術分享

    分享:
    相關文章

    編輯

    關注AI學術,例如論文
    當月熱門文章
    最新文章
    請填寫申請人資料
    姓名
    電話
    郵箱
    微信號
    作品鏈接
    個人簡介
    為了您的賬戶安全,請驗證郵箱
    您的郵箱還未驗證,完成可獲20積分喲!
    請驗證您的郵箱
    立即驗證
    完善賬號信息
    您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
    立即設置 以后再說
    主站蜘蛛池模板: 最近中文字幕完整版2019| 极品一区二区三区av| 亚洲精国产一区二区三区| 亚洲粉嫩av一区二区黑人| 丝袜 亚洲 另类 欧美| 精品国精品无码自拍自在线| 高清有码国产一区二区| 亚洲欧美丰满精品人妻| 久久久www成人免费无遮挡大片| 亚洲综合精品香蕉久久网| 性爱黄色视频| 日本亚洲欧美一区二区三区| 99久久久国产精品免费无卡顿 | 一区二区三区国产亚洲网站| 看黄网址| 色综合亚洲| 久久电影院久久国产| 秋霞A级毛片在线看| 中国无码mv| 日韩人妻少妇中文字幕av| 亚洲最大成人综合网720p| 国产乱久久亚洲国产精品| 13小箩利HD╳╳╳| 亚洲爱婷婷色69堂| 影音先锋av中文字幕| 国产av综合影院| 久久精品一区二区三区中文字幕| 国产精品毛片一区视频播| 正在播放国产真实哭都没用| 豆国产97在线 | 亚洲| 亚洲熟女少妇一区二区| 在线播放免费观看av| 国产免费网站看v片元遮挡| 精品久久久久久无码不卡| 亚洲国产精品日韩AV专区| 老司机亚洲精品影院无码| 忘忧草影视| 亚洲熟女人| 亚洲成人Aⅴ| 国内精品自在欧美一区| 亚洲乱码一卡二卡卡3卡4卡|