1
| 本文作者: 奕欣 | 2018-05-08 11:45 |
在數(shù)字信息化的今天,人工智能的發(fā)展日益成熟,而隨著司法大數(shù)據(jù)的采集和積累,AI(Artificial Intelligence)技術(shù)有望在短時(shí)間內(nèi)處理大量文書(shū)、快速給出新案件的罪名、刑期及適用法條的推薦等任務(wù)中大顯身手。AI 技術(shù)不僅能提高法院等機(jī)構(gòu)的辦事效率,還能讓公民根據(jù)案情快速了解可能面臨的處罰,真正做到國(guó)家司法的公正性和高效能性。
為了實(shí)現(xiàn)法院審判體系和審判能力智能化,使得人工智能技術(shù)在「案例分析、法律文件閱讀與分析」等問(wèn)題中更有力的發(fā)揮其作用,我們將公布世界上最大的裁判文書(shū)標(biāo)準(zhǔn)數(shù)據(jù)集,并希望通過(guò)組織本次比賽活動(dòng),與相關(guān)研究人員一起探索數(shù)據(jù)的可能性,積累具有智能審判能力的算法和模型,做出技術(shù)突破,為該領(lǐng)域的科學(xué)研究添磚加瓦。
或許你是一位胸懷抱負(fù)的科研人員,卻因繁縟又不具挑戰(zhàn)性的項(xiàng)目困在實(shí)驗(yàn)室,無(wú)法全力施展自己的能力;或許你是一位 AI 領(lǐng)域的大牛,卻暫時(shí)沒(méi)能找到最適合自己的課題;或許你是一位剛剛?cè)腴T(mén)的新手,正苦于不知如何提升自己;也或許你懷抱著一顆愛(ài)國(guó)之心,想為祖國(guó)的法律事業(yè)攜去一縷清風(fēng)。
為此,我們?cè)谧罡呷嗣穹ㄔ?、中?guó)中文信息學(xué)會(huì)、共青團(tuán)中央青年發(fā)展部的共同指導(dǎo)下組織本次司法人工智能挑戰(zhàn)賽,我們將公布百萬(wàn)量級(jí)的文本文件,誠(chéng)邀對(duì)司法人工智能感興趣的個(gè)人或團(tuán)隊(duì)開(kāi)展相關(guān)研究,取得豐碩成果。
最高人民法院信息中心
中國(guó)中文信息學(xué)會(huì)
共青團(tuán)中央青年發(fā)展部
中國(guó)司法大數(shù)據(jù)研究院
中國(guó)中文信息學(xué)會(huì)評(píng)測(cè)工委會(huì)
中國(guó)電科團(tuán)委
清華大學(xué) 自然語(yǔ)言處理與社會(huì)人文計(jì)算實(shí)驗(yàn)室
北京大學(xué) 計(jì)算機(jī)科學(xué)技術(shù)研究所
中國(guó)科學(xué)院軟件研究所 中文信息處理研究室
許建峰 最高人民法院信息中心主任
王 珩 中國(guó)司法大數(shù)據(jù)研究院總經(jīng)理
孫茂松 清華大學(xué)教授
孫 樂(lè) 中國(guó)科學(xué)院軟件研究所研究員
劉知遠(yuǎn) 清華大學(xué)
馮巖松 北京大學(xué)
韓先培 中國(guó)科學(xué)院軟件研究所
胡 振 中國(guó)司法大數(shù)據(jù)研究院
比賽采取業(yè)界常用的本地訓(xùn)練、在線評(píng)測(cè)的賽制,具體說(shuō)明如下:
第一階段:參賽隊(duì)伍利用公開(kāi)的數(shù)據(jù)訓(xùn)練模型,每周允許提交 3 次,平臺(tái)將測(cè)試模型性能,并根據(jù)測(cè)試成績(jī)排名;
第二階段:第一階段結(jié)束時(shí),所有參賽者提交最終比賽模型(或以最后提交的模型為準(zhǔn))。同時(shí),主辦方將收集中國(guó)裁判文書(shū)網(wǎng)在隨后一個(gè)月內(nèi)每天新增的裁判文書(shū)數(shù)據(jù)作為新的測(cè)試集,對(duì)各參賽者的模型進(jìn)行封閉評(píng)測(cè),得到最終成績(jī)。
競(jìng)賽任務(wù):
本次競(jìng)賽的任務(wù)共有 3 個(gè),分別是罪名預(yù)測(cè),法律條款推薦,刑期預(yù)測(cè)。參賽選手可以選擇其中的一個(gè)或者多個(gè)任務(wù)進(jìn)行挑戰(zhàn)。
罪名預(yù)測(cè):提供文書(shū)中的案情描述和事實(shí)部分,預(yù)測(cè)被告人的罪名。
法律條款推薦:提供文書(shū)中的案情描述,預(yù)測(cè)本案涉及的相關(guān)法條。
刑期預(yù)測(cè):對(duì)于刑事案件,根據(jù)案情描述和事實(shí)認(rèn)定,預(yù)測(cè)被告人的刑期長(zhǎng)短。
數(shù)據(jù)簡(jiǎn)介:
本次挑戰(zhàn)賽所使用的數(shù)據(jù)集是來(lái)自「中國(guó)裁判文書(shū)網(wǎng)」公開(kāi)的刑事法律文書(shū),其中每份數(shù)據(jù)由法律文書(shū)中的案情描述和事實(shí)部分組成,同時(shí)也包括每個(gè)案件所涉及的法條、被告人被判的罪名和刑期長(zhǎng)短等要素。
數(shù)據(jù)集共包括 268 萬(wàn)份刑法法律文書(shū),共涉及 183 條罪名,202 條法條,刑期長(zhǎng)短包括 0-25 年、無(wú)期、死刑。
我們將先后發(fā)布 CAIL2018-Small 和 CAIL2018-Large 兩組數(shù)據(jù)集。CAIL2018-Small 包括 19.6 萬(wàn)份文書(shū)樣例,直接在該網(wǎng)站發(fā)布,包括 15 萬(wàn)訓(xùn)練集,1.6 萬(wàn)驗(yàn)證集和 3 萬(wàn)測(cè)試集。這部分?jǐn)?shù)據(jù)可以自由下載,供參賽者前期訓(xùn)練和測(cè)試。比賽開(kāi)始 2-3 周后(具體時(shí)間請(qǐng)關(guān)注比賽新聞),我們將通過(guò)郵寄 U 盤(pán)(或網(wǎng)絡(luò)下載)向有資格的參賽隊(duì)伍定向發(fā)布 CAIL2018-Large 數(shù)據(jù)集,包括 150 萬(wàn)份文書(shū)樣例。最后,剩余 90 萬(wàn)份文書(shū)將作為第一階段的測(cè)試數(shù)據(jù) CAIL2018-Large-test。
參賽對(duì)象:
本次技術(shù)競(jìng)賽面向全社會(huì)開(kāi)放,相關(guān)領(lǐng)域的個(gè)人、科研機(jī)構(gòu)、高等院校、企業(yè)單位等人員均可報(bào)名參加。
報(bào)名方式:
競(jìng)賽網(wǎng)站將于 2018 年 4 月 15 日開(kāi)放注冊(cè)報(bào)名,請(qǐng)及時(shí)關(guān)注比賽主頁(yè)(http://cail.cipsc.org.cn/)。
報(bào)名時(shí)間:
2018 年 5 月 1 日至 2018 年 7 月 14 日。
獎(jiǎng)項(xiàng)設(shè)置:
參賽選手將根據(jù)排名情況分享九萬(wàn)獎(jiǎng)金。另外還將為獲獎(jiǎng)?wù)咛峁┯勺罡呷嗣穹ㄔ盒畔⒅行奶峁┑臉s譽(yù)證書(shū)認(rèn)證。