0
| 本文作者: 田苗 | 2017-06-27 15:59 | 專題:GAIR 2017 |
雷鋒網按:由中國計算機學會(CCF)主辦、雷鋒網與香港中文大學(深圳)全程承辦的 AI 盛會「全球人工智能與機器人峰會」(CCF-GAIR),將于 7.7-7.9 日在深圳召開。
CCF-GAIR 為國內外學術、業界專家提供了一個廣闊的交流平臺,既在宏觀上把握全球人工智能趨勢脈搏,也深入探討人工智能在每一個垂直領域的應用實踐細節。延續上一次大會的議題,本次 CCF-GAIR 2017 將會迎來更多人工智能和機器人行業的議題與討論。

說到機器人,就不得不說近兩年在媒體行業火起來的寫稿機器人。從 2015 年開始,騰訊、百度、今日頭條,以及傳統媒體南方都市報先后加入寫稿機器人的大軍,特別是今日頭條和和南方都市報的背后,離不開北京大學計算機科學技術研究所(以下簡稱北大計算機所)的支持。
2016 年 8 月,北大計算機所與今日頭條實驗室聯合研發推出新一代 AI 寫稿機器人——奧運AI小記者Xiaomingbot,這是國內第一款綜合利用大數據分析、自然語言處理與機器學習技術的人工智能寫稿機器人。
隨后,2017 年 1 月,南方都市報的寫稿機器人“小南”正式上崗。同時,南方都市報社與北大計算機所和凱迪網絡三方簽署戰略合作協議,聯合成立“智媒體實驗室”,小南正是他們的第一個成果。
不管是互聯網公司,還是傳統媒體,紛紛與北大計算機所建立合作,那么,該研究所是一種怎樣的存在?
根據其官方網介紹,該研究所是北京大學的二級科研教學機構,研究方向主要包括圖形圖像處理技術與數字出版應用、數字內容計算與知識服務技術研究、網絡視音頻處理與檢索技術、數字文檔處理技術、信息安全技術。過去,北大計算機所圍繞計算機技術在印刷、新聞出版領域的核心應用做了不少創新性的研發工作。
其中,負責上述兩次寫稿機器人研發工作的便是語言計算與互聯網挖掘研究室。該研究室成立于 2008 年 7月,負責人為萬小軍,他們主要以自然語言處理技術、數據挖掘技術與機器學習技術為基礎,對互聯網上多源異質的文本大數據進行智能分析與深度挖掘,為互聯網搜索、輿情與情報分析、寫稿與對話機器人等系統提供關鍵技術支撐,并從事計算機科學與人文社會科學的交叉科學研究。
目前,研究室的研究內容包括以下幾個方面:
研制全新的語義分析系統實現對人類語言(尤其是漢語)的深層語義理解;
綜合利用自動文摘、文本生成、文本推薦等技術讓機器寫出高質量的各類稿件;
針對多語言互聯網文本實現高精度情感、立場與幽默分析;
其他探索性研究,包括特定情境下的人機對話技術。

語言計算與互聯網挖掘研究室負責人萬小軍
萬小軍本人的研究領域包括自然語言處理、文本挖掘和人工智能,在 2015 年獲得 IBM 全球杰出學者獎(IBM Faculty Award),同時他的一篇關于采用特征工程抽取句子的論文《Towards Constructing Sports News from Live Text Commentary》在 ACL2016 (ACL,國際計算語言學協會,是世界上影響力最大的國際學術組織)引起了廣泛關注。
從現有的寫稿機器人來看,多數專注于財經、體育等領域,由于這兩個領域有一定的規則和數據可尋,實現起來也較為容易。但,是不是其他領域就無法使用寫稿機器人了呢?北大計算機所與南方都市報合作的“小南”便打消了這個疑問。小南推出的時間在 2017 年春運期間,專注于民生領域的報道,首篇報道共 300 余字,數據自動抓取完成后,報道生成只用了不到一秒的時間。萬小軍曾向媒體表示,教小南寫稿過程中,難點是可供學習的樣本不夠豐富,盡管民生關注度高,但不像體育和財經報道有相對固定的模式,訓練資料較為缺乏。
另外,小南的另一項本領是生成報告摘要。萬小軍介紹,小南采用了先進的自動文摘技術,該技術可以根據多種文本特征,如關鍵詞、段落位置等,判斷不同信息的重要性,最終在摘要里保留核心部分。
實際上,除了寫稿,寫稿機器人未來還有很多潛力可開發,如對已有的稿件進行改寫,根據不同的稿件寫綜合報道等等。不過,機器人畢竟是機器人,還是有很多事情是無法取代人工的,現在倒是有不少媒體人直呼,什么時候這些寫稿機器人可以開放給所有媒體人使用。
雷鋒網編輯有些迫不及待地想要這樣的一個幫手了。在7月7-9日的CCF-GAIR大會上,萬小軍將到現場為大家分享關于寫稿機器人背后的技術,同時雷鋒網也安排了 AI+ 為主題的專場,探討人工智能的現狀與未來,如果想了解這一領域的最新見解與洞察,歡迎購票參加。

雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知。