CCF ADL 87講習(xí)班回顧：韓家煒等13位大牛全方位解析社交網(wǎng)絡(luò)和數(shù)據(jù)挖掘

本文作者： camel

2017-12-27 11:39

導(dǎo)語：Philip S Yu也來了……

雷鋒網(wǎng) AI 科技評論按：2017 年 12 月 22-24 日，由中國計算機學(xué)會（CCF）主辦的第 87 期 CCF 學(xué)科前沿講習(xí)班（CCF Advanced Disciplines Lectures，簡稱 ADL）在北京中國科學(xué)院計算技術(shù)研究所成功舉辦，雷鋒網(wǎng)作為獨家合作媒體，進行了全程報道。

本次講習(xí)班的主題為《社交網(wǎng)絡(luò)與數(shù)據(jù)挖掘》。社交網(wǎng)絡(luò)和數(shù)據(jù)挖掘是計算機學(xué)科相關(guān)研究中的熱點，具體研究涵蓋理論、關(guān)鍵技術(shù)以及互聯(lián)網(wǎng)核心應(yīng)用等各個應(yīng)用。

本次講習(xí)班邀請到了一系列的學(xué)界大牛，包括：

韓家煒——UIUC 教授，ACM/IEEE Fellow
Philip S Yu——伊利諾伊大學(xué)芝加哥分校特聘教授，清華大學(xué)數(shù)據(jù)科學(xué)院院長，ACM/IEEE 會士
Wei Wang——UCLA 教授，KDD 2016 Service Award
胡祥恩——孟菲斯大學(xué)教授，華中師范大學(xué)教授、心理學(xué)院院長
James A. Evans——芝加哥大學(xué)社會學(xué)系教授
唐杰——清華大學(xué)副教授
沈華偉——中科院計算所研究員
石川——北京郵電大學(xué)教授
宋國杰——北京大學(xué)副教授
崔鵬——清華大學(xué)副教授
劉知遠——清華大學(xué)助理教授
趙鑫——中國人民大學(xué)副教授
楊洋——浙江大學(xué)助理教授

三天的時間里，在社交網(wǎng)絡(luò)和數(shù)據(jù)挖掘領(lǐng)域覆蓋的范圍內(nèi)，13位老師分別講述了一個或幾個不同的研究方向，可謂場場干貨。尤其是韓家煒教授和Philip教授兩位學(xué)界大牛，從他們的報告可以看出，雖然他們講的概念不同，用的方法不同，但是他們做的方向基本一致，兩位學(xué)界巨擘的研究或許也代表了數(shù)據(jù)挖掘領(lǐng)域當(dāng)前的一個方向。

下面我們來回顧一下本次講習(xí)班的主要內(nèi)容（按分享時間順序總結(jié)，排名不分先后）。

Philip S Yu：Broad Learning via Fusion of Social Network Information

CCF ADL 87講習(xí)班回顧：韓家煒等13位大牛全方位解析社交網(wǎng)絡(luò)和數(shù)據(jù)挖掘

Philip 教授作為數(shù)據(jù)挖掘領(lǐng)域的頂級人物，在報告中詳細闡述了他多年來所倡導(dǎo)的一種概念——Broad Learning（廣度學(xué)習(xí)）。

CCF ADL 87講習(xí)班回顧：韓家煒等13位大牛全方位解析社交網(wǎng)絡(luò)和數(shù)據(jù)挖掘

他認(rèn)為在大數(shù)據(jù)的時代，我們不僅需要深度學(xué)習(xí)，更需要廣度學(xué)習(xí)。大數(shù)據(jù)并不是每個數(shù)據(jù)都很大或者都很復(fù)雜，除了大數(shù)據(jù)外還有很多數(shù)據(jù)集可以利用。在大數(shù)據(jù)時代各種各樣的數(shù)據(jù)都是可以利用的，為了更好地利用這些數(shù)據(jù)，我們需要定義和獲取相關(guān)的有用數(shù)據(jù)，然后設(shè)計一種模型將異質(zhì)數(shù)據(jù)源融合成起來，再從這些數(shù)據(jù)源中挖掘信息。

廣度學(xué)習(xí)與深度學(xué)習(xí)的區(qū)別在于，深度學(xué)習(xí)的「深」來源于模型層數(shù)，廣度學(xué)習(xí)的「廣」來源于數(shù)據(jù)以及模型的多樣。

根據(jù)對 Broad Learning 的考慮，Philip 認(rèn)為廣度學(xué)習(xí)大致分為三類：

1）對同一個實體上的不同類型信息進行處理，這包括 multi-view，multi-model、multi-source Learning；
2）對不同但相似的實體上的信息的處理，這包括 transfer learning；
3）對通過復(fù)雜網(wǎng)絡(luò)關(guān)系相關(guān)的不同類型實體的信息進行處理，這包括異質(zhì)信息網(wǎng)絡(luò)（Heterogeneous Information Network，HIN）融合。

Philip 教授認(rèn)為 Broad Learning 的關(guān)鍵任務(wù)有兩點：1、信息融合；2、知識發(fā)現(xiàn)。而其挑戰(zhàn)則是，怎么融合以及怎么挖掘知識？因為現(xiàn)在信息融合的方法會隨著不同的數(shù)據(jù)而變，此外在特定的知識發(fā)現(xiàn)任務(wù)中并不是所有的數(shù)據(jù)都是有用的。

隨后 Philip 教授通過三個例子來詳細闡述 Broad Learning 的概念，分別為：POI 預(yù)測；跨社交網(wǎng)絡(luò)平臺的知識融合；地點預(yù)測。

唐杰：Social Network Mining

CCF ADL 87講習(xí)班回顧：韓家煒等13位大牛全方位解析社交網(wǎng)絡(luò)和數(shù)據(jù)挖掘

唐杰在講座中首先分析了什么是社交網(wǎng)絡(luò)，以及社交網(wǎng)絡(luò)的發(fā)展歷史；隨后他講解了如何做社交網(wǎng)絡(luò)和數(shù)據(jù)挖掘的研究、模型及應(yīng)用。

CCF ADL 87講習(xí)班回顧：韓家煒等13位大牛全方位解析社交網(wǎng)絡(luò)和數(shù)據(jù)挖掘

唐杰認(rèn)為社交網(wǎng)絡(luò)就是由一組個人（節(jié)點）組成的圖形，并由一個或多個相互依賴（「邊」）聯(lián)系起來。這是一個通過收集和分析大規(guī)模數(shù)據(jù)來揭示個人或社會行為模式的領(lǐng)域。

CCF ADL 87講習(xí)班回顧：韓家煒等13位大牛全方位解析社交網(wǎng)絡(luò)和數(shù)據(jù)挖掘

唐杰認(rèn)為若想理解社交網(wǎng)絡(luò)是什么，就需要理解整個 internet 的發(fā)展。Internet 的發(fā)展主要有三個階段。在信息時代 1.0 時，網(wǎng)絡(luò)就是由一系列頁面（文檔）和頁面上的鏈接構(gòu)成的一個結(jié)構(gòu)。第一個時代一方面越來越多的傳統(tǒng)行業(yè)不斷地加入，于是產(chǎn)生了大數(shù)據(jù)；同時還伴隨著產(chǎn)生了云計算。在信息時代 2.0，用戶加入了網(wǎng)絡(luò)當(dāng)中，「今日頭條」就是這方面典型的應(yīng)用。在信息時代 3.0，用戶開始在網(wǎng)絡(luò)上了，用戶之間形成了交互，這就形成了信息空間和用戶空間，通過兩個空間信息的融合將產(chǎn)生智能。

有了數(shù)據(jù)，怎么去發(fā)現(xiàn)并充分利用大數(shù)據(jù)的價值，則需要新型數(shù)據(jù)挖掘和分析方法，以能夠從非結(jié)構(gòu)化數(shù)據(jù)中獲得知識和洞察力。

關(guān)于社交網(wǎng)絡(luò)研究的歷史，唐杰從 1967 年 Milgram 提出的六度空間講起，并介紹了 Weak Tie（1973）、鄧巴數(shù)（1992）、結(jié)構(gòu)洞（1995）、HITS（1997）、小世界（1998）、Scale Free（1999）、Community Detection（2002）、Link Prediction（2005）、Spread of Obesity（2007）、Social Influence Analysis（2009）等。

隨后唐杰以如何將 AI（「小木」）應(yīng)用到慕課以及如何通過手機發(fā)紅包的數(shù)據(jù)研究社會現(xiàn)象兩個具體案例，講述了如何做社交網(wǎng)絡(luò)的問題研究。

在社交網(wǎng)絡(luò)研究的計算模型方面，唐杰以「Unifying Network Embedding」為主題，介紹了 DeepWalk, LINE, PTE, and node2vec 以及 NetMF 等方法。

最后唐杰以他近期所做的研究 AMiner 為例詳細講述社交網(wǎng)絡(luò)的研究如何應(yīng)用到實際問題當(dāng)中。他還介紹了一些有意思的應(yīng)用，包括預(yù)測紅包流向、學(xué)堂在線伴讀機器人「小木」。

宋國杰：社交網(wǎng)絡(luò)影響最大化

CCF ADL 87講習(xí)班回顧：韓家煒等13位大牛全方位解析社交網(wǎng)絡(luò)和數(shù)據(jù)挖掘

宋國杰首先介紹了社交網(wǎng)絡(luò)最大化的基本背景知識，然后對「影響最大化」做出了定義，并舉出兩個有代表性的算法研究和兩個他們做的一些工作。最后總結(jié)了一些該領(lǐng)域的未來方向。

所謂擴散就是某個事物在社會系統(tǒng)的成員中通過某種渠道隨著時間而不斷有更多的人受到影響，用病毒的傳播可以更好地理解這個概念，例如 SARS 的爆發(fā)、電腦蠕蟲等。而在做社交網(wǎng)絡(luò)的人眼中，類似地就是去研究信息如何在社交網(wǎng)絡(luò)平臺中進行傳播，以及如何才能做到傳播影響力的最大化（以便做廣告等）。

影響最大化一般可以分成幾個的模型，例如離散時間模型、連續(xù)時間模型、競爭擴散模型或者其他諸如流行病傳播模型、投票模型等。其中在離散時間模型大類中 Threshold Model 和 Cascade Mode 兩個模型最為基本。

當(dāng)給定一個模型時，最優(yōu)化的問題有例如：

1、該如何選擇一系列用戶，給他們一些打折券，最后能使更多的用戶受到影響？
2、該選擇那些人群去接種疫苗，能夠最小化傳染？
3、如果有一些傳感器，該如何放置它們以能加速檢測到傳染病？

在研究的算法部分，宋國杰詳細介紹了 Lazy Evaluation 算法和 MIA Heuristic 算法。

隨后宋國杰介紹了他們做的四項工作，分別為：

1、如何降低影響力計算所消耗的成本；
2、如何加速收斂過程；
3、當(dāng)不同信息傳播時會發(fā)生什么？
4、當(dāng)動態(tài)社會網(wǎng)絡(luò)中我們會遇到什么。

最后宋國杰說，在實際企業(yè)應(yīng)用中并不一定會需要效率更高的算法，而是傾向于使用比較成熟、穩(wěn)定的算法。因此如何在具體的場景中找到好的應(yīng)用點，是驅(qū)動這個方面進一步的研究的關(guān)鍵之處。

趙鑫：面向社交媒體平臺的商業(yè)知識挖掘

CCF ADL 87講習(xí)班回顧：韓家煒等13位大牛全方位解析社交網(wǎng)絡(luò)和數(shù)據(jù)挖掘

趙鑫主要從應(yīng)用的視角來看社交媒體平臺的研究。他首先講解了社交媒體的研究動機，隨后分別介紹了用戶意圖分析、用戶畫像構(gòu)建、用戶需求推薦三個研究內(nèi)容，最后趙鑫給出了相關(guān)研究的一些展望。

社交大數(shù)據(jù)無處不在，且與用戶息息相關(guān)（社交身份與真實身份綁定）；用戶不斷產(chǎn)生的社交大數(shù)據(jù)蘊含了豐富的商業(yè)價值，如何挖掘這些數(shù)據(jù)背后的知識則極為重要。傳統(tǒng)的電商推薦系統(tǒng)往往只能在自己的站內(nèi)進行推薦服務(wù)，一旦離開了自己的平臺，它們的推薦服務(wù)就無能為力了。但用戶可能會在自己其他的一些社交平臺中暴露個人的購買需求，例如在微博上發(fā)一條「要換手機了，求推薦」，如果能夠挖掘出這樣的信息，利用社交狀態(tài)信息實時地發(fā)現(xiàn)用戶購買意圖則將解決傳統(tǒng)電商這方面的不足。

用戶購買意圖識別根據(jù)領(lǐng)域有食物、出行、教育等。它不適用于有監(jiān)督學(xué)習(xí)，最多只能做半監(jiān)督學(xué)習(xí)。在用戶意圖分類中，可以構(gòu)建整體模型的正則化框架，包括文本-關(guān)鍵詞正則化、文本-文本正則化、關(guān)鍵詞-關(guān)鍵詞正則化以及原始估計。

在用戶畫像中，傳統(tǒng)的應(yīng)用系統(tǒng)可能會遇到新用戶的可用信息太少等問題；在這方面如果能夠利用社交媒體平臺上的信息，則能夠很好地解決這些問題。

前兩步（意圖識別和用戶畫像）的工作是為了第三步——用戶需求推薦。基于受眾的產(chǎn)品推薦需要考慮兩個維度：性別和年齡，同時產(chǎn)品在受眾上也有一定的分布、受眾還有一定的圖分布。

趙鑫認(rèn)為他應(yīng)當(dāng)圍繞數(shù)據(jù)建立應(yīng)用問題，通過數(shù)據(jù)+弱知識+模型得到強知識。此外他認(rèn)為隨著網(wǎng)絡(luò)實名制的進行，社交身份的形成與刻畫也是一個非常重要的研究方向。

James A. Evans：Team Structure and Scientific Advance

CCF ADL 87講習(xí)班回顧：韓家煒等13位大牛全方位解析社交網(wǎng)絡(luò)和數(shù)據(jù)挖掘

James 作為一個社會學(xué)家，在報告中分享了他們關(guān)于團隊合作（眾包和大團隊協(xié)作）的研究。

他首先舉了一個例子，在 2010 年貝克教授和他的團隊要重新設(shè)計酶催化 Diel-Alder 反應(yīng)，但是效果不佳。他們就開發(fā)了一個名叫 Foldit！的蛋白質(zhì)游戲，不久研究人員就收回了近 20 萬個設(shè)計方案，酶的活性提高了 18 倍之多。這種眾包的現(xiàn)象也能復(fù)制到計算機領(lǐng)域呢，例如訓(xùn)練無監(jiān)督（有監(jiān)督）機器學(xué)習(xí)算法或者更復(fù)雜的并行任務(wù)？

James 的團隊研究了 1954 年到 2014 年間 5000 萬多份論文、專利和軟件產(chǎn)品，以此從中分析團隊合作特點。他們發(fā)現(xiàn)小的團隊在定性工作中表現(xiàn)更佳，大的團隊則在定量工作上更具優(yōu)勢。

Wei Wang：Modeling Dynamic Networks

王偉教授在報告中主要介紹了他們實驗組 ScAi 在動態(tài)網(wǎng)絡(luò)中的研究。

很多數(shù)據(jù)是以網(wǎng)絡(luò)的形式存在的，例如社交網(wǎng)絡(luò)、互聯(lián)網(wǎng)、蛋白質(zhì)交互網(wǎng)絡(luò)、道路網(wǎng)絡(luò)、引用率網(wǎng)絡(luò)等。

考慮到網(wǎng)絡(luò)的動態(tài)性，王偉介紹了將網(wǎng)絡(luò)結(jié)構(gòu)描述成時間的一個函數(shù)的方法：時間因式分解網(wǎng)絡(luò)模型。也即將矩陣因式分解為兩個時間依賴的矩陣。方法很簡單，但卻很有效，因為當(dāng)計算的時候不用每次都從頭重新計算。這種方法的應(yīng)用不分有向圖還是無向圖。在 Link Prediction 問題可以看出這種方法的優(yōu)勢。對于 Anomaly 的檢測，則可以直接通過相鄰時間邊的差異來計算。

除了時間的一致性，還有空間一致性的考慮。通過考慮鄰近邊之間的相互影響，把空間的因素也考慮進動態(tài)網(wǎng)絡(luò)當(dāng)中。

通過考慮時間和空間的動態(tài)性，則能夠更好地預(yù)測網(wǎng)絡(luò)的發(fā)展。隨后王偉教授講述了具有時空一致性的邊預(yù)測（LIST）以及動態(tài)屬性網(wǎng)絡(luò)（DANE）和使用動態(tài)網(wǎng)絡(luò) embedding 的異常檢測（NetWalk）。

胡祥恩：語義表示和分析（SRA）以及潛在的應(yīng)用

CCF ADL 87講習(xí)班回顧：韓家煒等13位大牛全方位解析社交網(wǎng)絡(luò)和數(shù)據(jù)挖掘

胡祥恩教授主要從認(rèn)知心理學(xué)的角度來考慮語義表示和分析（SRA），并介紹了相關(guān)的一些應(yīng)用。

胡祥恩認(rèn)為數(shù)據(jù)和信息不能劃等號。從心理學(xué)的角度考慮的重點不是大的數(shù)據(jù)，而是人的行為。

胡祥恩介紹了他們在智能導(dǎo)學(xué) AutoTutor 方面的研究。所謂智能導(dǎo)學(xué)就是用認(rèn)知心理學(xué)中學(xué)習(xí)和記憶的原理來設(shè)計計算機的系統(tǒng)，使計算機的系統(tǒng)能跟人進行互動。胡祥恩的研究與其他研究團隊的智能導(dǎo)學(xué)研究主要的區(qū)別在于，更強調(diào)自然語言的交互。他在報告中詳細介紹了智能導(dǎo)學(xué)的框架及應(yīng)用。

CCF ADL 87講習(xí)班回顧：韓家煒等13位大牛全方位解析社交網(wǎng)絡(luò)和數(shù)據(jù)挖掘

自然語言的交互首先就需要創(chuàng)建語義空間，這包括首先構(gòu)建語料庫，其次將語料庫編碼進語義空間，最后才是應(yīng)用。針對一個給定的應(yīng)用（尤其是教育領(lǐng)域），胡祥恩認(rèn)為我們應(yīng)當(dāng)選著最好的語料庫、用最好的編碼方法，用在最恰當(dāng)?shù)膽?yīng)用上，否則就是對孩子生命的不負責(zé)任。

隨后他就 AutoTutor 中如何進行選擇語料庫、編碼和應(yīng)用做出了詳細講解。

石川：異質(zhì)信息網(wǎng)絡(luò)建模與分析

石川首先回顧了社交網(wǎng)絡(luò)的三個發(fā)展階段：2000 年以前的對象特征挖掘、2000 年之后基于交互式網(wǎng)絡(luò)出現(xiàn)的鏈接關(guān)系挖掘，以及隨后出現(xiàn)的對象之間有多種復(fù)雜關(guān)系的異質(zhì)信息網(wǎng)絡(luò)挖掘。

隨后他介紹了異質(zhì)信息網(wǎng)絡(luò)的基本概念，并對比了異質(zhì)信息網(wǎng)絡(luò)與同質(zhì)信息網(wǎng)絡(luò)、多重關(guān)系網(wǎng)絡(luò)、復(fù)雜網(wǎng)絡(luò)之間的異同。他認(rèn)為挖掘異質(zhì)信息網(wǎng)絡(luò)的優(yōu)點在于異質(zhì)信息網(wǎng)絡(luò)無處不在，包含了大量豐富的語義和綜合信息；但同時也面臨著許多挑戰(zhàn)，例如結(jié)構(gòu)復(fù)雜以及語義難挖掘等。

隨后石川通過幾個具體的實例來介紹如何進行異質(zhì)網(wǎng)絡(luò)數(shù)據(jù)挖掘，分別為相似性度量（HeteSim）、推薦（SemRec）和惡意軟件檢測（HinDriod）。其中最后一個為今年 KDD 的最佳應(yīng)用論文。

最后石川總結(jié)了異質(zhì)信息網(wǎng)絡(luò)研究的現(xiàn)狀和未來研究的方向。他認(rèn)為異質(zhì)信息網(wǎng)絡(luò)仍然是一個年輕的、有前途的研究領(lǐng)域。對于大數(shù)據(jù)的 5V（Volume、Velocity、Variety、Veracity 和 Value），異質(zhì)信息網(wǎng)絡(luò)對其中的多樣性（Variety）將有很大的促進。其挑戰(zhàn)在于如何解決更復(fù)雜的問題（例如知識圖譜）、如何變得更加強大以及如何處理更大的數(shù)據(jù)。當(dāng)然異質(zhì)信息網(wǎng)絡(luò)處理中也有很多機會，包括解釋、表示和分析。石川整理了異質(zhì)信息網(wǎng)絡(luò)領(lǐng)域較為重要的論文資料，詳細信息可以訪問石川的個人主頁。

崔鵬：網(wǎng)絡(luò)嵌入：在向量空間中啟用網(wǎng)絡(luò)分析和推理

CCF ADL 87講習(xí)班回顧：韓家煒等13位大牛全方位解析社交網(wǎng)絡(luò)和數(shù)據(jù)挖掘

崔鵬在報告中主要介紹了他們圍繞網(wǎng)絡(luò)嵌入的一些工作。崔鵬介紹說，現(xiàn)在大數(shù)據(jù)的體量和計算機的計算能力都在呈指數(shù)增長，如果按照這種趨勢發(fā)展，那么對大數(shù)據(jù)的研究將不成問題。

CCF ADL 87講習(xí)班回顧：韓家煒等13位大牛全方位解析社交網(wǎng)絡(luò)和數(shù)據(jù)挖掘

但是現(xiàn)實的數(shù)據(jù)之間是存在關(guān)聯(lián)的，這就導(dǎo)致數(shù)據(jù)的增長不僅僅是指數(shù)，而是指數(shù)的指數(shù)。

CCF ADL 87講習(xí)班回顧：韓家煒等13位大牛全方位解析社交網(wǎng)絡(luò)和數(shù)據(jù)挖掘

對于這種大規(guī)模的網(wǎng)絡(luò)數(shù)據(jù)，他認(rèn)為由于 link 的存在，就會造成由迭代和組合造成的復(fù)雜性、由耦合帶來的可平行性以及由節(jié)點間的從屬關(guān)系帶來的機器學(xué)習(xí)應(yīng)用的一些問題。

崔鵬隨后介紹了將網(wǎng)絡(luò)嵌入到一個向量空間，那么關(guān)于 node importance、community detection、Network distance、link Prediction 等等問題都可以轉(zhuǎn)化為向量空間中的問題。如何將網(wǎng)絡(luò)嵌入到向量空間呢？崔鵬認(rèn)為有兩個目標(biāo)：1、能否從向量空間重構(gòu)原網(wǎng)絡(luò)；2、向量空間是否支持網(wǎng)絡(luò)表示。

介紹完這些背景知識后，崔鵬介紹了他們最近的兩項工作。其一為從更復(fù)雜結(jié)構(gòu)角度考慮的 Hyper-network Embedding，其二為從更多挑戰(zhàn)性的特性角度考慮的 Dynamic Network Embedding。

崔鵬認(rèn)為現(xiàn)實應(yīng)用中網(wǎng)絡(luò)數(shù)據(jù)還遠沒有被挖掘，主要面臨著復(fù)雜性和可擴展性的瓶頸。對這一問題最本質(zhì)的解決就是網(wǎng)絡(luò)表示學(xué)習(xí)，而網(wǎng)絡(luò)嵌入則被證明是一個有前景的方法，但仍然還有很長的路要走。

沈華偉：在線社交媒體中的信息傳播預(yù)測

CCF ADL 87講習(xí)班回顧：韓家煒等13位大牛全方位解析社交網(wǎng)絡(luò)和數(shù)據(jù)挖掘

沈華偉主要從信息傳播預(yù)測的角度來講述，報告內(nèi)容主要分為兩個部分。

沈華偉首先分享了影響力最大化的研究。所謂影響力最大化，就是給定一個社會網(wǎng)絡(luò)找到一個尺寸固定的子節(jié)點集合，最大限度地擴大影響力。對于這項研究有兩個主要問題：如何確定人際影響節(jié)點間的傳播概率？如何設(shè)計高效、準(zhǔn)確的影響力最大化算法？現(xiàn)存的算法有 Greedy 算法、Heuristic 算法等，但是它們面臨著可擴展性-準(zhǔn)確性的困境。沈華偉他們的解決方法就是在蒙特卡洛模擬中重用相同的集合，并提出了 StaticGreedy 算法。

隨后沈華偉介紹了傳播預(yù)測。對于傳播預(yù)測現(xiàn)存的方法有兩大類：feature-based methods 和 temporal analysis。但是這些方法忽視了人群動態(tài)是一個反映集體參與的過程。于是他們提出一種 process-based 方法。他認(rèn)為群體動態(tài)是一個 arrival process 能夠捕獲一個信息如何積累關(guān)注，基于特征的方法將會被合并到特征學(xué)習(xí)方法中。

在報告的最后，沈華偉做出了兩個預(yù)測：

1、在未來會由 feature-engineering 變到 feature-learning；
2、明年社會網(wǎng)絡(luò)將會成為突破的一年。

劉知遠：語言表示學(xué)習(xí)與計算社會科學(xué)

CCF ADL 87講習(xí)班回顧：韓家煒等13位大牛全方位解析社交網(wǎng)絡(luò)和數(shù)據(jù)挖掘

劉知遠的基本觀點是：計算社會科學(xué)研究比的是「想法」。他認(rèn)為語言是研究人類社會的重要角度，他舉了很多有意思的例子。例如哈佛大學(xué)研究團隊利用 google books 并掃描識別的 1800 年到 2000 年之間的 500 萬種出版物，通過不同關(guān)鍵詞使用頻度隨時間的變化，分析人類文化演進特點；斯坦福大學(xué) Leskovec 團隊收集 9 千萬篇新聞文章，利用引號抽取流行語句作為模因，通過跟蹤模因使用頻率變化能夠及時有效地把握美國政治、經(jīng)濟和文化生活。此外還有研究在線社區(qū)中語言使用變遷模式、利用名人出生死亡信息來研究文化中心變遷、研制微博關(guān)鍵詞應(yīng)用。劉知遠認(rèn)為以上這些都是「前表示學(xué)習(xí)時代」——基于符號的表示，這些研究中都是把沒個詞表示為 one-hot 的模型。這種表示模型不能表示不同詞之間的關(guān)系。隨后他介紹了分布式表示學(xué)習(xí)，在這種表示中對象均被表示為稠密、實值、低維向量；向量之間的距離則能夠表示不同詞之間的關(guān)系。

基于這種表示，word2vec 的學(xué)習(xí)模型開始發(fā)展。這種學(xué)習(xí)模型在詞匯相似度計算上有非常好的效果，同時還能習(xí)得詞匯間隱含關(guān)系、發(fā)現(xiàn)詞匯語義層級、建立跨語言詞匯表示、建立視覺-文本聯(lián)合表示、檢測詞匯語義變遷。

隨后劉知遠介紹了一份發(fā)表在《nature》上的來自認(rèn)知科學(xué)的研究成果，即語言分布式表示在大腦中的體現(xiàn)，利用分布式表示繪制了詞匯的大腦地圖。研究發(fā)現(xiàn)不同的詞對腦區(qū)的激活并不是局限在某一個腦區(qū)，而是分布在大腦各個部分；意義相關(guān)的詞匯所激活的大腦區(qū)域相似。

最后劉知遠還詳細講述了計算社會科學(xué)的研究，包括融合 HowNet 的詞義表示、知識圖譜等。他認(rèn)為分布式表示提供了比符號表示更加強大的計算能力，具有更強更深的洞察能力，但關(guān)鍵也看如何能創(chuàng)造性地用起來。

楊洋：社交網(wǎng)絡(luò)中的群體用戶行為分析與表示學(xué)習(xí)

楊洋的報告內(nèi)容主要有兩個主題內(nèi)容，其一為群體用戶的行為分析，其二是面向網(wǎng)絡(luò)的表示學(xué)習(xí)。

針對群體用戶的行為分析，楊洋介紹了三個具體的研究案例。案例一從社會學(xué)角度出發(fā)，研究移民者的都市夢——感知移民群體的行為模式，并給出城市規(guī)劃導(dǎo)向性的建議。在這個案例中，楊洋通過使用上海全網(wǎng)通話的 5400 萬用戶的 7 億條元數(shù)據(jù)（無通話內(nèi)容，只有撥打和接聽數(shù)據(jù)）研究了不同群體（本地人、老移民者、新移民者）的行為模式差異。他們發(fā)現(xiàn)新移民者融入新環(huán)境有三種模式：朝向本地人靠攏，朝向老移民者靠攏和移民失敗。他們發(fā)現(xiàn)移民者抵達都市后的前兩周的行為模式?jīng)Q定了他最終是否能夠移民成功。

隨后他講述了他在做的一個電信領(lǐng)域的案例——通過用戶通話記錄來判斷一個用戶是否是電話詐騙分子并挖掘詐騙分子的詐騙策略。數(shù)據(jù)集與上面的案例相同，但構(gòu)建了一個有向圖。他們發(fā)現(xiàn)詐騙分子在打出電話的頻率比普通用戶要高 200 倍之多、詐騙分子打出電話對象之間的關(guān)系極弱。在時間分布上發(fā)現(xiàn)詐騙分子打電話的時間分布與上班族類似。

案例三是金融學(xué)領(lǐng)域的——根據(jù)用戶通話模式來判斷借貸是否會逾期還款的金融風(fēng)控，即給定一名沒有任何借款記錄的新客戶通過他的通話記錄來判斷他是否會逾期還款。

在總結(jié)社交網(wǎng)絡(luò)群體用戶行為分析的研究時，楊洋說很多情況下我們并不需要相關(guān)的專業(yè)知識，但需要了解用戶的行為。他舉例說為了研究王者榮耀用戶的行為，他和他的學(xué)生打了一個月的王者榮耀。

隨后楊洋介紹了他們組兩篇 AAAI 2018 收錄文章的內(nèi)容。其一為 Dynamic Network Embedding by Modeling Triadic Closure Process，介紹了愛你想動態(tài)網(wǎng)絡(luò)的表示學(xué)習(xí)；其二為 Representation Learning for Scale-free networks，介紹了面向無尺度網(wǎng)絡(luò)的表示學(xué)習(xí)。

韓家煒：大規(guī)模語料庫的多維分析

CCF ADL 87講習(xí)班回顧：韓家煒等13位大牛全方位解析社交網(wǎng)絡(luò)和數(shù)據(jù)挖掘

韓家煒在報告中分享了他們在將大數(shù)據(jù)變成 Actionable Knowledge 的一些研究。首先他介紹了如何去做。

CCF ADL 87講習(xí)班回顧：韓家煒等13位大牛全方位解析社交網(wǎng)絡(luò)和數(shù)據(jù)挖掘

在現(xiàn)在的大數(shù)據(jù)中有 80% 的數(shù)據(jù)都是以無結(jié)構(gòu)的文本、圖片、社交關(guān)系等表示。韓家煒介紹說他們的研究組有三個 keywords，分別為：結(jié)構(gòu)化（structuring）、網(wǎng)絡(luò)化（Networking）和挖掘（Mining）。因此他們的工作有三步曲，首先是怎么從文本數(shù)據(jù)中挖掘出隱含的結(jié)構(gòu)；其次是將文本轉(zhuǎn)化為網(wǎng)絡(luò)和 TextCube；最后是從網(wǎng)絡(luò)和 TextCube 中挖掘出 Actionable Knowledge。

在挖掘數(shù)據(jù)之前，先將數(shù)據(jù)轉(zhuǎn)化為網(wǎng)絡(luò)和 TextCube，韓家煒認(rèn)為這樣處理更 powerful，他舉了一個論文 Co-Authors 預(yù)測的例子說明這個問題。

隨后韓家煒介紹了近期的幾項從無結(jié)構(gòu)文本中挖掘結(jié)構(gòu)的工作。首先他介紹了短語挖掘的工作，即把原始的語料庫翻譯成高質(zhì)量的短語和分段的語料庫。其次是讓短語有意義，他介紹了實體/關(guān)系的解析工作。隨后，他介紹了 MetaPAD 工作，即元模式驅(qū)動的來自大量文本語料庫的屬性發(fā)現(xiàn)。最后他還介紹了多方面分類挖掘（Multifaceted Taxonomy Mining）。

做以上這些研究的目的是用來建立一個多維的 TextCube。韓家煒介紹了如何將文件正確地放入一個 Cube Cell，并用大量數(shù)據(jù)和少量 labels來構(gòu)建 TextCubes。韓家煒認(rèn)為要想把 Big Data 變成 Big Knowledge，很重要的一條就是要有結(jié)構(gòu)；現(xiàn)在這種結(jié)構(gòu)有兩種，其一是異質(zhì)網(wǎng)絡(luò)，其二是 TextCube；用這兩種結(jié)構(gòu)去挖掘出知識是很 powerful 的；現(xiàn)在如何將異質(zhì)網(wǎng)絡(luò)和 TextCube 結(jié)合起來，還沒有解決。

CCF ADL 87講習(xí)班回顧：韓家煒等13位大牛全方位解析社交網(wǎng)絡(luò)和數(shù)據(jù)挖掘

從無結(jié)構(gòu)數(shù)據(jù)到知識是一條很長的路，韓家煒說近二十年所做的工作正是沿著這條路走的；現(xiàn)在這條路還只是一條小路，期望最終能成為一條康莊大道。

AI科技評論隨后將整理韓家煒完整報告，敬請期待！

Panel

除了這些精彩的報告外，ADL 還組織了一場精彩異常的 Panel 環(huán)節(jié)。Panel 上有韓家煒、劉知遠、石川、沈華偉、楊洋以及從現(xiàn)場選出的一位學(xué)員。下面雷鋒網(wǎng)整理出 Panel 環(huán)節(jié)的部分精彩問答。

CCF ADL 87講習(xí)班回顧：韓家煒等13位大牛全方位解析社交網(wǎng)絡(luò)和數(shù)據(jù)挖掘

提問：社交網(wǎng)絡(luò)研究的挑戰(zhàn)是什么？

劉知遠認(rèn)為社交網(wǎng)絡(luò)研究的挑戰(zhàn)有兩個層面，第一是：知識是一個重要的切入角度；第二，從技術(shù)上 embedding 和 Deep learning 會成為重要的技術(shù)手段。

韓家煒認(rèn)為從無結(jié)構(gòu)數(shù)據(jù)中提取出有結(jié)構(gòu)數(shù)據(jù)，從結(jié)構(gòu)數(shù)據(jù)中提取出網(wǎng)絡(luò)和 textCube，以及從后兩者中提取出知識極為重要。要想自動化，很重要的一條就是從大量數(shù)據(jù)中挖掘出結(jié)構(gòu)來。

沈華偉提出一種比較新穎的觀點，我們總是把網(wǎng)絡(luò)化數(shù)據(jù) embedding 到一個空間中，那么是否可以反其道而行之呢？也即是把算子遷移到網(wǎng)絡(luò)上，還是把網(wǎng)絡(luò)數(shù)據(jù)遷移到算子上。

楊洋認(rèn)為無論是 embedding 還是社會計算學(xué)，做的算法都缺少可解釋性。

提問：如何和其他領(lǐng)域的學(xué)者的領(lǐng)域知識進行融合？

沈華偉認(rèn)為和其他領(lǐng)域的學(xué)者合作主要就三件事情：

1、看他們關(guān)心什么，我們能否幫上忙；
2、看他們研究的套路是什么，我們能否借鑒；
3、做完上面兩步，你就會發(fā)現(xiàn)其實大家做的都一樣，只是看問題的角度不同、語言不同。

所以其實一點都不難，關(guān)鍵是你抱著什么目的去做這個事。

提問：領(lǐng)域知識在當(dāng)前深度學(xué)習(xí)發(fā)展如此火熱下怎么應(yīng)用？

韓家煒認(rèn)為深度學(xué)習(xí)仍在發(fā)展。現(xiàn)在深度學(xué)習(xí)仍然需要大量 label data。所以如果能將領(lǐng)域知識和深度學(xué)習(xí)結(jié)合起來可能會讓學(xué)習(xí)更好。此外，現(xiàn)在很多學(xué)者在提出怎么去做小樣本數(shù)據(jù)的深度學(xué)習(xí)，所以現(xiàn)在一個很重要的矛盾就是 Big Data 和 Little Data 之間的矛盾。現(xiàn)在不是領(lǐng)域知識沒用，而是 Deep Learning 還沒有走到應(yīng)用領(lǐng)域知識這一步。

雷鋒網(wǎng)總結(jié)：本期 ADL 講習(xí)班由唐杰和劉知遠等老師組織，邀請了國內(nèi)外一眾大牛學(xué)者，包括數(shù)據(jù)挖掘領(lǐng)域頂尖學(xué)者韓家煒和Philip S Yu等教授，以及諸如胡祥恩、James A. Evans 等心理學(xué)和社會學(xué)的知名學(xué)者。三天的時間里，13位學(xué)者分別從各個角度對社交網(wǎng)絡(luò)和數(shù)據(jù)挖掘進行了詳細的、全方位的解讀。

從學(xué)員的角度來看，可以發(fā)現(xiàn)不僅僅是計算機學(xué)科的人對社交網(wǎng)絡(luò)和數(shù)據(jù)挖掘感興趣，一些心理學(xué)、管理學(xué)等專業(yè)的學(xué)生也前來聽講，甚至還包括許多高校老師、企業(yè)技術(shù)人員以及國家安全部門的一些人員。

有這么多的人對這一領(lǐng)域抱有濃厚的興趣，或許如沈華偉老師所預(yù)測的，明年社交網(wǎng)絡(luò)可能會是突破的一年。

本次課程早早就報滿，受場地限制并未提供更多名額，而且 CCF 還推出更多 ADL課程。為了讓更多人工智能愛好者、業(yè)界從業(yè)者、科研研究者們都能看到 CCF ADL 課程，人工智能培訓(xùn)平臺 AI慕課學(xué)院獲 CCF 獨家線上視頻版權(quán)，點擊報名鏈接或掃描下面?二維碼即可完整再現(xiàn)13位學(xué)者現(xiàn)場授課、交流的場景。

CCF ADL 87講習(xí)班回顧：韓家煒等13位大牛全方位解析社交網(wǎng)絡(luò)和數(shù)據(jù)挖掘