伴隨著中國走向世界,并且與世界的經濟社會往來越來越密切,各種來自全球的風險與挑戰層出不窮,僅僅從維護國家利益的角度來看,研究者在研究過程中納入全球視野是極有必要的。
大數據時代的到來,為研究者觀察全球社會的運作提供了極佳機遇,基于大數據的全球社會科學研究逐步有了可能。這將會極大地拓寬社會科學的研究視野,讓原本高度依賴本土經驗的社會科學研究不再只是“地方性知識”,可是具有整個星球意義上的普適性。
更為重要的是,所有基于大數據的研究,共享同樣的數據,研究的可重復性,可檢驗性得到極大提高,也有助于其研究結論廣為接受并得到推廣。
實際上,從全球比較的層面進行社會科學研究,在社會社科的奠基人那里就有了這樣的基因。
比如說,在馬克思對近現代社會的系統性研究中,全球視野是非常強的。馬克思在談分析1500年發現新大陸之后的世界體系時,最經典的名言莫過于說,舊金山、澳大利亞的金礦與遠東的茶葉生產、倫敦的股票市場的變化之間的緊密關聯,生產與貿易的全球化,讓世界整合成為一個有機關聯的體系。馬克思在《資本論》中分析資本主義、殖民主義的運作時,其全球比較視野,全球關聯的視野也一以貫之。因為馬克思深刻地認識到,要研究資本主義社會,在全球化進程已經開啟的時代,缺乏全球的眼光是完全不行的,只有將世界有機關聯起來進行研究,從世界體系的角度展開研究,我們才有可能獲得完整的知識。在全球化開啟的時代,沒有任何一個地方可以安于一隅,而會在政治、經濟、文化等諸多方面與全球化進程融為一體。
再比如說,在馬克斯.韋伯的體系中,全球比較的視野也體現的淋漓盡致。無論是《經濟與社會》,還是《比較宗教學研究》,還是他對理性化進程的分析,都顯示出高度的全球比較視野。為了說明新教對于資本主義產生的推動作用,他對西歐的天主教、中東的猶太教和伊斯蘭教、以及印度的佛教、遠東的儒教與道教進行了系統的觀察與比較,試圖從這樣一種全球比較的視野中獲得洞見。
可以說,這些學術大家為了論證其觀點的可接受性,拓展其理論的想象力,不遺余力地從全球經驗來力推其研究視野的拓展,將其理論的經驗邊界不斷拓寬,從而擺脫理論建構的“地方性知識”的困擾。
馬克思,韋伯的努力是值得敬佩的,也是難能可貴的。因為在經驗資料高度碎片化,尤其是不同語言之間經驗資料的閱讀等難題的限制,以及異域的經驗資料獲取難度較大時,這種努力就更顯得彌足珍貴,這不但需要理論家具有極強的社會學想象力,而且也需要有極強的經驗信息駕馭能力。故而,如果研究者沒有極強的學術獻身精神,以及敏銳的理論洞察力,要實現這些都是非常困難的。
而大數據時代的到來,拓展社會科學的新版圖,為全球社會學研究帶來了光明的前景。具體而言,大數據時代的到來從以下幾個方面推動了全球比較社會學研究。
一是互聯網作為全球信息的匯聚平臺出現,來自于全球的數據信息獲取具有了可能性,這為研究人類命運共同體的風險與挑戰提供了永無止境的海量信息。一統天下的互聯網,為世界各地的信息交融,社會經濟文化交流提供了統一的平臺,互聯網在不斷匯聚世界各個角落的信息,將原本老死不相往來的世界整合成為一個統一的平臺,來自世界各種語言的信息在此匯聚,層出不窮的數據產生。在當前,每半年產生的互聯網數據信息,等于過去一切時代人類所產生的信息的總和。這對于理解世界各個地方提供了數據來源。全球社會的生活世界高度整合進入互聯網之后,觀察世界各地的社會運作邏輯,以及比較世界不同角落人群的心理、行為傾向就具有了可行性。
筆者借助于GDELT數據庫,刻畫2015-2018年間世界上2610多個省的反移民指數。該圖清晰地反映,反移民浪潮主要發生在北美和西歐,即西方發達國家陣營,而且,在西歐,反移民指數的空間分布在西歐與中歐之間畫下了一道清晰的分界線,這條分界線大致是“丘吉爾”說說的從波羅的海到黑海之間的長長的“鐵幕”,也就是東西方世界對抗的分界線。
以GDELT數據庫為例,該數據庫從2015年開始系統運作,匯聚來自世界所有角落、具有實時性的網絡媒介信息,這些信息包括門戶網站、網絡新聞、廣告、廣播、博客、網絡論壇等,大致包含了全球30多萬個類似的媒介來源,以每15分鐘更新一次數據,并且將世界上65種語言中的信息進行匯聚,既通過將各種語言翻譯成英文進行處理的方式開展自然語言處理,也以自然語言處理的方式直接對不同語言的原始信息進行自然語言處理。自然語言處理主要包括概率主題模型、情感計算、實體分析等方面,并將這些自然語言處理的數據結果變成研究者可以直接計算的“半結構化數據”。
那么,研究者可以用這些具有全球性的數據庫做什么呢?根據研究者的不同興趣,可以從事完全不同的研究。筆者主要從全球比較社會學的角度,談談利用此數據庫的價值。
比如說,從研究人類社會的構成來看,該數據庫為對社會生活中最為主要的現象都做了分類,這些分類體系包括;
(1)有關人的分類的,包括語言、種族、階層、職業、宗教、所使用的貨幣等等,僅僅從這個角度看,該數據庫已經對于社會科學研究中所需要的最為主要的分類已經做了處理,而且隨著技術的進一步拓展,還可以進一步拓展分類體系。
(2)有關人類行為模式以及社會互動模式的,這些人類行為與互動模式的種類包含了社會生活中最為主要的類型,包括個體性的反社會行為、親社會行為,而關于互動模式的,既包括合作,沖突,以及群體性行為等。有關人類行為模式和社會互動模式的類型高達300多種。
(3)有關人類社會認知、社會情緒等社會心態的,在GDELT數據的GCAM數據庫下,總計有18種情感詞庫,用于從不同的角度測量人類的情緒與認知狀態。這對于研究原本難以量化的情感計算領域,提供極佳機遇。
如果從全球比較的角度來看,借助于GDELT的數據庫對世界各民族、各種語言的信息都有所涵蓋,那么該數據對于我們研究人類生態系統,以及人類社會系統如何運行,就具有了可行性。
二是層出不窮的來自于世界各地的數據庫被整合,或者原本無法被數字化(data)的信息(information)被數據化。這些來自于各種語言、各個民族的數據,也為研究者進行全球層面的比較提供了契機。與互聯網信息在空間上的超強廣度不同的是,這些信息可以在時間上具有極強的跨度。
GoogleBooks就是這樣的數據庫。谷歌圖書最初將歐美一些頂級大學的圖書館的館藏圖書進行掃描,逐步將其書籍來源進行擴充,至今已經掃描了世界上9種語言中的3000多萬冊圖書,這一進程還在繼續。人類要了解我們過去的歷史以及過去社會的運作邏輯,主要依賴于過去的文字記載。谷歌圖書目前的書籍來源在時間上可以擴展到1500年。借助于這些海量的圖書信息,及其有助于我們理解過去500年來人類社會運作的方方面面,而且,可以對主要文明和國家的歷史進行比較。
當然,該數據庫目前還沒有完全開發,目前主要用于做詞頻統計。可以設想,隨著該數據庫所納入的書籍信息不斷擴充,比如說從現在的3000萬冊(大致占古登堡印刷術以來人類出版書籍的10%左右),增加到2億冊左右(即占人類出版書籍的2/3),同時在文本信息的自然語言處理方面,也像GDELT數據庫那樣,從多個維度對數據信息進行提取,可以設想,該數據的威力對于研究全球史的意義與價值。可以毫不夸張地說,這一定會在史學研究領域帶來一場扎扎實實的研究方式革命。
借助于GoogleBooks,筆者曾經繪制了1800-1900這100年間世界貿易格局的變遷,以圓圈的大小反映各個城市在貿易格局中的重要性,以城市之間連線的粗細反映貿易互動的頻繁程度。左圖是1800-1810年(19世紀頭10年)的貿易格局,右圖是1890-1900年,即19世紀最后10年的貿易格局。19世紀初,最重要的貿易重鎮還是在亞歐大陸的中心城市之間,倫敦、羅馬、耶路撒冷構成了這個貿易體系的三個最為核心的節點,三者之間的共現頻率遠超其他城市;而到了19世界末,最重要的貿易節點已經變成了大西洋兩岸的城市,城市之間的雙邊貿易的集中程度降低了,貿易的總量在極大程度的增加的同時,卻分散到了更多的城市之間,而不是像19世紀初期那樣高度集中在少數幾個關鍵節點城市。
除了GDELT,GoogleBooks等天文量級的文本數據信息之外,來自于Facebook,Twitter,Wikipedia,Reddit等社交媒體數據、網絡論壇數據、網絡百科數據,無不可以從全球的層面幫助研究者從數據中獲取洞見,獲得對“人類生態系統”,或者說“人類命運共同體”的認知。
在大數據信息已在全球層面整合、在星球層面覆蓋、在各種語言中以指數級增長的背景下,如何從全球的層面提出有意義的問題,從冷冰冰的數據海洋中提取出服務于國家建設的洞見,在當今時代顯得尤為關鍵。
很顯然,當前世界意義的數據信息整合主要是由美國主導的,具體而言,是由谷歌、微軟等這樣的世界級企業主導的,這些大數據信息對于他們認識全球社會如何運作,并服務于其企業的資本運作是“如虎添翼”,同時也服務于其國家利益。而我國學界在這方面的反應目前還頗為遲鈍。在“信息就是情報,情報蘊含價值”的時代,我國學術界應該重新“開眼看世界”,這種“開眼看世界”不是像現在所流行的所謂的“國際視野”,而是說,將這種具有全球意義的大數據及其分析技術納入到我們的研究進程中,提升全球層面的信息駕馭能力,問題發現能力以及理論建構能力,擺脫地方性知識的困擾,提升中國社會科學的學術話語權。
編輯:潘雨許子妍徐榮婧