戴昀/中山大學社會學系
計算社會科學在近十年間蓬勃發展,在包括社會學的數個社會科學領域中,此類著作的數量,都在大約2012年左右開始明顯增長。計算社會科學,通常指的是運用計算方法及數位資料(如媒體與社群媒介內容、商業或行政活動紀錄、數位化的歷史資料等),探究人類行為的研究(Edelmann et al. 2020)。所謂的計算社會科學,並非在近年才橫空出世,與較為人熟知的「大數據」、「機器學習」等相關名詞類似,計算社會科學的發展,其實奠基於許多在1980年代或更早之前,即已發展出的統計模型,再加上近年數位資料的大量產出,以及電腦運算能力的進步,才逐漸被廣泛應用到更多的學科與研究領域中。
相較於其他社會科學領域如心理學、政治學、教育與商業研究等,計算社會科學在社會學領域中的發展,以發表著作的數量而言,是較為緩慢的 (Edelmann et al. 2020)。不過社會學的多個次領域中,如政治社會學、經濟社會學、知識社會學、人口研究等,都不乏應用計算社會科學方法的著作,其中亦包括本文的焦點:文化的社會學研究。文化社會學常被認為著重於理論與定義的探討,較少關注如何「測量」文化、意義及其相關概念的方法,亦較缺乏宏觀分析的方法與資料 (Bail 2014; DiMaggio et al. 2013; Mohr et al. 2020)。而上述各種新型態數位資料的出現,以及計算方法的進展,正為測量與探究文化的相關概念與模式,提供了一個新的契機;有學者 (Bail 2014) 便認為,相較於由研究者設計的問卷調查與訪談,在人類生活中自然產生的各種數位資料(如社群媒體上的貼文與留言),其實十分適合用以研究文化社會學首要關注的:社會生活中的各種「意義」。
本文簡介近年來在文化的社會學研究中,運用計算社會科學方法的實證研究。特別聚焦於以美國社會學家Richard Peterson為代表的「文化產製」(production of culture)取徑之相關研究,介紹計算社會科學方法,如何應用在研究文化物的產製過程與參與其中的行動者之行為模式上。本文主要介紹採用「非實驗式大數據研究」(江彥生、陳昇瑋 2016)方法的文化產製研究,尤其專注於文字與自然語言資料的使用方式。雖然非實驗式研究不若實驗式研究般,較能夠透過依照研究目的所設計的實驗,了解研究主題中的因果關係,且資料的可得性時常影響研究的範圍與主題,然而透過非實驗方式取得文字與自然語言資料的門檻,通常較實驗方法來得低,尤其對於設備與經費較為有限的學生與研究者,是較為友善的一類研究方法。
文字與自然語言資料已被廣泛運用在不同學科的研究與日常生活的應用中,例如近來廣受關注的ChatGPT,便是大量使用自然語言資料所發展出的產品。文字與自然語言資料的處理方法,近年逐漸發展成熟,即使沒有電腦科學背景的社會科學家們,也有能力自行處理這類資料,運用在人類行為的相關研究上。以下依序介紹研究者們如何運用文字/語言資料與計算社會科學方法,探究文化的生產、配銷與傳播,以及接收與消費過程中的各種動態。由於本文旨在簡介此類型的資料與相關方法的應用實例,方法的細節便要煩請讀者自行參閱各篇引用文章之內容。
文化的產製:電影、音樂與展覽
首先,在文化與藝術的生產方面,Francemone等人檢視各種電影類型(genre)的產製量及其長期趨勢、季節變動,以及叫好或叫座的程度。研究者以付費電影數據OpusData所提供的電影商業資料(如票房及預算)為基礎,再運用開放資源Open Movie Database API,取得IMDb網站上的數據(如上映日期、電影類型及評分等)。接著根據票房、預算及IMDb評論數,衡量每部電影「叫座」(popularity)的程度,而「叫好」(acclaim)的程度,則是根據電影的評價高低及其是否曾獲奧斯卡等影視獎項提名來衡量。透過相關係數的計算,他們發現確實有些電影類型(如動作片)較為賣座但不受評論者或獎項青睞,而另一些類型(如劇情片)則是叫好不叫座。再者,研究者運用迴歸分析,了解各電影類型在1997-2017年間的產製量變動,發現喜劇與羅曼史電影的數量逐年減少,而明顯逐年增加的則是紀錄片與傳記片。另外,在產製量的季節變動方面,透過卡方檢定,發現片商確實較常在夏天發行如冒險及科幻片等「叫座片」,而「叫好片」如傳記與劇情片,則常在秋冬發行。
而在音樂產製的研究方面,Dowd等人為瞭解COVID-19對該產業的影響,擷取了台灣、美國及希臘的三個城市在疫情爆發前後,共約兩年半的現場音樂表演節目表。透過簡單的描述統計,除了提供大流行病期間音樂場次的低落甚至歸零的實際數據,也具體呈現出大流行病對「非巨星」演出者的重創,以及迫使許多音樂場館結束營業的情況。另外,現場音樂表演節目表所提供的資訊(如演出者、演出場館、票價資訊等),也可用以了解產業中的創新情形:例如透過網絡分析,計算場館安排表演者的重複性,以檢視現場音樂產業中的創新與多樣性,較常來自哪些類型的場館 (Tai 2023)。
除了產製的數量或內容與類型的變動,學者也運用文字紀錄研究文化產製者的職業軌跡。例如,Fraiberger等人搜集了143個國家共36年的藝術展覽紀錄,結合拍賣價及市場估值的資料,總共包含近50萬名藝術家的展出紀錄,並透過藝術家間的共展網絡(coexhibition network)之建構,測量藝術展演機構(如美術館與藝廊)的聲譽。該研究發現藝術家們的起始展覽點,對他們未來的發展很重要:如果藝術生涯中的前幾個展覽始於高聲譽(位於網絡中心)的展演機構,未來便較有機會持續展出及擁有較高的經濟收益。簡言之,較高的起點有助於藝術生涯的成功。
文化與資訊的傳播:評論與審查
在文化或資訊的配銷與傳播之相關研究中,文字及自然語言資料亦受到許多學者採用,尤其是各類媒體的文字內容。以文化產製中有關「認受性」(legitimacy)與「神聖化」(consecration)的討論為例,許多研究者致力於了解文化藝術的「經典」是如何形成的。過去的研究大多同意評論人及其評論內容在此過程中的重要角色,然而研究資料時常侷限於少量的個案研究。新進發展的量化文字分析方法,正好能夠幫助研究者更廣泛地分析媒體上的大量評論內容,以了解所謂的經典,如何在相關資訊的傳播過程中被形塑出來。例如一個以前衛搖滾(prog rock)為例的研究中(Dowd et al. 2016),作者們便透過分析一個荷蘭前衛搖滾音樂網站上超過 5,000 篇的音樂評論,發現音樂評論人大量使用典型基準(benchmark)做為評論的標準。在評論某個相對較新的音樂作品時,常會使用過去的樂者做為比較的基準,而這些做為 benchmarks 的樂者便構成了所謂的「經典」,也就是在前衛搖滾這個樂種中居於頂層的群體。
除了傳統媒體與網站內容,社群媒體的發展亦使得廣大使用者生成的內容,成為許多研究者們的重要資料來源。在一個我所參與的研究中 (Tai and Fu 2020),便以微信公眾號的文章內容做為主要研究資料,透過檢視資訊傳播過程中,新興資訊守門人(新媒體及意見領袖)與資訊控制者(網路審查系統)的行動,探究中國的言論審查邏輯。我們以自行研發的 WeChatscope 系統,自 2018 年起持續收集數千個微信公眾號的每日發文,並記錄其中被系統刪除或自行刪除的文章。 透過主題模型(topic modeling)與隨機森林(Random Forests)計算方法,分析其中約 4,500 篇新聞或社會議題相關文章。與過去研究認為批評政府或鼓吹集體行動的文章才會遭到刪除的觀點不同,我們發現文章的詳盡性會使其被刪除的風險增高。此研究透過公開資料的取得及分析,盡力避免過去中國言論審查研究時常面臨的資料透明度問題。
文化的接收與消費:影視、飲食與閱讀
在文化的接收與消費方面,Goldberg等人以文化消費為例,探討界線跨越(boundary spanning)的實際意涵。有別於過去認為喜愛不同類型文化物的「文化雜食者」是樂於跨越界線的閱聽人,作者們認為,若將文化的界線跨越以多樣性(variety)與非典型性(atypicality)兩個維度分別討論,那麼當人們對多樣性的偏好增加時,他們對非典型性的偏好會降低。研究者們運用Netflix與Yelp網站上各電影及餐廳的類別標籤(電影及料理類型),以及消費者評分等資訊,根據超過十萬名消費者的餐廳與電影評論紀錄,證實了上述看法。
另外,Hoffman則透過文化消費模式,探究意識形態及政治傾向的形成與變動。他使用紐約社會圖書館(NYSL)的公開資料:超過一千位18世紀紐約菁英們的借閱紀錄,配合當時館藏書籍的文字內容,以及由其他歷史資料(如紐約市民名錄、報紙、選舉資料)蒐集而來的讀者背景資訊(如性別、職業、政治傾向等),以網絡分析方法,根據書籍的語意相似性建構出當時館藏的內容結構,並根據借閱紀錄描繪出不同政治傾向者之閱讀習慣。他發現不同政治立場的讀者喜歡閱讀的書不一樣,例如,聯邦黨成員閱讀較多英國思想家的作品,而民主共和黨成員則主要是法國哲學家的讀者。另外,該研究亦發現在較晚近的時期,閱讀習慣依社會階級的界線而產生分界。
小結
本文以文化產製相關主題為例,簡介近年來運用大量文字資料與計算社會科學方法,探究文化之產製、傳播與消費的數個研究案例。此類方法較能克服過往須以大量人力閱讀歸納文字資料的困難,幫助研究者們進行更全面或更系統性的觀察和分析工作。當然,這樣的研究方式有其限制,例如較難以回答「為什麼」的提問,並且時常無法呈現細節。不過此類研究方式,能夠提供較為宏觀的視野,幫助我們看見森林廣闊的樣貌,且不妨礙研究者們結合其他方法去觀察每棵樹,傾聽每個人的故事。另外,當我們面對較難親近的研究場域,例如難以親自造訪的田野,或大流行病期間無法與人接觸的時期,此類數據方法亦可做為資料收集的替代方案。部分讀者也許會擔心這類方法的學習門檻,其實,本文介紹的研究中,不少都是使用社會科學界熟悉的方法(例如描述統計、相關係數、迴歸分析等),因此,其使用門檻,也許沒有您想像得高喔!本文雖僅專注於文化產製相關研究,但類似的方法,在許多不同領域中也已被廣泛使用,有興趣的讀者可以參閱Edelmann等人一文,了解社會學其他研究主題中的計算社會科學方法之應用案例。
參考書目
江彥生、陳昇瑋,2016,〈簡介「計算社會學」:一個結合電腦與數位科技的新興社會學研究〉。《台灣社會學》32: 171-201。
Bail, Christopher A. 2014. “The Cultural Environment: Measuring Culture with Big Data.” Theory and Society 43(3–4):465–82.
DiMaggio, Paul, Manish Nag, and David Blei. 2013. “Exploiting Affinities between Topic Modeling and the Sociological Perspective on Culture: Application to Newspaper Coverage of US Government Arts Funding.” Poetics 41(6):570–606.
Dowd, Timothy J., Trent Ryan, and Yun Tai. 2016. “Talk of Heritage: Critical Benchmarks and DIY Preservationism in Progressive Rock.” Popular Music and Society 39(1):97–125.
Dowd, Timothy J., Yun Tai, and Dimitrios Zaras. 2022. “The Sounds of Silence: Concerts, Musicians, and the COVID-19 Pandemic.” in Remaking Culture and Music Spaces: Affects, Infrastructures, Futures, edited by I. Woodward, J. Haynes, P. Berkers, A. Dillane, and K. Golemo. London: Routledge.
Edelmann, Achim, Tom Wolff, Danielle Montagne, and Christopher A. Bail. 2020. “Computational Social Science and Sociology.” Annual Review of Sociology 46(1):61–81.
Fraiberger, Samuel P., Roberta Sinatra, Magnus Resch, Christoph Riedl, and Albert-László Barabási. 2018. “Quantifying Reputation and Success in Art.” Science 362(6416):825–29.
Francemone, C. Joseph, Kevin Kryston, and Matthew Grizzard. 2023. “Examining Genre Success, Co-Occurrence, Release, and Production of 9,068 Films over Twenty Years.” Poetics 99:101794.
Goldberg, Amir, Michael T. Hannan, and Balázs Kovács. 2016. “What Does It Mean to Span Cultural Boundaries? Variety and Atypicality in Cultural Consumption.” American Sociological Review 81(2):215–41.
Hoffman, Mark Anthony. 2019. “The Materiality of Ideology: Cultural Consumption and Political Thought after the American Revolution.” American Journal of Sociology 125(1):1–62.
Mohr, John W., Christopher A. Bail, Margaret Frye, Jennifer C. Lena, Omar Lizardo, Terence E. McDonnell, Ann Mische, Iddo Tavory, and Frederick F. Wherry. 2020. Measuring Culture. Columbia University Press.
Tai, Yun. 2023. “The Ties That Conform: Legitimacy and Innovation of Live Music Venues and Local Music Scenes.” Poetics 100:101819.
Tai, Yun, and King-wa Fu. 2020. “Specificity, Conflict, and Focal Point: A Systematic Investigation into Social Media Censorship in China.” Journal of Communication 70(6):842–67.

