“社会科学中的文本分析”讲座成功举办
2015年11月19日下午,北京大学中国社会科学调查中心、国家自然科学基金-北京大学管理科学数据中心系列报告讲座在理科五号楼举办。哈佛大学政府系政治学博士、加州大学圣迭戈分校(UCSD)政治学系助理教授Molly Roberts做了关于“社会科学中的文本分析”的专题报告。
文本分析作为计算机科学与社会科学结合的前沿交叉领域,在近些年备受关注。从文本资料信息大爆炸的背景谈起,Roberts教授着重探讨了如何将文本资料中的信息提取成为量化数据,并在社会科学研究中发挥价值。报告中,她介绍了通过预处理的方法将文本资料被转化为可被计算机识别的语言,并以此为依据将文本分析生成的数据作为因变量、混淆变量(confounding variables)或自变量,应用于社会科学研究的分析中,进行因果推断。
Roberts教授细致讲解了将文本标记和文件转化成“文献-检索词矩阵”的两种方法,即有监督文本分析法和无监督机器学习法。她认为前者极大地拓展了人类的研究成果,而后者指明了人类组织文本的新途径,可以借助电脑程序发现文本资料的有趣特征并对其进行解释。其中,她本人参与开发的和结构主题模型(STM)可以嵌入文本结构中,允许主题比例和主题词汇随着源数据不断变化,从而具有更准确的估计能力和更好的定性解释力。之后,她以国际关系研究中女性作者被引用率较低的研究(Maliniak, Powers and Walter 2013)以及Richard Nielsen (2015)有关伊斯兰教圣战者的研究为例,阐释结构主题模型在政治学中的具体应用。
作为对这一领域未来的展望,Roberts教授强调,现有的匹配技术发展并不完全,尚不能完全满足高维数据的要求。在大数据时代的今天,新的文本分析工具和技术仍在不断的探索之中,政治科学文本研究中存在大量机会等待我们去发掘。报告结束后,中国社会科学调查中心主任、政治管理学院李强教授作了点评并代表中心向Molly Roberts表示感谢。