【文/ 林梓】
事件数据分析(event data analysis)在当代政治学、国际关系研究中有重要地位。它在1950年代起源于美国,发展至今,横跨语言学、政治学、国际关系、统计学、计量经济学,乃至于计算机编程,是定量研究方法在政治学和国际关系研究上的应用。在美国,事件数据分析经历了从人工编码(human coding)到机器分析(machine coding)的发展过程,美国学者Philip Schrodt和Deborah Gerner此作了详细介绍。
一、 事件数据分析法的简介
事件数据分析的研究方法要求研究人员给事件赋值,一系列事件由此转化为连续的数值,以供研究人员分析和解读。
首先,研究人员需要解读事件,通常情况下这意味着解读文本。美国国际关系的研究者通常选择路透社等国际主流媒体的新闻文本作为研究的对象。一来,国际主流媒体在报道新闻时会尽量保证真实性;二来,路透社属于通讯社,它的新闻文本使用标准的英语,且用语简练,通常不使用修辞,适合做研究。
解读文本首先是一个语言学问题。通常句子被作为编码的单元。它的主语是事件的来源,谓语决定赋值,宾语是目标。试举一例:
Saudi Prince Alwaleed bin Talal, one of the world's richest investors, will donate $30 million to rebuild the two Lebanese power stations destroyed by Israeli attacks, an official source said on Friday.
翻译:官方消息人士周五表示沙特王子瓦利德·本·塔拉勒,世界上最富有的投资人之一,会捐赠3000万美元用于修复黎巴嫩两座在以色列的攻击中被摧毁的发电站。
这个句子使用了从句和分句,有插入语,在语法上属于复杂句。它的主干是瓦利德·本·塔拉勒捐赠3000万美元,采用一般将来时。“捐赠”这个动词是研究人员赋值的凭据,但是赋值多少,又是一个政治学和国际关系学的问题。
事件数据分析的作用是记录和描述事件流,展现研究对象的历史趋势和现状。1980年代,美国军方称支持这类方法的研究,希望能用事件数据分析法预测美苏关系的走向,达到危机预判和“早期预警”(early warning)的效果。不过结果不如人意,总有大概15%的事件无法用模型分析,美国军方后来停止支持这类项目。
作者称美国军方的问题是投入不够,美国的学者和研究人员没有放弃事件数据分析方法。在当代,研究人员编写一套程序,让计算机来给事件赋值。计算机编码分析大概有2个步骤。第一,建立赋值用的词汇表(coding dictionaries)。简而言之,赋值采用关键词法,计算机提取语句中的关键词,并对照词汇表给事件赋值。第二,让计算机解读语句。
二、 人工编码与机器编码的优劣
1990年代和以前,美国的研究人员普遍采用人工编码的方法,即研究人员自己给事件赋值。在之后,到了2000年代,美国的研究人员普遍采用机器编码的方法,即用一套计算机程序给事件赋值。
人工编码的适用范围在于:数据规模较小;一次性编码;现存的词库不能被修改;复杂的句式结构;修辞的运用;段落、或者整个“故事”,而不是句子作为编码的单元。
机器编码的适用范围:数据规模较大;数据编码持续一段时间;现存的词库可以改进;简单句子结构;字面意义的解读,现在时态的语句;句子作为编码的单元。
人工编码的有点在于精确。在作者写作的时期(2010年代早期),机器无法识别由语境、上下文带来的信息,因此无法解析修辞的隐含意义。如“爆炸”、“攻击”、“摧毁”这些动词,可能表示真正的冲突和战争,也可能用作比喻,只有研究人员才知道其中的区别。人工编码缺点在于效率低而且不稳定
机器编码的优点在于高效率和稳定。一项2011年的研究称,研究人员采用的程序能够1天处理10万个事件。这种效率是人类研究员无论如何也达不到的。当一套系统建立完成,只要不断的输入最新事件就能得到结果,机器编码可以做到接近即时分析(real-time coding),真正实现“早期预警”的功能。
语言学在当代的作用更明显,因为如语言学家乔姆斯基所说,人脑天然具有语言解码的功能,但是计算机不具备这个功能。研究人员需要让计算机识别句子结构,提炼关键词。如果研究对象有复杂的语法结构,计算机分析的精度会下降。不过研究人员认为,效率和稳定性的重要性大于精度,所以计算机编码是可行的研究方法。
三、 计算机编码的步骤
计算机编码具体有5个具体步骤。
第一步,将分析对象的文稿转化为计算机可识别的格式。
第二步,建立赋值用的词汇表。
第三步,补充词汇表中的主语部分,即国际关系中行为体的名称。
第四部,按照词汇表赋值。
第五步,汇总所得的数据。
以上文的句子举例:
Saudi Prince Alwaleed bin Talal, one of the world's richest investors, will donate $30 million to rebuild the two Lebanese power stations destroyed by Israeli attacks, an official source said on Friday.
翻译:官方消息人士周五表示沙特王子瓦利德·本·塔拉勒,世界上最富有的投资人之一,会捐赠3000万美元用于修复黎巴嫩两座在以色列的攻击中被摧毁的发电站。
这个句子是复杂句,需要先转化为主谓宾结构的简单句:
Alwaleed bin Talal will donate $30 million.
瓦利德·本·塔拉勒捐助3000万美元。
研究人员将句子录入计算机,调取关键词库,“捐助”属于“经济援助”的一种,归入相关的类别,获得相应的赋值。以此类推,每日的事件被转化为连续的赋值。
计算机赋值的第一步在本质上是一个语言学问题。如果选取的文本采用了更加复杂的句式、语法或者采用了修辞手法,研究人员的工作难度和计算机识别的难度都会增加。这是当代事件数据分析法面临的最大的障碍,也是现今的研究正在试图克服的问题。
参考文献:Schrodt P A, Gerner D J. Analyzing international event data: a handbook of computer-based techniques.Cambridge: Cambridge University Press, 2000.