
[本站讯]近日,南开大学文学院教授冉启斌做客第407期“新杏坛”,作主题为“一个大型数据库能做什么——以ASJP数据库为例”的学术讲座。讲座由山东大学教授刘娟主持。
刘娟教授介绍了冉启斌教授的学术成就及其在学界的影响力。

讲座伊始,冉启斌教授指出数据库在生命科学、地球科学、经济管理等当代科学中发挥着重要作用。语音学领域中,数据库建设及相关研究方兴未艾。欧洲的马克思-普朗克演化人类学研究院建立了由十三个数据库共同组成的跨语言关联数据库(CLLD,Cross Linguistic Linked Database),如世界语言结构地图集(WALS)、世界借词数据库、世界词典辞书系列数据库等,ASJP数据库(相似性自动判断程序数据库)即为其中之一。ASJP数据库数据量大,应用范围广,其涉及世界5590种语言,包含10168种语言变体材料,并提供语言距离计算的相应软件与工具。该数据库已在语言发生学、年代学、二语习得等语言学领域与经济学、教育学等诸多领域被广泛应用,并形成了许多可视化成果。
冉启斌教授详述了ASJP数据库在世界语言语音对应研究方面的应用。ASJP团队利用数据库以机器检索代替了手工查找,比较同源词中仅有一个音素不同的词对,并配以重复性验证和统计控制,最终识别出692组语音对应,涉及139个音标符号。该研究探索了辅音对应、元音对应等高频语音对应模式,构建语音相似性模型。其中高频语音对应更多反映出语言共性,低频对应则有助于查找有亲缘关系的语言。研究还讨论探索了音变机制与跨学科的验证结果。
随后,冉启斌教授介绍了ASJP数据库在语言中的音-义关联方面的研究应用。ASJP团队研究了世界语言的6452个语档,涵盖全球62%的语言和85%的语言谱系,严格控制变量,采用简化音标系统分析100个基本词汇,考察语言中的音-义关联的倾向性与回避性,最终发现74组音义具有显著关联,并从感知与认知偏见、跨模态映射等方面解释了音义关联的成因机制。
讲座最后,冉启斌教授介绍了ASJP数据库在人称代词的语音分化方面的研究应用。EL&CL团队在数据库中提取了5000余种语言的人称代词语音特征,联系手语和儿童语言习得等方面的相关数据,发现第一人称代词语音形式特殊,第一、第二人称代词的辅元比例较低,人称代词中带音辅音与响音较多、鼻音程度高等普遍规律,并与心理学研究、哲学命题相关联。此外,冉启斌教授还简述了利用ASJP数据库研究语言与自然环境的关系、名词与动词词长、消亡语言的基本信息等方面的应用。
刘娟教授希望同学们认真思考数据库的思路,探讨计算语言学中更多宏观和有趣的问题。