[本站讯]近日,软件学院智能服务研究团队在IEEE Data Descriptions发布细粒度学术观点网络数据集(ViewPoints Network, VPN)。该数据集首次从观点层级构建计算机科学领域的学术网络,突破传统学术网络数据集停留在论文或作者层级的粗粒度局限,为科学思想语义演化分析、图结构学习研究提供了高质量数据支撑。

传统学术图数据集多以论文或作者为节点,仅能捕捉引用、合著等表层关系,难以展现学术观点的语义关联与演化脉络,成为细粒度学术网络分析的关键瓶颈。此次发布的VPN数据集针对性解决这一问题,从学术论文摘要中提取1,474,680个学术观点,具体包括计算系统(442,791个节点)、理论计算机科学(198,182个节点)、计算机网络与无线通信(197,965个节点)、计算机图形学(84,419个节点)、人机交互(131,613个节点)、计算语言学(28,328个节点)、计算机视觉与模式识别(153,442个节点)以及数据库与信息系统(237,940个节点)。

为适配多样化的分析需求,团队通过高维嵌入将每个观点编码为独立节点,并依据观点间嵌入的不同相似度阈值,构建多个学术观点图。具体设置0.50至0.80共7个梯度的语义相似度阈值,为各研究领域分别构建观点网络,网络节点代表观点向量嵌入,边则表征特定阈值下观点间的语义相似性。此外,数据集提供了每个观点的详细元数据,包括原始句子、文献标题、作者、发表年份、发表场所以及参考文献,为研究提供完整的数据支撑。

研究团队通过系统性分析,揭示了VPN数据集的多尺度结构特征。基于图的密度、最大联通分量规模、最大度、平均度、度中心性等8项关键指标的分析显示,较高的相似度阈值会导致图逐渐稀疏化,并伴随度相关指标和连通性的降低;而较低的阈值则保留了更稠密的结构以及更大的最大连通分量,从而揭示了跨领域一致的多尺度连通性模式。

为验证数据集的分析优势,团队在计算语言学领域开展观点层级社区发现实验。基于节点度数排名前500、1000和2000的观点节点构建导出子图,通过 Louvain 算法实现的社区划分,精准对应对话系统、统计机器翻译等连贯语义主题,且主题间呈现出有意义的重叠与桥接观点。与传统论文层级聚类不同,VPN 数据集支持同一篇论文的不同概念性贡献参与不同语义社区,实现了学术观点的精细化聚类,为解析学术思想的组织方式与演化路径提供了更微观精准的研究视角。