大数据部在领域大数据知识图谱方向取得多项学术成果
依托国家自然科学基金重点项目“面向领域大数据的知识图谱构建”、科技部创新方法工作专项“基于群智理论的创新方法新系统研究与应用示范”、北京市科技新星计划项目“基于科技领域知识图谱的成果评估方法研究”等科研项目,大数据部在领域大数据知识图谱方向,特别是科技领域知识图谱方向持续发力。2020年,大数据部在知识图谱数据管理、命名实体消歧、关系推理等关键技术上取得突破,在国际高水平学术会议IJCAI 2020、ICDM 2020、AAAI 2021以及中文学术期刊《中国科学 信息科学》、《软件学报》等发表多篇论文。
为进一步系统化科技大数据领域知识图谱的研究,团队对科技领域知识图谱研究进行综述。从科技大数据知识图谱构建及应用的角度,对科技领域知识图谱技术进行综述,系统阐述科技大数据知识图谱构建过程中涉及的科技实体抽取、科技实体消歧、科技关系抽取、科技关系推断等问题,对科技实体推荐、科技社区发现、科技实体评价、学科交叉以及学科演化等科技大数据知识图谱应用进行系统梳理,并给出科技大数据知识图谱未来的研究及应用方向。成果发表在《中国科学 信息科学》,期刊是CCF推荐的中文A类期刊。
科技领域大数据知识图谱研究框架图
相关论文:科技大数据知识图谱构建方法及应用研究综述. http://engine.scichina.com/doi/10.1360/SSI-2019-0271
针对大规模多元异构数据融合管理、关联计算和即席查询需求,提出了扩展属性图模型及相关查询语言,并将其应用于自主研发的异构数据智能融合管理系统PandaDB中。PandaDB支持对异构数据进行内联融合表示、原位语义计算和混合查询,原生支持图像、音频、文本、图结构等异构数据的分布式存储,支持直接调用AI模型对非结构化数据进行语义计算。PandaDB具有良好的横向扩展能力、副本强一致性、分布式事务特性。性能测试和应用案例证明,PandaDB对大规模异构数据的关联计算、即席查询等任务具备较好的加速效果,有效地解决了传统异构数据管理技术中普遍存在的数据模型表示能力弱、查询执行实时性差等问题。相关工作被CCF A类中文期刊《软件学报》接收。
架构示意图
相关论文:PandaDB:一种异构数据智能融合管理系统. http://www.chinaxiv.org/abs/202007.00035
针对科技领域中广泛存在的人员、机构、期刊的实体消歧问题,持续展开研究。给出了一种基于元路径和权值指导的随机游走策略的异质网络嵌入学习方法进行作者名字消歧,进一步,针对传统的异质图嵌入模型在多跳邻居信息聚合以及嵌入空间上存在的问题,提出了一种层次结构感知的异构图神经网络(HierGNN)模型,该模型将不同层次结构的多跳邻居的节点特征和信息同时捕获到节点嵌入中。相关工作除在科技实体消歧上取得了SOAT的效果外,在电影(IMDB)、餐饮点评(YELP)等数据集上取得了较好的效果。相关工作发表在ICDM 2020,会议是CCF B类期刊,2020年录用率为9.8%。
人名消歧示意(左)以及模型框架图
相关论文:Tree Structure-Aware Graph Representation Learning via Integrated Hierarchical Aggregation and Relational Metric Learning. https://arxiv.org/pdf/2008.10003.pdf
针对图结构的表示学习问题持续展开研究,和傅衍杰博士团队探索了利用子图结构增强表示学习效果的思路,提出了一种基于互信息(mutual information)的子结构感知图表示学习方法,方法在多个数据集上进行了验证,取得了SOAT效果,并可以在科技领域知识图谱中的推理、推断等各类场景中。成果发表在IJCAI 2020,会议是CCF A类会议,2020年录用率为12.6%。
模型框架图
相关论文:Exploiting Mutual Information for Substructure-aware Graph Representation Learning. https://www.ijcai.org/Proceedings/2020/0472.pdf
针对当前领域知识图谱在推理、补全问题在实体、关系上下文信息利用上存在的瓶颈问题,给出AggrE模型,可以将多跳的实体、关系上下文引入,进行高效的实体与关系嵌入,模型在WN18RR、FB15K-237、NELL995、DDB14等基准数据集上取得了较好的效果,并可以在科技领域中的师承关系推断等产生积极效果。相关工作作为Poster发表在AAAI 2021。(撰稿:杜一)
相关论文:Context-Enhanced Entity and Relation Embedding for Knowledge Graph Completion
图谱中的实体、关系上下文示意图