产品展示
知识图谱:从一张“图”看关联

发布于:2024-10-09 13:58:47  来源:产品展示  点击量:14次

  前不久,在素有知识图谱“世界杯”之称的OGB(大规模图数据,Open Graph Benchmark)挑战赛中,来自中国的度小满AI-Lab团队凭借自创的TranS模型荣登OGB-wikikg2榜首。OGB是国际公认的知识图谱基准数据集和“竞技场”,比赛汇聚了全球AI顶级人才。此次,度小满夺冠的OGB-wikikg2是OGB三大类任务之一。

  近年来,随着数字化时代到来,基于AI的一系列技术蒸蒸日上,知识图谱技术便是其中不可或缺的一环。全球各大科技巨头逐步加强知识图谱布局,期待着知识图谱在更多领域发挥及其重要的作用。那么,究竟什么是知识图谱。请看——

  一提到福尔摩斯,就会不可避免地联想到他那神乎其神的推理能力。这种能力,不是与生俱来的,而是来自对细节的重视和缜密的分析。电影《大侦探福尔摩斯》中有一个让人印象非常深刻的场景——福尔摩斯将各种相关事件和受害者的关系用红线相互连接起来形成了一个布满整个房间的网状结构,在网的中心,与所有人物和事件都有直接或间接联系的就是案件的核心嫌疑犯。其实,这就是一种简单的知识图谱——通过把不同资讯串联起来,形成关系网,从而在关系网中找到所需要的信息。

  知识图谱技术,指的是建立和应用知识图谱,对海量数据信息进行检索、抽取与处理,并且利用数据挖掘和机器学习技术来管理和分析,从而形成图模型来描述知识和建模世界万物之间的联系。

  知识图谱的概念最早在2012年由谷歌提出,其发展史却可以追溯到1960年的语义网络。

  语义网络是一种较为直观的知识表达方式,采用相互连接的节点和边来表示知识。其中,节点表示对象或者概念,而边表示对象或概念之间的关系。

  用语义网络表达事件时,常需要设立一个事件节点。比如,想要表达“上级向下级传达文件”,这句话的语义网络图中,最中心的节点是“传达”,并隐含着“接收”和“物品”两条没有直接显现的边。以“传达”这一个动作为边,与之相关的节点就是“上级”;以“接收”的动作为边,与之相关的节点就是“下级”;而“文件”这个节点通过“物品”这个边,与核心节点“传达”相连。通过语义网络,能更加直观地了解到事物之间的逻辑关系。

  20世纪80年代,哲学概念“本体”被引入到AI领域用以刻画知识,为知识图谱搭建了基本的框架。万维网的出现,初步实现了文本间的链接,形成了知识图谱的雏形。

  万维网服务器能够最终靠将内容信息与文本联系,以超链接的方式实现从一个站点到另一个站点的跳跃,这样彻底打破了之前查询工具只能一步步地按特定路径来查找信息的限制。比如,当在搜索引擎中输入“大数据”时,能够检索到一连串与之相关联的网页,这时只需轻击链接就能进入网页浏览。在浏览过程中,如遇晦涩生僻的专业名词,还能够继续点击超链接进一步学习。

  随着万维网技术持续不断的发展,它的技术栈(所使用的不一样的种类的技术的统称)越来越庞大、复杂。2006年,万维网的发明者、英国计算机科学家蒂姆·伯纳斯·李提出“关联数据”的概念。他希望所有机构以标准化形式将原始数据公开,从而建立一个相互连通的知识网络。而这已经很接近现在的知识图谱技术了。

  2012年,谷歌发布了知识图谱,用于改善搜索的质量。知识图谱除了显示其他网站的链接列表,还提供详细的关于主题的信息及其所属结构。不同于传统网页搜索的是,使用知识图谱的语义搜索不是展示网页,而是展示结构化知识。比如输入“戴高乐号”,传统网页搜索会给出“戴高乐号”航空母舰的舰长、舷宽、排水量和下水日期等属性信息,如果点击“戴高乐号”的技术特点版块,则可以立即进入其知识卡片,了解到舰体防护、动力系统、船电系统、舰载武装等信息,实现即问即答。

  互联网技术发展进入快车道后,数据的爆炸式增长早已使知识图谱潜移默化地融入人们的日常生活。无论是一次平常的“百度”,还是与手机AI助理的知识问答,或是个性化教学服务,都是基于知识图谱技术的发展实现的。

  前几年曾经引起热议的AI绘画,如今又一次风靡网络。AI绘画刚刚流行时,闹过不少笑话,比如三只眼睛的小狗、四个头的鸭子……当时,大多成品往往不被主流审美接受。短短几年时间,AI创作技术快速的提升。只要输入几个关键词,再选择喜欢的画风,AI便能在极短的时间内生成几幅令人惊叹的作品,其质量堪比专业画师。从搞笑到震撼,其背后是运用了知识图谱技术,AI不断学习的结果。

  知识图谱让智能系统具备了认知能力。这类人工智能相较于只拥有海量、繁杂数据的机器而言,显得“聪明”和“可靠”许多。它能利用知识图谱管理归纳数据,将数据以多种类型和关系连接在一起,在检索信息时,能更加全面、更加开阔、更加系统地将要找的信息整理出来,输出出去。

  反过来,因为更强大的智能系统,可以更好地从客观世界中去挖掘、获取和沉淀知识,这些知识和智能系统形成正循环。两者共同进步,这也正是知识图谱的优势所在,不断为数据提供“住处”的同时也提高个人的容量,进一步自我完善。

  随着技术的成熟及应用的推广,知识图谱逐渐向生物、金融、能源等知识密集型领域渗透。比如,中国林科院科信所林草大数据与知识服务团队日前研发成功的“林草领域知识图谱应用系统”,就实现了林草领域知识资源的协同建设与共享。

  如果逐步放开眼界,知识图谱技术的应用更加宏阔。今年4月19日,中央全面深化改革委员会第二十五次会议审议通过了《关于加强数字政府建设的指导意见》。数字是手段,治理是目的。利用知识图谱技术能更好地促进政府决策科学化、社会治理精准化、公共服务高效化。

  正如网络诞生之初是为了服务于军事活动,很多新技术的发展,不但会在日常生活中大量应用,同时也会触及军事领域,成为军事发展的热点,甚至会对未来战争的模样产生影响。

  世界上一些军事大国已敏锐地洞悉到利用知识图谱分析数据的重要性。早在2013年,美国国防部高级研究计划局(DARPA)就牵头开发了Insight项目,该项目能够将互不相干的信息源整合成一张统一的战场图片,通过对来自不同信息源的数据来进行整合归纳,形成鲜明的体系结构,以提高情报传感器的工作效率。

  军事领域知识图谱是链接指挥系统、作战部队和武器平台等各项作战要素的重要桥梁。

  在信息化智能化战争中,指挥效率对作战进程和结局有着决定性影响,而战场数据是指挥员作出决策的最重要依据。来自海军、陆军、空军等各军兵种的海量信息数据,无论是作战还是非作战数据,人员还是装备数据,演习还是训练数据,都在呈指数级趋势增长,这使得作战问题更为复杂。据美军报道,仅1架“捕食者”无人机1天搜集的视频数据就需要19名情报分析人员来处理。前美国国防部情报局局长空军中将杰克·沙纳罕称:“谈到情报、监视和侦察,我们有比国防部历史上任何一个时间里更多的平台和传感器。这一些平台和传感器产生了海量的情报数据,但我们却无法充分的利用。”

  针对正面战场多、参战军兵种多、武器装备多、突发情况多的实际,能够应用知识图谱技术对大数据进行采集、归纳与分析。这份战争的知识图谱,将为指挥官提供武器分配、兵力调动等决策辅助,帮他们及时了解、掌控各个点位和战场态势。知识图谱技术的运用将使整个作战指挥控制体系更高效,推动战争由信息化向智能化发展。

  此外,在情报侦察方面,利用知识图谱能够将孤立的数据源进行知识融合,实现碎片信息的深度挖掘,从中获取高质量的情报。

  知识图谱也能够应用到部队日常训练之中。比如说,可以针对某一领域或某个专业,利用知识图谱构建一个军事知识问答系统。当训练时遇上问题,就可以向该系统提出疑问,基于知识图谱的智能问答系统能判断问题出现的原因并提供对应的处理方法,甚至还能向用户智能推荐进行该训练时需要的需要注意的几点以及相关方法技巧等。