知识图谱小白入门

搬运自知识图谱与大数据公众号,这是一篇 2017-12-30的文章,可能已过时,仅供参考,更多内容关注公众号或者访问从今天开始种树

认识知识图谱

在这里插入图片描述

先看百度百科对知识图谱的解释:

知识图谱(Knowledge Graph/Vault)又称为科学知识图谱,在图书情报界称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合,并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代理论。为学科研究提供切实的、有价值的参考。

简而言之,知识图谱是AI重要组成部分,它是具有语义处理与信息互联互通能力的知识库,通常在智能搜索、机器人聊天、智能问答以及智能推荐方面有着广泛的应用。知识图谱最早是Google公司在2012年提出的为了提高搜索引擎能力,增强用户的搜索效率效果以及搜索体验的一种技术实践。这是“知识图谱”名称的由来,也标志着大规模知识图谱在互联网语义搜索中的成功应用。

事实上知识图谱技术渊源已久,只是在不停地换名字而已——从上世纪70年代的“专家系统(Expert System)”;到再往前追溯10年,万维网之父Berners-Lee提出“语义网(Semantic Web)”,当时语义网呼吁业界推广并完善利用本体(Ontology)模型来形式化表达数据中的隐含语义,便于知识的高效呈现和利用。知识图谱技术的出现正是基于以上相关研究,是对语义网相关技术和标准的提升;再到他后来提出的“链接数据(Linked Data)”,都是知识图谱的前身。

伴随着Web技术的不断演进与发展,人类先后经历了以文档互联为主要特征的“Web 1.0”时代与以数据互联为特征的“Web 2.0”时代,正迈向基于知识互联的“Web 3.0”时代。
知识图谱的概念化演示如下:
在这里插入图片描述

知识图谱中的重要概念:

(1)实体:

是指具有可区别性且独立存在的某种事物(有点像面向对象编程里的Object)。如某一种动物、某一个城市、某一种水果、某一类商品等等。世界万物有具体事物组成,此指实体。实体是知识图谱中的最基本元素,不同的实体间存在不同的关系。

(2)语义类(概念):

概念主要指集合、类别、对象类型、事物的种类,例如人物、地理等。

(3)属性:

主要指对象可能具有的属性、特征、特性、特点以及参数,例如国籍、生日等。

(4)属性值:

主要指对象指定属性的值,例如国籍对应的“中国”、生日对应1988-09-08等。每个属性-属性值对可用来刻画实体的内在特性。

(5)关系:

用来连接两个实体,刻画它们之间的关联。形式化为一个函数,它把kk个点映射到一个布尔值。在知识图谱上,关系则是一个把kk个图节点(实体、语义类、属性值)映射到布尔值的函数。
知识图谱中一般用三元组的方式来表达,三元组的基本形式主要包括(实体1-关系-实体2)和(实体-属性-属性值)等。每个实体可用一个全局唯一确定的ID来标识,每个属性-属性值对可用来刻画实体的内在特性。

知识图谱的本质

从五个角度来看KG的本质:
(1)Web视角。KG像建立文本之间的超链接一样,会建立数据之间的语义连接,并支持语义搜索。

(2)NLP视角。从文本角度去看,KG最终也将归为自然语言处理中的一部分,从文本中抽取语义和结构化数据,重点是起始的数据时候真实、干净,这将直接后面KG的构造,以及KG的准确性。

(3)KR视角。利用计算机符号来表示和处理知识。

(4)AI视角。利用知识库来辅助理解人的语言。这里所指的知识库一般分为开放域知识库以及特定领域知识库。KG解决了如何去做一个有学识的AI而不仅仅是聪明的AI这样的一个棘手问题,作为一个有学识的AI,KG能够进行思考、语言和推理。

(5)DB视角。用图的方式去存储并处理知识。

修仙之知识图谱从0级到10级。

0级:掌握正则表达式、SQL、JSON和一门支持if-then-else的高级语言 —— 是的,这些不是知识图谱技术,但是这些可以解决问题。我们要的是解决问题,不是吗?

1级:学会ER建模(对,就是数据库里的ER建模),理解实体(Entity)和关系(Relation)的概念。这个可能比你想象得难很多。学会更复杂的SQL,能熟练掌握至少一种主流的关系数据库,至少学会一种语言的数据库操作。

2级:学会两种给实体命名的方法:数据库里的主键,Web上的URI。理解分类树。这时候可以学下RDF了,掌握Turtle和JSON-LD两种语法。会用Java或者Python操作RDF。

3级:如果还未阵亡,可能发现RDF数据库不是太好用,需要学会一个图数据库(如Neo4j或OrientDB)或者支持JSON的关系数据库(如PostgreSQL)。学会用这些数据库表达关系-实体,和表达分类树。这可以保证以后可以活得再久一点。

4级:这时候作为一名老兵,你可能已经学会了查询语言SPARQL、Cypher或Gremlin。然后你发现查询语言可以用来写!规!则!天啊,天堂的大门已经打开了。
5级:你会发现把智能放在数据里要远远好于放在代码里。你会开始鄙视在代码里写大量if-then-else的伪知识图谱爱好者。而且你开始不满足用查询语言客串规则(如用SPIN)。你需要一些真正的推理规则。你开始对OWL感兴趣……然后彻底被搞晕了。

6级:你发现OWL很强大但是也很难理解,它背后的描述逻辑如同三体人一样充满敌意。然后你发现其实if-then-else也蛮不错的,而且有一个更容易理解的规则语言:logic program。然后你突然发现SQL其实就是一种LP啊(Datalog)!突然一下世界豁然开朗,喜悦充满全身,圣洁的阳光从天上映下。

7级:在各种奇怪的规则语言中游弋:RIF-BLD,RIF-PRD,SWRL,RuleML,JESS,DLV,XSB,Prolog。发现世界的各种东西都可以按此建模。理解各种推理机的性能。谙熟各种知识建模套路。

8级:从头到尾设计过一个完整的语义或知识应用,经历落地过程种种工程的巨大陷阱,入坑、爬出来,再入坑、再爬出来,再再入坑……直到爬不出来。

9级:开始思考人性问题。从认知的角度、社会的角度、组织的角度、经济的角度思考什么是知识,怎么才能真正实施知识系统。

10级:综合运用正则表达式、SQL、JSON和一门支持if-then-else的高级语言 ,举重若轻解决以上1-9级中遇到的的各种问题。其实你设计出了自己的知识表现语言。

知识图谱的技术体系

KG的技术体系暂列下图:
在这里插入图片描述

后面会再有专题详细介绍KG中用到的各种技术。

知识图谱+金融

从智能金融或者智能投研的角度来看,最常见是从上市公司、高管、产业、行业的角度将知识关联化和结构化,让每一类数据不再仅仅是数据(数字),而是具有可联系、可追溯、可扩展的图谱,将背后隐藏的逻辑关系快速呈现出来。

01企业知识图谱

我们看一家公司的时候,尤其是针对一家上市公司,总会希望了解这家公司的股权关系,股东结构,希望通过了解该公司的控股股东及其背后的投资关系,了解该企业及法人对外投资的情况,获得该公司的风险要素。也希望通过了解该公司的主营业务构成、产品生产和销售情况,了解该公司未来的发展潜力;同时,也会关注公司获得了那些专利技术、参与了哪些招投标项目,涉及了那些司法诉讼等等。这些基本要素就构成了一家公司或者一个集团的简单知识图谱,通过图形化的方法,利用酷炫的可视化效果呈现出来,达到快速了解和分析某一公司的目的。
除了企业的图谱,其他类型的数据也可以被知识结构化和图谱化,同样也是从网上找了一个例子,有人将《星球大战》的人物和场景做了一个知识图谱,包含了“星战”7部电影里的87名角色、21颗星球、37艘飞船、39架战车、37个种族,并且通过各个节点链接,展现228个实体之间的1112种关系。
在这里插入图片描述

02行业知识图谱

行业知识图谱最重要的体现可能在行业中的产业链图谱,当然也是最难实现的。有些行业上下游非常复杂,往往有较高的业务壁垒,而对行业和产业的理解、梳理清楚直接决定了是否可以驾驭这一领域。
在金融研究传统的行业分析方面,行业研究员掌握了大量信息,但基本都存在各自的大脑里作为其看家本领,一旦分析师离职,将直接影响这个行业分析的延续,甚至拖垮该公司在这个领域的研究体系。
如果建立在基于知识图谱的基础上,通过数据化、可视化的手段,相信一定可以实现将某一行业的产业知识、逻辑关系、上下游传导机制描绘出一个完整的、清晰的架构。即使有新人、新手来接续研究,也能很快上手。
下图是简单的例子,其实还算不上一个完整的知识图谱,只能算是部分产业知识,但一定程度上诠释了产业知识图谱结构。
在这里插入图片描述

03市场信息图谱

利用市场信息的整合分析来辅助投资决策是现今做金融投资比较常用的方法,利用多渠道来源的信息、多种碎片化的数据,互相补充,协同作用,得出一幅信息全景图,非常方便用于分析资本市场的动向。
这种信息处理的技术主要被用在情报分析领域,但资本市场也有比较多的需求。比如,对并购重组意向等影响公司未来的重大事件的早期预警,对上市公司业绩疑点的多方求证,对未披露的实际控制人身份的锁定等等。
这实际也是所谓大数据干的事情,但如果是利用知识图谱技术,绘制出一幅信息图谱,当出现某一个事件的时候,如何传导或导致什么样的结果,判断起来似乎就容易的多了。

知识图谱一出激起千层浪

搜狗:

搜狗是国内首家构建和应用知识图谱的搜索引擎。知识图谱也是搜狗的基础能力,服务于搜索引擎和其他多个产品。根据搜狗2016年财报显示,其搜索流量急速攀升,尤其移动搜索流量增长70%,背后原因很大程度上因为其将基于知识图谱的AI技术和差异化内容武装到产品。

腾讯:

一向以社交为主战场的腾讯也利用其数据优势构建了自己的社交知识图谱。腾讯研究院称,其汇总了微信、QQ和公众号超过20万亿次的阅读点击量、数百亿笔支付数据、全年约1300亿次视频点击量、70亿次新闻点击量、四十余万款上线APP等数据。基于这些数据,腾讯构建出的知识图谱可以服务于其众多产品,并在语音搜索、智能问答等新趋势中积蓄势能。

阿里巴巴:

以电商为主战场的阿里也基于自身的数据库建立起了知识图谱。阿里生态内有来自于淘宝、天猫、1688、AliExpress等多个市场和品牌商、行业运营、治理运营、消费者、国家机构、物流商等多种角色,基于阿里知识图谱的个性化推荐系统为其营收立下了汗马功劳。

Facebook:

2013年,Facebook推出社交图谱搜索工具Graph Search。随即,“美国版大众点评”Yelp股价大跌7%。《连线》杂志评论:GraphSearch的两大野心,一是在网页搜索领域干掉Google;二是在垂直搜索领域干掉所有对手,包括求职领域的LinkedIn,约会领域的Match,以及餐馆点评领域的Yelp。

其它创业公司:

文因互联、智言科技—金融领域
明略数据–公安、金融(大银行客户)、工业
达观数据–金融(审计)、制造业、法律
海知智能–智能家居、医疗、金融
渊亭科技–航空、医疗、军工、通信、教育等多个领域均有涉足。
对于知识图谱创业公司们来讲,能不能形成闭环、能不能快速迭代、能不能持续学习将成为企业的核心竞争力。

现有知识图谱项目

在这里插入图片描述

知识图谱展望–后Deep Learning时代

归根结底,知识图谱的意义在于在盘根错节的数据海洋中进行梳理和串联,让以前模糊的世界变得更加清晰。人类对于知识体系的整理,始终未曾停歇。从永乐大典,到四库全书,再到各式各样的百科全书。作为编纂者,必须要思考的是:如何整理、组织信息,并以何种方式进行呈现?
目前,全球最大的“自由的网络百科全书”维基百科已经收录了超过2200万词条,仅英文版就超过400万条,远超纸质英文百科全书中最权威的大英百科全书的50万条,是全球浏览人数排名第6的网站。
前Google杰出工程师阿米特·辛格博士(Amit Singhal)在介绍知识图谱时是这样讲的:“The world is not made of strings , but is made of things.(构成这个世界的是实体,而非字符串)”
反观这波AI浪潮,以deep learning为代表的大数据AI获得巨大进展,但deep learning的不透明性、不可解释性已成为制约其发展的障碍,所以,“理解”与“解释”是AI需要攻克的下一个挑战,而KG为“可解释的AI”提供了全新的视角和机遇。人类最擅长的思考方式就是将点和线关联起来,并由点及面、抽丝剥茧、慢慢理清其中的逻辑关系。KG正试图抽丝剥茧,“像人类大脑一样思考”。


   转载规则


《知识图谱小白入门》 罗华 采用 知识共享署名 4.0 国际许可协议 进行许可。
 上一篇
知识图谱的架构及关键技术概述 知识图谱的架构及关键技术概述
搬运自本人知识图谱与大数据公众号,这是一篇 2018-01-15的文章,可能已过时,仅供参考,更多内容关注公众号或者访问从今天开始种树。 知识图谱的架构知识图谱的架构包括自身的逻辑结构以及构建知识图谱所采用的技术(体系)架构。 1)
2020-07-24
下一篇 
WEB开发、爬虫中常见HTTP状态码大全,绝对有你没见过的(建议收藏) WEB开发、爬虫中常见HTTP状态码大全,绝对有你没见过的(建议收藏)
http状态码不管在web开发和爬虫中都会遇到,故将各类状态码含义收集如下。更多爬虫内容请访问从今天开始种树 各大类含义http协议状态码一共有五种类别,分别是1XX,2XX,3XX,4XX,5XX。 1XX类状态码:临时的响应。客户端
2020-07-18
  目录