从数据到知识数据智能化的升级之路来自
中科医院曝光 http://pf.39.net/bdfyy/zjdy/161222/5131641.html 11月11—12日,由中国电力发展促进会(以下简称“电促会”)和国家电网有限公司大数据中心联合举办的“人工智能与电力大数据论坛”在京召开。 11日上午,百度知识图谱部的主任研发架构师宋勋超就《知识图谱及其在电力业务中的应用》在论坛现场做了精彩的主题演讲。 演讲实录全文如下: 各位专家,各位领导,各位电力行业的同仁,大家早上好。我是来自百度知识图谱部的主任研发架构师宋勋超,很荣幸能够在今天代表百度参加我们人工智能与电力大数据论坛。我今天汇报演讲的题目是从数据到知识,数据智能化的升级之路。 我们人类发展到现在,已经经历了三次科技革命。第一次科技革命将人类带入了机械化时代,第二次科技革命将我们带入了电气化时代,第三次科技革命是信息化时代的科学革命。 目前,我们正处在第4次科技革命正在兴起的时候,第4次科技革命其实就是人工智能的科技革命,人工智能的高速发展,已经为新一轮的产业变革提供了重要的驱动力量。人工智能技术包括以语音、图像、视频、ARVR等为核心组成的感知层技术,以及以语言和知识为核心的认知技术。语言和知识技术是人工智能的核心,它能够像让机器像人类一样去掌握知识,理解语言,对于人工智能的发展至为重要,同时也是我们未来要实现通用人工智能所必须要具备的一个必要条件。 为什么这么说呢?让我们的让我们来简单的回顾一下人工智能的发展和历程。在人工智能接近60年的发展历程里,我们一共经历了两代的发展,目前正处在第三代的一个发展期。 第一代的人工智能,我们称之为符号主义的人工智能。我们知道人工智能的三驾马车分别是数据、算力和算法,在这个阶段,人工智能依赖的是专家的经验和知识来去进行显示的符号表示和逻辑推理,取出来模拟人类的一些智能行为,去解决一些推理规划和决策类的问题。 一个具有代表意义的系统是IBM的国际象棋程序深蓝,那么这个国际象棋程序在年打败了国际象棋大师卡斯帕罗夫,然后我们认为第一代人工智能存在着一些质的缺陷,例如专家知识稀缺昂贵,因为这一代人工智能系统,它系统里面所承载的各种各样的知识往往是需要去用专家的能力去人工构建的。另外,这一代人工智能它所涵盖的这个知识形态非常局限,如语言类的知识以及一些模糊类的知识,很难被这一代的人工智能系统所消化,因此它的应用范围非常有限。 第二代人工智能,也就是大家目前所广泛接触到的基于深度学习的人工智能,这一代人工智能的特点最主要的特点就是数据驱动。在这一代人工智能系统里,往往不需要具备大量的领域知识,只要我们标注了足够多的样本数据,人工智能就能够被低成本的启动,再加上目前我们的神经网络的规模越来越大,上一级的参数都是非常常见的,以及我们GPU算力的极大增强,使得这一代的人工智能技术呢能够非常轻易的处理大数据。 但是,这一代人工智能技术依然有一些非常严重的局限性。首先基于神经网络的人工智能,它往往具有一个不可解释性的这样的一个特点。另外,我们知道数据驱动往往需要一些非常大规模的样本来去支撑我们的模型训练。 虽然现在有一些研究方向,比如说迁移学习、小样本学习,能够从一定程度上去解决这样的行业大样本,大量的标注样本缺失的问题,但是他依然没有能够从本质上解决这一代人工智能的一些本质的缺陷,因此它依然是不易推广的。 从第一代人工智能和第二代人工智能的成就看,我们aI经济进入了一个高速的发展期,我们现在称之为第三代的人工智能,就是把第一代的知识驱动和第二代的数据驱动结合起来的新一代的人工智能。 在这个阶段,人工智能的三要素除了数据算法和算例,还必须具备更为重要的第4大要素,也就是知识。目前,知识增强驱动的人工智能技术在非常多的领域已经取得了一些比较好的成果,运用前景也非常广泛,比如基于知识增强的多模态语音理解,基于知识增强的大规模预训练语言模型等等。 第三代人工智能的一个终极目标,就是去真正的模拟人类的行为,让人工智能系统不仅能够接受数学,还要能够掌握知识,可解释督办,安全可信可靠可扩展,以及基于人工智能去实现真正的推力与决策,是这一代人工智能的最主要的特点。 接下来,让我们把目光从人工智能发展史聚焦到百度的人工智能技术。今年是百度搜索诞生的第20个年头,百度发展人工智能技术也已经有10年了,在过去的十年中,百度搜索引擎一直是各类人工技术净化与落地的主战场,而百度人工智能技术的发展和基础,就是中国规模最大的互联网大数据。 目前,百度已经拥有万亿互联网的网页内容,其中包括百亿级的视频、音频图像和定位数据,我们汇聚了海量用户的互联网行为数据,深度挖掘了30余个垂直行业,度的去刻画用户的属性,积累了10亿级的用户的精准画像,让我们每天响应数10亿次的网民诉讼请求。 在数据总量层面,整个百度拥有数十万台的服务器和一b加级的这个数据存储,在我们服务于中国10亿级网民的搜索引擎这个产品中,我们已经初步实现了数据到知识的转化,以及基于大数据的智能化应用,基于这个规模最大的互联网大数据,我们构建了世界上规模最大的中文知识图谱,除了通用的实体图谱,我们还针对不同的应用场景,以及不同的知识形态,构建了 |
转载请注明地址:http://www.luosihaibao.com/lshbfzfs/5037.html
- 上一篇文章: 他曾准确预言苏联解体,又分析出美国
- 下一篇文章: 中方是否在中印边境增兵外交部回应