热点
英特尔BigDL:为大数据插上人工智能的翅膀
【IT168 评论】继大数据热之后,以深度学习为代表的人工智能成为当下最为热门的技术,越来越多的企业已经或正准备进军深度学习,特别是那些已经在大数据领域投入了重金,建立起了庞大的大数据集群的公司,由于有了大数据的这个基础,在深度学习之上更为积极和主动。
接下来,企业将思考如何能将大数据技术和人工智能、深度学习技术进行有效的融合?有没有一种既简单又好用的深度学习框架可以拿来就用?需要多久可以从人工智能技术上受益?下面是答案。
近日,2018全球人工智能与机器人峰会(CCF-GAIR)在深圳召开,英特尔高级首席工程师、大数据技术全球CTO戴金权带来了题为“大数据分析+人工智能”的,与我们分享了英特尔BigDL分布式深度学习框架的最新进展。
英特尔高级首席工程师、大数据技术全球CTO戴金权表示:在大数据处理工作和深度学习模型算法之间有很大的断层。
深度学习顶尖研究人员不断在突破模型,但是数据科学家、分析师、普通用户却很难将模型应用到现实的生产当中去。深度学习处理的一大瓶颈就是数据,特别是生产数据,都是采用分布式存储,很难将其拷贝到另一个再来进行处理。
为了进一步拉近深度学习科研人员和真正使用的深度学习的大数据工程师、分析师等的距离,在一年多前,英特尔开源了BigDL项目,让用户可以轻松、简单地在大数据集群中进行深度学习应用。
在戴金权看来,Apache Spark是业界最广泛应用的分布式集群计算引擎,它里面有大量的对数据分析处理的组件,比如说SQL的处理、实时流的处理,还有进行片分析的库。
基于Spark推出的BigDL是Spark上标准的库、标准的组件,能够和这些大数据、生态系统里面的不同的分析、处理的组件非常好地整合在一起。
BigDL与目前主流的深度学习框架Caffe、Torch、TensorFlow所能实现的功能相同。虽然市面上已经有主流的深度学习框架,英特尔推出BigDL则是因为看到了将大数据分析与人工智能结合起来的一个空白。BigDL可以直接在现有的Hadoop和Spark的集群上运行,不需要对集群做任何修改。
不仅如此,戴金权的团队在Apache Spark和BigDL的基础上又构建了Analytics Zoo大数据分析和人工智能的平台。
戴金权表示:Analytics Zoo是Spark和BigDL上的扩充,目的是方便用户开发基于大数据、端到端的深度学习应用。
除了内置的模型、内置的一些非常简单的操作之外,它里面还提供了大量的高级的流水线的支持,能够使用Spark DataFrames、ML Pipelines的深度学习流水线,能够通过迁移学习的API构建API模型的定义,在这个基础上就可以很方便地将我们提供的Model Zoo的模型甚至端到端的参考应用,通过非常少的代码,使用这些高级的API和内置的模型,把一个端到端的大数据分析加上深度学习的应用构建起来。
戴金权介绍了用户如何使用Analytics Zoo for BigDL在他们现有的大数据集群,通常是在至强处理器上应用大数据的集群或者平台上,构建新的深度学习的应用。
戴金权进一步表示,至强是一个非常通用的平台,大量的软件的生态系统,不管是从集群、从大数据,都有非常好的生态系统。我们如果能够在生态系统里非常好的将人工智能、深度学习支持起来,对大量用户来说,在基于至强的大数据生态系统平台上,可以很方便的把深度学习和人工智能的应用构建起来。
目前,BigDL和Analytics Zoo的技术能在包括AWS、阿里云、云等几乎所有的公有云平台上使用。同时,云在即将发布的数据分析平台中将整合BigDL最新版本。
以为例,有大概几亿张的片存储在分布式存储系统当中,他们想要把这几亿张片从大数据系统里面读出来,然后对它进行处理。
在这个案例中,我们用了SSD的模型来试识别片里面有什么物品,探后再用DeepBit的模型,将物品的特征提取出来。原来已经在GPU卡上做了一些应用,但是这里面有一些问题,包括如何处理端到端数据的流水线,包括如何提高端到端处理的效率。
戴金权表示,当我们把整个处理的应用迁移到Spark和BigDL平台上,可以看到它提升了很多的运维的效率,使用BigDL/Spark在Intel Xeon集群有效扩展,取得相对于GPU集群3.8倍性能提升。
在自然语音处理方面,英特尔和GigaSpaces合作通过基于自然语言处理对呼叫中心进行管理。当有用户打电话进来,把其语音转成文本以后,导入到BigDL系统里面,然后对它进行实时的流式处理,使用BigDL上的文本分类模型可以知道用户打电话进来是为什么,他是Windows出了问题还是Mac出了问题,自动就会把呼叫中心的电话录入到不同的部门。
写在最后,英特尔一直致力于提供端到端、全栈式人工智能解决方案。在基于英特尔至强服务器的大规模集群上和现有的数据架构基础设施,完全可以使用英特尔开发并开源的BigDL、Analytics Zoo的技术,在现有的大数据平台上构建新的大数据分析和人工智能的应用,提高资源利用率和端到端的开发效率,部署效率。