人工智能

2021年 8月 23日,在一年一度的 Hot Chips 大会上,IBM(纽交所证券代码:IBM)公布了即将推出的全新 IBM Telum 处理器的细节,该处理器旨在将深度学习推理能力引入企业工作负载,帮助实时解决欺诈问题。Telum 是 IBM 首款具有芯片上加速功能的处理器,能够在交易时进行 AI 推理。经过三年的研发,这款新型芯片上硬件加速技术实现了突破,旨在帮助客户从银行、金融、贸易和保险应用以及客户互动中大规模获得业务洞察。基于 Telum 的系统计划于 2022年上半年推出。

“IBM

根据 IBM 委托 Morning Consult 开展的最近研究,90% 的受访者表示,必须做到无论数据位于何处,都能够构建和运行 AI 项目,这一点非常重要。[1]IBM Telum 旨在让应用能够在数据所在之处高效运行,帮助克服传统企业 AI 方法的限制 — 需要大量的内存和数据移动能力才能处理推理。借助 Telum,加速器在非常靠近任务关键型数据和应用的地方运行,这意味着企业可以对实时敏感交易进行海量推理,而无需在平台外调用 AI 解决方案,从而避免对性能产生影响。客户还可以在平台外构建和训练 AI 模型,在支持 Telum 的 IBM 系统上部署模型并执行推理,以供分析之用。

银行、金融、贸易、保险等领域的创新

如今,企业使用的检测方法通常只能发现已经发生的欺诈活动。由于目前技术的局限性,这一过程还可能非常耗时,并且需要大量计算,尤其是当欺诈分析和检测在远离任务关键型交易和数据的地方执行的情况下。由于延迟,复杂的欺诈检测往往无法实时完成 — 这意味着,在零售商意识到发生欺诈之前,恶意行为实施者可能已经用偷来的信用卡成功购买了商品。

根据 2020年的《消费者“前哨”网络数据手册》,2020年消费者报告的欺诈损失超过 33亿美元,高于 2019年的 18亿美元[2]。Telum 可帮助客户从欺诈检测态势转变为欺诈预防,从目前的捕获多个欺诈案例,转变为在交易完成前大规模预防欺诈的新时代,而且不会影响服务级别协议 (SLA)。

这款新型芯片采用了创新的集中式设计,支持客户充分利用 AI 处理器的全部能力,轻松处理特定于 AI 的工作负载;因此,它成为欺诈检测、贷款处理、贸易清算和结算、反洗钱以及风险分析等金融服务工作负载的理想之选。通过这些新型创新,客户能够增强基于规则的现有欺诈检测能力,或者使用机器学习,加快信贷审批流程,改善客户服务和盈利能力,发现可能失败的贸易或交易,并提出解决方案,以创建更高效的结算流程。

“IBM

“IBM

Telum 和 IBM 采用全栈方法进行芯片设计

Telum 遵循 IBM 在创新设计和工程方面的悠久传统,包括硬件和软件的共同创新,以及覆盖对半导体、系统、固件、操作系统和主要软件框架的有效整合。

该芯片包含 8个处理器核心,具有深度超标量乱序指令管道(A deep super-scalar out-of-order instruction pipeline),时钟频率超过 5GHz,并针对异构企业级工作负载的需求进行了优化。彻底重新设计的高速缓存和芯片互连基础架构为每个计算核心提供 32MB 缓存,可以扩展到 32个 Telum 芯片。双芯片模块设计包含 220亿个晶体管,17层金属层上的线路总长度达到 19英里。

“Telum

半导体领先地位

Telum 是使用 IBM 研究院 AI 硬件中心的技术研发的首款 IBM 芯片。此外,三星是 IBM 在 7纳米 EUV 技术节点上研发的 Telum 处理器的技术研发合作伙伴。

Telum 是 IBM 在硬件技术领域保持领先地位的又一例证。作为世界上最大的工业研究机构之一,IBM 研究院最近宣布进军 2纳米节点,这是 IBM 芯片和半导体创新传统的最新标杆。在纽约州奥尔巴尼市 — IBM AI 硬件中心和奥尔巴尼纳米科技中心的所在地,IBM 研究院与公共/私营领域的行业参与者共同建立了领先的协作式生态系统,旨在推动半导体研究的进展,帮助解决全球制造需求,加速芯片行业的发展。

了解更多信息,请访问:

www.ibm.com/it-infrastructure/z/capabilities/real-time-analytics

关于 IBM 未来方向和意向的声明仅表示目标和目的,可能随时更改或撤销,恕不另行通知。

了解更多信息,请访问:www.ibm.com

围观 4

嵌入式电子+人工智能

在技术发展的历史上,技术先独立发展再相互融合以改变世界的例子比比皆是。原子能和喷气式发动机的融合催生了核动力航母,改变了20世纪大部分战争的形态。计算机和射频通信的融合产生了智能手机,同时也重新定义了我们与技术以及彼此之间的互动方式。今天,嵌入式电子和人工智能(AI)的融合正日益成为下一个具有颠覆性的技术组合。接下来我们就看一下这种融合的发展演变。

欢迎来到网络边缘

人工智能的概念最早出现在古希腊人的著作中,但直到20世纪上半叶,才开始将其作为一种实际技术进行开发。从根本上来说,人工智能让数字技术仿佛人脑一样,能够与模拟世界高效而快速地互动沟通。为了让人工智能在现实世界获得实际应用,比如在自动驾驶车辆中,那么在处理多个动态输入时,电子设备和物理世界之间的交互必须接近瞬时完成。值得庆幸的是,随着机器学习算法的发展,嵌入式电子系统也在不断进步。他们的联姻催生出了边缘计算的概念。
边缘计算将过去只有云端强大处理硬件才具备的处理能力,带给了位于物理-数字接口边缘的本地设备。再加上MCU和传感器等价格便宜而又性能强大的嵌入式组件的普及,最终在自动化领域掀起了一场规模、功能都史无前例的革命。

“图1:Google的“TensorFlow
图1:Google的“TensorFlow Lite for Microcontrolller”网站(图片来源:Google)

TensorFlow Lite:基于微型硬件的大型机器学习算法

TensorFlow是Google主导开发的一套开源软件库,使开发人员能够轻松地将复杂的数值计算算法和机器学习(ML)集成到他们的项目中(图1)。按照Google的说法,这些库为Python(所有平台上的Python 3.7+)和C语言提供稳定的应用程序编程接口(API)。此外,它们还为C++、Go、Java和JavaScript提供不保证向后兼容的API。针对Apple公司的Swift语言,它也提供了一个alpha版本。

TensorFlow为深度神经网络(DNN)的开发和利用提供了我们常说的端到端机器学习支持。DNN是机器学习的一种应用类型,特别擅长模式识别以及对象检测与分类。TensorFlow库支持机器学习过程的两个阶段,即训练和推断。其中第一阶段是深层神经网络的训练,这需要大量算力,通常由服务器级硬件和图形处理单元(GPU)提供。张量处理单元(TPU)则是最近开发的一种专用集成电路,用于支持这种训练。第二阶段是推断,即利用在现实世界中接受训练的DNN来回应新的输入:按照培训好的模型分析这些输入,并根据分析结果提出建议。这应该是嵌入式产品开发人员比较感兴趣的阶段。

适用于MCU的TensorFlow Lite(TensorFlow库的一个子集)专门用于在内存受限的设备上执行推断,大多数嵌入式系统应用中都存在这种设备。它不允许您训练新的网络,那仍然需要更高端的硬件。

实用为王:ML应用实例

在嵌入式系统上运行人工智能算法的目标,就是要比传统程序或面向对象的编程方法更高效地处理传感器收集的真实世界数据。也许在大家的意识中,最常见的使用案例是从传统汽车到具有自动辅助功能(如车道偏离警报和防撞系统)的汽车,再到无人驾驶汽车这个最终目标的发展历程。不过,深度学习还有其他一些不那么显眼的用例,虽然你不知道,但已经在使用了。智能手机中的语音识别或Amazon Alexa等虚拟助手均使用了深度学习算法。其他用例包括用于安防领域的面部检测和/或背景替换、去除绿幕、远程会议软件(如Zoom)等。

人工智能、神经网络和机器学习等术语有时候给人的印象就像科幻小说或行话。那么这些新兴技术的现实意义何在?

“图2:使用AI,可以自动监测安全源来识别某些人(图源:Monopoly919
图2:使用AI,可以自动监测安全源来识别某些人(图源:Monopoly919 - stock.adobe.com)

同时使用机器学习算法和联网设备(如物联网设备)带来的一个巨大优势就是,随着时间的推移,产品可以通过简单的OTA固件更新来集成新的或经过更好训练的模型。这意味着产品可以逐渐变得更加智能,并且不局限于制造时能够实现的功能,只要新的模型和固件不超出硬件的物理内存和处理能力即可。

“图3:将TensorFlow模型转换为可在MCU等内存受限设备上使用的版本。(图源:NXP)"
图3:将TensorFlow模型转换为可在MCU等内存受限设备上使用的版本。(图源:NXP)

工作流程

根据适用于MCU的TensorFlow Lite的说明文档,开发人员的工作流程可以分为五个关键步骤(图3),具体如下:

1、创建或获取一个TensorFlow模型

该模型必须足够小,以便在转换后适合目标设备,并且它只能使用支持的运算。如果要使用当前不支持的运算,可以提供自定义实现。

2、将模型转换为TensorFlow Lite FlatBuffer

使用TensorFlow Lite转换器将模型转换为标准TensorFlow Lite格式。您可能希望输出一个量化模型,因为这种模型的尺寸更小,执行效率更高。

3、将FlatBuffer转换为C位数组

模型保存在只读程序内存中,并以简单的C文件形式提供。可以使用标准工具将FlatBuffer转换为C位数组。

4、集成适用于MCU的TensorFlow Lite C++库

编写MCU代码来收集数据,使用C++库执行推断,然后使用结果。

5、部署到设备

编写程序并将其部署到您的设备。

选择与TensorFlow Lite库一起使用的兼容嵌入式平台时,开发人员应注意以下几点:

  • 基于32位架构(如Arm Cortex-M处理器)和ESP32的系统。

  • 它可以在内存仅有数十KB的系统上运行。

  • 适用于MCU的TensorFlow Lite采用C++ 11编写。

  • 适用于MCU的TensorFlow Lite可作为Arduino库提供。该框架还可以为其他开发环境(如Mbed)生成项目。

  • 不需要操作系统支持、动态内存分配或任何C/C++标准库。

后续步骤

Google提供四个预先训练的模型作为示例,可用于在嵌入式平台上运行。只需稍做修改,就能在各种开发板上使用。这些示例包括:

1、Hello World

演示使用适用于MCU的TensorFlow Lite的必备基础知识。

2、Micro-Speech

用麦克风捕捉音频以检测单词“yes”和“no”。

3、Person Detection

用图像传感器捕捉摄像头数据,以检测是否有人。

4、Magic Wand

捕获加速度计数据以对三种不同的身体姿势进行分类。

本文为贸泽电子独家原创文章,转载请注明来源。
免责声明:本文为转载文章,转载此文目的在于传递更多信息,版权归原作者所有。本文所用视频、图片、文字如涉及作品版权问题,请联系小编进行处理(联系邮箱:
cathy@eetrend.com)。

围观 44

AI设计主要参与方都是功能强大的CPU,GPU和FPGA等。微型微控制器与强大的人工智能(AI)世界有什么关系?

但随着AI从云到边缘的发展,使得这一观点正在迅速改变,AI计算引擎使MCU能够突破嵌入式应用可能的极限,嵌入式设计已经能够提高网络攻击的实时响应能力和设备安全性。

支持AI的MCU

云计算推动了对具有AI功能的MCU的需求;它减少了数据传输所需的带宽,并节省了云服务器的处理能力,如下图。


配备AI算法的MCU正在应用包含对象识别,启用语音服务和自然语言处理等功能的应用程序。它们还有助于提高物联网(IoT),可穿戴设备和医疗应用中电池供电设备的准确性和数据隐私性。

那么,MCU如何在边缘和节点设计中实现AI功能?下面简要介绍了三种基本方法,这些方法使MCU能够在IoT网络边缘执行AI加速。

三个MCU + AI场合

第一种方法(可能是最常见的方法)涉及各种神经网络(NN)框架(例如Caffe 2,TensorFlow Lite和Arm NN)的模型转换,用于在MCU上部署云训练的模型和推理引擎。有一些软件工具可以从云中获取经过预训练的神经网络,并通过将其转换为C代码来针对MCU进行优化。

在MCU上运行的优化代码可以在语音,视觉和异常检测应用程序中执行AI功能。工程师可以将这些工具集下载到MCU配置中,并运行优化神经网络的推论。这些AI工具集还提供了基于神经网络的AI应用程序的代码示例。

AI执行模型转换工具可以在低成本和低功耗MCU上运行优化神经网络的推论,如下图所示。


第二种方法是绕过了对从云借用的预训练神经网络模型的需求,设计人员可以将AI库集成到微控制器中,并将本地AI培训和分析功能纳入其代码中。

随后,开发人员可以基于从边缘的传感器,麦克风和其他嵌入式设备获取的信号来创建数据模型,并运行诸如预测性维护和模式识别之类的应用程序。

第三,AI专用协处理器的可用性使MCU供应商能够加快机器学习功能的部署。诸如Arm Cortex-M33之类的协处理器利用了诸如CMSIS-DSP之类的流行API来简化代码的可移植性,从而使MCU与协处理器紧密耦合,可加快AI功能,如协处理相关和矩阵运算。

上述软件和硬件平台演示了如何通过根据嵌入式设计要求开发的推理引擎在低成本MCU中实现AI功能。这很关键,因为支持AI的MCU很有可能在IoT,工业,智能建筑和医疗应用中改变嵌入式设备的设计。

本文转自:STM32嵌入式开发,转载此文目的在于传递更多信息,版权归原作者所有。

围观 62

作者:张国斌

随着算力、算法和大数据日益进步,带动了人工智能技术的迅速普及,目前在人工智能技术应用主要分成两步,首先在GPU等上利用大数据进行训练,优化算法和模型,然后在端侧通过特定的人工智能处理器NPU/APU上实现推理应用,有没有可能同时将训练和推理在一个处理器上实现呢?如果有,这是不是更高效?那将是可以颠覆行业的,也可能实现机器的自我学习和进化呢?

有!Graphcore --一家英国的人工智能领域的独角兽(估值17亿美元),提出了新的IPU(人工智能处理器)架构,它们在2016年10月获得了 3000 万美元A 轮融资(已经累计获得超过3.25亿美元投资),希望其产品可以对抗像英特尔和英伟达这样的人工智能巨头。其投资者包括Dell、微软、Bosch、BMW、Microsoft和Samsung等,它的处理器可以同时支持推理和训练,这可以说是继CPU、GPU、FPGA和ASIC之后的第五类人工智能处理器。

Graphcore的投资主体来自很多大公司

Graphcore的投资主体来自很多大公司

目前,Graphcore的已经量产,主要产品是一款可插入服务器的double-width、full-height 300W PCI Express卡,顶部连接器可以实现卡间互连。每一片Graphcore C2卡都配有两颗Colossus IPU处理器芯片;该芯片本身,即IPU处理器,是迄今为止最复杂的处理器芯片──在16nm单芯片上容纳了240亿个晶体管,每颗芯片可提供125 TFLOPS运算力。以静态影像的前馈卷积神经网络(feed-forward convolutional neural networks)来对比,IPU的性能优势是目前GPU的两到三倍有时甚至是五倍。

Graphcore的IPU产品​​​​​​​

Graphcore的IPU产品

全球第一台IPU服务器---Dell DSS8440

全球第一台IPU服务器---Dell DSS8440

Dell DSS8440是第一台Graphcore IPU服务器,具有16个IPU处理器,并在服务器中全部连接了IPU-Link™技术,因此IPU系统具有超过100,000个完全独立的程序,所有程序均在机器智能知识模型上并行工作。

2019年11月14日,Graphcore还宣布与微软进行合作,并发布Microsoft Azure上Graphcore智能处理单元(IPU)的预览版。Graphcore表示,这是公有云领导供应商首次提供GrapchoreIPU,看来未来云计算领域将是Graphcore大展身手的地方,今天我们来聊聊这款人工智能处理器有哪些独特的地方?

独特的架构

Graphcore联合创始人兼CEO Nigel Toon

Graphcore联合创始人兼CEO Nigel Toon

Graphcore联合创始人兼CEO Nigel Toon去年在接受电子创新网等媒体采访时曾表示对于CPU、GPU、FPGA和ASIC而言,Graphcore的IPU处理器是与它们完全不同的,Graphcore 的IPU特点可概括为:

1、同时支持训练和推理

2、采用同构多核(many-core)架构,有超过1000个独立的处理器;

3、支持 all-to-all的核间通信,采用Bulk Synchronous Parallel的同步计算模型;

4、采用大量片上SRAM,不需要外部DRAM。

Graphcore的IPU处理器架构

Graphcore的IPU处理器架构

他强调IPU是专门为AI/Machine Learning设计的处理器。Graphcore的IPU有强大并行处理能力,能在自然语言处理以及理解自动驾驶方面取得重大进展,这是区别于其他处理器的一个重要因素。当然,他也顺便喷了一下GPU,

“我们接触过的所有创新者都说使用GPU正在阻碍他们创新。如果仔细看一下他们正在研究的模型类型,你会发现他们主要研究卷积神经网络。因为递归神经网络和其他类型的结构,并不能很好地映射到GPU,加上没有足够良好的硬件平台,其研究领域受到限制。而这正是我们将IPU推向市场的原因。”Nigel Toon指出。

“大家常常对CPU解决不了的问题,试图用FPGA来解决,其实FPGA用的大量场景不在AI领域,而是在网络和存储加速里面。另外,针对AI应用,FPGA无法支持训练,另外易用性差,只可以做一些推理场景。而IPU很明确,专为机器智能或AI应用场景设计,可同时做训练和推理。” Graphcore销售副总裁卢涛补充表示,“IPU是一个处理器,针对IPU我们开发了一套叫做 Poplar 的软件,对程序员来说,在 IPU 上进行开发就是写一个TensorFlow或者Pytorch 的程序,可能就几十行代码,易用性非常好。”

而对于业界认为ASIC方案在场景应用中效能更高的说法,Nigel Toon表示他不认同这个说法,因为不管是什么样的神经网络,不管处理什么应用,最后在底层都会表征成一个计算图,所以IPU设计是来处理计算图的,不管是在处理图片也好,语言也好,最后就是个计算图。所以在我们往后在下一代产品发布的时候,可能会有一些微小的优化,但基本架构还是会维持当前的产品架构,只是处理器的能力强、规模更大,能支持更大的系统,但架构本质上还是当前的架构。

不过Graphcore也表示小型加速器是适合ASIC化的,例如一个拥有大量用户的具有非常特定工作量的公司,或许他们运营着一个庞大的社交网络,他们可以创建一个非常具体的功能并将其构建到一个芯片中,然后将其部署到数据中心以提高这一功能的效率。所以Graphcore不care这个市场,它所做的是一个通用处理器,可以通过编程以惊人的效率来做许多不同的事情。

在人工智能训练过程中,什么是最重要的?有什么方法可以捕捉到训练数据,并捕捉到这些数据间的关系?让所有数据产生关联,有了足够的数据才能建立出模型。就像小孩子一样,他们的大脑不断地吸收知识,消化知识才能产生知识模型,这些都需要经过长时期才可以建立。有了这样一种模型之后,我们还要有推理引擎,从这些新的知识得到新的输出。其实训练、推理的过程都是一样的,在训练时需要很多计算,而计算需要有足够长的时间,才能让我们的知识得到很好的训练。要培训、要训练这样一个知识模型,就要去监督这些学习过程,才能知道到底从这些数据中学到了什么。我们要建立这样的知识模型是非常复杂的,任何机器的计算模型都可以总结成为计算模式,可以用这些计算模式的描述,来描述这些数据到底是怎么样的,并把这些描述放在神经网络里面,让它们进行学习,然后把知识传输到新的输出上。我们Graphcore的芯片都是高度并行计算,很多种子数据都是同时并行计算的,就像档案里面同时处理很多数据一样。还有很多的并行计算过程正在发生,所以,要用不同的指令、多个机器,让并行计算成为现实。这里的挑战是怎么样确保不同的数据放到合适的地方,在合适的时间进行计算。我们还需要有海量数据带宽来实现高度、大量的数据计算,这就是发明Graphcore IPU的基本思路。”

这是一些对比数据,下图是自然语言处理,Graphcore过BERT语言模型实现了最先进的性能和准确性,在IPU服务器系统中用7张C2 IPU处理器PCIe卡(每个都有两个IPU)在56小时内训练了BERT Base。通过BERT推理,吞吐量提高了3倍,延迟缩短了20%以上。

Graphcore IPU自然语言训练对比

Graphcore IPU自然语言训练对比

与其他领先处理器相比,Graphcore C2 IPU处理器PCIe卡吞吐量提升了3.4倍,延迟优化了20倍! 

第五类人工智能处理器杀出,训练推理通吃?

Nigel Toon表示:“Graphcore的IPU 同时有上千个处理器在工作,单个IPU的存储带宽能达到45TB,比性能最快的HBM提升了50倍以上,且在相同算力的基础上能耗降了一半。”

他表示人工智能技术经过简单感知、自然学习的学习处理之后就会到了第三步--就是高度感知,从经验中去学习,要了解到接下来的那一步会发生什么。在自动驾驶汽车里面面临的几大难题就是智能汽车能不能认识到前面的物体,以及它下一步要做什么,在这方面,已经取得了很多进步。这些模型比之前的模型都要复杂,它们高度集成的模型,要把很多东西集成在一起才能做决定。所以,“实际生活中,我们看到的不是单一的知识模型,而是多个知识模型,让它们形成复杂决策过程,这就跟我们的大脑类似,因为我们的大脑可以处理不同的信息。”他强调,“谷歌的智能系统模型正在大规模增长,2016年它只能认识到2500万信息量,2019年2月推出的GPT-2就能处理15亿的参数了,未来还要能处理1万亿的参数,我们需要很大的计算。”他指出,“摩尔定律尽管放缓,但依然有效。我们需要有一种新的处理器,这个新处理器跟过去的CPU和GPU不一样,它是能够产生智能机器的处理器,还可以在同一个处理器同时处理数以千亿的参数,此外还要有能力把不同的IPU系统联系在一起,最后成为一个复杂的系统。而这个处理器要有更加复杂的存储器,能助力更大的机器学习模式,这就是Graphcore的IPU。”

据介绍,借助Graphcore的IPU,一个完整的机器学习模型可以在处理器内部生成。而且IPU处理器具有数百兆字节的RAM,可在处理器上以1.6 GHz的速率全速运行,Nigel Toon说,一个4U机箱中有16个IPU将使用户拥有无可比拟的内存带宽,其上可以运行成千上万的线程,而且同时运行,这是Graphcore得以加速机器智能工作的部分原因。

Nigel Toon表示,Graphcore的IPU相比友商竞品,有三个核心区别:

一是处理器的“核”的架构不同,IPU 是 MIMD 的架构;

二是Graphcore的knowledge model在处理器之内;

三是IPU能解决大规模并行计算处理器核之间的通信效率,这是个非常难的事情。在这一点上,Graphcore有大量的创新,关于多核之间如何通信,如何让软件工程师和程序员处理起来比较简单。

IPU开发复杂吗?

“我们有一个BSP的算法,是硬件和我们的软件一起协同工作的,这样对软件公司来说,虽然处理器有1000多个核,7000多个线程,但是不需要太担心通信问题,可以让软件工程师非常方便地使用,而且处理器核之间的通信效率非常高。”Nigel Toon强调说。

Nigel Toon表示在人工智能领域,框架算法都变化很快,人工智能处理器需要应对灵活性问题,Graphcore的IPU速度会非常快,处理单元可以支撑很多不同的神经网络系统,可以作出新的技术突破,而在这个领域,像今天的CPU或者GPU都难做出技术突破,这些处理器的框架难以需求人工智能领域越来越多的需求。

他表示随着AI的进化,会产生了很多创新的算法,面临的挑战很多,Graphcore和很多知名专家一起合作解决这些挑战,例如Zoubin Ghahramani是剑桥的教授,也是Uber的首席科学家,他发表了很多关于创新算法的论文。他现在也是Graphcore的咨询顾问。另外Graphcore也和AI领域很多知名科学家或者学者合作。

Graphcore销售副总裁卢涛(左)和联合创始人兼CEO Nigel Toon      

Graphcore销售副总裁卢涛(左)和联合创始人兼CEO Nigel Toon      

Graphcore销售副总裁卢涛补充表示,“IPU是一个处理器,针对IPU,Graphcore开发了一套叫做 Poplar 的软件堆栈,对程序员来说,在 IPU 上进行开发就是写一个TensorFlow或者Pytorch 的程序,可能就几十行代码,易用性非常好。”他也表示AI算法发展非常快,核心问题是怎么样能够支持未来的挑战。而IPU是一个处理器,基于这样一个处理器,我们通过软件来实现一些算法,所以它有足够灵活性。“像目前机器学习框架,我们有一套自己的,能够把这个计算图表征成大规模并行计算的一整套库,所以我们觉得很重要的就是,你不能做一个针对当前某一个具体问题,做一个具体的实现,你一定要可编程的。"他强调。“我们在一个芯片里有1200多个处理器核,这里面有一个叫all-to-all exhcange的总线,基本上就是从任何一个核到另外一个核,都可以直接访问,不仅仅是互联,这是第一个维度。 第二个维度,跨到多个芯片时,我们有个IPU-Link协议,可以把多个IPU联结在一起,组成一个集群。all-to-all总线中间的BSP算法,不仅仅是在同一个芯片里面核之间的芯片,跨芯片核之间也可以通过那个协议总线做通信。IPU-Link可以最多支持128个核互联。此外,通过IPU-Link over fabric技术,还能把几千几万颗的处理器连在一起。”   

Graphcore的IPU芯片

Graphcore的IPU芯片

但这样的强大系统并不意味着就不用对模型做优化了,他表示Graphcore在模型上也做稀疏和剪枝,一般剪枝是要减少参数数量,主要用在推理、部署场景。“有些场景不用做剪枝,因为最后用的是FP16(16位浮点数)来做推理,所以很大程度上剪枝是跟量化在一起的。比如训练一个模型, FP16部署的时候成INT8了,那这时肯定需要做剪枝。

另外,IPU芯片里面有一千多个核,每个核里面都有计算单元和Memory,所以IPU天生就是做稀疏化应用场景性能会更好。

Nigel Toon表示从AI产业的角度来看,AI处理器市场是很大,但目前玩家还是不多,Graphcore的目标是让产品、技术能真正解决行业和客户的问题,然后获得很大的市场。

卢涛表示在AI领域,可编程的处理器虽然目前还只是GPU,但Graphcore认为未来会有更多应用场景,Graphcore要做的是一个非常灵活的处理器,“我们是从0开始,专门针对AI做处理器架构。我们认为未来有很多新型AI应用,我们的IPU会有自己的领域和赛道,并大放异彩。”他强调。

注:本文为原创文章,转载请注明作者及来源

围观 16

人工智能技术正在赋能整个电子产业,在EDA领域,人工智能技术如何提升设计效率?未来,我们可以让机器来设计芯片吗?我们如何借助机器学习加速芯片设计?Mentor Forum 设计技术论坛为你揭晓答案!

上海站:【8月27日】——上海浦东嘉里大酒店三楼(花木路1388号)

北京站:【9月5日】——北京香格里拉饭店(紫竹院路29号)

尊敬的客户:

2019初秋时节,一年一度的Mentor Forum设计技术论坛(上海/8月27日,北京/9月5日)如期而至,Mentor中国公司诚邀您莅临。

在论坛的上午,Mentor执行副总裁Joseph Sawicki先生将为您带来题为“机器学习时代的半导体设计”的主旨演讲。下午为五个行业技术研讨,您可根据需求和兴趣选择报名物联网、人工智能、汽车电子、复杂SoC以及先进半导体等不同分会场。

Joseph是应对 IC 纳米设计和制造挑战方面的权威专家,以前负责 Mentor 行业领先的Design-to-Silicon产品,包括 Calibre 物理验证和 DFM 平台以及 Mentor 的 Tessent 可测试性设计产品线,现在管理 Mentor IC 细分市场的所有业务部门。

Joseph演讲摘要:
在双重推力的作用下,机器学习 (ML) 在半导体行业的应用显著增长。第一重推力是针对基于 ML 的半导体设计的风险投资激增,重点放在如交通、能源、互联城市、云计算和智能制造等广大市场范围。第二则是 ML 为 EDA 工具提供了一个极好的算法机会。作为 Mentor执行副总裁,Joseph Sawicki 将对 ML 对半导体设计的影响展开调查。在概述完所有可喜的增长领域后,Joseph 会就 ML 如何扩展算法级设计要求和需求进行讨论。他还将检查 ML 对 EDA 工具开发产生的影响,关键领域包括智能模式分析,以及对仿真和测试中生成的大量数据进行分析的能力。

除了能与德高望重的专家面对面交流,与会的IC设计领域工程师和管理人员还将收获:

  • &nbsp聆听主旨演讲嘉宾见解,开拓视野

  • &nbsp参观现场展览展示,洞察产业生态

  • &nbsp真实用户案例分享,启迪设计灵感

  • &nbsp值得信赖的信息来源, 一站即获取

  • &nbsp跟同行切磋的平台,与业界保持同步

  • &nbsp精美的纪念品和抽奖,典藏美好回忆

不容错过的设计技术年度盛会,Mentor中国期待您拨冗出席、同话IC、共襄盛举!

  Mentor Forum上海论坛 Mentor Forum北京论坛
日期 2019年8月27日(星期二) 2019年9月5日(星期四)
地点 上海浦东嘉里大酒店三楼
(花木路1388号)
北京香格里拉饭店
(紫竹院路29号)
日程
及报名
微信扫描以下二维码,了解详情、快速注册,或者点击报名链接
报名
二维码
报名
链接
https://u.eqxiu.com/s/ZbrC2gU9 https://e.eqxiu.com/s/US7WJsnm
备注 免参会费,交通自理
席位有限,额满报名即止
请您尽早报名,并以最终参会确认为准

特别鸣谢Mentor Forum铂金赞助商(排名不分先后):

围观 136

回顾2018年,人工智能技术呈普及势态,从技术驱动发展到场景驱动,很多针对垂直应用推出了优化的方案,人工智能应用从云端走向汽车、安防、物联网、消费电子等,有的应用已经开花结果,为了更好地把人工智能技术普及到更多领域,电子创新网联合Imagination、赛灵思、格芯等公司在12月20日共同举办“人工智能应用与趋势”沙龙,邀请人工智能产业链代表聚集一堂,共同分享人工智能应用经验,我们诚挚地邀请来自安防、智能家居、消费电子、汽车电子、工业领域的业内人士报名参会,与嘉宾们零距离互动,共同发掘人工智能应用蓝海!

欢迎大家报名!本次沙龙参加者免费!欢迎演讲嘉宾自荐或者推荐!

沙龙具体安排
1、时间:2018年12月20日下午
2、地点:深圳会展中心6楼郁金香厅
3、会议议程(具体内容以主办方最新通知为主)

时间段 内容 嘉宾
13:00~14:00  签到  
14:00~14:10  开幕致辞与AI应用的几个趋势  电子创新网CEO张国斌
14:10~14:40 人工智能催生行业大变革 Imagination首席技术方案工程师 - 李安
14:40~15:00 智能汽车与自动驾驶:赢在灵活应变 赛灵思人工智能产品经理 - 毛广辉
15:00~15:20 人工智能落地趋势 格芯市场总监 - 朱宇
15:20~15:40 圆桌互动—AI的蓝海在哪里?
探讨AI在细分领域应用案例?
AI未来趋势
发言嘉宾
15:40~15:50 抽奖 蓝牙音箱、智能音箱
16:00 结束

参会受众:

本土安防、智能家居、消费电子、汽车电子、工业领域AI应用开发者、方案提供商、系统厂商代表。人数大约80到100人。

立即报名

围观 362

瑞萨电子通过其独家DRP技术以低功耗实现了出色的实时图像处理

全球领先的半导体解决方案供应商瑞萨电子株式会社(TSE:6723)今日宣布,扩展其嵌入式人工智能(e-AI)解决方案,将AI整合到嵌入式系统,从而实现终端设备的智能化。全球10多个国家的约150家公司正在基于这项技术开展包括工具等在内的试验,到目前为止e-AI的实际使用案例已超过30个。瑞萨电子现已开发出全新的 RZ/A2M 微处理器(MPU),把 e-AI 解决方案的使用扩展到高端应用。新款MPU提供的图像处理性能是其前一代产品RZ/A1的10倍(注1),通过采用瑞萨电子独有的动态可配置处理器(“DRP”,注2),能够以低功耗实现实时的图像处理。这样就能够将应用整合到嵌入式设备中,例如智能家电、服务机器人和紧凑型工业机械领域,以便利用摄像头和其他 AI 功能在低功耗条件下进行图像识别,并加速实现终端设备的智能化。

目前,在操作技术(OT)领域中使用 AI存在着诸多挑战,例如难以将大量数据从传感器传输到云端进行处理,以及在等待AI判断结果从云端传输回来时存在延迟。瑞萨电子已经推出了多项 AI 单元解决方案,通过精确分析电机或机器的振荡波形,可以实时检测出以前不可预见的故障。为了进一步扩展人工智能在OT领域的应用,瑞萨电子开发了带DRP功能的RZ/A2M,这让基于图像的AI功能成为可能,而这些功能往往需要比波形测量和分析更大量的数据以及更强大的处理性能。由于可以在非常低的功耗下进行实时图像处理,电池供电的设备可执行如基于相机输入的实时图像识别、采用指纹或虹膜扫描的生物识别认证,以及手持式扫描仪进行的高速扫描等任务。这就解决了与基于云计算的方法相关的诸多难题,如难以实现实时性能、难以保护隐私性以及安全性。

瑞萨电子执行副总裁、工业解决方案业务部总经理横田善和表示:“ 采用e-AI将给便利性、安全性和生产效率方面带来巨大的进步。我们通过使用e-AI成功地提高了自己工厂的产能,从而验证了AI给终端设备带来的优化。我们将继续扩大e-AI应用的范围,将其从色彩、形状和波形等简单属性扩展到复杂图像的实时处理;我们将提供更广范围应用、人人都可以使用的e-AI解决方案,在推动终端设备智能化方面发挥领导作用。”

具有DRP功能的新型RZ/A2M的主要特点

带DRP功能的RZ/A2M是RZ/A系列MPU的新成员,配备了大容量片上RAM,无需外部DRAM。RZ/A系列MPU非常适合采用人机界面(HMI)功能的应用,而RZ/A2M进一步增强了这一特性,它提供了多项非常适合于摄像头应用的功能。它支持广泛用于移动设备的MIPI® 摄像头接口,并配备了DRP,可以通过该接口高速处理图像输入。瑞萨电子通过增加双通道以太网支持增强了网络功能,并通过片上硬件加密加速器增强了安全功能。通过这些功能,新型RZ/A2M可实现安全可靠的网络连接,适合于各种采用图像识别功能的系统,涵盖从家用电器到工业机械的广泛范围。了解更多该款新品规格,请点击此处。

瑞萨电子计划继续扩大其基于DRP技术的e-AI解决方案的范围。在2019年下半年,瑞萨电子将发布一款搭载DRP的AI加速器,其AI处理性能比软件处理快100倍,并且能够通过e-AI进行实时推理。2021年,瑞萨电子将发布下一代AI加速器,其能力是传统MPU的1000倍。借助于这种方式,瑞萨电子将通过AI提升嵌入式设备的价值,让终端设备不但可以进行推理,而且能够进行学习。

上市情况

带 DRP 功能的 RZ/A2M 样片现已上市。瑞萨电子提供开发板、参考软件以及 DRP 图像处理库,使客户能够立即开始评估 HMI 功能和图像处理性能。计划将于 2019 年第一季度开始量产;到 2021 年,所有版本的月产量预计将达到合计 400,000 套。

了解更多e-AI解决方案,敬请访问

e-AI网页:https://www.renesas.com/cn/zh/solutions/key-technology/e-ai.html
e-AI概念:https://www.renesas.com/cn/zh/support/videos/e-ai-overview-video.html

注:

1. 例如,当运行用于检测图像边缘的“Canny边缘检测”算法时,如果采用CPU进行软件处理,RZ/A2M将需要每帧142毫秒(ms);但是,如果采用片上DRP进行硬件处理,则只需要每帧10毫秒。这表明图像处理性能提高了10倍以上。

2. DRP是一套硬件知识产权(IP)模块,能够从一个时钟周期到下一个时钟周期动态地改变其处理电路的配置。在广播设备和数码相机等应用中,DRP已在量产中应用了十多年。这套瑞萨电子独有的技术将硬件性能与软件灵活性相结合,多年来为各种产品带来了附加价值。展望未来,瑞萨电子计划将DRP的使用扩展到e-AI,以提供卓越的功耗性能和无与伦比的灵活性,时刻跟踪并保持与神经网络领域的持续进步。

围观 282

随着处理器技术和大数据的普及,人工智能技术应用在快速发展,2017年堪称人工智能元年,而2018年将成为人工智能应用深化和细化的一年,本土多家公司如寒武纪、杭州国芯、地平线等都推出了人工智能处理芯片,在人工智能算法方面,商汤科技、旷视科技等开发的算法广为使用,而华为云已经在把人工智能领域应用到安防等应用, Imagination公司则推出了人工智能加速IP ,已在安防、视频领域获得应用,人工智能应用可谓如火如荼进行!

“人工智能垂直应用与生态”研讨会报名了!席位有限,先到先得!

为了更好地把人工智能技术普及到更多领域,电子创新网联合Imagination、中星微电子、商汤科技、全志科技、华为云等共同举办“人工智能垂直应用与生态”研讨会,邀请人工智能产业链代表聚集一堂,共同分享人工智能应用经验,我们诚挚地邀请来自安防、智能家居、消费电子、汽车电子、工业领域的业内人士报名参会,与嘉宾们零距离互动,共同发掘人工智能应用蓝海!

欢迎大家报名!本次研讨会参加者免费!

报名

研讨会具体安排

1. 时间:2018年6月4日下午

2. 地点:康佳研发大厦康佳之星孵化器(科技园科技南路十二路28号康佳研发大厦7层B区(康佳之星))

3. 会议议程(具体内容以主办方最新通知为主)

“人工智能垂直应用与生态”研讨会报名了!席位有限,先到先得!

参会受众:本土安防、智能家居、消费电子、汽车电子、工业领域AI应用开发者、方案提供商、系统厂商代表。人数大约60到80人。

活动地点介绍:“康佳之星”是华侨城集团与康佳集团旗下的双创品牌,承载运营包括孵化器、加速器、创新基地以及创投基金等在内的一系列双创业务。依托华侨城集团与康佳集团的产业生态资源及开放的社会资源,深度参与产业对接,为创业者提供包括市场、投资、媒体、空间、供应链、定制生产、创新技术等一站式孵化服务。

“人工智能垂直应用与生态”研讨会报名了!席位有限,先到先得!

深圳地铁一号线高新园站D出口出来后步行300米即到

“人工智能垂直应用与生态”研讨会报名了!席位有限,先到先得!

快快报名吧!与嘉宾们零距离互动,共同发掘人工智能应用蓝海!

席位有限,报名从速!
围观 398

作者:张国斌

被业被誉为“IC设计教父”的联发科董事长蔡明介有个著名的S曲线战略,就是联发科总会选择在一个新技术普及爆发的前夜进入市场,享受技术大爆发带来的红利,这个战略屡试不爽,从DVD芯片到功能机方案到3G、4G手机平台,联发科在享受一次次技术红利的同时不断壮大,近日,联发科公布了人工智能战略,虽然比其他家晚点但是灵活性和效率更高,依据联发科过往的成功经验看,这意味着人工智能大普及时代就要来临了!盆友们,准备好了吗?

联发科发力,人工智能大普及时代来了!

一、兼得灵活性和效率的异构架构

2017年是人工智能元年,多家公司推出了瞄准终端应用的人工智能平台,华为,苹果推出的方案中有独立的神经网络处理器单元,对人工智能做辅助处理,而高通的骁龙845则没有独立的神经网络处理单元采用DSP完成人工智能处理,瑞芯微则用优化的DSP做人工智能处理,业界在对待端侧人工智能处理方面也分化为两个阵营,一个认为用平台中的DSP处理人工智能算法已经足够,一个认为要用独立的神经网络单元做人工智能加速,现在,联发科的策略公布,它采用独立的神经网络单元做人工智能加速,看来,独立加速方案是未来主流,我看联发科方案的灵活性更高。

联发科发力,人工智能大普及时代来了!

联发科技 CTO 办公室协理林宗瑶在联发科AI策略沟通会上表示联发科的人工智能平台NeuroPilot 采用的是异构架构,最底层的处理器有CPU,GPU和APU,APU--是人工智能处理单元的缩写,“CPU 负责控制功能, GPU 负责运算,APU 对整个 AI 运算做特殊加速,从灵活性来看,CPU 灵活性好什么都能做,但效率最差,而 APU可以对AI优化做到效率最高,实际上,我们考虑一些AI 功能都可以放在 CPU、GPU、APU 上,根据工作特质,系统自动分配到APU、CPU、GPU上。如果操作运算量高,而且需要浮点运算,我们就把它放 GPU上。如果它需要定点运算,且需要长时间运算,需要低功耗就放到 APU上。如果是一个多控制运算,就把它放到CPU上。我们会根据它下下一个指令与下下一个工作的分配,确定放到 CPU、GPU 还是 APU上,这跟CorePilot 的大小核分派类似。”他详细介绍了底层处理单元的功能,“APU是人工智能处理单元,它不是一个固定架构的处理器,可以是DSP 也可以是硬件加速单元,例如针对语音识别可以放置2个DSP ,针对其他应用可以放置几个加速单元,它的架构根据需求而定,因此灵活性很高。”

林宗瑶继续解释说这个NeuroPilot平台最上面是应用端,包括脸部识别、美化、人脸辨识、手势检测等等功能。有些功 能 是 在 APP 商店上可以下载下来的应用,有的是 Pre-built 应用。因为有些应用需要跟软件深度结合,例如手机人脸解锁以及手机人脸支付,这就是 pre- built 应用,因为它需要跟软件整合来避免一些安全性问题。“联发科的NeuroPilot平台既可以支持 APP store 里的应用,也可以支持 pre-built 应用。 要支持这样的应用,需要做一些架构上的优化和设计。”他表示。

NeuroPilot 支持目前很多常用的AI framework,例如谷歌的tensorflow、 Facebook 的 caffe1/2、像亚马逊的 MXNet、Sony的NNabla等等,这样可以让合作伙伴开发属于自己的算法和应用。“例如国内的商汤科技、旷世科技等等,他们一方面希望可以定制化,另一方面也希望可以复制到其他平台,所以联发科开发了一个叫Runtime的中间层,把一些比较常用的AI 应用运算概念装在里面。再提供一些定制化的接口给合作伙伴。“他强调。“这样做的好处是,第一 、合作伙伴希望可以定制化的AI指令不希望别人知道, 第二,他们定制化的AI指令能更有效的运行,所以他们希望直接从上面对接到最底层。”Runtime其实是针对深度优化的合作伙伴,可以同时兼顾到垂直应用和定制化。

“联发科的产品覆盖面很广,从手机到电视到穿戴、物联网很多领域,所以我们的人工智能平台考虑的要覆盖很广的领域,”林宗瑶说,“所以我们不是一个固定的平台架构,你可能看到有针对智能音箱的,APU可能采用DSP ,有针对穿戴的,APU又采用了其他处理架构。”

二、开发工具包考虑了兼容性

对于人工智能开发者来说,平台架构很重要,但是开发工具包更重要,工具包要有很好的兼容性和完整性,便于开发者进行移植和使用,联发科的NeuroPilot 的工具包就考虑这因素。

联发科发力,人工智能大普及时代来了!

“我们的工具包是一个跨操作系统的通用架构,因为这要考虑到联发科产品覆盖很多领域,我们的工具包从系统层级到中间的 Runtime 层再到底层的加速器级都有覆盖(这加速器包括 CPU、GPU、APU)。

NeuroPilot是一个跨平台、跨产品线的架构,所以在不同的操作系统上(Android,Linux等等…)AI应用开发者看到的NeuroPilot架构是一样的,当然这个架构会只会在最底层做一些差异化。也就是说,今天我们在Android平台的开发一个AI应用,它可以直接搬到Linux上做运行,可以大幅度减少开发商工作,开发一次就可以在很多平台用。”林宗瑶特别指出。

通过系统级debug 的profiler,AI开发者可以比较把任务派给CPU,GPU和APU的运行情况--电压是多少?频率是多少?各种情况怎么样等。并能看出这个 AI 到底有没有放到错误地方去了?如果一个 AI 应用, 本来是派给 CPU 的,结果系统派给 GPU 了,这样就会有问题。
联发科发力,人工智能大普及时代来了!

第二层 Runtime 中间层,开发者可以观察到运行细节信息,例如感觉有些运算单元花的时间 比较多,到底这个花时间多是下达指令错误还是因为在 CPU 上面运行时间比久(因为存储器不给力)。最后 CPU 效率低是什么原因造成的?合作伙伴就可以很容易的去做一些 debug 的开发工作。
联发科发力,人工智能大普及时代来了!

第三层加速器层级,工具包可以发现处理器在完成AI任务时候的性能瓶颈,如下图示例。
联发科发力,人工智能大普及时代来了!

通过工具包,开发者可以轻松完成开发。

三、终端AI是未来应用主流

林宗瑶表示联发科一直关注人工智能技术的发展,基本上从 2012 年深度学习开始到 2016 年、2017 年,人工智能应用还是在云端开发。但是考虑快速响应、隐私保护、连接成本以及功耗四个因素,联发科技认为在端侧AI有很大机会。

联发科发力,人工智能大普及时代来了!

他认为从云端发展到终端AI有四大提升:

1)端侧响应快,图像识别,图像变化,车载系统都需要快速响应,发送云端然后返回结果显然不会有好的响应。“像最近很红的亚马逊 echo,它的响应就慢,要解决这个问题,就要把云端计算放到终端来。”他解释说。

2)隐私。很多人不想放到云端去,因为放到云端去基本上就没有个人隐私。而在 Edge 这边隐私性会更好

3)连接。连接包括连接的成本和连接有效性。显然任何材料都传至云端成本很高,而且很多地区宽带有限,而Edge AI 的体验会更好。

4)功率。现在整个云端功耗已经占整个地球电力的 5%,所以如果AI在终端实现则可以降低整体能耗。
基于这四点,他认为Edge AI 将为主流。

他强调Edge AI 其实就是 AI anywhere 或 AI everywhere,需要产品布局够广,才能造成很大的影响力。另外因为有这么多产品线,所以除了传统的 Android 之外,还需要考虑到 Linux 或其他的 RTOS, 这样应用广度才会高。

“AI 好比一个人的大脑,一个人既需要大脑,还需要眼睛,需要嘴巴传递信息。你的眼睛就相 当于 camera IC 的功能。你的资料需要跟其他 edge 沟通,需要跟云端沟通,那么就需要各种无线技术,而因为资料量很大因此需要编解码技术。” 他解释说,“基于这些考虑形成了联发科的NeuroPilot 平台。”

他指出目前全球 IC 设计公司中,唯一能够同时拥有智能手机、数字电视、AP Router、VAD、物联网设备、 车载电子的就是联发科一家,“其他有些公司可能 AI 不错,但 缺乏互补性技术。有些是有互补性技术可是 AI 比较差,有些有核心技术和互补性技术,但产品线布局不够广。”他结合联发科的优势来解释平台,“以下图来看,AI 核心搭配互补性技术,就可以构成一个 AI 平台。有 AI 平台之后,在考虑移植哪些产品上,那就要看 可以应用到什么样的产品上面去,比如智能手机、数字电视、AP Router、VAD、物联网设备、 车载等等。所以联发科技的 AI 策略就是从基本的 AI engine 做起,然后搭配其传统强项 - ISP, 连接和WiFi 等技术, 再应用到联发科的产品线上面。”

联发科发力,人工智能大普及时代来了!

四、提供的是平台不是turnkey方案

“联发科不做人工智能的先行者,我们做AI的普及者。我们要做的就是把AI技术普及到更多领域、更多产品上。”林宗瑶指出,“联发科技在AI 的策略跟过去不一样,过去提供turn key方案,现在我们的 AI 是一个平台的策略 ,而且这个平台是个开放的平台,我们会开放给所有合作伙伴 ,包括一些非专业用户都可以来我们平台做开发。”

他特别指出联发科技 AI平台有三个优势:

1)能够同时拥有很多技术,同时又可以应用这么多产品线的,放眼全球就联发科技一家公司。因AI 的平台除了提供最基本 AI 功能之外,还搭配一些技术,一起去支持这些产品线。而在开发上只需一次变化,就可以同时分散到很多产品线,因此可以把AI的应用扩散到很多领域。

2)开放性更高,NeuroPilot 平台同时支持支持高中低阶 API,所以可以兼顾到客户可移植性和客制化的需求。

3)异构运算优势--有自己的 APU,系统还可以根据不同的 CPU、APU、GPU 架构选出最适合进行处理。

“我们的架构支持安卓、Linux 和其他的操作系统通用架构。我们的产品线则从电视到语音助手设备、智能手机到发展平板,甚至是汽 车 电 子 , 我们都会用一样的架构。合作伙伴一次编程就可以处处部署,可以大幅度减少合作伙伴的开发时程。”他指出,“以上就是我们在 AI 这边的策略、想法跟布局,未来AI应用会非常火爆。”

林宗瑶透露联发科第一款采用这样架构的AI芯片将在2018世界移动通信大会(MWC2018)上亮相,另外,今年还会有针对其他领域的AI芯片推出,敬请期待。

联发科全面发力人工智能,我看人工智能大普及时代真的来了!

声明:本文为原创文章,转载需注明作者、出处及原文链接,否则,本网站将保留追究其法律责任的权利

围观 343

作者:张国斌

2017年9月2日,华为消费者业务CEO余承东在德国柏林IFA2017大会官方论坛发表“Mobile AI. The Ultimate Intelligent Experience”为主题的演讲,全面阐释了华为消费者业务的人工智能战略,并正式发布了麒麟970芯片。这款有55亿晶体管、全球首款内置神经网络处理单元(NPU)的人工智能处理器震撼了产业,震撼了全球!从公布的数据来看,NPU运算能力达到1.92T FP16 OPS!是同等CPU处理器能力的25倍!能效是其50倍!这款处理器让华为一举站在了全球移动人工智能(AI)领域的最前沿!

深度揭秘麒麟970 人工智能处理器,它的强大超出你想象!

深度揭秘麒麟970 人工智能处理器,它的强大超出你想象!

麒麟970 AI处理器对人工智能产业发展有何意义?它对智能手机发展有何重要意义?为何在两年前定义的这款芯片能赶上了全球人工智能大潮?结合我和产业人士的交流谈谈自己的感受。

一、异构与端云结合实现人工智能非常有价值

几年前,产业都在讨论如何在云端实现人工智能,而华为探索了新的模式,就是端云结合实现人工智能,云端智能的优势在于强大的运算能力,基于大数据给出大智慧,在策略性输出上有极大优势。而端侧在具备了强大的感知能力之后,手机就会成为帮助用户思考的分身和伙伴。两者达成平衡与协调,才是未来终端发展的出路。这次麒麟970也是人工智能处理器从服务器走向便携化的一个重要里程碑,意义非常重大,借用一位大佬的评论:“这也许是手机的一小步,但是一定是人类生活的一大步。”

由于人工智能处理器需要进行大量的计算因此需要消耗大量功耗,按照以前的思路,人工智能处理器需要将在云端处理利用服务器的计算资源完成处理,但是显然这不现实,因为大量数据需要上传不仅占用带宽还有延时问题,不能实现真正的实时人工智能处理器,在麒麟970之前,移动端还没有一款可以真正支持人工智能出来的ASIC芯片,因此这个探索意义非常大。

麒麟970采用异构架构完成人工智能处理,芯片括了CPU、GPU、NPU、ISP、DSP。以前大家从人工智能角度来看,认为NPU是做AI的,AI就是要靠NPU去实现的,但从麒麟970来看不完全是。NPU在实现AI上承担了很多主要工作,但是CPU、GPU也参与了处理,例如ISP也参与很多相关工作。所以,未来以异构架构实现人工智能将成为主流,这个异构SoC将成为一个AI计算平台。

深度揭秘麒麟970 人工智能处理器,它的强大超出你想象!

从余承东公布的华为人工智能战略来看,在未来终端上的人工智能实现需通过端云协同,华为构建芯、端、云协同发展,通过结合云端和终端的能力,实现手机从智能终端到智慧终端的跨越,给用户带来颠覆性的体验。这可能引发智能手机巨大的新变革。

二、吹响智能手机“十年一变”号角

在手机产品界及手机领域有个“十年一变”的规律,1997年11月诺基亚发布了全球首款内置游戏的移动电话诺基亚6110,其贪吃蛇游戏是有史以来第一款手机游戏,这款手机相信很多人都买过,它成为诺基亚在功能机时代封王的奠基者。

深度揭秘麒麟970 人工智能处理器,它的强大超出你想象!

2007年11月5日,安卓系统正式发布,Android一词最早出现于法国作家利尔亚当(Auguste Villiers de l'Isle-Adam)在1886年发表的科幻小说《未来夏娃》(L'ève future)中。他将外表像人的机器起名为Android。这个绿色小机器人颠覆了功能机,也是在2007年,苹果iPhone惊艳面市,以此为标志,我们正式进入了智能手机时代。
深度揭秘麒麟970 人工智能处理器,它的强大超出你想象!

时间到了2017年,智能手机将再次面临重大分化,人工智能在2017年将成为智能手机的分水岭,未来手机将只有人工智能手机和非人工智能手机两种。

从现在往前看,原来的手机是纯粹的通信工具,后来加入计算器、录音机等一堆硬件。到了智能手机,本质上其还是工具属性较强,把互联网变成了移动互联网,同时具有一个开放生态,可以往里做各种各样的应用创新。但是智能手机对人的理解,对环境的理解还没有本质的变化,所以智能手机还是一个升级版的工具。但当人工智能引进以后,手机本身有足够强的处理能力,有传感器,才有可能把手机从工具属性变成更加类似像宠物一样的东西,具备理解能力,一开始做不到那么懂你,但是慢慢还是能懂的。不同的手机拿到不同的人手里,表现也会不同。

因为手机有了人工智能,它带来了无限可能。人工智能应用场景非常多,几乎无所不包,以手机拍照为例,就像单反里基本的光学部分都很好,但如何设置出恰当的参数是很麻烦的事情,未来AI手机在这方面可以更加有效,能够对环境有足够的了解,对拍摄对象有识别,进行一定的校正,可以说AI手机成了一部懂得拍照的手机。降噪方面,以前我们理解降噪就是做相位对消,而采用了人工智能处理以后,它能使用我们目前还未知的方式进行消噪,就如同图像识别,人工智能CNN卷积神经网络,经过逐层的神经网络卷积等运算,自动提取和发现了我们目前难以理解的特征值一样,这个确实令人非常兴奋。

有了人工智能能力的手机,不但可以解析出用户的语言,更能分辨情绪,当手机能够分辨你在哪里,你是谁,并“猜”到你的心意,这样的手机真的更贴心了,人工智能手机还能基于用户画像和过往行为习惯及结合当前的使用场景,推测出用户的行为意图。以这样的路径发展下去,未来手机一定非常强大,它可以成为人的伙伴甚至教练,例如阿法狗就完全可以成为围棋教练。

在专业知识背景和本地结合下,可以把手机作为教练级伙伴。随着手机性能的不断提升,用户不断的使用,手机会不停的进化学习,到某一天,手机能全面与互联网结合,直接帮助人、甚至可能陪伴人。
不过,人工智能技术发展后,手机将变成了一部值不值得去偷的手机,因为它只服务特定的用户,这个变化也是挺有意思。

三、开放人工智能开发环境,让华为手机超越苹果成为可能

余承东在9月2日的演讲中说:“华为将会把麒麟作为人工智能移动计算平台开放给更多的开发者和合作伙伴,让开发者利用麒麟970的强大AI算力,开发出更具想象力和全新体验的应用,共同造就移动AI计算应用的美好未来。”,华为一位技术大牛也说:“我们今年不只是发布一款芯片,还要发布整个开发环境,第三方可以尽早参与开发。”由此可以想象,华为凭借领先的人工智能平台,构建一个开放的人工智能开发环境,让更多第三方可以开发人工智能应用,这个有点类似目前的APP开发,未来开发者可以为华为人工智能开发不同的算法,一起开发AI应用。

这样的开发环境和先发优势让华为在人工智能生态系统建设上占领了优势,未来华为凭借这个优势完全有超过苹果的可能。(三星已经不在考虑范围之内了)

四、 谈点产品定义的思路

麒麟970是两年前定义的产品,为何在当时大家还在热衷于多核架构的时候,华为麒麟团队人就看到了人工智能的曙光?这里结合一些获取的信息谈谈产品定义。

首先,据华为公布的资料显示,在2012年以前,华为就开始思考智慧终端该有一颗什么样的大脑,以及Ta会干些什么?学习什么?如何思考?为了创造“A new brain”,华为做了各种相关的科学研究和应用尝试。例如通过“诺亚方舟实验室”做过探索。

诺亚方舟实验室成立于2012年。作为人工智能算法的研究、管理 AI 的技术合作、识别 AI 主要应用场景和需求管理等研究的前沿阵地,诺亚方舟实验室的创新产品和技术主要聚焦在数据挖掘、人机交互、智能系统以及大数据系统领域,主要致力于“从大数据到大智慧”,对未来5-10年的技术发展方向做前瞻性的研究。

自2016年起,诺亚方舟实验室的研究成果就已经逐步应用到华为的手机产品上——Mate 9、P10 所采用的人工智能,应用在传感器算法、计算机视觉、搜索引擎和语义理解等领域。例如Mate9应用了智能感知学习技术,能够跟踪趋势和行为模式,从而确保手机持续运行的快速和顺畅,避免出现像手机使用时间越长,反应越慢的情况;P10 & P10 Plus新增的Ultra Memory功能,结合智能感知和深度学习,实现了自动内存压缩和回收,以及自动碎片处理功能,极大提高了手机的响应速度,也缩短了应用启动时间。这些基础研究对于产品定义都非常有益。

其次,至于麒麟970芯片为何考虑加入人工智能?按照一位技术大牛的说法是华为考虑的是随着传感器能力慢慢达到人类水平,则需要智能处理的介入。

为什么呢?这是因为超越人体感官和人体智能这两者之间是有因果关系的。例如戴眼镜的人摘了眼镜看不清楚,收集不到合适的信息,其实就相当于智商下降,虽然有智力但是不能做判断和决策,对于手机也是一样,如果图像传感器或者麦克风很强大,但是没有智能介入,手机还只是硬件升级而已。

还有就是,即使手机图像处理做的再好跟人眼也还是有差别,其中的原因就是人脑里有感光视觉。举例来说,如果一个人对某个人很熟悉,则对着他的侧脸或者光线较暗的环境下大脑也能把那个人的样子补出来,而不熟的人就做不到,因为人脑没有足够多的细节去主动补充,这也是人工智能干预的例子。

这样,麒麟970的架构定义者就发现了感官和人工智能中间的关联,有了人工智能干预以后,sensor信号和人工智能结合就会跟人类视觉处理类似了,而如果手机的某些感官超过人类,则就可以能帮助到人类,顺着这个逻辑再推导,自然就会推导出麒麟970的架构,就是把感测信号和人工智能处理结合起来这才是手机架构的大的升级,这样,今天的明星麒麟970就应运而生了!这个思路很值得本土IC公司借鉴。

深度揭秘麒麟970 人工智能处理器,它的强大超出你想象!

从2008年海思K3V1开始到现在麒麟970,华为手机处理器经过十年发展,一举登顶全球手机处理器巅峰,凭借的就是务实和努力,为了这个荣耀,华为人付出了艰辛的劳动,如余承东在演讲中所言仅仅为了优化麒麟在高铁场景的通信体验,就在高铁上进行了40万公里场测。现在,华为已经规划麒麟990芯片,希望2年后的麒麟990继续震撼全球!

本文为原创文章,转载需注明作者、出处及原文链接

来源: 张国斌

围观 357

页面

订阅 RSS - 人工智能