人工智能终端应用的可能性无限,举凡智能型手机、汽车、照明等,都有机会成为所谓的边缘运算装置。但在过去,运算处理器是在数据中心有较为明显的需求。目前边缘运算此一产业走向的大逆转,已可从各芯片供货商,如GPU、CPU等,以及硅智财(IP)授权商纷纷针对人工智能展开布局,推出各自处理器缩小化的解决方案,明显可见一斑。
随着人工智能的发展,有越来越多应用产品开始在终端上进行实时运算,也就是所谓的边缘运算。不过,目前的处理器核心对许多终端装置来说,功耗仍嫌偏高。
AIoT浪潮兴起小型处理器核心满足边缘运算需求
索思未来(Socionext)战略销售组销售部销售项目总监张育豪(图1)表示,目前市场上主流的CPU或GPU核心规模很大,虽然运算效能很强,但功耗也高,而且不易针对应用进行客制化设计。有鉴于此,Socionext采取用小型核心堆栈的设计架构,其好处在于从云到端都可以采用同样的处理器核心,且也较容易针对个别应用进行客制化,例如将CPU核心跟图像处理核心(VPU)整合在单芯片上。
张育豪观察,目前的人工智能应用大多与影像相关,但不管是CPU或GPU,在进行影像运算时,功耗/性能比都不尽理想。这是因为CPU跟GPU原本就不是为了处理影像而设计的芯片。CPU的强项在于进行数据运算,而GPU则适合用来进行3D绘图处理。因此,用CPU或GPU来进行影像分析,其实效率不是太好。相较之下,专门为处理影像而设计的VPU,在图像处理的功耗/性能比方面,是远胜过CPU跟GPU的。
举例来说,用CPU来对4K影像进行处理跟分析,功耗预算大概是230瓦左右;若用GPU来进行,功耗更可达到400?500瓦。但如果是用Socionext的解决方案,一颗核心的功耗只有5瓦左右,就算串联多颗核心,也会比CPU或GPU来得省电许多。因此,张育豪认为,在人工智能进驻各类终端装置的趋势下,如果是与影像分析有关的人工智能应用,VPU将有非常大的发展潜力。Socionext本身拥有业界领先的VPU技术,更是目前市场上唯一已经有8K图像处理芯片的芯片业者。
不管是针对大规模数据中心,或是在各种终端装置上直接进行边缘运算,功耗都是非常关键的考虑。功耗越高,则系统的散热设计也越昂贵,不仅会增加终端装置的生产制造成本,也会增加系统拥有者的总体持有成本(TCO)。
以数据中心为例,冷却系统的电费是相当可观的,如果处理器能更省电,空调冷却的电费也可以随之降低。其他形形色色的终端装置也一样,当芯片的功耗太高时,就得采用更大的散热片,甚至用风扇来散热,这些都会造成产品的生产成本跟总体持有成本增加。
单一丛集配置更弹性DynamIQ推升大小核效率
针对小型处理器需求的增加,安谋国际(ARM)日前在处理器架构上,也宣布了大幅度调整,也就是DynamIQ技术。DynamIQ达成了上一代架构在单一运算丛集上无法实现的大小核弹性配置,对异质运算及人工智能这类应用带来相当明显的效率提升。其将作为未来ARMCortex-A系列处理器的基础,亦同时代表了业界在多核处理程序设计上的新纪元。
ARM行动通讯暨数字家庭市场资深营销经理林修平(图2)表示,DynamIQ可以说是的第二代硬件架构,其最主要的特点在于其可以在同一个丛集(Cluster)中同时摆放大小核,且电源(Power)与频率(Clock)都可以单独作管理。在第一代的大小核架构中,一个丛集只能摆放大核或小核,因此在执行转换任务时,必须经过快取(Cache)转换。但在DynamIQ中,由于所有任务都将能在同个丛集中运作,在任务切换上,便会相对迅速很多。
林修平指出,由于人工智能所需要的运算量很大,同时需要很多矩阵乘法,透过DynamIQ的架构,将能做1+3、1+7、2+2+4等设计配置。在过去的架构中,由于一个丛集最多即是4核(大核(Big)4核,小核(LITTLE)4核),是没有办法做到1+7的。DynamIQ所带来的多元变化SoC设计配置,将能帮助应用达到CPU优化,进而让效能与功耗能更往上提升。
DynamIQ的频率可以单独管理,也将带来很大好处。第一代的大小核,在同一个丛集当中,频率是统一的,但DynamIQ可以让同一丛集中的不同核心,依据运算需求在不同的频率下运作。
此外,林修平也表示,DynamIQ还可连接外部的硬件加速器。以人工智能来说,不同应用会有不同的软硬件加速需求,例如加速器、DSP、CPU、GPU等,像是在高阶智能型手机上,可能会放置加速器,来使其表现度达到最好、功耗达到最低,不过这也会增加集成电路的成本。因此,若是比较大众化的产品,则可能会利用系统上现有的CPU、GPU,来满足人工智能的需要。
(转载)