【安信计算机】寒武纪:人工智能“中国芯”!最专业最深度解读寒武纪震惊全球的A轮融资
日期:2023-09-20 18:47:23   来源:可信计算

  原标题:【安信计算机】寒武纪:人工智能“中国芯”!最专业最深度解读寒武纪震惊全球的A轮融资

  周五,国内人工智能芯片明星初创公司寒武纪宣布A轮融资高达1亿美元,成为全世界人工智能芯片首个独角兽,受到国内外市场广泛关注。

  一年多之前,我们就在A股率先发布了对于人工智能芯片的系统性研究报告《芯际争霸:人工智能芯片研发攻略》,也是国内投资机构首次对AI芯片进行的最系统全面的阐述,也首次向国内长期资金市场介绍了刚刚成立不久的寒武纪,并带动了其A股股东科大讯飞和战略合作方中科曙光。

  我们在报告中提出:AI将推动新一轮计算革命,而芯片行业作为产业最上游,是AI时代的开路先锋,也是AI产业发展初期率先启动、弹性最大的行业。信息时代产生了英特尔这样的千亿市值芯片巨头,拥有更大应用市场的人工智能时代必将孕育出更多的“英特尔”。在报告发布后短短一年多的时间内,先后发生了这样几件大事:

  2、2016年7月20日,软银宣布将以243亿英镑(约合320亿美元)收购英国芯片设计公司ARM;

  5、2017年8月,国内人工智能芯片明星公司寒武纪宣布A轮融资高达1亿美元,成为全球AI芯片领域首个独角兽。

  芯片是下游IT产业的前瞻指标,近一年AI芯片的繁荣实际上正在向我们预示着人工智能产业未来空前广阔的市场。但由于AI芯片是一个非常前沿专业的领域,不少人仍然对这一领域有疑惑和误解,再加上近一年行业发生的巨大变化,我们试图在一年后再对这一领域的关键问题进行分析阐述。

  我们在路演时首先提醒投资者关注的核心就是一定要明白现在大家讲的人工智能跟我们以往的传统计算机软件有什么差别,判断标准是它们解决的问题:

  传统计算机软件解决的是确定问题,即可以通过固定的流程或者规律来描述(比如从1加到100),通过编程交由计算机执行,那么我们设计计算机基础芯片CPU的核心目的是帮助我们一条一条有序的执行我们编译好的指令。所以IBM把传统的计算机时代又称为编程时代,新的计算机时代称为认知时代。

  现在真正意义上的人工智能解决的是欠定问题,即这些问题难以用固定的流程或者规律描述,它的准确答案取决于我们对于这些问题的反应。典型的例子就是一个3-4岁的小朋友就可以很轻松从世间万物中认出狗或者猫,但传统计算机方法通过总结所有猫的固定特点来编程识别非常困难。而这一瓶颈恰被此轮以深度学习算法为代表的人工智能技术突破了。所谓深度学习,简单说就是用数学方法模拟人脑神经网络,用大量数据训练机器来模拟人脑学习过程,其本质是把传统算法问题转化为数据和计算问题。所以对底层基础芯片的要求也发生了根本性改变:人工智能芯片的设计目的不是为了执行指令,而是为了大量数据训练和应用的计算。

  客观的讲,CPU拥有更好的通用性,几乎任何计算任务都可以分解为一条条指令让CPU完成。我们需要人工智能芯片并非CPU不能用,而是效率太差。深度学习对计算资源需求几乎是空前的,这一点我们从初代AlphaGo所需要的计算资源就可以看到,所以迫切需要一款适合的芯片能够高效计算深度学习任务,而GPU因为其极佳的并行计算特性恰逢其实。

  GPU的天然并行计算优势使得英伟达在人工智能时代如日中天,但我们可以非常肯定的预判:人工智能芯片市场不会被英伟达垄断。理由是人工智能芯片跟我们传统意义上的芯片有很大的不相同,它其实包括两个计算过程:

  实际上谷歌首先开始提出设计TPU芯片的目的时就指出了英伟达的GPU在训练阶段具有优势,但在执行阶段效率并不高。

  传统计算机时代在数据中心服务器市场几乎垄断的英特尔,在智能终端市场一样不敌ARM。而如果我们关注英伟达近年来的财务报表,其真正意义上人工智能高增长的业务其实就只是数据中心业务。

  图4:英伟达2016-2017年各季度不同细分市场营收(百万美元)及同比增速一览

  数据中心领域:实际上英伟达同时满足四种应用需求并都具备垄断性优势的可能性不大,目前主要优势也只是在数据中心方面,但也面临谷歌TPU的强劲竞争,而这种竞争的核心将是生态的竞争:

  1、谷歌的人工智能系统TensorFlow生态趋于成熟。基本上任何线性代数矩阵计算任务都可以通过TensorFlow提供的工具来帮助用户组装,自动分配到各种计算设备(包括TPU设备)完成并行地执行运算。而底层计算需求的规整使得采用ASIC(专用定制设计)将极大提升芯片计算效率,全新的Cloud TPU计算能力惊人,而且同时针对机器学习的训练和应用两方面设计。四个处理芯片每秒可完成180 tflops计算任务。将 64 个 Cloud TPU 相互连接可组成谷歌称之为Pod的超级计算机,Pod将拥有11.5 petaflops的计算能力(1 petaflops为每秒进行1015次浮点运算)。

  图6:数据流图中这些数据“线”可以代表传输多维数据数组,即“张量”(tensor),张量从图中流过的直观图像是这个工具取名为“Tensorflow”的原因。

  2、 Cloud TPU 将加入谷歌云计算平台,并整合进谷歌计算引擎(Google Compute Engine),即普通用户在云端就可以调用这些世界上最领先的计算芯片来训练自己的人工智能任务。谷歌将为开发者们提供最好、最广泛的硬件选择,从CPU、到 GPU(包括 Nvidia 上周最新发布的 GPU 产品)、再到 TPU。

  终端领域:对于终端市场来说,对芯片的功耗、面积、价格都有极为苛刻的要求,目前终端人工智能芯片主要是执行神经网络算法的功能,安防和自动驾驶是最大的两个市场。对于终端训练功能芯片目前尚不成熟,但可能是未来几年发展的重点,可以想象通过芯片不断进步使得谷歌大脑规模的神经网络嵌入在随身携带的手机里,将会带来怎样的产业变革。

  虽然英伟达也针对终端市场推出了Jetson TX系列芯片,但价格、功耗等综合考量并不占据绝对优势,以Movidius为代表的新兴企业成为了业界新秀,这也不难解释英特尔为何先后收购了movidius和Mobileye两家公司,他们分别对应机器视觉和自动驾驶两个最大的终端市场。

  第一,采用较为通用的处理器,如movidius、英伟达的Jetson系列芯片,通用性较好,能够运行各类神经网络算法,但价格相对较高,主要针对高端市场。就像当年 iPhone 5s 加入了M7协处理器,针对计算机视觉领域在一些终端设备上提供一块专门的低功耗处理芯片,在处理深度学习的问题时更加高效,可以针对卷积神经网络的训练特征从芯片级别进行优化,从而促进基于深度学习的计算机算法在终端设备上的普及。

  这类芯片的代表就是刚刚被intel收购的Movidius公司,它们推出 Myriad 系列VPU(视觉处理器)平台可以用于3D感知及扫描建模的芯片,可以支持室内导航、360度全景视频处理等机器视觉应用,其视觉处理性能超出其它处理器平台十倍,功耗则低一个数量级,而尺寸和价格都仅为五分之一。Myriad 的第二代VPU采用全新的体系架构,提升性能达到二十倍,增强视觉处理能力使之成为新的VPU标杆。

  图8:movidius架构,其中的关键在于加速深度学习算法的线性代数运算矩阵

  第二,将已经训练好的较为通用的智能识别类算法直接固化为IP,嵌入到SOC芯片中,优点是因为是专用芯片(ASIC),量产后功耗、价格等都极具优势,但功能拓展性有限。例如在安防领域,商汤科技的SenseEmbed将深度学习人脸识别算法通过高性能计算极致优化,搭建底层算法最优解决方案,利用商汤科技自主研发的PPL、FastCV高性能异构并行计算组件库,能将复杂的深度学习算法集成在一张小小的芯片中,进行毫秒级识别速度。目前已支持海思Hi3519/Hi3516A/Hi3516D、飞思卡尔IMX6、ARMCortexA7等多款主流嵌入式芯片,将为硬件设备提供最优深度学习算法引擎。

  实际上这本身并不是一个问题,GPU、FPGA、ASIC无非是在通用性和性能两个标准的权衡下的选择。不只是人工智能,在很多传统芯片应用领域都是通用芯片、FPGA、AISIC共存的。

  打个形象的比方,我们设计一款人工智能芯片就像设计一个某种功能的房子,那么我们有三种选择:

  1、买一个已有的比较通用的房子,然后改变内部的软件设施来让这个房子达到我们需要的功能,优点是对于用户代价小,但肯定没法达到性能最大化,这就对应了通用型芯片;

  2、买一个半成品的房子,我们可以随时改变房子里面的各个房间格局,优点是相对第一种房子性能肯定会更贴近我们需求,而且也保证了一定灵活性,如果需求有改变,可以随时再改变内部房间格局,这对应了FPGA芯片;

  3、完全一块砖一块砖按自己需求重新搭建一个房子,这种肯定性能上最能贴近我们的需求,但是一次性投入太大,如果不是确定性需求需要冒风险,这就对应ASIC芯片。

  所以我们可以不难理解为什么大部分创业公司都会采用英伟达GPU这类生态成熟的通用芯片,为什么在人工智能算法没有最终成熟需要不断改进时FPGA会出现在一些应用领域,而谷歌这类财大气粗自己需求量很大的公司自己用ASIC的TPU.

  从对于机器学习算法的性能和功耗的角度来说:FPGA 可以开发出为机器学习算法专用的架构,但是 FPGA 本身的峰值性能较 GPU 要差很多。FPGA 和 GPU 哪个跑机器学习算法更强(平均性能更好),完全取决于 FPGA 架构优化能否弥补峰值性能的劣势。

  1、FPGA 实现的机器学习加速器在架构上可以根据特定应用优化所以比 GPU 有优势,但是 GPU 的运行速度(1GHz) 相比 FPGA 有优势 (~200MHz)。所以,对于平均性能,看的就是 FPGA 加速器架构上的优势是否能弥补运行速度上的劣势。

  2、功耗方面,虽然 GPU 的功耗(200W)远大于 FPGA 的功耗(10W),但是如果要比较功耗应该比较在执行效率相同时需要的功耗。如果 FPGA 的架构优化能做到很好以致于一块 FPGA 的平均性能能接近一块 GPU,那么 FPGA 方案的总功耗远小于 GPU,散热问题可以大大减轻。反之,如果需要二十块 FPGA 才能实现一块 GPU 的平均性能,那么 FPGA 在功耗方面并没有优势。

  1、市场需求成熟确定,比如谷歌自己的数据中心芯片需求量足以影响整个行业,干脆自己投入设计TPU,或者市场确定将成熟的下游巨大市场,比如安防领域。

  2、涉及到国家战略,可以不惜代价建立自己的应用生态弯道超车,比如寒武纪深度学习处理器,其ASIC芯片已经流片量产。我们可以关注一个新闻:据科技部3月13日消息,科技部副部长李萌率队前往寒武纪芯片公司就人工智能领域技术和产业高质量发展进行专题调研,创新发展司司长许倞、高新技术产业化司司长秦勇、中关村管委会主任郭洪参加调研和座谈。

  不难解释为什么寒武纪A轮融资额就高达1亿多美元:一是ASIC芯片投入代价确实非常大风险也很大,但这种通用芯片一旦成功放量市场空间也是空前的;二是,人工智能确是我国芯片产业建立自主生态,弯道超车的机会,自然有国家战略层面的支持。

  作为A股人工智能第一团队,能够看到寒武纪这样的国内顶尖人工智能芯片公司快速崛起,我们很欣慰和兴奋,因为未来10年不仅是人工智能席卷一切的黄金10年,也是我国芯片产业的黄金10年!

  我们持续不断跟踪国家在AI领域的政策动态,同时最早从芯片、算法、国内、海外等多重维度40多篇报告全方位推荐人工智能这一战略方向,更组织深入调研了国内几乎所有人工智能明星独角兽企业,在提出“2016年是人工智能元年”成功预测AlphaGo大胜李世石之后,我们进一步指出“2017年将是各行各业拥抱人工智能之年”,如今新一代人工智能规划正式出台,顶层设计确立人工智能空前的国家战略地位,并系统性提出了带动10万亿产业规模的宏伟目标,我们继续坚定看好这一战略方向,持续推荐科大讯飞、东方网力、同花顺、思创医惠、浙大网新、北部湾旅、和而泰、神州泰岳、工大高新、神思电子、汉王科技等。