12月28日,北京证监局网站显示,龙芯中科技术股份有限公司(以下简称“龙芯中科”)与中信证券于2020年12月签署《关于首次公开发行人民币普通股(A股)并上市之辅导协议》。协议显示,龙芯中科拟于上交所科创板上市。
官网显示,龙芯中科致力于龙芯系列CPU设计、生产、销售和服务,主要产品包括面向行业应用的“龙芯1号”小CPU、面向工控和终端类应用的“龙芯2号”中CPU、以及面向桌面与服务器类应用的“龙芯3号”大CPU。
“龙芯”是我国最早研制的高性能通用处理器系列,于2001年在中科院计算所开始研发,得到了中科院、863、973、核高基等项目大力支持,完成了十年的核心技术积累。2010年,中国科学院和北京市政府共同牵头出资,龙芯中科技术有限公司正式成立,开始市场化运作,旨在将龙芯处理器的研发成果产业化。
龙芯中科面向国家信息化建设的需求,面向国际信息技术前沿,以创新发展为主题,以产业发展为主线,以体系建设为目标,坚持自主创新,掌握计算机软硬件的核心技术,为国家安全战略需求提供自主、安全、可靠的处理器,为信息产业及工业信息化的创新发展提供高性能、低成本、低功耗的处理器。
目前,龙芯面向网络安全、办公与信息化、工控及物联网等领域与合作伙伴展开广泛的市场合作,并在政府、能源、金融、交通、教育等行业领域取得了广泛应用。
在安全领域,龙芯处理器已经通过了严格的可靠性实验,作为核心元器件应用在几十种型号和系统中,2015年龙芯处理器成功应用于北斗二代导航卫星。在通用领域,龙芯处理器已经应用在:个人电脑、服务器及高性能计算机、行业电脑终端、以及云计算终端等方面。在嵌入式领域,基于龙芯CPU的防火墙等网安系列产品已达到规模销售;应用于国产高端数控机床等系列工控产品显著提升了我国工控领域的自主化程度和产业化水平;龙芯提供的IP设计服务在国产数字电视领域也与国内多家知名厂家展开合作,其IP授权已达百万片以上。
龙芯中科坚持“为人民做龙芯”的核心理念,坚持实事求是的思想方法,坚持自力更生艰苦奋斗的工作作风,掌握高性能通用CPU的核心设计能力,具备完全自主知识产权。龙芯中科拥有高新技术企业、国家规划布局内集成电路设计企业、高性能CPU北京工程实验室以及相关安全资质。目前,与龙芯开展合作的厂商达到上千家,下游开发人员达到数万人,基于龙芯CPU的自主信息产业体系正在逐步形成。
天眼查显示,龙芯中科注册资本3.6亿元,有10个股东,其中中科院计算所(国资)持股21.52%,北京天童芯源科技公司(胡伟武个人投资292万元,占46.67%;其他股份为早期高管所有)持股21.52%。
据中国经济周刊报道,10月23日,龙芯中科董事长胡伟武在中国工程院和中国中车联合主办的“第315场中国工程科技论坛——智能运载装备前沿技术发展高端论坛”上称,“2001年,开始研制龙芯,龙芯通过20年积累完成CPU性能补课,CPU通用处理性能达到AMD水平,龙芯OS在试错中趋于成熟,架构稳定,成熟度接近Windows XP的水平。”
胡伟武认为,目前,我国芯片行业两大卡脖子问题一是指令系统架构,二是生产工艺,正在进行的自主化替代是体系替代,而不是产品替代,产业模式应是硅谷模式,而不是中关村模式。龙芯20年的发展,一直在补课,在寻找差距,现在呈现出加速发展的势头。
不过,胡伟武清醒地指出,发展核心技术不要幻想“弯道超车”,像芯片这样的高复杂系统能力建设需要以30年为周期,既要撸起袖子加油干,还要耐着性子坚持干,目标是在市场化条件下实现自主性。
下面就来回顾龙芯CPU的重大事件,看看龙芯CPU发展的几个不同时期。
回溯历史,中国也曾经拥有过自己的CPU和全自主的半导体产业。但因在上世纪80年代奉行“造不如买、买不如租”、“市场换技术”等方针路线,不仅没能拉近和国外的技术差距,反而把原本的家底败得精光,国内市场完全被外资占领。在中国失去独立研制高性能计算机的能力之后,美国要求中国把高价进口的高性能计算机放在透明玻璃房中,并提出了非常苛刻的要求——玻璃房门的钥匙在美国人手里,使用用途需要向美国人汇报,使用前都要经过美国人许可。
银河号事件、台海危机、中国驻南联盟大使馆被炸事件给中国政府敲响警钟,“落后就要挨打”。亡羊补牢,犹为未晚。中国于2000年前后重启了一大批军工科研项目,中科院计算机所也开始着手芯片设计研发。于是,龙芯开始了漫漫长征路。
龙芯课题组成立之初是着眼于解决国防和信息安全领域无芯可用的困境。课题组成立于2001年,成立的时候可以说用台词“七八号人,两三条枪”来形容再合适不过了。只有一间50-60平米的实验室,人员也是东拼西凑——有已经年近70,曾在上世纪70年代参与国产芯片研发的老研究院员,听说计算机所要设计龙芯,就主动带着几个学生过来,其中也有刚走出校门的青年学子。
课题组成立时,龙芯团队总计也就10来个人。到2006年,龙芯团队逐步发展为将近100人的研发设计团队。到2014年,龙芯中科公司有研发设计人员将近400人。
龙芯的“龙”字会给国人一种错觉,认为龙芯是国家的“亲儿子”,是用举国体制输送资金和人才打造的国产芯片。但实际上,龙芯成立之初仅仅是中科院计算机所里的一个芯片研发课题组,国家对龙芯的扶持也非常有限。
在人才方面,在课题组成立时候才10来个人, 2006年才发展到100余人,2014年才400人,可以说龙芯团队的骨干人才都是自己培养的,不少设计师都是胡伟武亲自带出来的博士生。与之形成鲜明对比的是兆芯和宏芯的亲儿子待遇——2013年4月成立的兆芯,到2015年已有员工已扩充至1000人;而在2014年成立的宏芯,国家则直接从计算机所抽调人才,停薪留职去支援宏芯。
在资金方面,自2001年成立以来,从国家863计划、核高基专项中累计获得项目经费5亿人民币。龙芯中科公司成立后,获得北京市政府2亿人民币的股权投资。也就是说龙芯成立至今共从国家获得资金7亿元。平均下来,每年获得国家补助为几千万元。对比紫光、兆芯和宏芯获得的补助可谓少得可怜——
2014年紫光获得国家集成电路大基金400亿元人民币;宏芯成立时获6亿注册资本,从2014年至今,获得补助不少于20亿元人民币;兆芯成立时上海市政府出资12亿元,从2013年成立至今,获得补助不少于70亿元人民币。
另外,芯片研发对资金需求极大,国家对龙芯的补助无异于杯水车薪。
举个列子,俄罗斯贝尔加电子的Baikal-T1处理器研发成本折算为人民币是1.85亿元,该芯片是购买MIPS Warrior P5600微结构集成双核CPU,主频1.2G,用于路由器、打印机、复印机等产品。如果贝尔加电子自主研发微结构的话,成本会更高。换言之,贝尔加电子研发一枚路由器芯片的研发成本(而且还不是自己研发微结构)相当于国家对龙芯的总投入的四分之一。若以国外巨头作参照,则差距更大,2014年Intel研发经费超过100亿美元,员工达10万余人。
龙芯走兼容MIPS指令集发展路线,在2008年金融危机后,以比较低的价格购买了MIPS指令的永久授权,在十几年的发展中对指令集进行了相当大的扩展,逐渐发展出了自己的指令集loongISA 。
mips基础指令扩展——148条loongEXT,
龙芯在MIPS的指令系统的创新方面已经远远超过了MIPS公司,之所以购买Mips指令永久授权主要是减少市场化过程中的麻烦。
举例来说,Transmeta公司曾经市场前景良好,但Intel起诉它,打了两年官司。虽然最终Intel输了,但两年过程中没有人敢跟Transmeta做生意, Transmeta被官司拖垮了。
MIPS公司破产后,所拥有的技术专利分的比较散。虽然MIPS被英国Imagination公司收购,但Imagination的主营业务是GPU,在CPU设计方面技术底蕴不足,它既没有能力,也没有意志扛起MIPS阵营的大旗,指令集扩展和微结构研发都不如龙芯。
而龙芯只要保持现有的发展势头,使应用软件跟着龙芯走,构建并壮大自己的产业联盟,那么龙芯对Mips的扩展就是行之有效的,而且有机会夺取Mips阵营的主导权。
程序员在编程的时候写的是编程语言,但是计算机运行的时候是机器语言,编译器就是将程序员的编程语言翻译成机器语言的工具,而编译器的好坏也非常影响一款计算机的整机性能,比如SUN就曾经依靠对编译器的优化使CPU的spec跑分提升了50%,大幅提升了整机性能和用户体验。
国际上使用最为广泛的编译器是GCC,该编译器对X86、ARM、MIPS、Alpha等指令集的CPU优化各不相同,对市场占有率高的X86和ARM优化得较好,版本也比较新(GCC部分代码就是Intel提供的),但对龙芯、申威的优化比较差,版本也比较老旧。
因此,龙芯自主研发了LCC以提高编译器的效率,虽然LCC诞生的时间还很短,对自家CPU的优化能力无法与Intel公司的ICC编译器相比较,以GS464E的spec2000跑分为例,使用LCC比使用GCC4.8整数提升7%,浮点提升36.8%。毕竟万丈高楼平地起,期待龙芯能不断提升LCC编译效率。
CPU性能(单核)=主频*IPC(这个公式必须是同指令集才能成立,不同指令集不可比较)
主频就是CPU工作的时钟频率,同一款CPU在一个时钟周期内完成的指令数量是固定的,因此主频越高,完成一个时钟周期所消耗的时间越短,CPU的运行速度就越快。
IPC是单位时间内调用的指令集数量,微结构设计得越好,单位时间内能调用的指令集数量越多,CPU的性能就越好。
微结构好坏取决于前端设计水平,主频的高低一方面受微结构流水线级数的影响,但更多的是取决于后端的设计水平。
再往细的方面说,前端设计主要指芯片的执行结构、数字逻辑层设计、执行状态仿真等方面,后端设计主要指物理层电路的具体优化,包括单元布局、时序优化等方面。
微结构研发不仅技术门槛高,而且费时费钱,一个微结构从研发到产品一般需要3年,而所需资金更是难以计数。
龙芯自2001年以来,共研发GS132、GS232、GS264、GS464、GS464V、GS464E共6个微结构,以龙芯及其有限的人力和财力,实现了以平均2.33年更新一个微结构的发展速度,相较于国家非常有限的扶持,龙芯拿出了远远超过投入的产出。
龙芯在2015年8月发布的GS464E微结构测试参数非常亮眼。根据中电集团的测试报告,GS464E的SPEC2000使用GCC4.8编译器跑分为:整数768/G、浮点1153/G,使用LCC编译器跑分为:整数828/G、浮点1578/G,微结构的效率在整数性能方面基本追平了AMD目前最好的微结构,在浮点性能方面接近Intel在2013年发布的Ivy,分支预测和访存带宽更是能直接与Ivy比肩(Intel公司2013年的Ivy和2015年的Skylake差距很小)。
现在,龙芯和国外巨头在微结构方面的差距已经比较小了,差距主要在主频方面和制程工艺方面。
在主频方面,2015年发布的龙芯3A2000的主频只有1G,而代码已冻结,即将流片的龙芯3A3000的也只有1.6-1.8G的主频。相比之下,Intel的CPU主频大多在3G以上,部分CPU主频接近4G;在制程工艺方面,受限于中芯国际的代工水平,龙芯能使用的最好的制程为28nm,而市面上出售的Intel芯片制程大多为22nm,Intel最新的产品普遍采用14nm制程工艺。
第一代,基本可用。3A1000、3B1500单核性能较低,SPEC CPU2006测试分值仅2-3分,打开20M文档需要33秒,用户体验一般。
第二代,可用。3A/B3000四核处理器采用28nm工艺,主频1.35-1.5GHz,单核性能达到10-11分,超过凌动系列,打开20M文档仅需6秒。具有安全自主程度高、整机厂商品类多、国产化桥片方案等特点。目前,累计出货超过30万颗,是此前信创工程上份额最大的通用CPU。
第三代,好用。2019年12月发布的3A/B4000四核处理器实现相同工艺下性能提升一倍,主频1.8-2.0GHz,单核性能达到20-30分,达到AMD 28nm工艺最后产品“挖掘机”的水平,可秒开20M文档。
未来,提高主频和核数。3A5000四核桌面CPU将采用12nm工艺,单核性能争取达25-30分,与3A4000兼容,可原位替换,预计2020年二季度流片;3C5000十六核服务器CPU同样采用12nm工艺,支持4-16路服务器,预计2020年三季度流片。
从龙芯国产生态体系分析,支持龙芯的整机相对较少,目前只有5家左右。而由于其芯片虚拟化能力相对不足,导致支持的云平台厂家较少。
此外,2020年12月,龙芯云体验中心正式上线,旨在积极开放云服务能力,展示各个云厂商基于龙芯CPU的云解决方案,目前已有浪潮云、阿里云(建设中)、腾讯云(建设中)、希云、曙光云、云宏、金华龙芯云等多个入驻示范。
成功为华为“续命:中国芯片之父张汝京
一个工程师的“噩梦”:刚分清CPU和GPU,却发现还有……
这位“华为天才少年”,竟然要我用“充电宝”打《只狼》