贝格迈思张世明博士:第五代国产分布式智能数据库AiSQL的缔造者
2023-04-10 18:25:01
转载自投资家 http://www.investorscn.com/2021/05/07/95129/
“万物皆数,唯数学洞察一切,计算使能万物。”这是第五代国产分布式智能数据库AiSQL缔造者、贝格迈思创始人张世明博士对于当下和未来数字社会的认知与思考。
张世明博士认为,未来所有需要解决的现实问题,最终都会回归到相应的数学问题。
而数学问题自然要用数学思维去解决,这也是张世明博士成立贝格迈思的初衷。
发掘新硬件技术革新和软件架构进步,利用数学优化算法模型,研发国内首款内存驱动架构的自适应异构智能计算引擎,全力打造第五代分布式智能数据库AiSQL,真正首创践行分布式数据库核心卡脖子技术的国产化替代。
张世明博士毕业于香港大学计算机科学系,先后在德国慕尼黑大学LMU从事研究工作,曾任职于华为研究院诺亚方舟实验室和百度研究院大数据实验室,一直深耕大数据领域核心技术,在分布式系统和大规模机器学习系统等领域具有丰富的研发和应用经验。
根植于“Bigmath”的贝格迈思,是一家为应对即将到来的快数据不断增长的实时分析需求所面临的诸多难题,特别是如何真正实现大规模数据的快速、实时优化处理,提出了自己的破解之法、解决之道——自适应异构智能计算引擎,打造新一代分布式数据智能平台BigInsights的创新型公司。
数据井喷,追赶“快数据”
我们正在快速迈进数据智能时代的新纪元,未来几年全球数据规模将继续不断增长,将让现有的数据规模相形见绌,这些数据将带来独特的用户体验和众多全新的商业机会。“快数据”将是继“大数据”之后,下一个十年显著的时代特征,快数据的力量必将给我们带来几乎无限的变化。
首先,数据规模会得到爆炸性增长。随着5G、物联网、大数据、人工智能、云计算等技术产业的快速发展,世界万物互联、智能感知,紧密相关的数据高速产生,全球数据量正迎来了爆发式增长。“大数据”跃然成为了“快数据”,全球数据正以难以置信的速度和体量产生。
IDC在《Data Age 2025》的报告中预测,从2018年到2025年,全球数据总量将从33ZB(1ZB=10亿TB=1万亿GB)急速增长到175ZB,比2016年产生的数据量增加了十倍。其中,只有不足五分之一的数据将会得到实际应用,属于数据分析的全球数据总量将增长至原来的50倍,而触及数据库管理分析的全球数据总量将增长至原来的100倍。
2020年,全球数据量已达到44ZB。其中,单在中国产生的数据量就达8ZB,约占据全球总数据量的五分之一。
与此同时,数据增长的速率正在不断加快,数据中心承载的压力也越来越大。其中,快速增长的实时数据的比例会大幅提升,到2025年,全球近30%的数据将是实时的。
其次,从数据到决策需要快速响应。无论是商业应用还是社会治理,数据实时价值日益凸显,如何快速从海量实时数据中做出实时分析处理的需求不断增加。面对高速产生的数据,越来越多的用户需要更加实时、更快速地进行数据分析、优化处理。
数据爆炸正在驱动硬件、软件及数据服务等市场前所未有的经济增长。快数据时代,实时分析与实时决策将是数据分析的重点,传统数据库正面临着不断增长的数据规模和实时分析的双重挑战。
多年来,核心的数据处理硬件架构仍基于经典的冯·诺依曼体系结构,即指令与数据混合存储,程序执行时,CPU在程序计数器的指引下,线性顺序地读取下一条指令和数据,以计算器为中心,这就注定了其本质特点是线性或是串行性。
简单来说,核心在于“串行”二字,存储器是冯·诺依曼体系架构的核心,CPU在每一次执行命令前,都要从存储单元中读取数据,执行一次计算任务,就要读取一次,执行十次计算任务,就要读取十次。
如此一来,冯·诺依曼体系结构的弊端由此显现,即业界显知的内存墙问题,不仅需要花费大量功耗在数据频繁读取上,更致命的是:慢。
如果处理速度过慢,则无法满足快速增长的数据实时分析决策处理的需求。面对快数据,新一代数据库需要解决三个基本问题:一,存储和管理越来越大的数据承载量;二,将孤立的数据孤岛连接起来;三,针对大规模数据进行实时分析。亟需对传统数据库进行技术革新,以应对不断增长的快数据实时分析处理挑战。
从零架构,打造自适应异构智能计算引擎
后摩尔时代,为突破以CPU为中心的冯·诺依曼架构的技术瓶颈,让CPU、GPU、FPGA或其他各种智能计算芯片xPU一起协同计算,发挥不同处理器各自并行数据处理能力的优势来共同完成计算任务是关键。为达到此目标,张世明博士及其创新团队践行了一条全新的解决之道,以适应内存驱动架构的异构智能计算引擎为基础,融合机器学习框架和高速网络,打造新一代分布式数据智能平台BigInsights。
自适应异构智能计算引擎真正实现数据实时分析的异构智能计算优化处理,是贝格迈思区别于其它同类型公司的基础。
传统数据库都是以CPU为处理核心,或有部分采用GPU或FPGA做为协处理器加速数据分析任务,但其并没有把数据库的计算任务下放到不同的处理器去进行适配优化处理。其结果是在不能进一步提升数据处理速度的同时还浪费了不同处理器各自的数据处理优势,即没有发挥不同处理器的各自所长。
一个大的数据分析任务分配到计算机的内部,会解析成为多个不同的子计算任务,这些子计算任务之间存在着不同的计算模式和关联关系,贝格迈思可以通过这些计算模式和关联关系进行不同计算任务的微调度,把相应的计算任务分别自动适配到各自适应的CPU、GPU、FPGA或其他各种智能计算芯片xPU上。
这就使得,原先需要等待CPU一步一步地串行完成的任务,现在针对现代CPU、GPU、FPGA或其他各种智能计算芯片xPU的不同并行数据分析能力,分解成不同的任务下放下去共同完成,将“单一处理模式”变成了“多重处理并行”,这即是所谓贝格迈思特有的自适应异构智能计算引擎。
区别于其他竞品公司需要开发相应的专用系统来实现此,贝格迈思的技术领先之处即在于直接通过内置的自适应编译引擎即可实现。
这样结合诸多软硬件技术进步从零架构的新一代分布式智能数据库AiSQL即第五代数据库,不仅速度可以领先国际主流内存计算平台Spark超百倍,还可实现快数据复杂业务的实时分析处理,并实现在线系统弹性扩展、容灾备份、多副本数据一致性同步、跨数据中心数据异步同步、自动数据迁移、高可用安全计算等新一代分布式智能数据库所需的高效功能。
这种创新型的思考和落地实现是由以张世明博士为核心及张潼教授领衔的创新团队历经多年合作研发而成,团队聚集了多位海归博士及国内外著名企业的大数据与机器学习专家。他们熟识机器学习与人工智能应用的全流程技术要素,在大规模机器学习和高性能分布式系统研发方面有着丰富的经验。
五大核心技术助力应对快数据挑战
据张世明博士介绍,支撑起异构自适应智能计算框架的,主要是五大核心技术:压缩可检索、加密可查询、原生虚拟化、内存驱动架构和远程内存访问,以这五大核心技术为基础,帮助用户提升效率、降低风险,实时获得更大的商业价值。
压缩可检索,面对较大的数据量,一般都会进行压缩,而传统技术压缩处理后须解压缩后方可进行计算,而贝格迈思则采用独特的数据结构,实现优于普通压缩技术十倍的高效压缩比,实现最小信息存储,并在高效压缩数据上直接实现微妙级的实时检索,减少延迟,节约成本的同时,更大提升数据处理效率。
加密可查询是一样的道理,数据要上云,就必须要保证数据安全,数据加密后往往难以运算。贝格迈思使用最新加密可计算的安全协议,确保全程加密数据的安全计算,实现用户可直接在加密数据上的高效查询分析,保障用户数据的安全可信计算,防范数据安全。
内存驱动架构则是以内存为中心的体系架构,而不同于传统的以CPU处理器为中心的冯·诺依曼架构,即多个异构处理器共享统一的内存池和自适应异构智能计算引擎运行环境,实现真正大内存计算环境,有效防止多处理器缓存数据频繁迁移而导致的井喷效应,突破冯·诺依曼架构的内存墙计算瓶颈,打造基于内存驱动架构的自适应异构智能计算一体机,满足数据实时计算所需的强大算力需求。
原生虚拟化,为充分发挥新型硬件技术革新的高性能,突破操作系统的性能调度限制,让数据分析引擎实例拥有专有的硬件设备资源,可以透过操作系统直接管理和操作这些专有的硬件设备,保证实时计算所需的硬件资源核心,同时保证不同数据分析引擎实例的安全隔离,实现裸机设备的轻量级实时虚拟化。
远程内存访问,要实现大规模数据的内存实时分析,诸如实现PB级数据的内存实时分析,则需成千上万的计算机组成网络集群,协同进行分布式内存计算方可完成,毕竟单台计算机的内存资源是有限的,不可能将PB级数据装入其内存。从而,实现多台计算机间的内存互访成为问题的核心。基于内存语义原语的远程内存访问协议,实现分布式内存计算框架,是贝格迈思自适应数据智能平台的基础。
目前,贝格迈思拥有的30多项核心专利都是围绕以上五大核心技术延伸而来。张世明博士表示,这五大核心技术,单独拎一个出来都可以做出一个千亿级市值的产品,这也是未来贝格迈思垂直拓展的方向。
站在宏观的角度,把握数字化、网络化和智能化融合的数字经济发展契机,是科技创新与产业变革的必由之路;站在用户的角度,面对瞬息万变的市场竞争,实时获取数据的价值,是其立于不败之地的关键。
贝格迈思将在数据智能技术创新赋能用户这条道路上,继续打磨技术,为新一代分布式智能数据平台BigInsights提供必要的算力支撑,促进数据智能创新技术在金融、医疗、环保、智慧城市、智能制造、物联网和工业互联网等领域的创新应用。