新闻中心
欧宝电竞加速云端部署Google、百度背后的数据管理者Alluxio发布新版本
欧宝电竞2017年马云接受Bloomberg专访时曾说出金句,“数据的重要程度堪比上个世纪的石油。”相比于传统企业,大数据逐渐成为互联网公司最重要的资产、也连接着旺盛的企业级需求。
围绕大数据,大型互联网企业和初创企业“百家争鸣”,服务范围涵盖大数据应用、硬件、技术等等欧宝电竞,帮助企业将数据能力与业务结合,提升效率、降低成本乃至最终提升盈利能力。随着数据爆炸性增长、云端概念普及,近两年来欧宝电竞,大数据的云端服务逐渐成为企业新的必争之地。
这其中,出现了Alluxio——世界上第一个能以内存级速度集成数据的软件系统。它介于计算框架及存储系统之间,给大数据软件栈带来了显著性能提升。
7月31日,分布式虚拟存储系统Alluxio发布1.8版本,加速针对数据分析及机器学习的云端部署。
Alluxio的技术脱胎于其创始人李浩源博士在加州大学伯克利分校AMPLab的博士课题、开源研究项目Tachyon。它能够在大数据应用层及存储层之间搭建一个虚拟数据层,让企业能够利用这个系统来使用和管理不同的数据应用及存储方案。此前,全球知名的现象级开源软件Spark及Mesos同样出自AMPLab,只是不同于针对存储的Alluxio,前者专注于计算,后者则专注于资源管理和调度。
创建五年后,Alluxio目前已经是最活跃的数据生态系统开源项目之一,解决数据问题的能力备受信任。
在中国市值排名前十的互联网公司中,已经有八家在应用Alluxio的技术方案,管理PB级别的数据。除此之外,华为、联想、中国电信、京东等公司也都在用它来管理数据,其他重量级合作伙伴包括英特尔、三星、微软、Nvidia、Oracle等等。
百度是最早大规模使用Alluxio的大公司之一欧宝电竞,2015年就开始接触Alluxio(当时的名字还是Techyon)。此后两年内,Alluxio在商用领域发展迅速。2017年,腾讯、京东、苏宁等重量级公司开始大规模使用Alluxio的服务。
Alluxio已经经历数次版本更替。此次更新主要针对云端及开源社区,希望能进一步支持不同的云端存储方案,加速数据储存、调取和使用的速度,解决深度学习面临的数据存储问题;与此同时,给他们非常重视的开源社区提供更多的支持和帮助。
近几年,不仅有层出不穷的云端数据存储、计算和分析创业项目提供服务,大公司也在寻求更好的云端部署方案。
2018年6月,微软收购知名开源开发平台GitHub后,并表示将进行GitHub与自己的云服务产品Azure Cloud的整合。分析报告预测,未来云服务市场将从今年的281亿美元增长到2021年的533亿美元。
“数据分析和机器学习的兴起让云端的计算量大量增长,Alluxio的特性意味着它同样可以很好地管理混合云的数据。”李浩源对钛媒体说道。451Research的报告显示,预计在2019年,超过66%的企业会使用一个混合云或者多个云服务方案的架构,它们都可能面对不同云服务上迥异的操作差异,单凭自己很难保证效率,需要第三方服务方案的协助。
Gartner预测,到2021年,全球超过50%的企业会应用纯粹的公有云存储方案,而更大的公司则会应用更多的第三方云端基础架构来管理混合云。
“总有一些数据他们希望保存在本地服务器上,但全部放在本地成本又太高,所以选折中方案,在一个无缝的架构下管理私有和公有云是一个刚需。”李浩源说道。
对于数据分析来说,已经有了不少使用云上数据的方案,Alluxio只是能帮助提高性能、降低费用。
“不是所有的训练数据都能直接用于像Tensorflow这种深度学习框架,另外各类分布式存储和云存储的交互方式和传统本地交互方式有很大区别,用户难以准确地配置和使用新工具。”举个例子,没有Alluxio时,让深度学习框架TensorFlow访问微软云服务Azure Object store上的数据就是一件难以完成的事情。
Alluxio的特性意味着它能整合各类存储系统,缩短各类深度学习框架与存储层之间的距离,提高效率及弹性、降低成本。另一方面,这次更新里的FUSE工具则让Alluxio可以挂载本地文件系统,让用户在使用远程云端分布式存储时,拥有和本地数据时相似的交互体验。
除了针对云端部署及深度学习的更新之外,Alluxio的新版本还有另一个重点:为开发者提供了更多便利。包括:
“开源社区是我们最珍视的事情之一,所以希望尽可能地帮助开发者理解和使用这个系统。”李浩源说道。他认为,自创立之初,这一社区带来的活力是推动Alluxio迅速进展的重要推力之一。
在2016年接受CSDN采访时,Alluxio曾表示“Alluxio是史上成长速度最快的开源社区之一”,如今其贡献者已经超过800人,在GitHub上星标超过3000个。
英特尔、腾讯、阿里巴巴、百度、京东、陌陌等公司同样也是这个开源项目的贡献者之一 。比如陌陌的工程师团队会基于陌陌的应用场景,做出适配和调整,而后经过Alluxio的社区管理者审核后接纳,“最终形成一个正向的反馈,是一个双向改进的过程”。
百度、去哪儿和陌陌都曾经就应用Alluxio之后的经验做出分享。百度此前分享时表示,在用他们自己开发的使用Spark SQL作为计算引擎的查询系统时,单独一次查询需要100-150秒;加上作为内存中心的存储层的Alluxio之后,数据可能会冲击本地或远程Alluxio节点,需要10-15秒;当所有数据储存在Alluxio本地时,平均只需5秒,速度提升了30倍。测试过后,百度围绕 Alluxio和Spark SQL建立了一个完整的系统。
“过去的一年中,Alluxio一直在数据基础架构内稳定地运行,很少出现问题。这给了我们很大的信心。”在接受ReadWrite专访时,百度高级架构师Xiaoshan Liu说道。