欢迎来到凯发陈小春-k8.com官网官网
三网合一样板 手机网站建设 建站咨询 建站咨询 建站咨询 建站咨询
咨询,就免费赠送域名与服务器,咨询热线:当前位置: 主页 > 联系我们 >
联系我们
推荐内容
热门内容
联系我们
QQ:
电话咨询:
E-mail:
地址:

星环科技孙元浩:用自研框架取代Hadoop,加速实

作者/整理:admin 来源:互联网 2020-11-05

2019年将近结尾,谈到截止现在,2019年星环科技所取得成果,开创人孙元浩做了一些简略的总结。

榜首,从产品线来说,从2017年开端,星环科技现已根本确认三条产品线,大数据产品是首要产品线,而人工智能机器学习渠道和容器的智能大数据云渠道,是环绕客户在运用大数据根底软件的根底需求上,对AI建模、容器编列等需求延展的产品线。

一起,大数据产品线坚持自主研制,技能上不断更新迭代,运用规模越来越广,成功代替了Teradata或许Cloudera、IBM等国外厂商,有一些比较典型的客户事例落地。

其次,伴跟着产品更新,星环科技的客户集体也不断扩张,已掩盖金融、政府、动力、交通、教育、制造业、运营商、传媒等二十多个职业,其间,财政部、国家邮政局、国家商标局、中国人民银行、国泰君安、招商证券、中国邮政、中国石油、广州供电局等都是星环的标杆客户。

总的来说,2019年咱们在技能产品上有比较大的打破,让整个公司的开展到了一个新的里程碑阶段。在品牌推行和商场占有上,咱们会持续尽力。

星环科技树立于2013年,总部坐落上海,定坐落供给大数据和人工智能的技能渠道。开创人孙元浩任英特尔亚太研制有限公司数据中心软件部CTO,在2009年带领团队研讨Hadoop于2011年发布了英特尔Hadoop发行版。跟着大数据概念的鼓起,越来越多的人知道了Hadoop这款专门处理大数据的软件。

2013年,孙元浩带领开创团队树立星环科技。

值得一提的,2019年10月星环科技完结5亿D2轮融资,这距星环D1轮融资后,只是半年多的时刻。一起,星环科技也当选i黑马 数字调查发布《工业互联网工业独角兽》榜单里的硬独角兽称谓。

大数据进入3.0时期

是人工智能、大数据与云核算交融阶段

咱们知道,自核算机诞生以来,信息技能耳濡目染的影响着人类日子的方方面面。尤其是近十余年来,大数据、人工智能、云核算等技能蓬勃开展,让人们的日子方法每隔几年就发作翻天覆地的改动。

这时分,企业每天发作的数据量正呈爆破式增加,面对海量的数据,传统数据库的IT架构和处理技能现已逐步无法习惯巨大的数据处理需求。假如依照传统方法,数据量的存储和处理将消耗许多的时刻和硬件本钱。

在孙元浩看来,现在,大数据现已进入3.0年代,跟着技能不断延伸开展,大数据、人工智能与云核算的鸿沟越来越含糊,三类技能不断相互影响与交融。

咱们指的大数据3.0是从技能视点来分类的,大数据技能可以分为三代。星环科技树立之初,正处在大数据1.0的阶段,大部分公司都是运用开源的软件,用API去开发编程。这样带来的问题是,产品受限,并且只要大公司才有玩转大数据的才干。

大数据2.0年代是一个百花争鸣的年代,更多的玩家参加到了技能比赛中,诞生了许多全新的技能,能处理更多事务场景下的实际问题。

从2017年起,结构化数据的处理问题现已根本处理,人们开端把重视焦点转到了非结构化数据处理上面,特别是图画、视频、语音、文本的处理。这时期人们将此前在非结构化数据表现拔尖的深度学习技能与大数据技能相结合,大数据技能开端进入3.0年代。

孙元浩告知i黑马&数字调查,大数据3.0时期的技能首先要具有四个一致:榜首,一致交融的数据渠道,代替混合架构。

现在的企业数据事务架构中,往往需求包含数据湖、数据仓库、数据集市、归纳等不同数据事务体系,许多企业选用杂乱的混合架构,不只发作巨大的数据冗余,也严峻约束了数据运用的时效性。新的大数据渠道需求能一站式的满意一切需求,处理大数据的4-V需求,应对从快速响应到海量剖析的各层级需求,筛选混合架构的形式。

第二,一致的敞开接口。据悉,SQL作为经过前史查验的结构化查询言语,具有巨大的用户群和灵活性,开发人员无需了解架构细节就能高效开发运用,而以往经过API开发的方法存在运用兼容性差、开发难度高级问题。

新一代大数据渠道需求运用SQL来支撑悉数功用,包含数据仓库、OLTP数据库、引擎、实时核算、时空数据库等,下降开发者门槛,加快产品开发与上线速度。

第三,一致的办理和分配。云核算的弹性和到处接入可以让更多的数据事务和开发者运用大数据技能,因而新的大数据技能需求可以供给云化的才干。

在硬件层面上,大数据渠道对CPU、GPU、网络、存储等资源进行一致办理和分配,依据容器技能完结云上的大数据运用一致布置,渠道租户按需请求大数据的技能和产品。此外云化可以极大的下降运维本钱,使得单单一个团队就可以一起运维许多的大数据体系软件。

第四,一致的数据仓库与数据财物的办理。数据事务化是大数据技能终究的价值表现,而在新的架构规划上,星环科技也把这个要素作为重要的规划考量点。

在数据层面上,渠道一切数据一致存储,树立一致的数据仓库与数据财物目录,再依据运用场景传输至不同数据集市中,各事务部门依据需求调用,打通数据孤岛,提高数据质量,转化数据价值。

在模型层,经过树立模型商场,租户练习好的模型可以挑选一键发布至模型商场,其他租户无需重复练习,直接调用。

在运用层,渠道内用户可将事务验证过的运用发布至企业级运用商场,同享给其他用户,一切运转的运用被一致办理。

其次,大数据3.0时期的技能实质是交融。跟着时刻和事务不断的开展,人们提出了新的需求,是否能将大数据这种分布式的架构布置在云渠道上,更好的完结数据同享,处理数据孤岛和烟囱开发等难题。

所以,在大数据3.0年代,大数据技能、人工智能技能、云核算技能开端交融,交融在一个渠道中,满意企业客户各种不同层次的大数据需求。

简略来说,大数据技能,处理了深度学习核算力和练习数据量的问题,开端发作巨大的出产价值。一起,大数据技能经过将传统机器学习算法分布式完结,向人工智能范畴延伸。

此外,跟着数据不断汇聚在一个渠道,经过容器技能,在容器云渠道上构建大数据与人工智能根底公共才干,将人工智能、大数据与云核算进行交融。

伴跟着大数据3.0的呈现,大数据的新的根底架构开端呈现,要完结上面说到的四个一致:一致的编程言语或许操作言语,一致的核算引擎,一致的存储办理体系,一致的资源调度体系,和一个不同,即不同的数据模型。

整体来说,大数据3.0阶段,一致和交融是主旋律。

环绕上述思路,在大数据3.0年代,工业趋势呈现改变,而星环科技的事务形式,也将会呈现改变。

依据孙元浩介绍,星环科技的详细的做法是:

榜首,树立一致的数据的渠道,将大数据技能和人工智能技能融汇起来,也可以依靠智能化的方法来整理数据,并确保数据质量。2018年星环科技发布的新一代智能大数据云渠道TDC,践行了大数据、人工智能与云核算的交融趋势,推进服务容器化以及大数据生态上云。

第二,建模型生态、运用生态。星环科技以为,有必要要有规范的接口才干构成生态,星环科技的大数据渠道供给SQL、R和Python三种言语,用户和生态同伴就不用关怀底层运用哪种引擎完结,就可以极大程度的下降开发本钱。

其三,经过云化的PaaS层供给开发渠道,用户无需重视底层细节,让服务到处可用。曩昔,当客户需求去用大数据服务的时分,先要立项,再找厂商走流程,初度获取本钱高,需求构建团队,并且常常选用烟囱式的开发。

星环科技希望的是,服务可以立马可用,不管是做数据、供给数据、剖析数据,仍是做开发模型的人,都可以找到他希望的作业渠道和作业方法。

那么,关于星环科技来说,怎么才干构成这种四个一致、一个不同的呢?

自研结构代替Hadoop

想要加快完结根底软件国产化代替

i黑马 数字调查了解到,从2013年公司树立到现在,星环科技这6年首要阅历三个开展阶段。上文说到,开端星环科技的产品首要是依据Hadoop和Spark完结的,星环科技抱考虑让更多客户享有大数据才干的主意,专心在大数据的数据库化上。

2013-2014年,星环科技还归于依据开源技能,做产品化探究阶段,其时仍是以纯大数据为主,供给剖析型数据库产品。

到了2014年,星环科技进入第二个阶段。但跟着星环科技的产品和事务不断开展,Hadoop在技能和商业方面的局限性渐渐凸显出来。

星环科技的事务想环绕根底软件这一层,持续往上走。Hadoop是最底层,再往上还有许多作业,开源软件是无法做好这部分内容,特别是针对企业级服务商场。

可是Hadoop起源于互联网公司,存在许多长处:处理数据量很大,支撑非结构化数据,海量存储并且本钱很低。

而关于服务企业级商场,开源软件在运用上存在许多缺乏。例如,银行的数据剖析有三十几个模块,这些模块都是依据Oracle或许是IBM的数据库,或许触及几十万行代码,将这些都改成与Hadoop接口相习惯的程序是不现实的。并且开源的Hadoop最开端都没有一个图形化的界面,都是以命令行来操作的。

上述这些都限制了Hadoop在企业级商场的开展,可是企业级客户又很看好这种软件的未来。

另一方面,孙元浩指出,Hadoop作为根底结构,其规划需求结合硬件状况,而Hadoop是依据15年前的技能环境规划的,是低速硬盘,低速网络年代。

现在的硬件技能环境发作根本性改变,网络遍及万兆,存储每秒钟可以做上百万次操作,其时的架构现已彻底跟不上硬件的开展。

其次,从企业运用需求的视点来看,Hadoop软件是仿制谷歌的体系来构建的,开端的方针是用于互联网公司的日志处理和营销推行等场景。

当Hadoop技能运用到各行各业时,就发现它在功用缺失、一致性和可靠性、高性能并发等问题上的局限性,无法打破,甚至有剖析组织说Hadoop技能已死。

例如,曩昔咱们企业做交互剖析时分,数据量一个TB就够了,尤其是在美国,数据量根本是100G就满足支撑企业的交互剖析需求,这也促进美国的根底软件服务商没有动力去开发高度可扩展的引擎。