云数科技-云库CloudyBi
云数科技 技术

云数科技 > CloudyBI - 并行实时ETL


  ETL是数据仓库中的非常重要的一环,也是承前启后的必要的一步,其工作能力与质量直接关系数据仓库中数据的质量,从而影响到联机分析处理和数据挖掘的结果的质量。而当数据源的数据规模达到数十亿或百亿以上时,ETL的能力与质量将成为重中之重。

  云库在面向不同数据级或数据源研发了三套ETL系统:
  - 亿级及以下级别ETL
   此级别ETL为云库的基本ETL配置,提供定时与离线ETL两种方式。

  - 十亿级及以上级别ETL(统计版)
   此级别ETL为云库为数量规模在日均十亿及以上的用户提供的大数据级ETL,该ETL系统支持实时/定时与离线ETL两种方式。统计版本在数据分布运算时可应用用户设置的分布规则,根据用户的要求来做分布数据,以使前端使用各种数据统计查询时获得更快的响应与运算速度。

  - 十亿级及以上级别ETL(明细版)
   此级别ETL为云库的定制级ETL,通常应用在数据规模在日均百亿及以上规模数据上,并提供有专门明细需求的用户使用。明细版可在6秒内完成明细查询并产生结果。明细版不再支持复杂的业务分布规则。

  

  云库十亿级及以上级别ETL是云库在2013中旬研发完成,在经过了几个月的真实应用环境测试使用后,于2013年12月底发布。详细介绍可参见:百亿级ETL