行业动态 火狐体育app:大数据分析展示系统数据库选型和实施 来源:火狐体育最新官网登录入口 作者:火狐体育app 发表时间: 2022-11-29 03:42:34

  想必大家做大数据的,都会遇到这样的需求,在页面上展示指标,在不同的筛选维度下展示,也就是BI的需求,我在工作中也遇到了,这时候我们就面临选择查询数据库的问题

  注意,这里指查询展示数据库,而不是计算数据库,因为大数据的计算量都比较大,所以都是大数据平台,hive、spark或者impala

  1.关系型数据库使用了这么多年,稳定性极高,不管是从查询结果,还是系统本身

  4.kylin本身是个黑盒子,且经历时间不久,出现问题,解决方法没有mysql多

  2.同时A作为时间展示维度,只有全部,本年,本季度,近一月,四种确定的枚举值,其他的枚举值也不多,不超过20,这样就结果数据量来说,不会很多

  3.数据源或者说数据明细,过于庞大,数据源头是个日志表,每天的增量在500万左右,在此基础上做一些不可预计算的count(distinct ) ,如果放到mysql,将是灾难

  5.公司本来一直是使用kylin的,但是资源消耗实在太严重,想要更加的节省

  6.秉承着 高展示效率,低能耗的原则,自然是采用了预计算的方法,来实现这个展示系统

  1.首先根据想要的指标,准备好相关指标对应的明细表,这里的明细不单单指详细明细,也可以是可以聚合度量的轻度汇总表 ,也就是dws表

  2.然后根据对应的dws表和 对应的维度组合表进行标签处理,和grouping sets处理

  根据以上sql,就能得到4个枚举值的对应的全部计算结果,并且A,B,维度也能得到汇总结果

  3.得到所有已经预计算完毕的结果,再加载到mysql里,只需要直接select 就可以得到结果

  什么叫预计算完毕:一个非常直接的判断,页面上所有的查询指标,所有维度的组合只对应一个具体的值,页面上出现的值,都会在mysql里出现

  这里还要说一个这种设计方法的一个优势,因为不是数据库带来的,就在这里说一下,那就是造假数据的优势,有的公司往往还没有真实数据,需要造假数据,来满足演示效果,有时候又想着演示效果更好,就需要随时调整演示数据,所以这种,能够直接改造的结果数据,更容易满足这种需求

  最后总结一下:分析展示系统的选型还是看情况和需求而定,一般如果不是任意选择时间维度的这种不太合理的需求,基本mysql都够用了

上一篇:在大数据领域中的数据库方案选型思考 下一篇:大数据开发:大数据背景下的库选型
关注我们
©2022 火狐体育最新登录网址_官网app入口 京公网安备110177777720125 火狐体育最新登录网址|火狐体育app