基于大数据的OLAP技术4个角度一篇讲明白.docx
《基于大数据的OLAP技术4个角度一篇讲明白.docx》由会员分享,可在线阅读,更多相关《基于大数据的OLAP技术4个角度一篇讲明白.docx(7页珍藏版)》请在第壹文秘上搜索。
1、在线分析处理(OnIineAnaIytiCaIPrOCeSSing,OLAP)技术是大数据技术中快速解决多维分析问题的方法之一。由于OLAP需要快速读取大量数据,因此它对数据的读取吞吐量和计算效率有很高的要求。目前,基于大数据的OLAP技术一般从面向读的存储优化、预计算、支持灵活分析等方面不断提高,近几年出现了很多令人激动的产品。OlOLAP技术介绍OLAP技术让用户能够从多个角度交互地分析多维数据,从中发现规律,用来做决策支持。在分析过程中,用户需要获取和处理历史数据(一段时期内),有时也需要获取和处理实时数据,此时查询吞吐量和相应时间是关键性能指标。1、OLAP分析操作OLAP分析一般需要
2、设计数据立方体,立方体由分析的维度(dimension).层级(level)和指标(metric)来定义,支持上卷(ro-up)、钻取(drilldown)、切片(slicing)和切块(dicing)等分析操作。- 上卷:将数据按一个或多个维度向更高层级策合,例如基于县级销售额统计市级销售额。- 钻取:上卷的反向操作。- 切片和切块:从OLAP多维数据集中按选择维度的特定数值选取出一组特定的数据,例如一季度的所有数据。- 切块:从OLAP多维数据集中按选择维度的特定数值区间选取出一组特定的数据,例如2月到5月的所有数据。2、与OLTP的区别与OLAP相对的是OLTP。OLTP的全称是联机事务
3、处理(OnlineTransactionProcessing),是传统关系型数据库的主要应用。OLTP的特点是实现插入、更新、IH除等事务的在线处理,但系统需要保证事务的完整性,满足AClD原则。在OLTP中,事务的吞吐量是关键性能指标,以每秒事务数来衡量效率。由于严格的约束限制,支持OLTP的数据系统通常无法满足OLAP大规模数据读取与处理的需求,二者对数据读取的吞吐量要求相差不止一个量级,因此OLAP系统的技术选型一般与OLTP不同,数据的组织方式也不同。02实时OLAP系统的两种架构模型随着DT时代的到来,越来越多的业务需求要求大数据系统既能处理历史数据,又能进行实时计算,同时越来越要求
4、运营的时效性,以便即时评估运营活动效果,即时调整策略。针对实时大数据统计分析系统,有两种架构设计路线:Lambda和KappaoLambda架构包含三层:批处理层(BatchLayer)、速度层(SPeedLayer)和服务层(ServingLayer)o批处理层对历史数据进行预处理,速度层处理新增实时数据,服务层实现上述两层处理结果的融合,将其合并为统一视图,为用户提供全时域数据分析查询。每层可以分别选择合适的大数据组件来构建系统,比如用SPark构建批处理层、用Flink构建速度层。-KaPPa架构在Lambda架构的基础上去掉了批处理层,对速度层进行了改进,使其既能够支持实时数据处理,又
5、能够支持历史数据处理。KaPPa架构只有实时层和服务层。Kappa架构通常是将流式框架中的数据通道替换成消息队列(如Kafka),可以设定一定的保留期限,如分析逻辑改变,重新从消息队列消费数据处理即可。实时OLAP系统的两种架构模型对比如图1所示。图1实时OLAP的两种架构模型对比两种架构模型的优缺点对比如下: Lambda架构具有很好的灵活性、可扩展性和容错性,但分别处理历史数据与实时数据时常常出现处理逻辑或计算结果不一致的情况,另外系统建设和维护复杂。 KaPPa架构只需维护一套代码,可以做到数据处理逻辑与计算结果的一致性。KaPPa架构并不是Lambda架构的替代品,二者的应用场景不同。
6、K叩Pa架构由于全部采用流式处理,数据处理吞吐量不如Lambda架构,处理资源成本也较高。03OLAP相关技术分类按照数据模型可将OLAP相关技术分为MOLAP.ROLAP和HOLAP3种类型: MOLAP表示MUltidimenSiOnalOLAP(多维型OLAP),一般是基于预计算生成多维数据立方体; ROLAPRelationalOLAP(关系型OLAP),一般不进行预计算,直接关联事实表与维度表进行查询; HOLAP是指HybridOLAP(混合型OLAP),是混合利用MoLAP和RoLAP方法,综合二者的优缺点。按照实现的技术方法可将OLAP相关技术分为MPP架构、预计算和搜索引擎三
7、类。- MPP架构:最常见的OLAP引擎架构,MPP架构具有完全的可伸缩性、高可用、高性能、高性价比等优势。此类又分两种,一种是MPP数据库,它基于关系数据模型建立数据仓库的主要技术选型,是大数据场景ROLAP的实现方法,典型的产品是GreenPIUm、CliCkHOuse;另一种是MPP分析引擎,它仅基于MPP架构实现计算功能,数据存储则依赖于其他存储系统(如HDFS),典型的产品有PreSto、ImPala。- 预计算:基于定义的数据立方体,在明细表上进行预计算,在多维分析时仅执行查询操作,是实现MoLAP的典型方法。优点是查询时如果命中预计算结果则几乎没有延迟,适合对超大原始数据集的分析
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 数据 OLAP 技术 角度 一篇 明白