网站分层目录模板-数据库机房层次结构解读

注意

公众号推文规则变更,读者会错过文章更新,点击上方“企业信息化规划”关注,并设为明星

后台回复【技术】,申请加入行业技术交流群

会员可以介入以获得更敏捷的服务

01 什么是数据层?

数据分层是一套有效的数据组织和管理方法,促进数据系统更加有序。

02数据分层的好处

(1)清晰的数据结构

每个数据层都有其范围和职责,使用表格时可以更方便地定位和理解。

(2)减少重复开发

只有规范数据分层,开发一些通用的中层数据,才能减少巨大的双重估计。

(三)统一数据口径

通过数据分层,提供统一的数据导出,统一对外输出的数据口径。

(4)将复杂问题简单化

将复杂的任务分解为多个步骤,每一层解决一个特定的问题。

通用数据层次结构设计

03 示例

以下是某电商网站的数据系统设计,仅关注用户访问日志的数据。

04 每层使用的估计引擎和存储系统

05 分层实施

确定了建模思路和模型类型后,下一步就是数据分层。 数据分层可以使数据建立体系更加清晰,便于数据使用者快速定位数据; 同时,数据分层还可以简化数据处理过程,增加估计的复杂度。

我们常用的数据库机房的数据层一般分为三层:市场层、中间层、基础数据层。 将传统的多层结构缩减为上下三层结构的目的是压缩整体数据处理流程的宽度网站分层目录模板,数据处理流程扁平化有利于数据质量控制和数据运维。

在上下三层结构的一侧,我们减少了流数据并将其添加为数据系统的一部分。 这是因为当前的数据应用方向会越来越注重数据的时效性,而数据越实时,价值就越高。

但由于流式数据集的采集、处理和管理成本较高,通常以需求驱动的形式构建; 据悉,考虑到成本激励,流数据系统的结构正在变得更加扁平化,一般不再有中间层。

下面我们详细了解一下每一层的具体作用。

数据库层

数据库层的主要任务包括:

数据中间层

数据中间层最重要的目标是连接同一实体的不同来源的数据。 这是因为在当前的业务形态下,同一实体的数据可能分散在不同的系统和来源中,这些数据可能会影响同一实体的标识。 不同的。 据悉,数据中间层还可以从行为上表示关系。 从行为中可视化的基本关系将是未来底层应用非常重要的数据依赖。 兴趣、偏好、习惯等关系数据是推荐和个性化的基本生产材料。

在中间层,为了保证主体的完整性或者增强数据的可用性,往往会进行适当的数据冗余。 例如,如果一个事实数据与两个主题相关,但没有成为独立主题网站分层目录模板,则会被放入两个主题库中; 为了增强单个数据表的复用性,减少估计关联,一般会在事实表中冗余 部分维度信息。

数据集市层

数据集市层是上下三层结构中的最底层,一般以需求场景驱动,数据集市呈垂直结构。 在数据集市层,我们可以深度挖掘数据的价值。 值得注意的是,数据集市层可以根据需要快速试错。

数据结构

数据架构包括数据集成、数据系统、数据服务三部分。 其中,数据集成可分为结构化、半结构化和非结构化三类。

数据整合

结构化数据采集可以细分为三类:全量采集、增量采集、实时采集。 三种采集方式各自的特点及适用场合如上图所示。 其中,全收集的形式最为简单; 实时采集的采集质量是最难控制的。

传统架构中,日志的结构化处理是放在数据仓库系统之外的。 在大数据平台的仓库架构中,日志在收集到平台之前并没有结构化; 在大数据平台上,每条日志按照行字符进行划分,整个日志存储在一个数据表数组中; 随后估计通过UDF或者MR框架实现日志结构化。

我们认为,日志结构越标准化,解析成本就越低。 在日志结构化的过程中,不需要将数据内容完全扁平化,只需要结构化重要的公共数组即可; 同时,为了保证可扩展性,我们可以借助数据冗余来保存原始匹配数组(如useragent数组)。

非结构化数据需要先结构化才能使用。 非结构化数据特征提取包括语音转文本、图像识别、自然语言处理、图像合规性和视频识别。 虽然目前的数据仓库架构体系不包含非结构化数据特征提取操作,但未来将成为可能。

数据服务

数据服务包括统计服务、分析服务和标注服务:

06 数据分层的一些概念描述

大数据数据库机房是基于HIVE的数据库机房。 分布式文件系统为HDFS,资源管理为Yarn,估算引擎主要包括MapReduce/Tez/Spark等。分层架构描述如下:

星型模式的基本思想是保持六面体的多维功能,同时降低小规模数据存储的灵活性。

阐明:

例如,从区域的角度观察某个区域的商品销量。事实表是销量表,维度表是区域表

4、主题表:主题是在更高层次上对企业信息系统中的数据进行综合、分类和分析的具体概念。 每个学科基本上对应一个宏观分析领域。 从逻辑意义上讲,它对应于企业中某个宏观分析领域所涉及的分析对象。 比如“销售分析”是一个分析领域,那么这个库房应用的主题就是“销售分析”。

面向主题的数据组织形式是对分析对象数据在较高层次上的完整一致的描述,可以描述每个分析对象所涉及的企业的各种数据以及数据之间的关系。 所谓更高层次是相对于面向应用的数据组织形式而言的,是指按照主题进行数据组织的形式具有更高层次的数据表示形式。

对应于传统数据库面向应用的数据组织方式,库房的数据是面向主题组织的。 例如,制造公司的数据库机房组织的主题可能包括产品订单分析和货物交付分析。 而按组织结构可能有财务子系统、销售子系统、供应子系统、人力资源子系统和生产调度子系统。

5、汇总数据层:聚合原子细粒度事实表和维度表。 为了满足固定的分析需求,提高查询性能,会生成周报、月报、季报、年报等高明细表。

6、应用层:应用层,这一层数据完全是为了满足特定分析需求而建立的,也是星型数据。 应用层是后端应用程序的解释和提取数据,可以由关系数据库组成。

【补充】

数据缓存层:数据库层,用于存储socket提供的原始数据。 该层的表结构与源数据基本一致。 数据存储时间取决于数据大小和项目情况。 保存最近数据并备份历史数据。 该层的目的是数据传输和备份。

临时数据表层:存储临时测试数据表(Temp table),或者中间结果集的表。

07 大数据相关基本概念

收藏 (0) 打赏

感谢您的支持,我会继续努力的!

打开微信/支付宝扫一扫,即可进行扫码打赏哦,分享从这里开始,精彩与您同在
点赞 (0)

悟空资源网 模板插件 网站分层目录模板-数据库机房层次结构解读 https://www.wkzy.net/game/168358.html

常见问题

相关文章

官方客服团队

为您解决烦忧 - 24小时在线 专业服务