您现在的位置:首页 >> 省钱攻略

数据湖存储方案Lakehouse带来数据仓库架构的强化 译

发布时间:2025/09/25 12:16    来源:大丰家居装修网

该层可以广泛应用作各种组件来营养资料。其中所有数:用作从IoT设备一处流双管传输资料的Apache Kafka、用作从关系资料库管理机构系统会(Relational Database Management System,RDBMS)一处导入资料的Apache Sqoop、以及拥护廉价资料一管控的更多组件。 由于计算层和驱动器层得到了分离,因此资料Lakehouse最适于幽驱动器库公共服务。它可以利用HDFSSDK在本地得以推行。在结构设计上,Lakehouse允许程序员将各种资料保存在诸如AWS S3等廉价实例的驱动器中所,并作为广泛应用作新标准文档(例如Apache Parquet)的实例。 Lakehouse中所的元资料层负责为湖畔驱动器(lake storage)中所的所有实例给予元资料(即,给予有关其他资料段落接收者的资料)。此外,它还可以管理机构如下多方面: 尽可能比方说各项ACID政务 广泛应用作更快的驱动器设备(如,一管控路由上的SSD和RAM)磁盘来自幽公共服务实例所驱动器的文件 通过目录,以加速查询的速度快 Lakehouses中所的API层给予了两种类别的API:公开信停止使用性DataFrame API和SQL API。在DataFrame API的帮助下,资料现代科学界可以直接广泛应用作资料,来拒绝执行他们的各种广泛应用。例如,TensorFlow和Spark MLlib等人工智能示例库,可以读取Parquet等停止使用的文档,并直接查询元资料层。而SQL API可以用作为第一组大公司系统会停止使用性、资料挖掘、资料可视化等商业活动智能、以及各种调查结果类广泛应用软件,获取资料。 最终,消费层包含了诸如Power BI、Tableau等各种广泛应用软件和广泛应用。整个大公司的所有用户都可以使Lakehouse的消费层,来拒绝执行各种系统会停止使用性训练任务。其中所有数:商业活动高端仪此表板、资料可视化、SQL查询、以及人工智能作业等。

此外,Lakehouse虚拟化也最适于在一个组织之外,为各种资料给予单点双管出访。

小结

Lakehouse虚拟化是应对资料提纯的复杂停止使用性、查询的兼容停止使用性、热和资料的磁盘等需要产生的。现今,该单体虚拟化尚一处于当前。但是,在不久的将来,Lakehouse作为一种资料广泛应用软件,将并不需要实现资料发现、资料广泛应用作指标、资料集中所管理机构等更加多样化的功能。

原文标题:The Lakehouse: An Uplift of Data Warehouse Architecture,作者:Gautam Goswami

无精症早期症状
镇江看妇科哪个医院比较好
医用教学模型
西宁哪个男科医院最好
重庆看男科去哪看
慢性支气管炎咳嗽怎么治
月经过少
搜疾病问医生
急救常识
嘴唇长痘

上一篇: 京东京造麒麟复刻版上架,1T 到手价不超过 599 元

下一篇: 胶版印刷专色打样机(反光展色仪)

友情链接