剑客
关注科技互联网

QingStor™ 对象存储最佳实践之初探云端数据仓库

随着移动互联网、物联网的高速发展,我们获取的数据比以往任何时候都要多,大数据在社会、政治和商业等各个领域逐渐显示出威力,没有任何一个个人和企业能够逃过这个数据时代,因此数据的存储、分析、处理、对企业的决策支持变得格外重要。

QingStor™ 对象存储作为海量数据存储池,将会与 QingCloud 平台上的计算资源紧密整合,从而实现高性能、低成本的数据分析与挖掘,提升企业数据价值。

本文分享了 QingStor™ 对象存储如何与 HDW 进行集成的实践案例。在这个案例中,我们将把数据从 QingStor™ 对象存储中导入到数据仓库,并将最终的查询结果回导至 QingStor™ 对象存储。

注:HDW 是一个高性能、完全托管的 PB 级 MPP 数据仓库。源于 PostgreSQL 和 Greenplum Database,HDW 让你能够利用标准 SQL 客户端和 BI 工具轻松分析海量数据。这个服务还包括动态伸缩、监控和警告等功能,帮助您更好地管理数据仓库集群。HDW 由北京酷克数据科技有限公司提供技术支持。

创建 Bucket (存储空间)

QingStor™ 对象存储最佳实践之初探云端数据仓库

创建一个 Bucket,名为"hdw-hashdata-cn",并在其下创建两个目录"input"和"output"。

创建 API 访问 QingStor™ 对象存储

QingStor™ 对象存储最佳实践之初探云端数据仓库

创建输入文件

在本地创建文件"persons.txt"和"orders.txt",并将其上传至前面创建的 Bucket "hdw-hashdata-cn"的"input"目录里。

“persons.txt” 内容:

1,Adams,John,Oxford Street,London

2,Bush,George,Fifth Avenue,New York

3,Carter,Thomas,Changan Street,Beijing

" orders.txt " 内容

1,77895,3

2,44678,3

3,22456,1

4,24562,1

5,34674,65

创建数据表

连接 HDW 数据仓库进入 Postgres 数据库,执行如下图所示命令创建相应的数据表(请将里面的 access key id 和 secret access key 换成你的 API 密钥)。

外部表 epersons 对应前面上传的 persons.txt 文件,eorders 对应 orders.txt 文件,eresult 对应 Bucket hdw-hashdata-cn 的 output 目录。

QingStor™ 对象存储最佳实践之初探云端数据仓库

数据迁移

执行如下命令将数据从外部表(对应QingStor™ 对象存储的 input 目录)导入到数据仓库中:

QingStor™ 对象存储最佳实践之初探云端数据仓库

执行如下命令将查询结果导出到外部表(对应 QingStor™ 对象存储的 output 目录)

QingStor™ 对象存储最佳实践之初探云端数据仓库

此时,可以看到 output 目录下多了两个文件(这是因为演示系统中用了两个 workers ,每个 worker 往外写一个文件对象):gpqsext.0.0 和 gpqsext.1.0 。

QingStor™ 对象存储最佳实践之初探云端数据仓库

下载 gpqsext.0.0 和 gpqsext.1.0 ,查看内容:

QingStor™ 对象存储最佳实践之初探云端数据仓库

写在最后

在这个案例中,我们演示了如何将数据从 QingStor™ 对象存储里导入到 HDW 数据仓库中,并将查询结果回导至 QingStor™ 对象存储里。

基于这两个基本功能,我们可以构建更复杂的数据仓库管理功能,如在数据仓库空闲的时候,将元数据和用户数据备份到对象存储中,释放计算资源和存储资源,节省成本。当下次需要的时候,利用备份到对象存储中的数据恢复数据仓库,继续正常使用。

PS:目前 QingStor™ 对象存储为用户提供了 12 个月的免费套餐,点击原文链接,创建你的第一个 QingStor™ Bucket 吧。

  • FIN-

QingStor™ 对象存储最佳实践之初探云端数据仓库

分享到:更多 ()

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址