剑客
关注科技互联网

标签:Hive

技术教程

值得拥有 不容错过的Hive精华汇总

阅读(55)评论(0)

【编者按】Hive作为Hadoop家族的重要一员,具有学习成本低,开发者可通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用。在攒库中,Hive也不负众望,得到了非常高的票数。为此,CSDN知识库特邀...

技术教程

让CarbonData使用更简单

阅读(41)评论(0)

引用官方的说法:Apache CarbonData是一种新的高性能数据存储格式,针对当前大数据领域分析场景需求各异而导致的存储冗余问题,CarbonData提供了一种新的融合数据存储方案,以一份数据同时支持“任意维度组合的过滤查询、快速扫描...

技术教程

数据倾斜是多么痛?spark作业调优秘籍

阅读(93)评论(0)

有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证Spark作业的性能。

公开课

Hive On HBase

阅读(28)评论(0)

Hive 方便地提供了 Hive QL 的接口来简化 MapReduce 的使用,而 HBase 提供了低延迟的数据库访问。如果两者结合,可以利用 MapReduce 的优势针对 HBase 存储的大量内容进行离线的计算和分析。

公开课

走近大数据之Hive入门

阅读(28)评论(0)

hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。

公开课

走近大数据之Hive进阶

阅读(18)评论(0)

Hive是基于Hadoop的一个数据仓库工具,提供了强大的数据操作能力,包括数据的导入,查询和丰富的内置函数。同时,Hive也提供了对应的客户端可以操作数据,通过Java编程可以创建自定义函数来实现具体的业务逻辑。

技术教程

如何在Hive构造Dual表

阅读(103)评论(0)

dual表的概念来自oracle,数据库建立时即与数据字典一起初始化,该表只有一个varchar2类型名为dummy的字段,表数据只有一行“X”,用来查询一些系统信息,如select sysdate from dual; select us...

技术教程

如何开发 Presto 自定义函数(UDF)

阅读(685)评论(0)

简单介绍如何开发 Presto 的自定义 SQL 函数,实现定制化业务逻辑 Presto 是 Facebook 开源的分布式查询引擎,在英语流利说的交互式查询任务中担当着重要的职责。随着越来越多的人开始使用 SQL 在 Presto ...

技术教程

Kudu调研笔记

阅读(102)评论(0)

Kudu 主要面向 OLAP 应用,支持大规模数据存储,支持快速查询,并且支持实时数据更新。相比Hive 之类的SQL on Hadoop,性能会好不少,并且支持数据实时更新,这也是 Hive 的一个痛点;相比于一个传统的 OLAP 数据库...

技术教程

Hadoop 表分区以及分区消除

阅读(81)评论(0)

前言Big SQL, 是 IBM 依托其在 RDBMS 领域多年的技术积累,并结合当前大数据领域许多先进技术推出的 SQL-on-Hadoop 产品。与市场上其它产品如 Hive 不同,Big SQL 通过在 Hadoop 上运行大规模并行...

技术教程

英语流利说基础数据平台

阅读(103)评论(0)

随着大数据产品的日益成熟与稳定,如今不少互联网公司在数据产品所投入的运维工作已经越来越少,另外,加上国内云服务的不断普及,建立一套自己的大数据基础平台的成本也将变的更低。本文将向大家简要介绍流利说是怎样基于 AWS(Amazon Web S...