剑客
关注科技互联网

标签:Hadoop

技术教程

羽毛也疯狂,盘点 Apache 最新毕业的11个顶级项目

阅读(42)评论(0)

自1999年成立至今,Apache 软件基金会已成功建立起自己强大的生态圈。其社区涌现了非常多优秀的开源项目,同时有越来越多国内外项目走向这个国际开源社区进行孵化。据悉,目前所有的 Apache 项目都需要经过孵化器孵化,满足一系列质量要求...

技术教程

【技术分享】同程旅游Hadoop安全实践

阅读(46)评论(0)

0x01 背景 当前大一点的公司都采用了共享Hadoop集群的模式 [1] 。 共享Hadoop是指:数据存储方面,公有/私有的文件目录混合存放在hdfs上,不同的用户根据需求访问不同的数据; 计算资源方面,管理员按部门或业务划分...

技术教程

Hadoop如何迎击大数据分析的挑战

阅读(47)评论(0)

大数据分析是现在十分火热的话题,从农业到工业、从金融到体育、从传统企业到初创公司,各行各业都在积极应用大数据分析,似乎你的企业不和大数据沾点边就会显得没有逼格一样。

技术教程

使用Apache Spar 的Lambda架构

阅读(52)评论(0)

市场上很多玩家已经建造了MapReduce工作流用来日常处理兆兆字节的历史数据。但是谁愿意等待24小时来拿到更新后的分析报告?这篇博客会向你介绍Lambda Architecture,它被设计出来既可以利用批量处理方法,也可以使用流式处理方...

技术教程

Hadoop平台中SQL优化的四个思路

阅读(56)评论(0)

文 | 大数据开放实验室 星环科技要正确的优化SQL,必须能快速定位性能瓶颈点,或者说快速找到SQL主要的开销所在。最慢的设备通常是瓶颈点的成因,如文件下载时的瓶颈点可能是网络速度,本地文件复制时的瓶颈点可能在于硬盘性能。

技术教程

干货|大数据Hadoop快速入门教程

阅读(73)评论(0)

Hadoop是一个由Apache基金会所开发的分布式系统集成架构,用户可以在不了解分布式底层细节情况下,开发分布式程序,充分利用集群的威力来进行高速运算与存储,具有可靠、高效、可伸缩的特点。

技术教程

6个大数据处理分析的最好工具

阅读(87)评论(0)

大数据是一个含义广泛的术语,是指数据集,如此庞大而复杂的,他们需要专门设计的硬件和软件工具进行处理。该数据集通常是万亿或EB的大小。这些数据集收集自各种各样的来源:传感器,气候信息,公开的信息,如杂志,报纸,文章。大数据产生的其他例子包括购...

技术教程

大数据框架对比:Hadoop、Storm、Samza、Spark和Flink

阅读(99)评论(0)

大数据是收集、整理、处理大容量数据集,并从中获得见解所需的非传统战略和技术的总称。虽然处理数据所需的计算能力或存储容量早已超过一台计算机的上限,但这种计算类型的普遍性、规模,以及价值在最近几年才经历了大规模扩展。

技术教程

初学hadoop的心路历程

阅读(56)评论(0)

在学习hadoop之前,我就明确了要致力于大数据行业,成为优秀的大数据研发工程师的目标,有了大目标之后要分几步走,然后每一步不断细分,采用大事化小的方法去学习hadoop。下面开始叙述我是如何初学hadoop的。

技术教程

给Hadoop初学者的一些建议

阅读(78)评论(0)

零基础学习 hadoop ,没有想象的那么困难,也没有想象的那么容易。从一开始什么都不懂,到能够搭建集群,开发。整个过程,只要有Linux基础,虚拟机化和java基础,其实 hadoop 并没有太大的困难。下面整理一下整个学习过程,...

技术教程

Hadoop工具让数据仓库迁移更轻松

阅读(90)评论(0)

从高成本数据仓库将任务卸载有时被看做是 Hadoop 商用集群的首要目标。迁移提取、转换、加载(ETL)、查询以及报告工作并不能显著改变商业模式,但它可能会抑制数据仓库的增长和成本。