剑客
关注科技互联网

标签:Hadoop

技术教程

干货|大数据Hadoop快速入门教程

阅读(48)评论(0)

Hadoop是一个由Apache基金会所开发的分布式系统集成架构,用户可以在不了解分布式底层细节情况下,开发分布式程序,充分利用集群的威力来进行高速运算与存储,具有可靠、高效、可伸缩的特点。

技术教程

6个大数据处理分析的最好工具

阅读(66)评论(0)

大数据是一个含义广泛的术语,是指数据集,如此庞大而复杂的,他们需要专门设计的硬件和软件工具进行处理。该数据集通常是万亿或EB的大小。这些数据集收集自各种各样的来源:传感器,气候信息,公开的信息,如杂志,报纸,文章。大数据产生的其他例子包括购...

技术教程

大数据框架对比:Hadoop、Storm、Samza、Spark和Flink

阅读(77)评论(0)

大数据是收集、整理、处理大容量数据集,并从中获得见解所需的非传统战略和技术的总称。虽然处理数据所需的计算能力或存储容量早已超过一台计算机的上限,但这种计算类型的普遍性、规模,以及价值在最近几年才经历了大规模扩展。

技术教程

初学hadoop的心路历程

阅读(43)评论(0)

在学习hadoop之前,我就明确了要致力于大数据行业,成为优秀的大数据研发工程师的目标,有了大目标之后要分几步走,然后每一步不断细分,采用大事化小的方法去学习hadoop。下面开始叙述我是如何初学hadoop的。

技术教程

给Hadoop初学者的一些建议

阅读(70)评论(0)

零基础学习 hadoop ,没有想象的那么困难,也没有想象的那么容易。从一开始什么都不懂,到能够搭建集群,开发。整个过程,只要有Linux基础,虚拟机化和java基础,其实 hadoop 并没有太大的困难。下面整理一下整个学习过程,...

技术教程

Hadoop工具让数据仓库迁移更轻松

阅读(64)评论(0)

从高成本数据仓库将任务卸载有时被看做是 Hadoop 商用集群的首要目标。迁移提取、转换、加载(ETL)、查询以及报告工作并不能显著改变商业模式,但它可能会抑制数据仓库的增长和成本。

技术教程

Hadoop 渗透及加固

阅读(88)评论(0)

最近看到微博有人在讨论在Hadoop安全问题,也顺便了看一下。 很多产品设计之初就是使用在内网,所以 默认不开启身份认证或者压根就 没有身份认证模块, 这种设计理念是有问题的 。例如es、redis、mongodb这些基础...

技术教程

一图简述大数据技术生态圈

阅读(65)评论(0)

是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化数据集群。像Facebook,都拿它做大型实时应用。

公开课

YARN 架构详解

阅读(29)评论(0)

YARN 是 Hadoop 2.X 中的资源管理系统,它的基本设计思想是将 MRv1 中的 JobTracker 拆分成了两个独立的服务:一个全局的资源管理器 ResourceManager 和每个应用程序特有的ApplicationMas...

公开课

Hadoop MapReduce 入门

阅读(30)评论(0)

MapReduce 是一个高性能的批处理分布式计算框架,用于对海量数据进行并行分析和处理。与传统数据仓库和分析技术相比,MapReduce 适合处理各种类型的数据,包括结构化、半结构化和非结构化数据。数据量在 TB 和 PB 级别,在这个量...

公开课

Hadoop MapReduce 进阶

阅读(19)评论(0)

MapReduce 是一个高性能的批处理分布式计算框架,用于对海量数据进行并行分析和处理。与传统数据仓库和分析技术相比,MapReduce 适合处理各种类型的数据,包括结构化、半结构化和非结构化数据。数据量在 TB 和 PB 级别,在这个量...

公开课

Hadoop 管理与调优

阅读(24)评论(0)

Hue 是运营和开发 Hadoop 应用的图形化用户界面,咱们可以集成 Hue 快速开发和调试 Hadoop。Hadoop 1.0 中存在 NameNode 单点故障,所以咱们需要升级 Hadoop。同时,使用合理的压缩格式也能极大的提高 ...