剑客
关注科技互联网

标签:Spark

技术教程

用Spark解决一些经典MapReduce问题

阅读(18)评论(0)

Spark是一个Apache项目,它被标榜为“快如闪电的集群计算”。它拥有一个繁荣的开源社区,并且是目前最活跃的Apache项目。Spark提供了一个更快、更通用的数据处理平台。和Hadoop相比,Spark可以让你的程序在内存中运行时速度...

技术教程

Spark Standalone架构设计要点分析

阅读(61)评论(0)

Apache Spark是一个开源的通用集群计算系统,它提供了High-level编程API,支持Scala、Java和Python三种编程语言。Spark内核使用Scala语言编写,通过基于Scala的函数式编程特性,在不同的计算层面进行...

技术教程

大数据框架对比:Hadoop、Storm、Samza、Spark和Flink

阅读(80)评论(0)

大数据是收集、整理、处理大容量数据集,并从中获得见解所需的非传统战略和技术的总称。虽然处理数据所需的计算能力或存储容量早已超过一台计算机的上限,但这种计算类型的普遍性、规模,以及价值在最近几年才经历了大规模扩展。

技术教程

Apache Spark:大数据处理统一引擎

阅读(166)评论(0)

工业和研究中数据的大幅增长为计算机科学带来了巨大的机会与挑战。由于数据大小超过了单台机器的能力,用户需要新的系统将计算扩展到多个节点。因此,针对不同计算工作负载的新集群编程模型已呈爆炸式增长。

技术教程

数据倾斜是多么痛?spark作业调优秘籍

阅读(96)评论(0)

有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证Spark作业的性能。

技术教程

Spark 技术在基因序列分析中的应用

阅读(156)评论(0)

生命科学方兴未艾, 从食品工业中的细菌培养鉴定到癌症快速诊断,基于 DNA 分析的应用不断出现,但同时基因分析应用也面临着很大挑战;许多新技术、新方法被应用到基因序列分析应用中,包括 Spark、FPGA 以及 GPU 协处理器加速等,这些...

技术教程

含 Apache Spark 的 Lambda 架构

阅读(68)评论(0)

市场上很多玩家已经建造了MapReduce工作流用来日常处理兆兆字节的历史数据。但是谁愿意等待24小时来拿到更新后的分析报告?这篇博客会向你介绍 Lambda Architecture ,它被设计出来既可以利用批量处理方法,也可以使用流式处...

技术教程

ELK 在 Spark 集群的应用

阅读(90)评论(0)

大数据处理技术越来越火,云计算平台也如火如荼,二者犹如 IT 列车的两个车轮,相辅相成,高速发展。如果我们将大数据处理平台比作一个可能会得病的人的话,那么日志分析系统就是给病人诊断的医生。由于集群甚大,几百台机器都是起步价,甚至可能会有上千...

技术教程

Spark Streaming + Elasticsearch构建App异常监控平台

阅读(82)评论(0)

如果在使用App时遇到闪退,你可能会选择卸载App、到应用商店怒斥开发者等方式来表达不满。但开发者也同样感到头疼,因为崩溃可能意味着用户流失、营收下滑。为了降低崩溃率,进而提升App质量,App开发团队需要实时地监控App异常。一旦发现严重...