剑客
关注科技互联网

标签:Spark

技术教程

看大片 深入理解Spark的概念和编程方式

阅读(88)评论(0)

第一次听闻Spark是2013年年末,当时笔者对Scala(Spark的编程语言)感兴趣。一段时间之后做了一个有趣的数据科学项目,试图预测泰坦尼克号上的生还情况(Kaggle竞赛项目,通过使用机器学习预测泰坦尼克号上哪些乘客具备更高的生还可...

技术教程

Fregata: Spark上支持万亿维机器学习模型

阅读(60)评论(0)

作者:张夏天,TalkingData首席数据科学家。12年大规模机器学习和数据挖掘经验,对推荐系统、计算广告、大规模机器学习算法并行化、流式机器学习算法有很深的造诣;在国际顶级会议和期刊上发表论文12篇,申请专利9项;前IBM CRL、腾讯...

技术教程

2016,我的技术和诗

阅读(239)评论(0)

都说【同化】是一种很神奇的力量,看着大家都发新年感悟,大致就是回顾2016展望2017,我也没把持住自己的【清高】,发了一段话:

技术教程

学会用Spark实现朴素贝叶斯算法

阅读(111)评论(0)

编者按:本文作者汪榕曾写过一篇文章:《 以什么姿势进入数据挖掘会少走弯路 》,是对想入行大数据的读者的肺腑之言,其中也表达了作者的一些想法,希望大家不要随便去上没有结合业务的收费培训班课程;而后,他有了结合他本人的工作经验,写一系列帮助大家...

技术教程

用Spark解决一些经典MapReduce问题

阅读(35)评论(0)

Spark是一个Apache项目,它被标榜为“快如闪电的集群计算”。它拥有一个繁荣的开源社区,并且是目前最活跃的Apache项目。Spark提供了一个更快、更通用的数据处理平台。和Hadoop相比,Spark可以让你的程序在内存中运行时速度...

技术教程

Spark Standalone架构设计要点分析

阅读(92)评论(0)

Apache Spark是一个开源的通用集群计算系统,它提供了High-level编程API,支持Scala、Java和Python三种编程语言。Spark内核使用Scala语言编写,通过基于Scala的函数式编程特性,在不同的计算层面进行...

技术教程

大数据框架对比:Hadoop、Storm、Samza、Spark和Flink

阅读(99)评论(0)

大数据是收集、整理、处理大容量数据集,并从中获得见解所需的非传统战略和技术的总称。虽然处理数据所需的计算能力或存储容量早已超过一台计算机的上限,但这种计算类型的普遍性、规模,以及价值在最近几年才经历了大规模扩展。