Spark学习(一) 基本操作

先来一个简单的spark小程序,这是官网上的小例子,目的就是统计spark下面的README文档中包含字母a和字母b的个数,然后

打印,代码如下:

object BasicStandaloneApp extends App{
  val logFile = "/home/xiaoyi/software/spark/README.md" // Should be some file on your system
  val conf = new SparkConf().setAppName("Simple Application").setMaster("local")
  val sc = new SparkContext(conf)
  val logData = sc.textFile(logFile, 2).cache()
  val numAs = logData.filter(line => line.contains("a")).count()
  val numBs = logData.filter(line => line.contains("b")).count()
  println("Lines with a: %s, Lines with b: %s".format(numAs, numBs))
}

由于scala代码一般是使用sbt进行项目管理,所以我们还需要在相应的sbt文件中添加spark相依的依赖,如下所示:

name := "learning_spark"

version := "1.0"

libraryDependencies += "org.apache.spark" %% "spark-core" % "1.1.0"

这是sbt管理文件的基本格式.

从这个例子中我们可以看出spark程序的基本结构,spark的程序需要两个基本的类,第一个是SparkConf它负责spark程序的基本配置.比如上面例子中设置master 为"local"的话,就表示程序在本地执行,另外一个非常重要的类是SparkContext,
spark程序的运行都是有它的实例进行启动和空值.

对于上面的例子如果在IDE中的话我们就可以直接右键run了,效果如下:

虽然这样的执行比较简单,但是终究还是得放到saprk容器或者说取集群取跑的,具体的也就是先将你的应用打个包,然后用spark submit提交即可

命令如下:

spark-submit --class BasicStandaloneApp --master local target/scala-2.10/learning_spark_2.10-1.0.jar

local是spark master所在地址

任务监控界面如下:

时间： 2024-05-24 03:51:26

Spark学习(一) 基本操作的相关文章

Spark学习体系

底理解Spark,能够分为以下几个层次. 1 Spark基础篇 1.1 Spark生态和安装部署在安装过程中,理解其基本操作步骤. 安装部署 Spark安装简单介绍 Spark的源代码编译 Spark Standalone安装 Spark Standalone HA安装 Spark应用程序部署工具spark-submit Spark生态 Spark(内存计算框架) SparkSteaming(流式计算框架) Spark SQL(ad-hoc) Mllib(Machine Learning) G

Spark 学习: spark 原理简述与 shuffle 过程介绍

Spark学习: 简述总结 Spark 是使用 scala 实现的基于内存计算的大数据开源集群计算环境.提供了 java,scala, python,R 等语言的调用接口. Spark学习简述总结引言 1 Hadoop 和 Spark 的关系 Spark 系统架构 1 spark 运行原理 RDD 初识 shuffle 和 stage 性能优化 1 缓存机制和 cache 的意义 2 shuffle 的优化 3 资源参数调优 4 小结本地搭建 Spark 开发环境 1 Spark-Scal

Spark学习四：网站日志分析案例

Spark学习四:网站日志分析案例标签(空格分隔): Spark Spark学习四网站日志分析案例一创建maven工程二创建模板三日志分析案例一,创建maven工程 1,执行maven命令创建工程 mvn archetype:generate -DarchetypeGroupId=org.scala-tools.archetypes -DarchetypeArtifactId=scala-archetype-simple -DremoteRepositories=http://scal

Spark学习三：Spark Schedule以及idea的安装和导入源码

Spark学习三:Spark Schedule以及idea的安装和导入源码标签(空格分隔): Spark Spark学习三Spark Schedule以及idea的安装和导入源码一RDD操作过程中的数据位置二Spark Schedule 三Idea导入spark源码一,RDD操作过程中的数据位置 [hadoop001@xingyunfei001 spark-1.3.0-bin-2.5.0]$ bin/spark-shell --master local[2] val rdd = sc.t

Spark学习七：spark streaming与flume集成

Spark学习七:spark streaming与flume集成标签(空格分隔): Spark 一,启动flume flume-conf.properties文件 agent002.sources = sources002 agent002.channels = channels002 agent002.sinks = sinks002 ## define sources agent002.sources.sources002.type = exec agent002.sources.sour

Spark学习六：spark streaming

Spark学习六:spark streaming 标签(空格分隔): Spark Spark学习六spark streaming 一概述二企业案例分析三Spark streaming的工作原理四textFileStreaming的应用四企业中的开发方式五总结一,概述一个简单的实例 1,安装nc nc -lk 9999 2,启动应用 ./bin/run-example streaming.NeworkWordCount localhost 9999 二,企业案例分析需求: 实时统计

Spark学习八：spark streaming与flume和kafka集成

Spark学习八:spark streaming与flume和kafka集成标签(空格分隔): Spark Spark学习八spark streaming与flume和kafka集成一Kafka 二flume和kafka的集成三kafka和spark streaming的集成方式一kafka推送四kafka和spark streaming的集成方式一spark streaam主动获取五spark stream的高级应用updateStateByKey实现累加功能六spark stre

Spark学习笔记之SparkRDD

Spark学习笔记之SparkRDD 一. 基本概念 RDD(resilient distributed datasets)弹性分布式数据集. 来自于两方面 ① 内存集合和外部存储系统 ② 通过转换来自于其他RDD,如map,filter等 2.创建操作(creation operation):RDD的创建由SparkContext来负责. 3.转换操作(transformation operation):将一个RDD通过一定操作转换为另一个RDD. 4.控制操作(control o

用Spark学习矩阵分解推荐算法

在矩阵分解在协同过滤推荐算法中的应用中,我们对矩阵分解在推荐算法中的应用原理做了总结,这里我们就从实践的角度来用Spark学习矩阵分解推荐算法. 1. Spark推荐算法概述在Spark MLlib中,推荐算法这块只实现了基于矩阵分解的协同过滤推荐算法.而基于的算法是FunkSVD算法,即将m个用户和n个物品对应的评分矩阵M分解为两个低维的矩阵:$$M_{m \times n}=P_{m \times k}^TQ_{k \times n}$$ 其中k为分解成低维的维数,一般远比m和n小.如果大