spark是Apache开源社区的一个分布式计算引擎,基于内存计算,所以速度要快于hadoop.
下载
- 地址spark.apache.org 
 站在用户的角度思考问题,与客户深入沟通,找到龙华网站设计与龙华网站推广的解决方案,凭借多年的经验,让设计与互联网技术结合,创造个性化、用户体验好的作品,建站类型包括:网站设计、成都网站建设、企业官网、英文网站、手机端网站、网站推广、空间域名、虚拟主机、企业邮箱。业务覆盖龙华地区。 
安装
- 复制一台单独的虚拟机,名c 
- 修改其ip,192.168.56.200 
- 修改其hostname为c,hostnamectl set-hostname c 
- 修改/etc/hosts加入对本机的解析 
- 重启网络服务 systemctl restart network 
- 上传spark安装文件到root目录 
- 解压spark到/usr/local下,将其名字修改为spark 
本地运行模式
使用spark-submit提交job
- cd /usr/local/spark 
- ./bin/spark-submit --class org.apache.spark.examples.SparkPi ./examples/jars/spark-examples_2.11-2.1.0.jar 10000 
使用spark-shell进行交互式提交
- 创建root下的文本文件hello.txt 
- ./bin/spark-shell 
- 再次连接一个terminal,用jps观察进程,会看到spark-submit进程 
- sc 
- sc.textFile("/root/hello.txt") 
- val lineRDD = sc.textFile("/root/hello.txt") 
- lineRDD.foreach(println) 
- 观察网页端情况 
- val wordRDD = lineRDD.flatMap(line => line.split(" ")) 
- wordRDD.collect 
- val wordCountRDD = wordRDD.map(word => (word,1)) 
- wordCountRDD.collect 
- val resultRDD = wordCountRDD.reduceByKey((x,y)=>x+y) 
- resultRDD.collect 
- val orderedRDD = resultRDD.sortByKey(false) 
- orderedRDD.collect 
- orderedRDD.saveAsTextFile("/root/result") 
- 观察结果 
- 简便写法:sc.textFile("/root/hello.txt").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).sortByKey().collect 
使用local模式访问hdfs数据
- start-dfs.sh 
- spark-shell执行:sc.textFile("hdfs://192.168.56.100:9000/hello.txt").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).sortByKey().collect (可以把ip换成master,修改/etc/hosts) 
- sc.textFile("hdfs://192.168.56.100:9000/hello.txt").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).sortByKey().saveAsTextFile("hdfs://192.168.56.100:9000/output1") 
spark standalone模式
- 在master和所有slave上解压spark 
- 修改master上conf/slaves文件,加入slave 
- 修改conf/spark-env.sh,export SPARK_MASTER_HOST=master 
- 复制spark-env.sh到每一台slave 
- cd /usr/local/spark 
- ./sbin/start-all.sh 
- 在c上执行:./bin/spark-shell --master spark://192.168.56.100:7077 (也可以使用配置文件) 
- 观察http://master:8080 
spark on yarn模式
另外有需要云服务器可以了解下创新互联scvps.cn,海内外云服务器15元起步,三天无理由+7*72小时售后在线,公司持有idc许可证,提供“云服务器、裸金属服务器、高防服务器、香港服务器、美国服务器、虚拟主机、免备案服务器”等云主机租用服务以及企业上云的综合解决方案,具有“安全稳定、简单易用、服务可用性高、性价比高”等特点与优势,专为企业上云打造定制,能够满足用户丰富、多元化的应用场景需求。
分享题目:spark入门知识和job任务提交流程-创新互联
转载来源:http://www.scyingshan.cn/article/gjgog.html

 建站
建站
 咨询
咨询 售后
售后
 建站咨询
建站咨询 
 