当前位置: 首页 > news >正文

亚马逊图书官网/seo网络营销公司

亚马逊图书官网,seo网络营销公司,购物网站开发的意义,wordpress上传都图片不显示图片实验10:Spark基础编程2 实验目的 通过实验掌握基Scala的Spark编程方法;掌握基于Spark和Scala编程解决一些基本的数据处理和统计分析,去重、排序等; 实验要求 掌握Spark基于Scala编写应用程序的方法;完成下面的实验…

实验10:Spark基础编程2

  • 实验目的
  1. 通过实验掌握基Scala的Spark编程方法;
  2. 掌握基于Spark和Scala编程解决一些基本的数据处理和统计分析,去重、排序等;
  • 实验要求
  1. 掌握Spark基于Scala编写应用程序的方法;
  2. 完成下面的实验内容,实现数据信息的处理分析;
  • 实验平台
  1. 操作系统:Linux(建议Ubuntu16.04或者CentOS 7 以上);
  2. Spark版本:2.4.0;
  3. Maven:3.6.3;
  4. JDK版本:1.8;
  5. Java IDE:Eclipse。
  • 实验内容、结果及分析(直接在题目后面列出实验过程、结果以及分析)

启动IntelliJ Idea并创建spark项目,导入spark的jar包到项目

  1. WordCount
  1. 在本地创建一个文本文件以“学号sparktest.txt”命名,向其中各输入一个长篇英语文章,将其上传至hadoop中的分布式文件系统中/input/学号文件夹中;

  1. 编写基于Spark的WordCount scala应用程序,进行单词统计并按照单词频数由大到小输出统计结果(sortBy操作,代码以截图方式呈现并标注重点代码);

2.1将22111303195shakestest.txt拷贝到项目的resources目录下。

2.2编写spark代码:

2.3 运行测试输出:

(1)打印单词统计结果:

  1. 打印单词总数:

  1. 编写pom文件;

  1. 打包应用程序并列出打包结果;

4.1部署分布式Spark应用程序

  在生产环境中,Spark通常会处理存储在HDFS等分布式文件系统中的数据。Spark通常也以集群模式运行。

   修改源代码如下:

打包文件

执行作业:

使用spark-submit运行我们的代码。我们需要指定主类、要运行的jar和运行模式(集群),且主机名为instance-00000868执行:

此时遇到问题:

检查:

确保端口监听:在 IP 地址 172.17.0.2 上的 7077 端口正在被监听。

解决以上问题后重新执行命令出现新问题:

解决以上问题后,运行

出现报错:

检查:

  1. 检查 Spark Master 状态:

检查结果:Spark Master 服务正在运行,并且监听在正确的端口上。

2、检查端口占用

使用 netstat 命令检查端口占用:

检查结果:端口 9000 没有被其他服务占用。

  1. 运行Word Count程序(包含Scala代码运行成功截图)

  1. 修改2)中的程序,使得单词统计按照单词出现的次数降序排序,输出统计结果(代码以截图方式呈现并标注重点代码,并附上成功运行结果截图);

运行结果:

  1. 成绩统计

每个输入文件表示班级学生某个学科的成绩,每行内容由两个字段组成,第一个是学生名字,第二个是学生的成绩;输入文件样例如下,供参考。

Algorithm.txt:

Xiaoming 92

Xiaohong 87

Xiaoxin 82

Xiaoli 90

Database.txt:

Xiaoming 95

Xiaohong 81

Xiaoxin 89

Xiaoli 85

Python.txt:

Xiaoming 82

Xiaohong 83

Xiaoxin 94

Xiaoli 91

  1. 新建三个成绩文件,并输入对应的成绩数据,将三个成绩文件上传至HDFS中/input/学号文件夹中;

1.1在本地data/dataset创建文件:

1.2上传导hdfs中input/22111303195/目录,并查看:

  1. 编写 Spark Scala 独立应用程序求出所有学生以及平均成绩信息,并根据成绩降序输出统计结果,最后将统计结果存储在HDFS的/output/学号文件夹中(代码以截图方式呈现并标注重点代码,下面代码供参考使用);

本地运行输出:

  1. 打包运行程序,并列出运行结果;

  • 实验小结(问题和收获)

    学习曲线:最初对 Spark 的分布式计算模型和编程模型不太熟悉,但通过实验逐渐理解了其工作原理。问题解决:在实验过程中遇到了连接和配置问题,通过查阅文档和社区支持得以解决,增强了解决问题的能力。性能优势:体会到了 Spark 在处理大规模数据时的性能优势,尤其是在分布式环境中。工具掌握:通过实验,熟悉了 spark-submit 命令的使用,以及如何在集群模式下运行 Spark 应用程序。

http://www.whsansanxincailiao.cn/news/31969722.html

相关文章:

  • 网站编程培训班/微指数查询入口
  • 泉州建行 网站/软文发布门户网站
  • 网站建设开发有什么好处/武汉搜索推广
  • 湖南外贸网站建设/自媒体发布软件app
  • 网批做衣服的网站/海外新闻发布
  • c#网站开发+pdf/全球网站排名查询网
  • 新乡商城网站建设哪家优惠/东莞关键词优化推广
  • 西安网站建设是什么/广东网络优化推广
  • 南昌做任务的网站/com域名多少钱一年
  • 青岛胶南做网站的/托管竞价推广公司
  • 东莞有哪些做推广的网站/友情链接建立遵循的原则包括
  • 厦门湖里区建设局网站/最好的推广平台排名
  • 四川建设安全监督管理局网站/百度一下 你就知道官网
  • 百度云做网站/微信营销策略
  • 网上做二建题那个网站好/青岛网站排名推广
  • 佛山网站上排名/搜索网
  • 企业公司网站制作/提升神马关键词排名报价
  • 深圳人为什么不想去龙岗/郑州seo排名哪有
  • 西宁公司做网站/百度网站的网址
  • 做外贸的免费网站有哪些/提高工作效率
  • 邵阳县网站建设公司沙河网站建设公司/网络营销形式
  • 网站建设与管理怎么做/徐州百度推广
  • wordpress 导入discuz/宁波seo深度优化平台有哪些
  • 动易网站中添加邮箱/电商平台排行榜前十名
  • 如何做制作头像的网站/网站流量分析报告
  • 东莞微信网站建设更好/活动推广方案怎么写
  • 大连建网站/蜂蜜网络营销推广方案
  • 宁波网站建设明细报价/亚马逊alexa
  • 六安做网站多少钱/自己怎么做网页
  • 衡阳建设企业网站/注册网站流程