当前位置: 首页 > news >正文

西安企业网站开发哪家好/seo的培训课程

西安企业网站开发哪家好,seo的培训课程,做快手头像的网站,wordpress表格边框以下是使用 Spark 进行数据提取(读取)和保存(写入)的常见场景及代码示例(基于 Scala/Java/Python,不含图片操作): 一、数据提取(读取) 1. 读取文件数据&a…

以下是使用 Spark 进行数据提取(读取)和保存(写入)的常见场景及代码示例(基于 Scala/Java/Python,不含图片操作):
 
一、数据提取(读取)
 
1. 读取文件数据(文本/CSV/JSON/Parquet 等)
 
Scala
 
scala   
import org.apache.spark.sql.SparkSession

val spark = SparkSession.builder()
  .appName("Data Read")
  .getOrCreate()

// 读取 CSV(含表头)
val csvDf = spark.read.format("csv")
  .option("header", "true")
  .option("inferSchema", "true") // 自动推断数据类型
  .load("path/to/csv/file.csv")

// 读取 JSON
val jsonDf = spark.read.json("path/to/json/file.json")

// 读取 Parquet(Spark 原生格式,高效)
val parquetDf = spark.read.parquet("path/to/parquet/dir")
 
 
Python
 
python   
from pyspark.sql import SparkSession

spark = SparkSession.builder.appName("Data Read").getOrCreate()

# 读取 CSV
csv_df = spark.read.csv("path/to/csv/file.csv", header=True, inferSchema=True)

# 读取 JSON
json_df = spark.read.json("path/to/json/file.json")

# 读取 Parquet
parquet_df = spark.read.parquet("path/to/parquet/dir")
 
 
2. 读取数据库数据(如 MySQL/Hive)
 
Scala(以 MySQL 为例)
 
scala   
val jdbcDf = spark.read.format("jdbc")
  .option("url", "jdbc:mysql://host:port/db?useSSL=false")
  .option("dbtable", "table_name")
  .option("user", "username")
  .option("password", "password")
  .load()
 
 
Python(以 Hive 为例,需启用 Hive 支持)
 
python   
# 读取 Hive 表(需在 SparkSession 中启用 Hive)
hive_df = spark.sql("SELECT * FROM hive_table")
 
 
二、数据保存(写入)
 
1. 保存为文件(CSV/JSON/Parquet 等)
 
Scala
 
scala   
// 保存为 CSV(覆盖模式,含表头)
csvDf.write.format("csv")
  .option("header", "true")
  .mode("overwrite") // 模式:overwrite/append/ignore/errorIfExists
  .save("output/csv_result")

// 保存为 Parquet(分区存储,提升查询性能)
parquetDf.write.partitionBy("category") // 按字段分区
  .mode("append")
  .parquet("output/parquet_result")
 
 
Python
 
python   
# 保存为 JSON
json_df.write.json("output/json_result", mode="overwrite")

# 保存为 Parquet(指定压缩格式)
parquet_df.write.parquet("output/parquet_result", compression="snappy")
 
 
2. 保存到数据库(如 MySQL/Hive)
 
Scala(以 MySQL 为例)
 
scala   
jdbcDf.write.format("jdbc")
  .option("url", "jdbc:mysql://host:port/db?useSSL=false")
  .option("dbtable", "target_table")
  .option("user", "username")
  .option("password", "password")
  .mode("append") // 追加模式
  .save()
 
 
Python(以 Hive 为例)
 
python   
# 保存为 Hive 表(需启用 Hive 支持)
hive_df.write.saveAsTable("hive_target_table", mode="overwrite")
 
 
三、关键参数说明
 
1. 读取模式(文件)
 
-  inferSchema : 是否自动推断数据类型(适用于 CSV/JSON,需读取少量数据,影响性能)。
 
-  header : CSV 是否包含表头( true/false )。
 
2. 写入模式( mode )
 
-  overwrite : 覆盖已有数据。
 
-  append : 追加到现有数据。
 
-  ignore : 忽略写入(不报错)。
 
-  errorIfExists : 存在则报错(默认)。
 
3. 数据库连接
 
- 需添加对应数据库驱动(如 MySQL 的  mysql-connector-java )。
 
- 对于大规模数据,建议使用分区并行写入(如  option("numPartitions", "4") )。
 
四、典型场景示例
 
场景:从 MySQL 读取数据,清洗后保存为 Parquet
 
scala   
// 读取 MySQL 数据
val mysqlDf = spark.read.jdbc(
  url = "jdbc:mysql://host:port/source_db",
  dbtable = "source_table",
  properties = Map("user" -> "u", "password" -> "p")
)

// 数据清洗(示例:过滤空值)
val cleanedDf = mysqlDf.na.drop("any")

// 保存为 Parquet(按日期分区)
cleanedDf.write.partitionBy("date")
  .parquet("output/cleaned_data")
 
 
通过以上方法,可灵活使用 Spark 完成数据提取和保存任务,支持多种数据源和格式。

http://www.whsansanxincailiao.cn/news/31970694.html

相关文章:

  • 莱芜网站推广/2345网址导航大全
  • 手机网站后台源码/开一个免费网站
  • 公司网站优化要怎么做/sem和seo的关系
  • wordpress w3c/结构优化设计
  • 开发wordpress 需要学习/建站网站关键词优化
  • wordpress企业网站建设/上海百度推广电话客服
  • 上海南汇汽车网站制作/windows优化大师会员
  • 威海网站建设价格/百度推广官网
  • 洛阳市做网站的/实时疫情最新消息数据
  • 雅加达网站建设/seo快速排名站外流量推广
  • 怎样弄一个自己的网站/百度统计app
  • 六盘水遵义网站建设怎么做/免费平台
  • 网站流量消耗计算/app定制开发
  • 电商类网站设计模板/百度推广外推联系方式
  • 设计兼职网站推荐/百度seo指南
  • vue做的网站域名汇总/企业管理培训课程网课
  • 怎么查公司网站有没有被收录/手机端百度收录入口
  • 网站建设undefined/友情链接平台广告
  • 楚雄州城乡建设局网站/推广赚钱的平台
  • 网站营销的流程/武汉seo系统
  • 网站建设三合一 500元/百度营销登录
  • 毕业设计做系统和网站有什么区别/惠州seo外包公司
  • 网站制作app/苏州搜索引擎排名优化商家
  • 如何查找网站所有页面/关键词优化的主要工具
  • 如何用vps做网站/广州百度关键词推广
  • 个人可以做网站么/怎么做宣传推广
  • 做海报找素材的网站/seo教程有什么
  • 河南网站建设公司排名/汽车营销策划方案ppt
  • 怎样办网站做宣传/网站搜索优化方法
  • 想自己做网站做推广/seo是什么岗位