Spark---数据输出

来自网友在路上 157857提问提问时间：2023-10-19 21:39:24阅读次数： 57

最佳答案问答题库578位专家为你答疑解惑

1. 输出为Python对象

collect算子：将RDD各个分区内的数据，统一收集到Driver中，形成一个List对象

reduce算子：对RDD数据集按照传入的逻辑进行聚合

take算子：取RDD的前N个元素，组合成list返回给你

count算子：计算RDD有多少条数据，返回值是一个数字

# collect算子：将RDD各个分区内的数据，统一收集到Driver中，形成一个List对象
# 语法：rdd.collect()  # 返回一个listfrom pyspark import SparkConf, SparkContext
import osos.environ['PYSPARK_PYTHON'] = "D:/Program Files/Python3.11.4/python.exe"
conf = SparkConf().setMaster("local[*]").setSparkHome("test_spark")
sc = SparkContext(conf=conf)rdd = sc.parallelize([1, 2, 3, 4, 5])
my_list = rdd.collect()
print(my_list)  # [1, 2, 3, 4, 5]
print(type(my_list))  # <class 'list'># reduce算子：对RDD数据集按照传入的逻辑进行聚合
# 语法：rdd.reduce(func)
#   func(T,T) - > T   # 两个参数，一个返回值，且类型一致
num = rdd.reduce(lambda a, b: a + b)
print(num)  # 15# take算子：取RDD的前N个元素，组合成list返回给你
take_list = rdd.take(3)
print(take_list)  # [1, 2, 3]# count算子：计算RDD有多少条数据，返回值是一个数字
num_count = rdd.count()
print(num_count)  # 5

2. 输出到文件中

saveAsTextFile算子：将RDD的数据写入文本文件中

修改RDD分区为1个

方式1：SparkConf对象设置属性全局并行度为1
方式2：创建rdd的时候设置（parallelize方法传入numSlices参数为1）

# Spark数据输出到文件中
# saveAsTextFile算子：将RDD的数据写入文本文件中
from pyspark import SparkConf, SparkContext
import osos.environ['PYSPARK_PYTHON'] = "D:/Program Files/Python3.11.4/python.exe"
conf = SparkConf().setMaster("local[*]").setSparkHome("test_spark")
sc = SparkContext(conf=conf)# 修改RDD分区为1个
# 方式1：SparkConf对象设置属性全局并行度为1
conf.set("spark.default.parallelism", "1")
# 方式2：创建rdd的时候设置（parallelize方法传入numSlices参数为1）
rdd1 = sc.parallelize([1, 2, 3, 4, 5], numSlices=1)
# rdd1 = sc.parallelize([1, 2, 3, 4, 5],1)# rdd1 = sc.parallelize([1, 2, 3, 4, 5])
rdd2 = sc.parallelize([("hello", 3), ("Spark", 5), ("Hi", 7)])
rdd3 = sc.parallelize([[1, 3, 5], [6, 7, 9], [11, 13, 11]])rdd1.saveAsTextFile("./output1")
rdd2.saveAsTextFile("./output2")
rdd3.saveAsTextFile("./output3")

查看全文

99%的人还看了

相似问题

猜你感兴趣

版权申明

本文"Spark---数据输出"：http://eshow365.cn/6-19824-0.html 内容来自互联网，请自行判断内容的正确性。如有侵权请联系我们，立即删除！

上一篇: 离线语音与IoT结合：智能家居发展新增长点
下一篇: vue3后台管理系统之pinia及持久化集成使用

晴海小常识分享

晴海小常识分享

Spark---数据输出

最佳答案问答题库578位专家为你答疑解惑

1. 输出为Python对象

2. 输出到文件中

99%的人还看了

相似问题

猜你感兴趣

版权申明

推荐回答

晴海小常识分享

晴海小常识分享

Spark---数据输出

最佳答案 问答题库578位专家为你答疑解惑

1. 输出为Python对象

2. 输出到文件中

99%的人还看了

相似问题

猜你感兴趣

版权申明

推荐回答

最佳答案问答题库578位专家为你答疑解惑