已解决
【Spark】配置参数关系-重要
来自网友在路上 155855提问 提问时间:2023-10-31 04:17:26阅读次数: 55
最佳答案 问答题库558位专家为你答疑解惑
并行度数量
并行度指所有Executor可以同时执行的Task数,
每个Executor中的一个Core(线程,虚拟核数)同时只能执行一个Task,
所以 最大并行度 = Executor数量 * 每个Executor的Core数;
eg:资源配置10个Executor节点,每个节点2个Core,那么同一时间可以并行计算的task数为20,
如果RDD有100个分区,那么需要5轮计算完毕,
如果RDD有2个分区,那么计算时只使用2个Core,其余18个Core空转,浪费资源,
所以Spark调优中会通过增大RDD分区数,增大任务并行度来提高效率。
查看全文
99%的人还看了
相似问题
- Doris的分区表和分桶表
- 系列一、堆里面的分区:Eden、From、To、老年代各自的特点
- Kafka中topic(主题)、broker(代理)、partition(分区)和replication(副本)它们的关系
- [RK-Linux] recovery分区详解(一)
- 2023.11.12 hive中分区表,分桶表与区别概念
- rv1126-rv1109-添加分区,定制固件,开机挂载功能
- 【分区的告警处理】Partition 1 does not start on physical sector boundary
- macOS磁盘分区调整软件--Paragon Camptune X 中文
- 【Hive】分区表和分桶表相关知识点介绍
- ubuntu 分区 方案
猜你感兴趣
版权申明
本文"【Spark】配置参数关系-重要":http://eshow365.cn/6-28272-0.html 内容来自互联网,请自行判断内容的正确性。如有侵权请联系我们,立即删除!