- 链接地址:https://blog.csdn.net/qq_42963448/article/details/120910375
- 链接标题:基于Spark的分布式并行处理优化策略-美林数据_spark并行化处理-CSDN博客
- 所属网站:blog.csdn.net
- 被收藏次数:1709
文章浏览阅读1.6k次。由于Spark在使用JDBC方式读取关系型模型数据的时候,默认采用单线程任务执行。在数据量较大时,经常发现内存溢出、性能低的问题。在扩大内存读取后进行重分区,又会消耗时间,浪费资源。因此,开发并发读取关系型模型数据,可以有效提高任务处理并发度,减少单个任务的数据处理量,进而提升处理效率。分布式并发处理优化(一)总体思路关系型模型并发读取首先要选取分区字段,按照字段类型和分区个数确定并发分区间隔的key值。假设key值可以将模型数据均匀划分成多个逻辑分区,根据key值构成查询条件将模型数据进行并发读取_spark并行化处理
版权声明:本文发布于特牛网址导航 内容均来源于互联网 如有侵权联系删除
标签:spark并行化处理