关于scala：Tupled RDD数据的并行化级别

parallelization level of Tupled RDD data

假设我有一个如下类型的 RDD：

1	RDD[(Long, List(Integer))]

我可以假设整个列表都位于同一个工人吗？我想知道某些操作在 RDD 级别是否可以接受还是应该在驱动程序中计算。例如：

1	val data: RDD[(Long, List(Integer))] = someFunction() //creates list for each timeslot

请注意，List 可能是 aggregate 或任何其他操作的结果，不一定是作为一个整体创建的。

1
2
3
4
5
6

val diffFromMax = data.map(item => (item._1, findDiffFromMax(item._2)))

def findDiffFromMax(data: List[Integer]): List[Integer] = {
val maxItem = data.max
data.map(item => (maxItem - item))
}

问题是 List 是分布式计算 maxItem 可能会导致大量网络流量。这可以使用以下类型的 RDD 处理：

1	RDD[(Long, Integer /Max Item/,List(Integer))]

最大项目是在驱动程序处计算的。

所以问题(实际上是 2 个问题)是：

在 RDD 数据的哪个点我可以假设数据位于一名工人？ (参考文档或个人评估的答案会很棒)如果有的话？在 Tuple: ((Long, Integer), Double) 中的 Tuple 的情况下会发生什么？

使用元组设计算法的常见做法是什么？我是否应该始终将数据视为可能出现在不同的工人身上？我应该总是在第一个元组字段将它分解为最小粒度 - 对于在时间段(长)中有用户(字符串)的数据(双)的情况 - 数据应该是(长，(强，双))还是((Long, String), Double) 或者 (String, (Long, Double))？或者这可能不是最优的，矩阵更好？

简短的回答是肯定的，您的列表将位于一个工人中。

您的元组是 RDD 中的单个记录。单个记录始终位于单个分区(将位于单个工作人员上)。
当您执行 findDiffFromMax 时，您是在目标 worker 上运行它(因此该函数被序列化为所有要运行的 worker)。

您应该注意的是，当您生成 (k,v) 元组时，通常这意味着一个键值对，因此您可以在 RDD 上执行基于键的操作。顺序 ((Long, (Strong, Double)) 与 ((Long, String), Double) 或任何其他方式) 并不重要，因为它都是单个记录。唯一重要的是哪个是关键操作的关键，所以问题将是你的计算逻辑