关于为什么Apache-Spark：为什么Apache-Spark-Python在本地比pandas慢？

Why is Apache-Spark - Python so slow locally as compared to pandas?

Spark新手。
我最近开始使用以下命令在两个内核的本地计算机上使用Spark：

1	pyspark --master local[2]

我有一个393Mb的文本文件，其中包含近一百万行。我想执行一些数据操作操作。我正在使用PySpark的内置数据框函数执行简单的操作，例如groupBy，sum，max，stddev。

但是，当我在完全相同的数据集上对pandas执行完全相同的操作时，在延迟方面，pandas似乎大大击败了pyspark。

我想知道这可能是什么原因。我有几点想法。

内置函数是否会使序列化/反序列化过程效率低下？如果是，那么还有哪些替代方案？

数据集是否太小以至于不能超过运行spark的基础JVM的开销成本？

感谢您的光临。非常感谢。