关于python:如何有效地将大数据加载到pandas中?

How to load large data into pandas efficiently?

本问题已经有最佳答案,请猛点这里访问。

我正在处理一个非常宽的数据集(1005行*590718列,1.2g)。将如此大的数据集加载到熊猫数据帧中会导致完全由于内存不足而导致代码失败。

我知道Spark可能是处理大数据集的大熊猫的一个很好的替代方案,但是在大熊猫中,在加载大数据时是否有任何可改进的解决方案来减少内存使用?


你可以使用

1
pandas.read_csv(filename, chunksize = chunksize)