Pandas数据集分块读取

文程公子 2022-09-28 我要评论

所谓“分块”，顾名思义，就是将数据集分成几块进行读取，比如有105条数据，一次读取10条，读取11次才能全部读完。以下提供两种分块读取的方法，两种方法各有优劣。

一、直接用分块方式读取数据集文件（更直接）

分块读取数据集文件是指用read_xxx()方法读取存储数据的文件时采用分块的方式，这里以.csv文件为例，在read_csv()中加入chunksize参数即可实现分块读取：

reader = pd.read_csv('某招聘网站数据.csv', usecols = ['positionId', 'companyId', 'positionName', 'skillLables'],
                     chunksize=10)

此时，返回的reader不是DataFrame，而是一个可迭代对象（iteration），需要注意的是，这个可迭代对象不能用下标访问。下面遍历这个对象：

for r in reader:
    print(r)

遍历结果如下图所示：

这种分块读取方式比较直接，但是由于一开始就定义了分块大小，后续处理起来不够灵活。因此提供了第二种读取方法。

这种方法将数据集文件读取为时可迭代对象不定义分块，用分块的方式读取read_csv()方法返回的可迭代对象。实现第一步要在read_csv()方法中指定参数iterator为True：

reader = pd.read_csv('某招聘网站数据.csv', usecols = ['positionId', 'companyId', 'positionName'],
                    iterator=True)

以下是用分块方式遍历reader，注意使用到的get_chunk()方法和里面的参数，参数定义分块大小，可以灵活调节：

while True:
    try:
        print(reader.get_chunk(10))
    except StopIteration:
        break

综上所述，两种方法都能用pandas实现数据的分块读取，对于数据量较大的数据集还是比较实用的。两种方法的优劣体现在直接性和灵活性上，可以根据实际需求自行选择。