我用python+txt處理過1.7億條數據,壓力不算特別大,可以接受。
有幾點要注意:
1、不要用python寫循環,1.7億的循環跑到你電腦沒電。
2、多用pandas和numpy,用他們自帶的查找方法。
3、如果內存不夠,pandas.readcsv時要用iterator,當然這時分線程意義也不大了,因為你的瓶頸是IO。
我用python+txt處理過1.7億條數據,壓力不算特別大,可以接受。
有幾點要注意:
1、不要用python寫循環,1.7億的循環跑到你電腦沒電。
2、多用pandas和numpy,用他們自帶的查找方法。
3、如果內存不夠,pandas.readcsv時要用iterator,當然這時分線程意義也不大了,因為你的瓶頸是IO。