问题-处理后将文件写回到本地系统
我对PySpark有点陌生,我希望实现它以加快脚本的运行时间,该脚本用于将美国的医师数据导入每个州的pdf文件和最终用于csv的csv文件数据库表。出于实用性考虑,由于我想扩展项目以查看不同国家的地区和省份,因此我希望能够使用PySpark进行分布式计算。
I can get processing done much more quickly, but I can't get my files to write back to the local system where I want to use my ...