小技巧
1.调试
先local 然后集群
可以用本地ide 或者jupyter 调试
2.把数据想象成表,本质就是对行操作
3.多少task就是多少砖,多少并行度就是有多少工人,需要设置合理
日志
如果是yarn client模式
1.driver
客户端可以查看
2.executor
yarn
web ui可以查看
命令行查看 yarn logs —applicationId XXX
spark
web ui可以查看
不同行保存到不同文件
增加字段 区分不同行
落盘的时候 partitionBy(“field1”,”field2”)