2024-04-04 da04c23dc30f5a55c77f0023aeab83d2 99+ a minute 0.1 k

spark使用总结

小技巧

1.调试

先local 然后集群

可以用本地ide 或者jupyter 调试

2.把数据想象成表，本质就是对行操作

3.多少task就是多少砖，多少并行度就是有多少工人，需要设置合理

日志

如果是yarn client模式

1.driver

客户端可以查看

2.executor

yarn

web ui可以查看

命令行查看 yarn logs —applicationId XXX

spark

web ui可以查看

不同行保存到不同文件

增加字段区分不同行

落盘的时候 partitionBy(“field1”,”field2”)

大数据基础组件 spark 使用

spark使用总结