批处理
流处理
在批处理的基础上,新建一个类进行改动。
- 批处理=>几组或所有数据到达后才处理;
- 流处理=>有数据来就直接处理,不等数据堆叠到一定数量级
- 这里不像批处理有groupBy => 所有数据统一处理,而是用流处理的keyBy => 每一个数据都对key进行hash计算,进行类似分区的操作,来一个数据就处理一次,所有中间过程都有输出!
- 并行度:开发环境的并行度默认就是计算机的CPU逻辑核数
代码实现
流式数据源测试
- 通过
nc -lk <port>
打开一个socket服务,用于模拟实时的流数据(windows https://blog.csdn.net/nicolewjt/article/details/88898735 随便百度的)
- 代码修改inputStream的部分
- 在本地开启的socket中输入数据,观察IDEA的console输出