- 链接地址:https://blog.csdn.net/Cincinnati_De/article/details/112008263
- 链接标题:基于Pyspark 的 Spark structured streaming 项目 <<数据实时流清洗>>_spark structured streaming pyspark kafka-CSDN博客
- 所属网站:blog.csdn.net
- 被收藏次数:7832
文章浏览阅读552次。项目描述:概要:从Kafka中读取数据,在DataFrame 中用 spark.sql() 方法内写 业务逻辑,对数据进行清洗,包含解析 IP 地址,解析 电话号码。(通过调用Hive 的 UDF 函数来实现)项目代码:# -*- coding: utf-8 -*-""" @CreateTime :2020/12/14 18:33 @Author : Liangde @Description : 数据上游 Kafka topic_sip_full_r1._spark structured streaming pyspark kafka
版权声明:本文发布于特牛网址导航 内容均来源于互联网 如有侵权联系删除