特牛生活网

爬虫系列:数据清洗_爬虫数据清洗-CSDN博客

网友收藏
文章浏览阅读1.9k次。上一期我们讲解了使用Python 读取 CSV、PDF、Word 文档相关内容。前面我们已经介绍了网络数据采集的一些基础知识,现在我们将进入高级数据采集部分。到目前为止,我们创建的网络爬虫都不是特别给力,如果网络服务器不能立即提供样式规范的信息,爬虫就不能采集正确的数据。如果爬虫只能采集那些显而易见的信息,不经过处理就存储起来,那么迟早要被登录表单、网页交互以及 Javascript 困住手脚。总之,目前爬虫还没有足够的实力去采集各种数据,只能处理那些愿意被采集的信息。在高级数据采集部分就是要帮你._爬虫数据清洗