特牛生活网

爬虫系列:数据标准化_ngram算法检测爬虫-CSDN博客

网友收藏
文章浏览阅读374次。上一期我们介绍了使用Python 数据清洗的相关方法,本篇文章我们介绍数据标准化的相关方法。每个人都会遇到一些样式设计不够人性化的网页,比如“请输入你的电话号码,号码格式为 xxx-xxxx-xxxx”。作为一名优秀的程序员,你可能会问:”为什么不自动对输入的数据进行清洗,去掉非数字内容,然后自动把数据加上分隔符呢?“数据标准化过程要确保清洗后的数据在语言学上是等价的,比如电话号码虽然显示成”134-1234-5678“和”134-12345678“两种形式,但是实际号码是一样的。还是用上一期._ngram算法检测爬虫