文章浏览阅读142次。来源: 慕课网 Spark SQL慕课网日志分析_大数据实战目标: spark系列软件的伪分布式的安装、配置、编译 spark的使用系统: mac 10.13.3 /ubuntu 16.06,两个系统都测试过软件: hadoop,hive,spark,sc......
admin
文章浏览阅读127次。5.DateFrame&Dataset1.DateFrame产生背景DataFrame 不是Spark Sql提出的。而是在早起的Python、R、Pandas语言中就早就有了的。Spark诞生之初一个目标就是给大数据生态圈提供一个基于通用语言的,简单易用的API。1.如......
admin
第1章 初探大数据本章将介绍为什么要学习大数据、如何学好大数据、如何快速转型大数据岗位、本项目实战课程的内容安排、本项目实战课程的前置内容介绍、开发环境介绍。同时为大家介绍项目中涉及的Hadoop、Hive相关的知识......
admin
文章浏览阅读415次。10.Spark调优策略一:资源设置core memory executor-numexecutor driver1)--executor-memory MEM 1G 每个executor的内存大小 Cache shuffle task2)--executor-cores NUM 1 每个executor的cpu core数量 4exe * 2core = 8个 ......
admin
文章浏览阅读502次。1.hadoop安装1.修改hadoop配置文件 hadoop-env.sh export JAVA_HOME=/home/hadoop/app/jdk1.8.0_91 core-site.xml <!--hdfs namenode的地址+端口--> <property> <name>fs.default.name</name> <value>hdfs://hadoop000:8020</value> _......
admin
文章浏览阅读1.7k次,点赞2次,收藏5次。问题按照慕课网老师撸代码发现单机版爬虫爬取珍爱网会出现403,202等问题,现提供简单的解决方案。wrong status code:403主要原因是服务器检测到没有User-Agent的头部,需要在代码里添加User-Ag......
admin
文章浏览阅读5.1k次。1. External Data Source 外部数据源 1)每一个spark程序以加载数据开始,以输出数据结束 2)方便快速的从不同的数据源(json、parquet/rdbms),经过混合处理,在将处理结果以特定的格式,写回到指定的系统(......
admin
友情链接申请要求: 不违法不降权 权重相当 请联系QQ:737597453