文章浏览阅读2.6k次,点赞6次,收藏10次。案例一:分析tomcat的访问日志,求访问量最高的两个网页 1、对每个jps的访问量求和 2、排序 3、取前两条记录 结果:ArrayBuffer((oracle.jsp,9), (hadoop.jsp,9))案例二:分析tomcat的访问日志,根据......
admin
文章浏览阅读2.6k次,点赞6次,收藏10次。案例一:分析tomcat的访问日志,求访问量最高的两个网页 1、对每个jps的访问量求和 2、排序 3、取前两条记录 结果:ArrayBuffer((oracle.jsp,9), (hadoop.jsp,9))案例二:分析tomcat的访问日志,根据......
admin
文章浏览阅读1.7k次。安装并配置FilebeatFilebeat与filebeat比较Logstash缺点:依赖java、在数据量大的时候,Logstash进程会消耗过多的系统资源,严重影响业务系统的性能filebeat优点:基于Go语言,没有任何依赖配置文件简单,格式明了fi......
admin
文章浏览阅读3.5k次,点赞2次,收藏10次。所谓大数据不仅体现在数量上的庞大,还有涉及到的方面比较广泛,以及计算过程比较的庞大而高效等,大数据分析能够从海量的数据中提取出最有效的信息,在企业的营销中发挥关键......
admin
文章浏览阅读940次。1 HIVE安装1.1、下载、解压1.2、配置环境变量(/etc/profile或者~/.bashrc),环境变量生效1.3、安装Mysql在spark1安装mysql下载mysql-connector-java-..*.jar,并拷贝到$HIVE_HOME/lib中在mysql创建hive元数据库,并创建hive账号,然......
admin
第1章 初探大数据本章将介绍为什么要学习大数据、如何学好大数据、如何快速转型大数据岗位、本项目实战课程的内容安排、本项目实战课程的前置内容介绍、开发环境介绍。同时为大家介绍项目中涉及的Hadoop、Hive相关的知识......
admin
中国城镇污泥处理处置技术的发展现状与趋势——基于大数据和温室气体排放的分析本期将推出哈尔滨工业大学魏亮亮副教授团队的一篇最新综述,内容翔实,主要是基于大数据和温室气体排放分析,阐述我国城镇污泥处理处置......
admin
文章浏览阅读1.1k次。 大数据分析Python除了循环遍历列表之外,for循环还有很多其他功能,在现实世界的数据科学工作中,您可能需要将numpy数组和pandas DataFrames用于其他数据结构的循环。 大数据分析Python For循环教程以如......
admin
Dataguru炼数成金是专注于Hadoop培训、大数据、数据分析、人工智能、数据可视化、运维自动化等技术和业务讨论的IT技术专业社区及面向企业和个人网络逆向培训服务机构,通过系列实战性Hadoop培训课程,包括Spark,Hbase,机器学习,深......
admin
文章浏览阅读1k次。大数据技术之_29_MySQL 高級面试重点串讲_02_Mysql简介+Linux 版的安装+逻辑架构介绍+性能优化+性能分析+查询截取分析+分区分库分表简介+Mysql锁机制+Mysql主从复制_应用 lan 数据允许不计 添加...
admin
大数据之Scala 流程控制完整使用一、 分支控制 if-else1、(单)分支1)基本语法2)案例实操2、(双)分支1)基本语法2)案例实操3、(多)分支1)基本语法2)案例实操4、Java 中的三元运算符可以用 if else 实现5、嵌套分支1)基本语法2)......
admin
文章浏览阅读961次。1、Scala安装1.1、下载、解压1.2、配置环境变量(/etc/profile或者~/.bashrc),环境变量生效1.3、验证是否安装成功scala -version1.4、其他服务器安装通过scp拷贝scala减压目录通过scp拷贝~/.bashrc文件登录服务器,生效......
admin
文章浏览阅读2.2k次。6.1、ELK应用案例6.2、环境与角色说明1.操作系统统一采用CentOS7.5版本2.软件环境与版本一、安装部署1.安装JAVA环境1.1、解压jdk并指定解压目录tar zxvf jdk-8u152-linux-x64.tar.gz -C /usr/local/1.2.修改环境变量vim /etc/profile......
admin
文章浏览阅读4.3k次,点赞2次,收藏19次。目录一、业务需求二、业务实现方案1.技术栈2.业务实现流程3.离线分析系统架构图三、技术实现1.Hadoop CDH集群管理平台2.Flume采集服务器日志数据到HDFS3.Spark SQL清洗数据4.建立Hive仓库并导......
admin
文章浏览阅读6.4k次,点赞3次,收藏7次。1. 聚类1.1 什么是聚类?所谓聚类问题,就是给定一个元素集合D,其中每个元素具有n个可观察属性,使用算法将集合D划分成k个子集,要求每个子集内部的元素之间相异度尽可能低,而不......
admin
一般情况下面试大数据岗位的时候都会问到flume,我们之前也对flume进行过总结,不过时间太快了,转眼到了2020年。下面根据本人最新的flume相关面试并总结最准确的答案如下:本文目录一、Flume的Source,Sink,Channel的作用?你们S......
admin
文章浏览阅读517次。架构解读架构解读 : (整个架构从左到右,总共分为5层)第一层:数据采集层最左边的是业务服务器集群,上面安装了filebeat做日志采集,同时把采集的日志分别发送给两个logstash服务第二层:数据处理层,......
admin
友情链接申请要求: 不违法不降权 权重相当 请联系QQ:737597453