文章浏览阅读479次。Hive的自定义函数UDF UDAF UDTF_udaf继承...
admin 2024-01-23
文章浏览阅读124次。hive-之拉链表的设计与练习以下是转载地址:Hive拉链表的设计与简单实现经典Hive练习题_hive拉链表练习题...
admin 2024-01-23
文章浏览阅读4.3k次。1、数据导入load data local inpath '/usr/local/data/user.txt' into table jiuye partition(grade='1');local 表示从本地加载数据,不加local,表示从hdfs上加载数据2、数据导出insert overwrite local direactory '/tmp/11' select * from ..._shecll脚本......
admin 2024-01-23
文章浏览阅读1.5k次。专题、专题域、主题、主题域、数据域、离线数据仓库、数仓、业务元数据、数据治理、元数据、元数据搜索、表注释、元数据可视化_hive数仓 主题域...
admin 2024-01-23
文章浏览阅读9.3k次,点赞8次,收藏23次。在Hive使用中,数据倾斜以及解决方案,是老生常谈的问题,一直没有时间去全面的了解;最近花了一段时间,总结了hive性能优化,尤其是数据倾斜的优化如下。希望能对Hive感兴趣/想了......
admin 2024-01-23
文章浏览阅读252次。Hive面试题系列第一题-连续登录问题_hive 登入登出多次且次数不同...
admin 2024-01-21
文章浏览阅读6.3k次,点赞4次,收藏12次。查询HIVE表分区的数据占用和行数,用于数据治理通常,每天一个分区;通常,今天查看昨天分区数据量本文日期分区字段为ymd_hive查看每个分区的数据量...
admin 2024-01-23
文章浏览阅读6.3k次,点赞4次,收藏12次。查询HIVE表分区的数据占用和行数,用于数据治理通常,每天一个分区;通常,今天查看昨天分区数据量本文日期分区字段为ymd_hive查看每个分区的数据量...
admin 2024-01-23
文章浏览阅读1.2w次,点赞11次,收藏112次。1.什么是数据倾斜?数据倾斜主要表现在,map /reduce程序执行时,reduce节点大部分执行完毕,但是有一个或者几个reduce节点运行很慢,导致整个程序的处理时间很长,这是因为某一个key......
admin 2024-01-22
SparkSQL操作Hive数据仓库(spark-hive_2.11)...
admin 2024-01-24
文章浏览阅读2.2k次。有多种方式把一个dataframe保存到hive表中: 1.直接把dataframe的内容写入到目标hive表 df.write().mode("overwrite").saveAsTable("tableName");或df.select(df.col("col1"),df..._dataframe写入hive...
admin 2024-01-23
上篇hadoop-ha伪分布式平台基于yarn,后续脚本需要看这里 node1做mysql node3做metastore server node4做客户端 安装配置mysql(node1) yum clean all yum makecache yum install mysql-server开启mysql 并开机启动service my..._hive 分布式搭建...
admin 2023-10-11
1>开启分区set hive.exec.dynamic.partition=true;set hive.exec.dynamic.partition.mode=nonstrict;否则会出抛出异常:2>创建分区表创建静态分区表:create table test_part_table(word string,num bigint )partiti..._hive创建分区表...
admin 2023-10-11
文章浏览阅读455次。启动hiveserver2服务[kino@bigdata01.sutpc hive]$ bin/hiveserver2启动beeline[kino@bigdata01.sutpc hive]$ bin/beelineBeeline version 1.2.1 by Apache Hivebeeline>连接hiveserver2beeline> !connect ..._hive beeline所在的jar包...
admin 2024-01-23
文章浏览阅读372次。一、Hive的简介1.1 出现的原因facebook团队要管理和分析大量的结构化的日志文件,因为写mapreduce非常麻烦,所以该团队就开发出来一个框架,叫hive.1.2 hive是什么hive是一款运行在hadoop上的数据仓库管理工具,可......
admin 2024-01-24
文章浏览阅读1.5k次。Intro hive explode操作import pysparkfrom pyspark.sql import SparkSession# 创建SparkSession对象,调用.builder类# .appName("testapp")方法给应用程序一个名字;.getOrCreate()方法创建或着获取一个已经创建的SparkSessionspa......
admin 2024-01-23
文章浏览阅读100次。1.什么是hive? 要明确的一点是,Hive并不是数据库,而是用于解决海量结构化日志的数据统计(海量的结构化数据的运算分析)的工具。 1)Hive处理的数据存储在HDFS2)Hive分析数据底层的实现是MapReduce / spark(分布式......
admin 2024-01-23
友情链接申请要求: 不违法不降权 权重相当 请联系QQ:737597453