永发信息网

hive中怎么删除表中的部分数据

答案:1  悬赏:0  手机版
解决时间 2021-04-07 05:58
hive中怎么删除表中的部分数据
最佳答案
Hive的数据管理:
(1)元数据存储
Hive 将元数据存储在 RDBMS 中,有三种模式可以连接到数据库:
Single User Mode:此模式连接到一个 In-memory 的数据库 Derby,一般用于 Unit Test。
Multi User Mode:通过网络连接到一个数据库中,这是最常用的模式。
Remote Server Mode:用于非 Java 客户端访问元数据库,在服务器端启动一个 MetaStoreServer,客户端则利用 Thrift 协议通过 MetaStoreServer来访问元数据库。
(2)数据存储
首先,Hive 没有专门的数据存储格式,也没有为数据建立索引,用户可以非常自由地组织 Hive 中的表,只需要在创建表的时候告诉 Hive 数据中的列分隔符和行分隔符,它就可以解析数据了。
其次,Hive 中所有的数据都存储在 HDFS 中,Hive 中包含4种数据模型:Table、External Table、Partition、Bucket。
Hive 中的 Table 和数据库中的 Table 在概念上是类似的,每一个 Table 在 Hive 中都有一个相应的目录来存储数据。例如,一个表 pvs,它在 HDFS 中的路径为:/wh/pvs,其中,wh 是在 hive-site.xml 中由 ${hive.metastore.warehouse.dir} 指定的数据仓库的目录,所有的 Table 数据(不包括 External Table)都保存在这个目录中。
Partition 对应于数据库中Partition 列的密集索引,但是 Hive 中 Partition 的组织方式与数据库中的很不相同。在 Hive 中,表中的一个 Partition 对应于表下的一个目录,所有的 Partition 数据都存储在对应的目录中。例如:pvs 表中包含 ds 和 city 两个 Partition,则对应于 ds = 20090801, city = US 的 HDFS 子目录为:/wh/pvs/ds=20090801/city=US;对应于 ds = 20090801, city = CA 的 HDFS 子目录为:/wh/pvs/ds=20090801/city=CA。
Buckets 对指定列计算 hash,根据 hash 值切分数据,目的是为了便于并行,每一个 Buckets对应一个文件。将 user 列分散至 32 个Bucket上,首先对 user 列的值计算 hash,比如,对应 hash 值为 0 的 HDFS 目录为:/wh/pvs/ds=20090801/city=US/part-00000;对应hash 值为 20 的 HDFS 目录为:/wh/pvs/ds=20090801/city=US/part-00020。
External Table 指向已经在 HDFS 中存在的数据,可以创建 Partition。它和 Table 在元数据的组织结构上是相同的,而在实际数据的存储上则有较大的差异。
在Table 的创建过程和数据加载过程(这两个过程可以在同一个语句中完成)中,实际数据会被移动到数据仓库目录中。之后对数据的访问将会直接在数据仓库的目录中完成。删除表时,表中的数据和元数据将会被同时删除。
External Table 只有一个过程,因为加载数据和创建表是同时完成的。实际数据是存储在 Location 后面指定的 HDFS 路径中的,它并不会移动到数据仓库目录中。
(3)数据交换
数据交换主要分为以下几个部分
用户接口:包括客户端、Web界面和数据库接口。
元数据存储:通常是存储在关系数据库中的,如MySQL、Derby等。
解释器、编译器、优化器、执行器。
Hadoop:用 HDFS进行存储,利用 MapReduce 进行计算。
用户接口主要有三个:客户端、数据库接口和Web界面,其中最常用的是客户端。Client 是 Hive 的客户端,当启动 Client 模式时,用户会想要连接Hive Server,这时需要指出 Hive Server 所在的节点,并且在该节点启动 Hive Server。Web界面是通过浏览器访问 Hive的。
Hive 将元数据存储在数据库中,如 MySQL、Derby中。Hive 中的元数据包括表的名字、表的列和分区及其属性、表的属性(是否为外部表等)、表数据所在的目录等。
解释器、编译器、优化器完成 HQL 查询语句从词法分析、语法分析、编译、优化到查询计划的生成。生成的查询计划存储在 HDFS 中,并在随后由 MapReduce调用执行。
Hive 的数据存储在 HDFS 中,大部分的查询由 MapReduce 完成(包含 * 的查询不会生成 MapRedcue 任务,比如 select * from tbl)。
以上从Hadoop的分布式文件系统HDFS、分布式数据库HBase和数据仓库工具Hive入手介绍了Hadoop的数据管理,它们都通过自己的数据定义、体系结构实现了数据从宏观到微观的立体化管理,完成了Hadoop平台上大规模的数据存储和任务处理
我要举报
如以上问答信息为低俗、色情、不良、暴力、侵权、涉及违法等信息,可以点下面链接进行举报!
大家都在看
— Are these skirts thirteen dollars ?— .
猪肉盖红章还是蓝章才是正常的
想在珠海香洲一带找兼职,有没有什麼好的推荐?
八月出生的人有好处吗
内网与外网的区别
DNF蔷薇花篮怎么获得 蔷薇花篮有什么用
八年物理光现象人通过墙孔看外面的景物像是倒
单选题在两种短周期元素组成的化合物中,它们
告诉我《舌尖上的春节》以诗歌的方式怎么写?
国内外劳务输出在哪里啊,我有事要去这个地方
1.57女生穿什么尺码t恤
天梭表PRC200使用问题
金榜学案的气候变暖会导致哪些极端天气事件频
推荐几部由福田麻由子主演(是主演)的日剧或
按所发明事物的种类排列下列人物,恰当的一组
推荐资讯
这个女优是谁?叫什么!图片截图于“我想看看
单选题下列各组数中,以a、b、c为边长的三角
我很急,快啊帮帮我啊!
舅舅给外甥剃头四句话?
任何数与零相除商为零这句话对吗?
广饶佳乐超市码头店这个地址在什么地方,我要
有和看不见的客人差不多的悬疑剧吗
涟源户口,在娄底私立蓝莆学校读小学六年级的
水晶之恋婚摄摄影工作室在什么地方啊,我要过
西蒙子的妈妈是做什么工作的
某企业当期预付下季度租金,在收付实现制下应
君嘉快捷酒店兴国店在什么地方啊,我要过去处
正方形一边上任一点到这个正方形两条对角线的
阴历怎么看 ?