永发信息网

hadoop sequencefile 怎么使用

答案:1  悬赏:30  手机版
解决时间 2021-02-02 10:01
hadoop sequencefile 怎么使用
最佳答案
1.SequenceFile特点:是 Hadoop 的一个重要数据文件类型,它提供key-value的存储,但与传统key-value存储(比如hash表,btree)不同的是,它是appendonly的,于是你不能对已存在的key进行写操作。

  2.SequenceFile 有三种压缩态:
  1 Uncompressed – 未进行压缩的状
  2.record compressed - 对每一条记录的value值进行了压缩(文件头中包含上使用哪种压缩算法的信息)
  3. block compressed – 当数据量达到一定大小后,将停止写入进行整体压缩,整体压缩的方法是把所有的keylength,key,vlength,value 分别合在一起进行整体压缩
  3.结构组成:
  3.1 header数据:保存文件的压缩态标识;
  3.2 Metadata数据:简单的属性/值对,标识文件的一些其他信息。Metadata 在文件创建时就写好了,所以也是不能更改
  3.3 追加的键值对数据
  3.4 流存储结构:流的存储头字节格式:
Header: *字节头”SEQ”, 后跟一个字节表示版本”SEQ4”,”SEQ6”.//这里有点忘了 不记得是怎么处理的了,回头补上做详细解释
*keyClass name
*valueClass name
*compression boolean型的存储标示压缩值是否转变为keys/values值了
*blockcompression boolean型的存储标示是否全压缩的方式转变为keys/values值了
*compressor 压缩处理的类型,比如我用Gzip压缩的Hadoop提供的是GzipCodec什么的..
*元数据 这个大家可看可不看的

  4.扩展实现:
  4.1 MapFile 一个key-value 对应的查找数据结构,由数据文件/data 和索引文件 /index 组成,数据文件中包含所有需要存储的key-value对,按key的顺序排列。索引文件包含一部分key值,用以指向数据文件的关键位置
  4.2 SetFile – 基于 MapFile 实现的,他只有key,value为不可变的数据。
  4.3 ArrayFile – 也是基于 MapFile 实现,他就像我们使用的数组一样,key值为序列化的数字。
  4.4 BloomMapFile – 他在 MapFile 的基础上增加了一个 /bloom 文件,包含的是二进制的过滤表,在每一次写操作完成时,会更新这个过滤表。

  5.使用如下:主要是Writer和Reader对象完成文件的添加和读功能,应用demo参照下面链接,其中Map端以SequenceFileInputFormat格式接收,Map的key-value应为SequenceFile保持一致。
我要举报
如以上问答信息为低俗、色情、不良、暴力、侵权、涉及违法等信息,可以点下面链接进行举报!
大家都在看
怎么去掉百度搜索推荐
别抄百度知道里的大段文字只要比喻义如果有多
新三国赵云有没有和许褚战过在第几集?
茜诗美美容美体院地址在什么地方,想过去办事
在老家叫社保20年然后转到深圳后还要交多少年
两个男的,A先生是我朋友,B先生是我男朋友。
先天近视度数会不会越来越高
莱莉雅美容美发地址在什么地方,我要处理点事
《杂诗》《夜雨寄北》《淮上与友人别》《送杜
火车采集器v7.6破解版出现闪退问题
美妍靓养生美容院地址在哪,我要去那里办事
棕头牡丹鹦鹉喜欢吃什么?
催催宝没有成功不会收费吧
绿丹兰美容发艺广场地址有知道的么?有点事想
什么是接线器 怎样使用
推荐资讯
东南海纺织地址在什么地方,想过去办事
今年初冬穿什么衣服搭配图片
求救啊。。下了好几个版本的大富翁7.。游戏界
苹果手机ID之前用的是别人的,现在被抹掉了怎
泓泰水产在什么地方啊,我要过去处理事情
鹏达汽车维修换油保养地址好找么,我有些事要
【人参果树苗多少钱一株】()一株“人参果”树
我的车由南向北对方由东向西行驶在我快要过路
山西省蒲县克城镇克城中学地址好找么,我有些
下列不属于地区发展模式评价的优点的是()。
陆风汽车直营店(华严路计生办旁)地址好找么,
天成物流(建宁街)(人民路步行街与芦淞路交叉
正方形一边上任一点到这个正方形两条对角线的
阴历怎么看 ?