hadoop文件存放问题

答案:2 悬赏:0 手机版

解决时间 2021-02-06 18:47

提问者网友：蔚蓝的太阳
2021-02-06 03:17

假设我有一个200MB的文件，我将其存在HDFS上，那么hadoop是将文件分块后是怎样选择datanode来存放这些block的呢？（不是问副本的存放机制，是问文件所分的几个块是怎样存的）

最佳答案

五星知识达人网友：鱼忧
2021-02-06 03:41

（1）文件分割后，会有一个文件 --> block的映射，这个映射是持久化到硬盘中的，具体的映射关系表是在FSNamesystem.java中构建的（该部分的构建使用的是FSDirectory.java的功能，filename - blockset）；
有了文件到块的映射表就可以通过文件找到blocklist；
（2）datanode的选取，hadoop有它本身的机制，一般来说，datanode默认是三个，选取的是不同机架的datanode，同机架里选一台，另一个机架里选取两台（安全性等考虑）；
（3）block写入datanodes，选取的三个datanode，比如说是A、B、C，先写给A，A再写给B，B再写给C；然后B收到C的写入成功，A收到B的写入成功，然后告诉namenode 和 client写入成功；
（4）真正写的并不是block，而是比block更小的好像是chunk ，还包括有各种校验。

全部回答

1楼网友：逃夭
2021-02-06 05:20

可以的没问题

我要举报

如以上问答信息为低俗、色情、不良、暴力、侵权、涉及违法等信息，可以点下面链接进行举报！