返回首页

什么是Hadoop分布式文件系统?

58 2023-12-02 09:51 admin

一、什么是Hadoop分布式文件系统?

分布式文件系统(Distributed File System)是指文件系统管理的物理存储资源不一定直接连接在本地节点上,而是通过计算机网络与节点相连。Hadoop是Apache软件基金会所研发的开放源码并行运算编程工具和分散式档案系统,与MapReduce和Google档案系统的概念类似。HDFS(Hadoop 分布式文件系统)是其中的一部分。

二、分布式文件系统的NFS介绍?

你好,我是【不否答题】,很高兴为你解答。 (NFS)(Network File System)是个分布式的客户机/服务器文件系统。NFS的实质在于用户间计算机的共享。用户可以联结到共享计算机并像访问本地硬盘一样访问共享计算机上的文件。管理员可以建立远程系统上文件的访问,以至于用户感觉不到他们是在访问远程文件。NFS是个到处可用和广泛实现的开放式系统。 允许用户象访问本地文件一样访问其他系统上的文件。提供对无盘工作站的支持以降低网络开销。简化应用程序对远程文件的访问使得不需要因访问这些文件而调用特殊的过程。使用一次一个服务请求以使系统能从已崩溃的服务器或工作站上恢复。采用安全措施保护文件免遭偷窃与破坏。使NFS协议可移植和简单,以便它们能在许多不同计算机上实现,包括低档的PC机。大型计算机、小型计算机和文件服务器运行NFS时,都为多个用户提供了一个文件存储区。工作站只需要运行TCP/IP协议来访问这些系统和位于NFS存储区内的文件。工作站上的NFS通常由TCP/IP软件支持。对DOS用户,一个远程NFS文件存储区看起来是另一个磁盘驱动器盘符。对Macintosh用户,远程NFS文件存储区就是一个图标。 服务器目录共享 服务器广播或通知正在共享的目录,一个共享目录通常叫做出版或出口目录。有关共享目录和谁可访问它们的信息放在一个文件中,由操作系统启动时读取。客户机访问 在共享目录上建立一种链接和访问文件的过程叫做装联(mounting),用户将网络用作一条通信链路来访问远程文件系统。NFS的一个重要组成是虚拟文件系统(VFS),它是应用程序与低层文件系统间的接口。 close文件关闭操作create 文件生成操作fsync将改变保存到文件中getattr 取文件属性link 用另一个名字访问一个文件lookup 读目录项mkdir建立新目录open 文件打开操作rdwr 文件读写操作remove 删除一个文件rename 文件改名rmdir删除一目录setattr 设置文件属性 Andrew File System(AFS)Andrew文件系统(AFS)AFS是专门为在大型分布式环境中提供可靠的文件服务而设计的。它通过基于单元的结构生成一种可管理的分布式环境。一个单元是某个独立区域中文件服务器和客户机系统的集合,这个独立区域由特定的机构管理。通常代表一个组织的计算资源。用户可以和同一单元中其他用户方便地共享信息,他们也可以和其他单元内的用户共享信息,这取决于那些单元中的机构所授予的访问权限。文件服务器进程 这个进程响应客户工作站对文件服务的请求,维护目录结构,监控文件和目录状态信息,检查用户的访问。基本监察(BOS)服务器进程 这个进程运行于有BOS设定的服务器。它监控和管理运行其他服务的进程并可自动重启服务器进程,而不需人工帮助。卷宗服务器进程 此进程处理与卷宗有关的文件系统操作,如卷宗生成、移动、复制、备份和恢复。卷宗定位服务器进程 该进程提供了对文件卷宗的位置透明性。即使卷宗被移动了,用户也能访问它而不需要知道卷宗移动了。鉴别服务器进程 此进程通过授权和相互鉴别提供网络安全性。用一个“鉴别服务器”维护一个存有口令和加密密钥的鉴别数据库,此系统是基于Kerberos的。保护服务器进程 此进程基于一个保护数据库中的访问信息,使用户和组获得对文件服务的访问权。更新服务器进程 此进程将AFS的更新和任何配置文件传播到所有AFS服务器。AFS还配有一套用于差错处理,系统备份和AFS分布式文件系统管理的实用工具程序。例如,SCOUT定期探查和收集AFS文件服务器的信息。信息在给定格式的屏幕上提供给管理员。设置多种阈值向管理者报告一些将发生的问题,如磁盘空间将用完等。另一个工具是USS,可创建基于带有字段常量模板的用户帐户。Ubik提供数据库复制和同步服务。一个复制的数据库是一个其信息放于多个位置的系统以便于本地用户更方便地访问这些数据信息。同步机制保证所有数据库的信息是一致的。更多专业的科普知识,欢迎关注我。如果喜欢我的回答,也请给我赞或转发,你们的鼓励,是支持我写下去的动力,谢谢大家。

三、HDFS分布式文件系统具有哪些优点?

HDFS分布式文件系统具有以下优点:

1. 支持超大文件。HDFS分布式文件系统具有很大的数据集,可以存储TB或PB级别的超大数据文件,能够提供比较高的数据传输带宽与数据访问吞吐量,相应的,HDFS开放了一些POSIX的必须接口,容许流式访问文件系统的数据。

2. 高容错性能。HDFS面向的是成百上千的服务器集群,每台服务器上存储着文件系统的部分数据,在集群的环境中,硬件故障是常见的问题,这就意味着总是有一部分硬件因各种原因而无法工作,因此,错误检测和快速、自动的恢复是HDFS最核心的架构目标,因此,HDFS具有高度的容错性。

3. 高数据吞吐量。HDFS采用的是“一次性写,多次读”这种简单的数据一致性模型,在HDFS中,一个文件一旦经过创建、写入、关闭后,一般就不需要修改了,这样简单的一致性模型,有利于提高吞吐量。

4. 流式数据访问。HDFS的数据处理规模比较大,应用一次需要访问大量的数据,同时这些应用一般都是批量处理,而不是用户交互式处理,应用程序能以流的形式访问数据集。

四、什么是分布式文件系统和分布式数据库的联系?

分布式文件系统(dfs)和分布式数据库都支持存入,取出和删除。但是分布式文件系统比较暴力,可以当做key/value的存取。

分布式数据库涉及精炼的数据 ,传统的分布式关系型数据库会定义数据元组的schema,存入取出删除的粒度较小。

分布式文件系统现在比较出名的有GFS(未开源),HDFS(Hadoop distributed file system)。 分布式数据库现在出名的有Hbase,oceanbase,mongodb。其中Hbase是基于HDFS,而oceanbase是自己内部实现的分布式文件系统,mongodb是基于gridfs 在此也可以说,分布式数据库以分布式文件系统做基础存储。

五、分布式文件和并行文件系统的特点

分布式文件系统具有全局名字空间、缓存一致性、安全性、可用性和可扩展性的特点。并行文件系统具有并行性、数据一致性、复杂性等特点

六、第一个分布式存储文件系统?

Alluxio是第一个基于内存的分布式文件系统,因此其相应速度也会超出普通的分布式文件系统很多。

七、分布式文件系统属于大数据关键技术吗?

Hadoop最底层是HDFS,也就是Hadoop文件系统,这个是分布式文件系统,由多台设备提供统一的存储空间,而用户感觉不到多台设备,只看到一个统一的存储空间,这也是云存储技术的基础。属于大数据关键技术。

八、当前主流分布式文件系统有哪一些?

目前几个主流的分布式文件系统除GPFS外,还有PVFS、Lustre、PanFS、GoogleFS等。

1.PVFS(Parallel Virtual File System)项目是Clemson大学为了运行Linux集群而创建的一个开源项目,目前PVFS还存在以下不足: 1)单一管理节点:只有一个管理节点来管理元数据,当集群系统达到一定的规模之后,管理节点将可能出现过度繁忙的情况,这时管理节点将成为系统瓶颈; 2)对数据的存储缺乏容错机制:当某一I/O节点无法工作时,数据将出现不可用的情况; 3)静态配置:对PVFS的配置只能在启动前进行,一旦系统运行则不可再更改原先的配置。

2.Lustre文件系统是一个基于对象存储的分布式文件系统,此项目于1999年在Carnegie Mellon University启动,Lustre也是一个开源项目。它只有两个元数据管理节点,同PVFS类似,当系统达到一定的规模之后,管理节点会成为Lustre系统中的瓶颈。

3.PanFS(Panasas File System)是Panasas公司用于管理自己的集群存储系统的分布式文件系统。

4.GoogleFS(Google File System)是Google公司为了满足公司内部的数据处理需要而设计的一套分布式文件系统。

5.相对其它的文件系统,GPFS的主要优点有以下三点: 1)使用分布式锁管理和大数据块策略支持更大规模的集群系统,文件系统的令牌管理器为块、inode、属性和目录项建立细粒度的锁,第一个获得锁的客户将负责维护相应共享对象的一致性管理,这减少了元数据服务器的负担; 2)拥有多个元数据服务器,元数据也是分布式,使得元数据的管理不再是系统瓶颈; 3)令牌管理以字节作为锁的最小单位,也就是说除非两个请求访问的是同一文件的同一字节数据,对于数据的访问请求永远不会冲突.

九、hive使用hadoop的分布式文件系统什么作为存储引擎?

hive使用hadoop的分布式文件系统hdfs作为存储引擎。

HDFS采用了主从(Master/Slave)结构模型,一个HDFS集群是由一个NameNode和若干个DataNode组成的。其中NameNode作为主服务器,管理文件系统的命名空间和客户端对文件的访问操作;集群中的DataNode管理存储的数据。

十、分布式文件系统是如何实现较高Secondary水平扩展的?

分布式文件系统把文件分布存储到多个计算机节点上,成千上万的计算机节点构成计算机集群,形成无限扩展的能力。这些节点分为两类,一类叫“主节点”(Master Node)或者也被称为“名称结点”(NameNode),另一类叫“从节点”(Slave Node)或者也被称为“数据节点”(DataNode)。

顶一下
(0)
0%
踩一下
(0)
0%
相关评论
我要评论
用户名: 验证码:点击我更换图片

网站地图 (共14个专题10295篇文章)

返回首页