HDFS追本溯源:体系架构详解

作者: 云计算机网 分类: 云计算知识 发布时间: 2016-11-07 18:58

Hadoop是一个开发和运行处理大规模数据的软件平台,是Apache的一个用Java语言实现开源软件框架,实现在大量计算机组成的集群中对海量数据进行分布式计算。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。

Hadoop框架中最核心设计就是:HDFS和MapReduce。HDFS提供了海量数据的存储,MapReduce提供了对数据的计算。HDFS在Hadoop中扮演了非常基础的作用,以文件系统的形式为上层应用提供海量数据的存储服务。

HDFS作为一个分布式文件系统,具有高容错的特点。它可以部署在廉价的通用硬件上,提供高吞吐率(Throughput)的数据访问,特别适合那些需要处理海量数据集的应用程序。它没有遵循POSIX的要求,不支持ls,cp这样标准的UNIX命令,也不支持fopen和fread这样的文件读写方法。它采用全新的设计,提供了一套特有的,基于Hadoop抽象文件系统的API,支持以流的方式访问文件系统的数据。

1. HDFS的特征与局限

HDFS有以下特性:

支持超大文件。理论上,HDFS上的单个文件可以存储到整个集群的所有存储空间。硬件故障的快速恢复。由于集群包含成百上千个节点,硬件故障就是一个非常常见的问题了。故障检测和自动恢复在HDFS设计之初就是很重要的设计目标。流式数据访问。HDFS处理的数据规模都比较大,应用一次需要访问大量的数据。同时,这些应用一般是批量处理,而不是用户交互式处理。HDFS使得应用程序能够以stream的方式访问数据集,注重的是数据的吞吐量,而不是数据访问的速度。简化的一致性模型。HDFS的文件一旦创建,只能追加,不能对已有数据进行修改。这样简单的一致性模型有利于提供高吞吐量的数据访问。

正是由于上面的一些设计特征,因此HDFS并不适合以下应用:

低延时数据访问。在用户交互性的应用中,应用需要在ms或者几个s的时间内得到响应。由于HDFS为高吞吐率做了设计,也因此牺牲了快速响应。对于低延时的应用,可以考虑使用HBase或者Cassandra。大量的小文件。标准的HDFS数据块的大小是64M,存储小文件并不会浪费实际的存储空间,但是无疑会增加了在NameNode上的元数据,大量的小文件会影响整个集群的性能。前面我们知道,Btrfs为小文件做了优化-inline file,对于小文件有很好的空间优化和访问时间优化。多用户写入,修改文件。HDFS的文件只能有一个写入者,而且写操作只能在文件结尾以追加的方式进行。它不支持多个写入者,也不支持在文件写入后,对文件的任意位置的修改。

但是在大数据领域,分析的是已经存在的数据,这些数据一旦产生就不会修改,因此,HDFS的这些特性和设计局限也就很容易理解了。HDFS为大数据领域的数据分析,提供了非常重要而且十分基础的文件存储功能。

  • 2018年3月27日,SmartX 2018年渠道合作伙伴大会 于首站广州正式拉开帷幕,这是一场以变革焕新生middot;合力覆格局为题,集愿景展望、趋势洞察、技术分享、 互动思辨于一体的创新盛会,旨在与渠道合作伙伴共同见证IT基础架构市场的变革,勾勒新一代IT基础架构超融合市场的全新蓝图。

    会上,SmartX重磅发布了SMARTXsup2;渠道战略,内容涉及渠道拓展理念、全新的渠道架构与政策、2018年拓展计划等,这一举措将在未来指导SmartX对渠道资源的持续投入,用于构建健康、高效的超融合产品分销体系,通过切实的技术支持以及创新优势,推动合作伙伴加速发展,实现互惠共赢。

    初心:做长久的事业,走最难的路

    未来企业将围绕数据进行管理和创新。数据的作用愈发凸显,其表现是:数据量爆发式增长,新业务层出不穷。SmartX要做的便是承载数据的基础架构平台这样一桩长久的生意。用软件定义这一颠覆存量的革命性技术,与志同道合之士共同改变目前的产业格局和既有世界。SmartX联合创始人兼首席运营官王弘毅在主旨演讲中分享了SmartX选择超融合市场的初心,诠释SmartX如何专注超融合与软件定义存储技术创新,在来势迅猛的IT基础架构革命中锁定胜局。

    如果有两个选择,就选择较难的那个。王弘毅在会上如是说。放弃开源选择自主研发是艰难的,放弃成熟的国外市场选择回国创业是艰难的,选择长期趋势摒弃所谓追逐风口的短见,也是艰难的。选择艰难的背后,更深层次的思考在于要吸引到拥有相同价值观的合作伙伴,在于要为客户提供最优的服务,在于真正塑造自身竞争力,在于为打造世界一流科技公司的不妥协,持续沉淀技术、沉淀人才,以支持不断的创新和长期发展。

    聚力:创造渠道体系的价值裂变

    目前,超融合已由概念走向应用,开始广泛部署于企业核心业务平台,超融合将成为企业云和数据管理平台的重要支撑。为引领行业变革,推动超融合架构的广泛落地,作为最早专注于超融合IT架构的中国高科技公司,SmartX在着力产品技术创新之外,更是非常重视借助和培养合作伙伴的力量,并在此次大会上首度公开了SMARTXsup2;渠道战略,呈现了包括营销、销售、培训和支持等方面的渠道合作计划。

    SmartX凭借强大的自主研发和技术服务能力,正积极打造以客户为中心、渠道商为支撑的价值链生态系统。SmartX销售副总裁朵元云在会上详细阐述了SMARTXsup2;的核心概念,即SmartX秉承着务实、稳定、平等、长久的理念,希望构建的渠道体系不是简单的加关系,而是平方式的价值持续裂变和共赢支持。SmartX期待分享利益、分享技术、共享市场;与愿意长期持续投入的合作伙伴一起,成为最好的超融合技术专家、销售专家、服务专家;最终达成共赢,一同迎接超融合大市场的到来。#p#分页标题#e#

    具体而言,SMARTXsup2;包含了以下几方面来为渠道合作伙伴提供支持。首先,SmartX将不同类型和不同投入程度的合作伙伴进行认可和鼓励,即渠道合作伙伴可以得到认证级(Certification)、金牌级(Gold)和白金级(Platinum)三种授权,SmartX将为其匹配不同的业务资源、服务支持及收益。此外,为帮助渠道合作伙伴提升超融合架构产品的技术与销售能力,SmartX将提供规范的技术和完整产品培训,并通过线上平台及协作工具,增强与渠道的沟通互动与学习参与。

    在2018年,SmartX将携手伟仕佳杰、辉睿易成两家总代理商,在4大中心城市、5大重点城市进行市场布局,并在下半年也将大力进军海外市场,抢占先机。

    信仰:技术与产品才是变革的最终驱动力

    2018年我们的重点是赋能渠道,SmartX的整个渠道认证流程将非常严格、规范,这是基于SmartX的生存之本,即强大的技术实力和成熟稳定的产品。SmartX销售副总裁朵元云在会上着重强调,帮助渠道合作伙伴提升技术能力是SmartX在2018年实现的主要目标,也将为此投入重要人力物力资源。

    同样是做超融合,作为技术驱动型的科技公司,SmartX有着自己的坚守。SmartX选择深耕于分布式存储技术,从此坚定不移;聚焦金融、制造业,不断塑造核心竞争力;继而又坚持不懈地切入企业级核心应用,目标都是要形成强大的技术壁垒、稳步占领行业高地。

    为全面展示SmartX的创新实践及重要产品,SmartX售前解决方案总监靳扬和资深架构师钟锦锌在会上系统分享了SmartX超融合技术、产品优势、重点客户案例解析,并从用户体验、多元化场景的角度展示基于超融合IT基础架构的卓越优势,深度解析SmartX超融合生态链和完整解决方案。

    与此同时,作为SmartX生态合作伙伴计划/SmartX Ecosystem Partnership Program(SEPP)的重要成员,Commvault、Mellanox、EasyStack在会上与SmartX联合打造了Halo Lab体验区,吸引了众多到场渠道合作伙伴的关注与积极参与。通过可视化的管理界面展示及完整解决方案的剖析,让与会伙伴在互动交流中了解到SmartX生态圈的共赢成效,和在创新实践中释放出的生态价值。

    目前,SmartX已在中国拥有超过3000+节点的最大超融合部署,并在金融、制造等关键领域积累了包括泰康人寿、国泰君安、招商证券、京东方、海尔、山东农信、碧生源、雪松控股等多家头部客户及大量实践案例。未来,SmartX期待与更多渠道合作伙伴携手,共同践行IT基础架构市场的转型升级,迎接超融合带来的无限想象。

  • 相关推荐:

  • SmartX重磅发布渠道战略为
  • HadoopHbase升级
  • Hadoop入门HDFS(单节点)
  • Ubuntu上使用Hadoop2.x七HD
  • Hadoop源码分析之客户端向
  • Hadoop2上HDFSHA搭建过程
  • hadoopHDFS原理基础知识
  • HDFS追本溯源:HDFS操作的
  • hadoop摸索系列记录使用
  • hadoop2学习联合的HDFS
  • 网站内容禁止违规转载,转载授权联系中国云计算网