搜索
初中教育首页

一次读懂Hadoop:风雨十载,将来路在何方

    预计2019年我国固定资产投资仍将保持平稳快速发展  2018年下半年以来,地方专项债发行进度加快,债券利息有所降低,债券期限有所延长,国家发展和改革委员会密集批复了多个基础设施建设项目,铁路运输、生态保护和环境治理等基础设施领域的投资增速都出现了大幅回升,国家通过加大基础设施投入力度促进经济增长的政策信号清晰可见,同时,在积极的财政政策和适度宽松的货币政策配合下,2019年基础设施投资将成为带动我国固定资产投资增长的主要动力之一。  随着地方政府对房地产政策的适度调整,以及房地产销售的逐步回暖,2019年房地产投资也将继续保持快速增长,同时也会对家电、家具、建材等行业产生拉动作用。

  环境原因如他人、奖惩、运气、工作难易等;个人原因如人格、动机、情绪、态度、能力、努力等。如考生考试不理想,可能由于个人原因:不聪明、不努力等,也可能由于环境原因:课程太难、考试不合理等。

一次读懂Hadoop:风雨十载,将来路在何方

存储层HDFS已经成为了大数据磁盘存储的事实标准,用于海量日志类大文件的在线存储。

经过这些年的发展,HDFS的架构和功能基本固化,像HA、异构存储、本地数据短路访问等重要特性已经实现,在路线图中除了ErasureCode已经没什么让人兴奋的feature。 随着HDFS越来越稳定,社区的活跃度也越来越低,同时HDFS的使用场景也变得成熟和固定,而上层会有越来越多的文件格式封装:列式存储的文件格式,如Parquent,很好的解决了现有BI类数据分析场景;以后还会出现新的存储格式来适应更多的应用场景,如数组存储来服务机器学习类应用等。

未来HDFS会继续扩展对于新兴存储介质和服务器架构的支持。

2015年HBase发布了版本,这也代表着HBase走向了稳定。 最新HBase新增特性包括:更加清晰的接口定义,多Region副本以支持高可用读,Family粒度的Flush以及RPC读写队列分离等。 未来HBase不会再添加大的新功能,而将会更多的在稳定性和性能方面进化,尤其是大内存支持、内存GC效率等。 Kudu是Cloudera在2015年10月才对外公布的新的分布式存储架构,与HDFS完全独立。

其实现参考了2012年Google发表的Spanner论文。

鉴于Spanner在Google内部的巨大成功,Kudu被誉为下一代分析平台的重要组成,用于处理快速数据的查询和分析,填补HDFS和HBase之间的空白。 其出现将进一步把Hadoop市场向传统数据仓库市场靠拢。

ApacheArrow项目为列式内存存储的处理和交互提供了规范。 目前来自ApacheHadoop社区的开发者们致力于将它制定为大数据系统项目的事实性标准。

Arrow项目受到了Cloudera、Databricks等多个大数据巨头公司支持,很多committer同时也是其他明星大数据项目(如HBase、Spark、Kudu等)的核心开发人员。

再考虑到Tachyon等似乎还没有找到太多实际接地气的应用场景,Arrow的高调出场可能会成为未来新的内存分析文件接口标准。

管控层管控又分为数据管控和资源管控。

随着Hadoop集群规模的增大以及对外服务的扩展,如何有效可靠的共享利用资源是管控层需要解决的问题。

脱胎于的YARN成为了通用资源管理平台。 由于占据了Hadoop的地利,业界对其在资源管理领域未来的前景非常看好。

传统其他资源管理框架如Mesos,还有现在兴起的Docker等都会对YARN未来的发展产生影响。 如何提高YARN性能、如何与容器技术深度融合,如何更好的适应短任务的调度,如何更完整的多租户支持、如何细粒度的资源管控等都是企业实际生产中迫在眉睫的需求,需要YARN解决。

要让Hadoop走得更远,未来YARN需要做的工作还很多。 另一方面大数据的安全和隐私越来越多的受到关注。

Hadoop依靠且仅依靠Kerberos来实现安全机制,但每一个组件都将进行自己的验证和授权策略。

开源社区似乎从来不真正关心安全问题,如果不使用来自Hortonworks的Ranger或来自Cloudera的Sentry这样的组件,那么大数据平台基本上谈不上安全可靠。

Cloudera刚推出的RecordService组件使得Sentry在安全竞赛中拔得先机。 RecordService不仅提供了跨所有组件一致的安全颗粒度,而且提供了基于Record的底层抽象(有点像Spring,代替了原来KiteSDK的作用),让上层的应用和下层存储解耦合的同时、提供了跨组件的可复用数据模型。 计算引擎层Hadoop生态和其他生态最大的不同之一就是“单一平台多种应用”的理念了。

传的数据库底层只有一个引擎,只处理关系型应用,所以是“单一平台单一应用”;而NoSQL市场有上百个NoSQL软件,每一个都针对不同的应用场景且完全独立,因此是“多平台多应用”的模式。 而Hadoop在底层共用一份HDFS存储,上层有很多个组件分别服务多种应用场景,如:。