云服务器网:购买云服务器和VPS必上的网站!

什么是hadoop?

1、海量数据存储

  HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(High throughput)来访问数据,适合那些有着超大数据集(large data set)的应用程序,它由n台运行着DataNode的机器组成和1台(另外一个standby)运行NameNode进程一起构成。每个DataNode 管理一部分数据,然后NameNode负责管理整个HDFS 集群的信息(存储元数据)。

  所谓Hadoop其实就是Apache开发的分布式系统基础架构,主要解决海量数据存储与计算的问题,是大数据技术中的基石。Hadoop以一种可靠、高效、可伸缩的方式进行数据处理,主要特点如下:

  1、海量数据存储

  HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(Highthroughput)来访问数据,适合那些有着超大数据集(largedataset)的应用程序,它由n台运行着DataNode的机器组成和1台(另外一个standby)运行NameNode进程一起构成。每个DataNode管理一部分数据,然后NameNode负责管理整个HDFS集群的信息(存储元数据)。

  2、资源管理,调度和分配

  ApacheHadoopYARN(YetAnotherResourceNegotiator,另一种资源协调者)是一种新的Hadoop资源管理器,它是一个通用资源管理系统和调度平台,可为上层应用提供统一的资源管理和调度,它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。

  3、并行数据处理

  MapReduce算法要求你可以并行化你的数据处理。MapReduce在变量逐个处理的情况下工作得很好(例如,计数或聚合);但是,当您需要共同处理变量(例如,变量之间有许多相关性)时,此模型不起作用。

  任何基于图形的数据处理(意味着依赖于其他数据的复杂数据网络)都不适合Hadoop的标准方法。话虽如此,相关的ApacheTez框架确实允许使用基于图形的方法来处理数据,而不是更线性的MapReduce工作流程。

  以上就是什么是hadoop?的内容。

本文来源:https://www.yuntue.com/post/54732.html | 云服务器网,转载请注明出处!

关于作者: yuntue

云服务器(www.yuntue.com)是一家专门做阿里云服务器代金券、腾讯云服务器优惠券的网站,这里你可以找到阿里云服务器腾讯云服务器等国内主流云服务器优惠价格,以及海外云服务器、vps主机等优惠信息,我们会为你提供性价比最高的云服务器和域名、数据库、CDN、免费邮箱等企业常用互联网资源。

为您推荐

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注