hadoop在大数据中的作用_公司动态_公司动态_专注企业数据治理16年

hadoop在大数据中的作用

发表时间：2018-12-27 点击数：1080
来源：未知

Hadoop是一个分布式系统基础架构，由Apache基金会开发。Hadoop的主要目标是对分布式环境下的“大数据”以一种可靠、高效、可伸缩的方式处理。

Hadoop主要由三部分组成：HDFS(Hadoop Distributed File System)，MapReduce与Hbase。

“大数据”不仅适用于大型企业，而是适用于各种不同规模的企业。例如，通过评估某位客户在网站上的行为，来更好地了解他们需要什么支持或寻找什么产品，或者弄清当前天气和其他条件对于送货路线和时间安排的影响。

面对“大数据”，Hadoop为揭示深奥的企业与外部数据的关键内幕提供了基础。从技术上看，Hadoop分布式文件系统(HDFS)保证了大数据的可靠存储，而另一Hadoop核心组件MapReduce则提供高性能并行数据处理服务。这两项服务提供了一个使对结构化和复杂“大数据”的快速、可靠分析变为现实的基础。 Hadoop已经迅速成长为首选的、适用于非结构化数据的大数据分析解决方案。基于Hadoop、利用商品化硬件对海量的结构化和非结构化数据进行批处理，给数据分析领域带来了深刻的变化。通过挖掘机器产生的非结构化数据中蕴藏的知识，企业可以做出更好的决策，促进收入增长，改善服务，降低成本。而且，Hadoop作为一种分布式基础架构，可以使用户在不了解分布式底层细节的情况下，开发分布式程序。

举例说明如下：

Hadoop在GIS数据处理中的运用，传统的GIS数据存储，大多依托于各种关系型数据库，但是数据库由于其在海量数据管理、高并发读写、难以扩展等方面，已经开始的制约了GIS的发展。而且关系型数据库一直在非结构化数据领域难有作为，这一点更是致命伤。世界上90%以上的数据都是非结构化的，GIS里面大量数据如影像数据等，都是非结构化的。而Hadoop以其高可靠性、高扩展性、高效性和高容错性，特别是在海量的非结构化或者半结构化数据上的分析处理优势，给我们提供了另外一种思路。Hadoop的核心算法就是“分而治之”，这个与GIS里面很多算法是相通的，GIS里面很多应用场景都是要去分析不同区域内的各种信息，把这样的计算放到Hadoop上，正好利用了Hadoop的分布式计算特性。特别是一直让GIS界最头痛的海量影像数据存储和分析，在Hadoop的分布式存储和分布式运算架构上，更是能够体现出Hadoop在GIS应用上的优势。

快速导航

友情链接

联系方式

地址：山东省济南市舜华路2000号舜泰广场2号楼16F
电话：0531--88199235 88199253
热线：400-155-1068
网址：www.jobhand.cn
邮箱：dingli@jobhand.cn