Hadoop主要由三部分组成:HDFS(Hadoop Distributed File System),MapReduce与Hbase。
“大数据”不仅适用于大型企业,而是适用于各种不同规模的企业。例如,通过评估某位客户在网站上的行为,来更好地了解他们需要什么支持或寻找什么产品,或者弄清当前天气和其他条件对于送货路线和时间安排的影响。
面对“大数据”,Hadoop为揭示深奥的企业与外部数据的关键内幕提供了基础。从技术上看,Hadoop分布式文件系统(HDFS)保证了大数据的可靠存储,而另一Hadoop核心组件MapReduce则提供高性能并行数据处理服务。这两项服务提供了一个使对结构化和复杂“大数据”的快速、可靠分析变为现实的基础。 Hadoop已经迅速成长为首选的、适用于非结构化数据的大数据分析解决方案。基于Hadoop、利用商品化硬件对海量的结构化和非结构化数据进行批处理,给数据分析领域带来了深刻的变化。通过挖掘机器产生的非结构化数据中蕴藏的知识,企业可以做出更好的决策,促进收入增长,改善服务,降低成本。而且,Hadoop作为一种分布式基础架构,可以使用户在不了解分布式底层细节的情况下,开发分布式程序。
举例说明如下:
Hadoop在GIS数据处理中的运用,传统的GIS数据存储,大多依托于各种关系型数据库,但是数据库由于其在海量数据管理、高并发读写、难以扩展等方面,已经开始的制约了GIS的发展。而且关系型数据库一直在非结构化数据领域难有作为,这一点更是致命伤。世界上90%以上的数据都是非结构化的,GIS里面大量数据如影像数据等,都是非结构化的。 而Hadoop以其高可靠性、高扩展性、高效性和高容错性,特别是在海量的非结构化或者半结构化数据上的分析处理优势,给我们提供了另外一种思路。Hadoop的核心算法就是“分而治之”,这个与GIS里面很多算法是相通的,GIS里面很多应用场景都是要去分析不同区域内的各种信息,把这样的计算放到Hadoop上,正好利用了Hadoop的分布式计算特性。特别是一直让GIS界最头痛的海量影像数据存储和分析,在Hadoop的分布式存储和分布式运算架构上,更是能够体现出Hadoop在GIS应用上的优势。