面向大数据的Hadoop是做什么的?

在Hadoop中添加多个数据集的方法有很多。MapReduce提供了映射端和Reduce端之间的数据连接。这些连接是非常特殊的连接,并且可能是非常昂贵的操作。Pig和Hive也具有相同的申请连接多个数据集的能力。Pig提供复制连接、合并连接和偏斜连接,Hive提供地图端连接和完全外部连接来分析数据。

一个重要的事实是,通过使用各种工具,如MapReduce、Pig和Hive,数据可以基于它们的内置功能和实际需求来使用它们。至于分析Hadoop中的大量数据,Anoop指出,一般来说,在大数据/Hadoop的世界中,有些问题可能并不复杂,解决方案也很简单,但挑战在于数据量。在这种情况下,需要不同的解决方案来解决问题。

一些分析任务是从日志文件中统计清除id的数量,转换特定日期范围内的存储数据,以及对网民进行排名。所有这些任务都可以通过Hadoop中的各种工具和技术来解决,比如MapReduce、Hive、Pig、Giraph和Mahout。这些工具可以在自定义例程的帮助下灵活地扩展它们的功能。