hive 中 group by 和 distinct 孰优孰劣?

hive 不是数据库,hive 只是一个数据仓库工具,可以用来查询、转化和加载数据,是可以调用 mapreduce 任务、用类 mysql 语法查询HDFS数据的一个工具。

再来说 mapreduce 是什么,mapreduce 是分而治之的一种编程模型,适用于大规模数据集的并行计算,当处理一个查询任务时,先调用 map 任务并行处理,最后用 reduce 任务归约结果。

赞(0)
未经允许不得转载:小狮博客 » hive 中 group by 和 distinct 孰优孰劣?
分享到: 更多 (0)

联系我们