[Hadoop]宁要少量大文件,不要大量小文件 Leave a Comment / Architecture / November 24, 2012 November 24, 2012 摘自象书 宁要少量大文件,不要大量小文件(比如HDFS block还小若干量级) 因为: 1.一个文件就要一个map task 2.文件太多就需要很多map task 3.运行map task有额外开销 4.运行大量map task会带来过多开销 所以: 不要大量小文件