[原创] Java Hadoop job合并输入的小文件(纯文本) 2020 年 04 月 28 日2017 年 06 月 22 日 作者 learnhard 假设你的JAVA M-R job的输入文件是大量纯文本文件,而且每个文件都比较小(例如几百K),那么job运行起来之后会占用大量mapper数,导致Hadoop集群资源被过度消耗。这种情况可以通过合并输入文件来避免。 阅读更多