UDF – 编码无悔 / Intent & Focused

查看更多Apache Pig的教程请点击这里。

来看这个例子。有数据文件 1.txt，内容为：

a[\t][\t]c

[\t]f[\t]g

h[\t]k[\t]
[\t][\t][\t]

其中 [\t] 表示制表符(tab)，并不是真的在文件中写了 [\t]。
在Pig命令行交互模式下加载这个文件，并把其中为空（NULL）的列替换成一些数字：

A = LOAD '1.txt' AS (col1: chararray, col2: chararray, col3: chararray);
B = FOREACH A GENERATE (col1 IS NOT NULL ? col1 : '1') AS col1, (col2 IS NOT NULL ? col2 : '2') AS col2, (col3 IS NOT NULL ? col3 : '3') AS col3;
DUMP B;

输出：

(a,2,c)

(1,f,g)

(h,k,3)

(1,2,3)

代码非常简单：如果第一列col1为空则替换为1，如果第二列为空则替换为2，如果第三列为空则替换为3。
这里使用了三元运算符 ? : 来做这个判断，写法非常丑陋。

查看更多Apache Pig的教程请点击这里。

本文可以让刚接触pig的人对一些基础概念有个初步的了解。
很久很久以前，本文大概是互联网上第一篇公开发表的且涵盖大量实际例子的Apache Pig中文教程（由Google搜索可知），文中的大量实例都是作者Darran Zhang（website: codelast.com）在工作、学习中总结的经验或解决的问题，并且添加了较为详尽的说明及注解，希望能帮助一部分人。

Apache pig是用来处理大规模数据的高级查询语言，配合Hadoop使用，可以在处理海量数据时达到事半功倍的效果，比使用Java，C++等语言编写大规模数据处理程序的难度要小N倍，实现同样的效果的代码量也小N倍。
但是刚接触pig时，可能会觉得里面的某些概念以及程序实现方法与想像中的很不一样，所以，你需要仔细地研究一下基础概念，这样在写pig程序的时候，才不会觉得非常别扭。

[原创] 使用Apache DataFu中的Coalesce()简化Apache Pig的三元运算符

[原创]Apache Pig的一些基础概念及用法总结（1）