龙山飞俊

2013 年 07 月 19 日 13:10

我想搞一个自动运行的SHELL脚本，让系统每天一个Pig脚本，请问如何能够让Pig运行一次脚本输出到日志上。因为要对输入行数和输出行数进行归档。
回复
- learnhard
  
  2013 年 07 月 23 日 14:58
  
  在不借助其他PigStorage的情况下，Pig只能把数据输出到HDFS上，因此，在shell脚本中执行Pig脚本，然后把Pig脚本输出到HDFS上的数据hadoop fs -get到local fs再处理。
  回复
  - 龙山飞俊
    
    2013 年 08 月 06 日 09:46
    
    我问的其实是执行脚本的时候屏幕会输出
    successed read xxx records ...
    
    这些数据怎么才能重定向输出到某个文件上，作为程序执行日志。
    回复
    - placebo
      
      2013 年 09 月 23 日 17:55
      
      pig -x mapreduce filename > log 2>&1
      回复
chali

2013 年 01 月 30 日 16:36

最近正在考虑如何将pig在mapreduce模式下的操作结果保存入关系型数据库，像mysql之类的，请问该如何操作？这样的想法可以实现不能？
回复
- learnhard
  
  2013 年 01 月 30 日 17:51
  
  早就有了很多年了：
  http://pig.apache.org/docs/r0.8.1/api/org/apache/pig/piggybank/storage/DBStorage.html
  http://stackoverflow.com/questions/4648814/a-way-to-export-the-results-from-pig-to-a-database
  不过不建议那样做，可能在特定的MySQL环境下会有陷阱，具体一两句说不清，我不打算在这里叙述。
  结果数据量不大的话，还是建议用shell script来插入MySQL。
  回复
senchen

2012 年 11 月 10 日 00:31

楼主，求助您问题：
java.lang.RuntimeException: java.io.FileNotFoundException: File does not exist: /pig_tmp/temp434410245/tmp1466749759/part-r-00113

我用小数据量跑pig脚本的时候，经常会出现这样的错误，
但是脚本平时在大数量中跑是正常的

查看了日志，初步发现的问题是：相关联的上一步job写的中间数据被删掉了，不知道什么原因？
回复
- learnhard
  
  2012 年 11 月 12 日 12:36
  
  没遇到过这种问题。
  如果不是local job，那么应该就跟提交jog的机器无关，帮不了你。
  如果是local job，建议换一台机器试跑一下看看是否出问题。
  回复
  - senchen
    
    2012 年 11 月 22 日 21:39
    
    很感谢楼主答复，大概问题我找到了，是人为设置并发执行的时候导致的，面对少数据量，而设置高并发会出现这样的问题，不知道这个是不是个bug ：）
    回复
june_1201

2012 年 05 月 14 日 02:18

good~ 支持楼主~
感谢楼主的分享精神~
回复
Perfect Ryan

2012 年 04 月 10 日 18:47

一直在关注，从学PIG就一直看你写的文章。期待更多的更新。
回复

《[原创]Apache Pig中文教程合集》有11条评论

发表评论 取消回复

发表评论取消回复