草庐IT

hadoop - oozie distcp 操作中的正则表达式

我正在尝试将所有符合特定条件的文件复制到一个文件夹中${NAME_NODE}${PATH_COMVERSE}${CURRENT_DATE_NO_DASH}_*/*mta.gz${NAME_NODE}${PATH_MTA}/${CURRENT_DATE_NO_DASH}_*中的符号*代表A或B或C等。它搜索所有文件夹。如果我使用${CURRENT_DATE_NO_DASH}_A,它只会搜索1个文件。我怎样才能让它从所有文件夹中只取出2个?我尝试执行(A|B),但这没有用。 最佳答案 我假设这将是一个bash扩展,因为您的变量看起来像b

java - 在 org.apache.hadoop.mapred.MapTask$NewOutputCollector 关闭期间忽略异常

我创建了一个hadoop自定义可写对象,如下所示publicclassResultTypeimplementsWritable{privateTextxxxx;privateTextyyyy;privateTextzzzz;publicResultType(){}publicResultType(Textxxxx,Textyyyy,Textzzzz){this.xxxx=xxxx;this.yyyy=yyyy;this.zzzz=zzzz;}publicTextgetxxxx(){returnthis.xxxx;}publicTextgetyyyy(){returnthis.yyyy;

hadoop - 抑制命令行输出 hadoop fs 命令

我正在使用Python程序运行hadoopmapreduce作业,该程序创建不同的输入路径作为mapreduce作业的参数。在将这些输入路径传递到mapreduce之前,我目前正在使用以下命令检查hadoopfs路径是否存在:hadoopfs-test-e'filename'然后我的Python程序与命令行通信并确定文件是否存在(当文件存在时-test返回0,否则返回一个大于1的整数)。由于Python程序正在检查路径是否存在并将所有不存在的路径输出到单独的.txt文档,因此我不需要知道哪些路径不存在作为命令行警告。我想知道如何抑制(或忽略)自动hadoopfs输出:test:'fil

hadoop - Hive 中的 CRUD 操作

我正在尝试在Hive中执行CRUD操作并能够成功运行插入查询,但是当我尝试运行更新和删除时出现以下异常。失败:SemanticException[错误10294]:尝试使用不支持这些操作的事务管理器进行更新或删除。我运行的查询列表CREATETABLEstudents(nameVARCHAR(64),ageINT,gpaDECIMAL(3,2))CLUSTEREDBY(age)INTO2BUCKETSSTOREDASORC;INSERTINTOTABLEstudentsVALUES('fredflintstone',35,1.28),('barneyrubble',32,2.32);C

hadoop - 用于查找每个部门薪水的最大值、最小值、平均值、总和的 Pig 脚本

按部门编号对数据进行分组后,我卡住了。我遵循的步骤grunt>A=load'/home/cloudera/naveen1/hive_data/emp_data.txt'usingPigStorage(',')as(eno:int,ename:chararray,job:chararray,sal:float,comm:float,dno:int);grunt>B=groupAbydon;grunt>describeB;B:{group:int,A:{(eno:int,ename:chararray,job:chararray,sal:float,comm:float,dno:int)}

hadoop - MSCK REPAIR TABLE 表名耗时较长

我在包含超过28K分区的配置单元表上运行MSCKREPAIRTABLE表名,我们将每10分钟接收一个分区。当我们每10分钟在此表上运行一次MSCKREPAIRTABLE时,它会花费很多时间有人可以建议为什么需要更多时间吗?(即超过5-10分钟)提前致谢。hive版本:1.1.0 最佳答案 这是一个非常糟糕的做法。无论目录是否已经映射到分区,MSCKREPAIR仍然需要获取所有目录的列表以及所有分区的列表并进行比较。相反,您应该在每次添加目录时使用altertable...addpartition...添加一个分区。

hadoop - 如何将Sqoop连接到多个hadoop集群

有没有办法让Sqoop连接到不同的Hadoop集群,从而可以创建多个Sqoop作业将数据导出到多个hadoop集群? 最佳答案 toexportdatatomultiplehadoopclusters如果数据进入Hadoop,那在技术上就是Sqoop导入不清楚您目前如何从一台机器管理不同的集群,但您需要让Sqoop读取所有环境的conf文件夹Thesqoopcommand-lineprogramisawrapperwhichrunsthebin/hadoopscriptshippedwithHadoop.Ifyouhavemulti

hadoop - 使用 Pig 获取唯一记录的值(value)

下面是输入数据集。col1,col2,col3,col4,col5key1,111,1,12/11/2016,10key2,111,1,12/11/2016,10key3,111,1,12/11/2016,10key4,222,2,12/22/2016,10key5,222,2,12/22/2016,10key6,333,3,12/30/2016,10key7,111,0,12/11/2016,10基于col2、col3、col4将提供唯一记录,我需要从col1中获取任何一个值作为唯一记录,并填充为新字段col6。预期输出如下col1,col2,col3,col4,col5,col6k

hadoop - 通过 HQL 更改 hive 表中映射列中的一个键值

我有一个Hive表,其架构如下,col是map类型:selectcolfromtablecol{"name":"abc","value":"val_1"}我需要做的是将val_1更改为val_2并从中创建另一个表。createtabletable_2asselectcol--TODO:needtodosomethingherefromtable有什么建议吗?谢谢! 最佳答案 withtas(selectmap("name","abc","value","val_1")ascol)selectmap("name",col["name"

hadoop - Apache HIVE 中的表定义问题

以下是我推送到名为temp_stat的Hive表中的数据集:COUNTRYCITYTEMP-----------------------------------USArizona51.7USCalifornia56.7USBullheadCity51.1IndiaJaisalmer42.4LibyaAziziya57.8IranLutDesert70.7IndiaBanda42.4当我尝试通过select命令查看数据时,我得到以下数据集:US,Arizona,51.7NULLNULLUS,California,56.7NULLNULLUS,BullheadCity,51.1NULLNU