草庐IT

hadoop-mapreduce

全部标签

hadoop - 如何将Sqoop连接到多个hadoop集群

有没有办法让Sqoop连接到不同的Hadoop集群,从而可以创建多个Sqoop作业将数据导出到多个hadoop集群? 最佳答案 toexportdatatomultiplehadoopclusters如果数据进入Hadoop,那在技术上就是Sqoop导入不清楚您目前如何从一台机器管理不同的集群,但您需要让Sqoop读取所有环境的conf文件夹Thesqoopcommand-lineprogramisawrapperwhichrunsthebin/hadoopscriptshippedwithHadoop.Ifyouhavemulti

hadoop - 使用 Pig 获取唯一记录的值(value)

下面是输入数据集。col1,col2,col3,col4,col5key1,111,1,12/11/2016,10key2,111,1,12/11/2016,10key3,111,1,12/11/2016,10key4,222,2,12/22/2016,10key5,222,2,12/22/2016,10key6,333,3,12/30/2016,10key7,111,0,12/11/2016,10基于col2、col3、col4将提供唯一记录,我需要从col1中获取任何一个值作为唯一记录,并填充为新字段col6。预期输出如下col1,col2,col3,col4,col5,col6k

hadoop - 通过 HQL 更改 hive 表中映射列中的一个键值

我有一个Hive表,其架构如下,col是map类型:selectcolfromtablecol{"name":"abc","value":"val_1"}我需要做的是将val_1更改为val_2并从中创建另一个表。createtabletable_2asselectcol--TODO:needtodosomethingherefromtable有什么建议吗?谢谢! 最佳答案 withtas(selectmap("name","abc","value","val_1")ascol)selectmap("name",col["name"

java - 如何为 Mapreduce 设计键值对以找到集合中的最大值?

我是MapReduce程序员的初学者。你能帮我设计以下问题的键值对吗?问题陈述-找到最大值并将其与key一起打印输入:KeyValueABC10TCA13RTY23FTY45左侧列中的键将是唯一的。不允许重复。输出:FTY45由于45是所有值中的最大值,因此它必须与key一起打印。你能帮我设计map()和reduce()函数吗?这两个函数的键值对是什么? 最佳答案 在mapper中,记住最大数classMapper{VmaxV;KmaxK;map(K,V,context){if(V>maxV){maxV=V;maxK=K;}}cle

hadoop - Apache HIVE 中的表定义问题

以下是我推送到名为temp_stat的Hive表中的数据集:COUNTRYCITYTEMP-----------------------------------USArizona51.7USCalifornia56.7USBullheadCity51.1IndiaJaisalmer42.4LibyaAziziya57.8IranLutDesert70.7IndiaBanda42.4当我尝试通过select命令查看数据时,我得到以下数据集:US,Arizona,51.7NULLNULLUS,California,56.7NULLNULLUS,BullheadCity,51.1NULLNU

hadoop - hive insert overwrite table with inner sub query of count of columns 作为结果

你好,我在源表“状态表”下面有datestatusname2017-06-22true1.tar2017-06-22true2.tar2017-06-22false3.tar2017-06-22true4.tar2017-06-22false5.tar2017-06-21false6.tar2017-06-21false6.tar2017-06-21false6.tar2017-06-21true6.tar我在目标表列下面有预期的数据TrueFalseTotalDate3252017-06-221342017-06-21我在下面写了查询将数据从源表加载到目标表,但它说表达式不在GROU

java - MapReduce键值对产生垃圾值的输出值

问题陈述-找到最大值并将其与key一起打印输入:KeyValueABC10TCA13RTY23FTY45左侧列中的键将是唯一的。不允许重复。输出:FTY45由于45是所有值中的最大值,因此它必须与key一起打印。我已经根据此链接中共享的伪代码编写了MapReduce代码HowtodesigntheKeyValuepairsforMapreducetofindthemaximumvalueinaset?map-importjava.io.IOException;importjava.util.StringTokenizer;importorg.apache.hadoop.io.Text;

hadoop - Sqoop snappy 压缩不起作用

我有以下sqoop脚本,它应该以parquet格式获取数据并使用snappy压缩。sqoopimport\--hive-drop-import-delims\--fields-terminated-by'\001'\--connect''\--query'select*from.where$CONDITIONS'\--username\--password\--split-by''\-m=4\--input-null-string''\--input-null-non-string''\--inline-lob-limit0\--target-dir\--compression-cod

hadoop - 在S3上创建Hive外部表将引发 “org.apache.hadoop.fs.s3a.S3AFileSystem not found”异常

我在本地计算机上使用beeline在DDL下运行,并引发异常。DDL是CREATETABLE`report_landing_pages`(`google_account_id`stringCOMMENT'fromdeserializer',`ga_view_id`stringCOMMENT'fromdeserializer',`path`stringCOMMENT'fromdeserializer',`users`stringCOMMENT'fromdeserializer',`page_views`stringCOMMENT'fromdeserializer',`event_valu

hadoop - Hive 中的时间戳分区

我正在尝试在配置单元中创建基于时间戳的分区。但是配置单元正在创建基于数据的分区。下面是我的代码。有人可以帮忙吗?cattest1.shdat=`date+'%Y%m%d%H:%m:%S'`hive-fload.hql-hiveconffile_load_timestamp=$dat;catload.hqlINSERTOVERWRITEtableperm.testpartition(file_load_timestamp='${hiveconf:dat}')SELECTa,bFROMwork.temp;dt=20180102/=HDFS路径是这样创建的。dt=20180102103455