Hadoop

java - 如何管理flume agent之间的并发。

我正在从事大数据项目。我们正在使用flume将文件从sftp下载到HDFS。然后，我们配置了3个代理。他们从同一个来源阅读。结果，我们将3个重复文件放入HDFS，这并不好。然而，我们必须只有一个文件。但是，我们需要对处理过的文件保持可追溯性，并管理代理之间的并发性。例如，我们有3个主要代理A1、A2和A3。如果代理A2正在处理或正在处理文件xxx.csv。其他人不会处理它，并会寻找未处理的文件。因此，每个文件只能由一个代理处理。有没有人处理过类似的问题？最佳答案使用loadbalancingsinkprocessor可以有1个源

hadoop - MSCK REPAIR TABLE 表名耗时较长

我在包含超过28K分区的配置单元表上运行MSCKREPAIRTABLE表名，我们将每10分钟接收一个分区。当我们每10分钟在此表上运行一次MSCKREPAIRTABLE时，它会花费很多时间有人可以建议为什么需要更多时间吗？(即超过5-10分钟)提前致谢。hive版本:1.1.0 最佳答案这是一个非常糟糕的做法。无论目录是否已经映射到分区，MSCKREPAIR仍然需要获取所有目录的列表以及所有分区的列表并进行比较。相反，您应该在每次添加目录时使用altertable...addpartition...添加一个分区。

hadoop REPAIR section code hive hiveql

hadoop - 如何将Sqoop连接到多个hadoop集群

有没有办法让Sqoop连接到不同的Hadoop集群，从而可以创建多个Sqoop作业将数据导出到多个hadoop集群？最佳答案 toexportdatatomultiplehadoopclusters如果数据进入Hadoop，那在技术上就是Sqoop导入不清楚您目前如何从一台机器管理不同的集群，但您需要让Sqoop读取所有环境的conf文件夹Thesqoopcommand-lineprogramisawrapperwhichrunsthebin/hadoopscriptshippedwithHadoop.Ifyouhavemulti

hadoop Sqoop code section

hadoop - 使用 Pig 获取唯一记录的值(value)

下面是输入数据集。col1,col2,col3,col4,col5key1,111,1,12/11/2016,10key2,111,1,12/11/2016,10key3,111,1,12/11/2016,10key4,222,2,12/22/2016,10key5,222,2,12/22/2016,10key6,333,3,12/30/2016,10key7,111,0,12/11/2016,10基于col2、col3、col4将提供唯一记录，我需要从col1中获取任何一个值作为唯一记录，并填充为新字段col6。预期输出如下col1,col2,col3,col4,col5,col6k

hadoop value key 2016 col apache-pig

hadoop - 通过 HQL 更改 hive 表中映射列中的一个键值

我有一个Hive表，其架构如下，col是map类型:selectcolfromtablecol{"name":"abc","value":"val_1"}我需要做的是将val_1更改为val_2并从中创建另一个表。createtabletable_2asselectcol--TODO:needtodosomethingherefromtable有什么建议吗？谢谢! 最佳答案 withtas(selectmap("name","abc","value","val_1")ascol)selectmap("name",col["name"

hadoop hive 34 code section hql hiveql

java - 如何为 Mapreduce 设计键值对以找到集合中的最大值？

我是MapReduce程序员的初学者。你能帮我设计以下问题的键值对吗？问题陈述-找到最大值并将其与key一起打印输入:KeyValueABC10TCA13RTY23FTY45左侧列中的键将是唯一的。不允许重复。输出:FTY45由于45是所有值中的最大值，因此它必须与key一起打印。你能帮我设计map()和reduce()函数吗？这两个函数的键值对是什么？最佳答案在mapper中，记住最大数classMapper{VmaxV;KmaxK;map(K,V,context){if(V>maxV){maxV=V;maxK=K;}}cle

何为 Mapreduce section code pre java hadoop

hadoop - Apache HIVE 中的表定义问题

以下是我推送到名为temp_stat的Hive表中的数据集:COUNTRYCITYTEMP-----------------------------------USArizona51.7USCalifornia56.7USBullheadCity51.1IndiaJaisalmer42.4LibyaAziziya57.8IranLutDesert70.7IndiaBanda42.4当我尝试通过select命令查看数据时，我得到以下数据集:US,Arizona,51.7NULLNULLUS,California,56.7NULLNULLUS,BullheadCity,51.1NULLNU

hadoop Apache NULL strong code hive mapreduce hiveql

hadoop - hive insert overwrite table with inner sub query of count of columns 作为结果

你好，我在源表“状态表”下面有datestatusname2017-06-22true1.tar2017-06-22true2.tar2017-06-22false3.tar2017-06-22true4.tar2017-06-22false5.tar2017-06-21false6.tar2017-06-21false6.tar2017-06-21false6.tar2017-06-21true6.tar我在目标表列下面有预期的数据TrueFalseTotalDate3252017-06-221342017-06-21我在下面写了查询将数据从源表加载到目标表，但它说表达式不在GROU

overwrite columns code section 2017 hadoop hive hql hadoop-yarn

java - MapReduce键值对产生垃圾值的输出值

问题陈述-找到最大值并将其与key一起打印输入:KeyValueABC10TCA13RTY23FTY45左侧列中的键将是唯一的。不允许重复。输出:FTY45由于45是所有值中的最大值，因此它必须与key一起打印。我已经根据此链接中共享的伪代码编写了MapReduce代码HowtodesigntheKeyValuepairsforMapreducetofindthemaximumvalueinaset?map-importjava.io.IOException;importjava.util.StringTokenizer;importorg.apache.hadoop.io.Text;

MapReduce java Text IntWritable import hadoop

python - Pyspark 将数据写入配置单元

下面是我将数据写入Hive的代码frompysparkimportsince,SparkContextasscfrompyspark.sqlimportSparkSessionfrompyspark.sql.functionsimport_functions,isnanfrompyspark.sqlimportSQLContextfrompyspark.sql.typesimport*frompysparkimportHiveContextashcspark=SparkSession.builder.appName("example-spark").config("spark.sql.

配置单 Pyspark 34 section spark python shell hadoop apache-spark

80 81 828384 85 86