Hadoop

json - 将数据集写入 Hive 时出现异常

我正在尝试使用SparkJava将DataSet写入Hive数据库，但在此过程中出现异常。这是我的代码:Datasetdata=spark.read().json(rdd).select("event.event_name");data.write().mode("overwrite").saveAsTable("telecom.t2");这里，rdd是流式传输的json数据，我可以通过以下命令打印结果data。data.show();但是当我尝试将此结果写入Hive数据库时，我没有收到任何异常，但当我尝试打印这些值时，我在Hive命令行中收到异常。例如:select*fromtele

时出 json java parquet hadoop apache-spark hive spark-streaming

java - Spark SASL 无法使用 yarn 在 emr 上工作

所以首先，我想说的是我所看到的解决这个问题的唯一方法是:Spark1.6.1SASL.但是，在添加spark和yarn认证的配置时，还是不行。下面是我在亚马逊emr上的yarn集群上使用spark-submit的spark配置:SparkConfsparkConf=newSparkConf().setAppName("secure-test");sparkConf.set("spark.authenticate.enableSaslEncryption","true");sparkConf.set("spark.network.sasl.serverAlwaysEncrypt","tr

上工 Spark AbstractChannelHandlerContext java hadoop apache-spark hadoop-yarn

xml - 在 Hive 中使用横向 View 时出现异常

我正在使用以下代码在Hive中解析xml数据。在我的xml数据中，一些标签在重复，所以我使用brickhousejar和横向View来解析标签并放置在Hive表中。但是当我执行我的代码时，我收到了一个错误。请帮忙，因为我无法理解我做错了什么。代码:addjar/home/cloudera/brickhouse-0.5.5.jar;CREATETEMPORARYFUNCTIONnumeric_rangeAS'brickhouse.udf.collect.NumericRange';CREATETEMPORARYFUNCTIONarray_indexAS'brickhouse.udf.co

时出 Hive code strong gt xml hadoop xpath brickhouse

Hadoop - 有没有办法在作业之间共享自定义计数器？

我正在运行一个MapReduce工作流，该工作流当前包含2个链式MR任务。在第一个任务中，映射器写入自定义计数器。我希望在第二个任务中的reducer的setup()方法中读取这个计数器的值。当我在第二个任务中尝试读取计数器的值时，我得到了0的值。为清楚起见，每个任务都有自己的驱动程序代码，有自己的Configuration和Job。计数器在主驱动程序类中定义为staticenum，它负责链接任务(并启动EMR集群，而不是在单节点集群设置中本地运行工作流).我正在使用Hadoop2.7.3和Java8。最佳答案我看到至少3个选项

自定 Hadoop section code

hadoop - MapReduce 作业无法与启用 Kerberos 的 CDH 集群上的 Hbase 对话

我正在编写一个MapReduce应用程序来访问启用了Kerberos的CDH集群上的Hbase数据。我的CDH版本是5.9.0，运行在3个节点上，Kerberos版本是1.10.1。现在，我面临一个问题，希望有人能提供帮助。我的代码:conf.set("hadoop.security.authentication","Kerberos");UserGroupInformation.setConfiguration(conf);UserGroupInformation.loginUserFromKeytab("jj@example.com","jj.keytab");HTabletabl

MapReduce Kerberos code section 34 hadoop hbase cloudera-cdh

scala - 列出文件 scala emr hdfs(缺少 csv 文件)

我试图通过以下方法列出emrhdfs上目录中的所有文件:valdirectory=newFile(directoryPath)valfileStatusListIterator:RemoteIterator[LocatedFileStatus]=FileUtils.fs.listFiles(newPath(directoryPath),true)while(fileStatusListIterator.hasNext){valfileStatus=fileStatusListIterator.nextif(fileStatus.isFile){log.info(s"IteratorFi

scala hdfs section fileStatusListIterator fileStatus csv hadoop amazon-emr

python - 在 airgapped 环境中安装 nltk 数据

我想通过Pyspark在hadoop集群上利用NLTK执行NLP任务。我们使用Anaconda发行版。集群处于气隙环境中，因此我无法运行nltk.download()。我想我需要将数据下载到可以访问互联网的辅助机器上。我从哪里下载它？以及如何将它安装在hadoop集群上？我只是复制文件吗？或者nltk是否需要知道数据在哪里？是否需要在所有节点上复制数据？最佳答案 WheredoIdownloaditfrom?您可以在您的机器上执行nltk.download()，数据将下载到您的主目录下的文件夹nltk_dataAndhowdoIi

中安 airgapped code section blockquote python hadoop nltk anaconda

eclipse - 在 eclipse 中安装 MAP-REDUCE 插件时出错

当我尝试在eclipseINDIGO中安装MAP-REDUCE插件时，出现以下错误截图:我已经安装了hadoop1.2.1。最佳答案您尝试使用的插件是使用Java8编译的，但您正在使用早期版本的Java运行Eclipse。您必须使用Java8运行Eclipse才能使用此插件。关于eclipse-在eclipse中安装MAP-REDUCE插件时出错，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.com/

时出中安 section eclipse hadoop plugins

json - 在为下游应用程序写入HDFS时，JSON与CSV文件格式的Mertis

我们正在提取源数据（xls）并将其注入hdfs。是否最好以csv或json格式编写这些文件，我们正在考虑选择其中一个，但在调用之前，我们想知道使用其中一个文件的优点和缺点是什么。我们试图找出的因素有：性能（数据量为2-5GB）加载与读取数据从这些文件中提取元数据（结构）信息是多么容易。注入的数据将被同时支持json和csv的其他应用程序使用。最佳答案阅读本文，它将解决您的问题：https://community.hitachivantara.com/community/products-and-solutions/pentaho

Mertis json section community hadoop-file-formats-its-not-just-csv hadoop hdfs bigdata

hadoop - 如何执行 pig 文件

我有一个简单的csv文件1234当我尝试以这种方式在其上运行一些代码时。grunt>SETjob.name'this_and_that';grunt>SETmapreduce.job.queuenameadhoc;grunt>SETdefault_parallel50;grunt>index_row=load'nmbr.csv'as(number:int);grunt>dumpindex_row;我得到了正确的结果。(1)(2)(3)(4)但是当我将代码保存在文件test.pig中时SETjob.name'this_and_that';SETmapreduce.job.queuenam

hadoop pig code pre apache-pig

62 63 646566 67 68