草庐IT

read_params

全部标签

hadoop - Spark : Not able to read data from hive tables

我已经创建了一个Maven项目作为pom.xml1.3.0org.apache.sparkspark-core_2.11${spark.version}org.scala-langscala-libraryorg.apache.sparkspark-sql_2.11${spark.version}mysqlmysql-connector-java5.1.6-->org.apache.sparkspark-hive_2.11${spark.version}我的类(class)正在从配置单元表中读取数据:importorg.apache.spark.sql.SQLContextimport

hadoop - sqlContext.read...load() 和 sqlContext.write...save() 代码在 Spark Cluster 上运行在哪里?

我正在使用SparkDataframeAPI从NFS共享加载/读取文件,然后将该文件的数据保存/写入HDFS。我有一个包含一个主节点和两个工作节点的三节点Spark集群。我的Spark集群使用YARN作为集群管理器,因此两个工作节点是YARNNodeManager节点,主节点是YarnResourceManager节点。我有一个远程位置,比如/data/files,它安装到所有三个YARN/SPARK节点,因为它是[/data/files],其中存在我想要读取的所有csv文件[多个]从并最终写入HDFS。我在我的主节点上运行以下代码importjava.io.Fileimportorg

hadoop - --options-file 与 --connection-param-file 有何不同

Sqoop文档将--options-file的示例显示为:##OptionsfileforSqoopimport##Specifiesthetoolbeinginvokedimport#Connectparameterandvalue--connectjdbc:mysql://localhost/db#Usernameparameterandvalue--usernamefoo##Remainingoptionsshouldbespecifiedinthecommandline.#按照上面的说法,如果它只是连接信息,并且按照注释,所有剩余的选项都应该在命令行中指定,为什么它在--opt

hadoop - 无法将 TotalOrderPartitioner 与 Hive : Can't read partitions file 一起使用

我们正在尝试使用生成HBaseHfiles从Hive批量加载。我们的主要问题是,当使用org.apache.hadoop.mapred.lib.TotalOrderPartitioner;它找不到自定义分区程序文件:java.lang.IllegalArgumentException:Can'treadpartitionsfile更多详情:自定义分区程序文件是从Hive表创建的:CREATEEXTERNALTABLEnetezza.ais_lowres_mmsi_range_keys(hbase_key_range_startstring)ROWFORMATSERDE'org.apac

hadoop - 收到警告 ipc.Client : interrupted waiting to send params to server when copying files to HDFS

我写了一个perl脚本,其中调用了copyFromLocal来上传文件。当它运行时,WARNipc.Client:interruptedwaitingtosendparamstoserver发生。我检查了刚刚上传的HDFS上的所有文件。看来都复制成功了。谁知道那个警告是什么意思?完整的警告信息12/10/2311:41:07WARNipc.Client:interruptedwaitingtosendparamstoserverjava.lang.InterruptedExceptionatjava.util.concurrent.locks.AbstractQueuedSynchro

hadoop - Pig 命令问题 'Failed to read data from "/pigdata/student"'

在为关系运行dump命令时不返回任何记录,它给出:测试文件:学生vineet1hisham2raj3ajeet4sujit5ramesh6priya7priyanka8suresh9ritesh10计数器:Totalrecordswritten:0Totalbyteswritten:0SpillableMemoryManagerspillcount:0Totalbagsproactivelyspilled:0Totalrecordsproactivelyspilled:0但它包含一个数据,请帮我解决这个错误grunt>a=load'/pigdata/student';2016-08-0

Python HDFS : Cannot read file

我正在尝试使用pythonas从hdfds读取文件fromhdfs.clientimportClientimportjson,requestsif__name__=='__main__':cl=Client("http://hostName:port")printcl.list("/myDir/")withcl.read("/myDir/myFile.json")asf:printfprintjson.load(f)但是我明白了raiseValueError("NoJSONobjectcouldbedecoded")ValueError:NoJSONobjectcouldbedecod

linux - 预认证失败 : Password read interrupted while getting initial credentials

关闭。这个问题不符合StackOverflowguidelines.它目前不接受答案。这个问题似乎与helpcenter中定义的范围内的编程无关。.关闭4年前。Improvethisquestion这是我遇到过的事情,我找到了解决方案。从那里没有任何问题,我会把它作为一个问题发布,我会写下我的解决方案作为答案。环境:操作系统:CentosLinux、MacOS(BigSur)集群:ClouderaHadoopDistribution,工具:Kerberos问题:我通过“ktutil”创建了“user.keytab”文件来更新没有密码的krb票据,正如这里推荐的那样https://kb.

Hadoop 0.2 : How to read outputs from TextOutputFormat?

我的reducer类使用TextOutputFormat(Job给出的默认OutputFormat)生成输出。我喜欢在MapReduce作业完成后使用此输出来聚合输出。除此之外,我喜欢用TextInputFormat写出聚合信息,以便MapReduce任务的下一次迭代可以使用此过程的输出。谁能给我一个关于如何使用TextFormat进行书写和阅读的示例?顺便说一句,我使用TextFormat而不是Sequence的原因是互操作性。任何软件都应该使用输出。 最佳答案 暂时不要排除序列文件;它们使链接MapReduce作业变得快速和容易

Hadoop 作业客户端 : Error Reading task output

我正在尝试在我的集群上处理40GB的维基百科英文文章。问题是以下重复错误消息:13/04/2717:11:52INFOmapred.JobClient:TaskId:attempt_201304271659_0003_m_000046_0,Status:FAILEDToomanyfetch-failures13/04/2717:11:52WARNmapred.JobClient:Errorreadingtaskoutputhttp://ubuntu:50060/tasklog?plaintext=true&attemptid=attempt_201304271659_0003_m_00