草庐IT

OBJ_FILES

全部标签

hadoop - Hive 负载数据 :No files matching path file:/home/hive/sample. 日志

我正在尝试加载HDP-sandbox上的sample.log文件我最初的努力LOADDATALOCALINPATH'sample.log'OVERWRITEINTOTABLElogs;好像路径不匹配Error:Errorwhilecompilingstatement:FAILED:SemanticExceptionLine1:23Invalidpath''sample.log'':Nofilesmatchingpathfile:/home/hive/sample.log(state=42000,code=40000)我注销,移动到/root,然后进入hive0:jdbc:hive2:/

hadoop - 创建配置单元表 : no files matching path file. .. 但文件存在于路径中

我正在尝试使用存储在hdfs中的文件创建一个hiveorc表。我有一个表“partsupp.tbl”文件,其中每一行都具有以下格式:1|25002|8076|993.49|venideas.quicklyevenpackagesprint.pendingmultipliersmusthavetoarefluff|我像这样创建一个配置单元表:createtableifnotexistspartsupp(PS_PARTKEYBIGINT,PS_SUPPKEYBIGINT,PS_AVAILQTYINT,PS_SUPPLYCOSTDOUBLE,PS_COMMENTSTRING)STOREDAS

scala - 如何使用 --files 选项执行上传到工作节点的应用程序?

我正在使用spark-submit将文件上传到我的工作节点,我想访问该文件。这个文件是一个二进制文件,我想执行它。我已经知道如何通过scala执行文件,但我一直收到“找不到文件”异常,而且我找不到访问它的方法。我使用以下命令提交我的作业。spark-submit--classMain--masteryarn--deploy-modecluster--fileslas2lasmyjar.jar当作业正在执行时,我注意到它已上传到当前正在运行的应用程序的暂存目录,当我尝试运行以下命令时,它不起作用。valcommand="hdfs://url/user/username/.sparkSta

hadoop - 收到警告 ipc.Client : interrupted waiting to send params to server when copying files to HDFS

我写了一个perl脚本,其中调用了copyFromLocal来上传文件。当它运行时,WARNipc.Client:interruptedwaitingtosendparamstoserver发生。我检查了刚刚上传的HDFS上的所有文件。看来都复制成功了。谁知道那个警告是什么意思?完整的警告信息12/10/2311:41:07WARNipc.Client:interruptedwaitingtosendparamstoserverjava.lang.InterruptedExceptionatjava.util.concurrent.locks.AbstractQueuedSynchro

performance - HDFS 与 HBASE : Which one performs better on millions of small text files?

如果我们有数百万个大小从几KB到几MB不等的小文本文件,HDFS和HBASE中哪一个花费的处理时间更少?还有更少的内存消耗? 最佳答案 这是一个高层次的问题。缺少有关数据类型的信息。但是,一般而言,我们在决定存储位置等事项时需要牢记以下事项。在HDFS或HBase中:由于我们有质量较小的文件,将其存储在HDFS中会遇到一些问题。名称节点上的元数据会很高如果block大小(输入拆分大小)配置不正确,则完整数据局部性和并行处理的潜力将不会利用。有关输入拆分和之间关系的更多信息block大小,请引用SplitsizevsBlocksize

hadoop - 映射减少 : Passing external jar files using libjars option does not work

我的mapreduce程序需要外部jar文件。我正在使用“-libjars”选项提供那些外部jar文件-我使用了hadoop提供的Tool、Configured和ToolRunnerUtilities。publicstaticvoidmain(String[]args)throwsException{intres=ToolRunner.run(newConfiguration(),newMapReduce(),args);System.exit(res);}@Overridepublicintrun(String[]args)throwsException{//Configuratio

ubuntu - Accumulo 的 Start-all.sh 抛出多个关于 : Max open files on localhost 的警告

我收到关于以下内容的多个警告:WARN:Maxopenfilesonlocalhostis1024,recommend32768我不确定这是关于什么的。/usr/local/accumulo$./bin/start-all.sh&[1]27142/usr/local/accumulo$StartingmonitoronlocalhostWARN:Maxopenfilesonlocalhostis1024,recommend32768Startingtabletservers....doneStartingtserveronlocalhostWARN:Maxopenfilesonloca

python - Windows 10 上的 Spark。 'Files\Spark\bin\..\jars"“\”未被识别为内部或外部命令

我对Spark感到非常沮丧。一个晚上都在想我做错了什么,但我已经卸载并重新安装了好几次,遵循了所有指示非常相似路径的多个指南。在cmd提示符下,我正在尝试运行:pyspark或spark-shell我遵循的步骤包括从以下位置下载预构建的包:https://spark.apache.org/downloads.html包括带有hadoop2.3的spark2.0.2和带有hadoop2.7的spark2.1.0。都不起作用,我收到此错误:'Files\Spark\bin\..\jars""\'isnotrecognizedasaninternalorexternalcommand,ope

java - Hadoop : Tools for visualizing key value data and files for development

是否有任何简单、易于启动的java工具来可视化来自mapreduce作业目录的键/值数据?具体来说,我想浏览一个20个作业的mapreduceworkflow,点击单个文件并查看数据,甚至可能看到文件大小的直方图。这里有一些注意事项,例如-一些文件有序列化数据(不仅仅是文本)显然,这个系统在“云规模”上使用可能会很愚蠢,而不是一个开发工具。尽管如此,这样的工具对于开发和本地调试大型连接的m/r管道很有用。这是出于开发目的(我不是试图在真实集群中可视化分布式键/值hadoop数据)。 最佳答案 检查KarmaSphereStudioM

hadoop - Hive No files matching path file 和 file Exists

我在让hive工作时遇到了很多麻烦。我正在使用YARN运行CDH4.5,所有这些都是从Cloudera的yum存储库安装的。我按照他们的说明设置了配置单元,但出于某种原因,它无法识别我本地文件系统上的合法文件。[msknapp@localhostdata]$pwd/home/msknapp/data[msknapp@localhostdata]$ll|grepcounty_insurance_pp.txt-rw-rw-rw-1msknappmsknapp162537Jan514:58county_insurance_pp.txt[msknapp@localhostdata]$sudo-