件名

regex - 文件名的一部分作为 Hive 表中的列

我想将文件名的第一部分作为Hive表中的一列Myfilenameis:20151102114450.46400_Always_1446482638967.xml我在MicrosoftAzure的Hive中使用正则表达式编写了一个查询(查询下方)以获取它的第一部分，即20151102114450但是当我运行查询时，我得到的输出为20151102164358selectCAST(regexp_replace(regexp_replace(regexp_replace(CAST(CAST(regexp_replace(split(INPUT__FILE__NAME,'[_]')[2],'.x

regex Hive 39 section code azure hadoop hiveql

离子检查文件（路径，文件名）not_found_err

文件路径-file:///data/data/io.ionic.starter/data.json我想检查是否data.json'存在于上述路径中。但是我收到一个错误-{"code":1,"message":"NOT_FOUND_ERR"}目前该文件在路径中不存在，所以我期望承诺＆lt;＆gt;返回错误的，但最终丢了一个错误。示例代码：varfileName="data.json";this.file.checkFile(this.file.applicationStorageDirectory,fileName).then((result)=>{console.log('fileexists

文件 not_found_err strong 错误 section

scala - 使用 spark 仅列出文件夹中的文件名

我必须列出文件夹中的所有文件，并根据文件名将文件保存在不同的文件夹中，使用spark.我写了下面的代码但出现错误splitisnotamemberoforg.hadoop,whileusingoperatorsplit.下面是我的代码，任何人都可以建议我如何消除或克服这个错误。importorg.apache.spark.sql.SparkSessionimportscala.io.Sourceimportorg.apache.hadoop.conf.Configurationimportscala.io.Sourceimportorg.apache.spark.sql.functio

scala spark import val apache apache-spark hadoop

hadoop - 如何更改 hadoop mr 作业中的 reducer 输出文件名？

我有一个reducer脚本需要生成一堆xml文件。我想使用reducer键以编程方式设置文件名。我正在使用MultipleOutputs来完成如下操作。MultipleOutputsmos=newMultipleOutputs(context);mos.write(newText(key),newText(output),key+".xml");但输出文件名类似于key.xml-r-00000。如何从文件名中删除-r-*部分，以便它只是key.xml？最佳答案这里的-r-0000表示它是从reducer生成的。我们不能更改它，如

hadoop reducer section code MultipleOutputs mapreduce reducers

hadoop - 如何在Nifi中过滤文件名

我想从电子邮件附件中提取数据到我的HDFS路径，为此我正在使用Nifi处理器。附件中有多个文件，我想要一个特定的文件。如何在nifi中进行过滤？最佳答案如果每个附件文件都作为一个单独的FlowFile，并且您想使用文件名进行过滤，那么您可以使用RouteOnAttribute来过滤感兴趣的附件，然后将其连接到PutHDFS。对于上述场景，可以在RouteOnAttribute中设置如下属性:attachmentOfInterest:${filename:equals("")}如果您不想基于文件名而是基于其他内容进行过滤，您仍然可

何在 hadoop code section RouteOnAttribute apache-nifi

hadoop ulimit 打开文件名

我有一个hadoop集群，我们假设它的性能非常“糟糕”。节点非常强大..24个内核，60+GRAM..等。我们想知道是否有一些基本的linux/hadoop默认配置阻止hadoop充分利用我们的硬件。有一个post这里描述了一些我认为可能是真的可能性。我尝试以root、hdfs和我自己的身份登录名称节点，并尝试查看lsof的输出以及ulimit的设置。这是输出，任何人都可以帮助我理解为什么设置与打开的文件数不匹配。例如，当我以root身份登录时。lsof看起来像这样:[root@box~]#lsof|awk'{print$3}'|sort|uniq-c|sort-nr7256cloud

hadoop ulimit code section unlimited

java - 为什么 DistributedCache 会破坏我的文件名

我有一个奇怪的问题，DistributedCache似乎更改了我的文件的名称，它使用原始名称作为父文件夹并将文件添加为子文件夹。即文件夹\文件名.ext变成文件夹\文件名.ext\文件名.ext任何想法，我的代码如下。谢谢阿金塔约StringparamsLocation="/user/fwang/settings/ecgparams.txt";DistributedCache.addCacheFile(newURI(paramsLocation),firstStageConf);Path[]paths=DistributedCache.getLocalCacheFiles(job);f

DistributedCache 破坏 section code java path uri hadoop mapreduce

hadoop - 使用 Hadoop 管道获取 Hadoop 映射器中的文件名

如何在HadoopPipes中获取正在hadoop映射器中执行的输入文件名称？我可以很容易地在基于java的mapreducer中获取文件名，比如FileSplitfileSplit=(FileSplit)context.getInputSplit(); Stringfilename=fileSplit.getPath().getName(); System.out.println("Filename"+filename);System.out.println("DirectoryandFilename"+fileSplit.getPath().toString());但是我怎样才能

射器 Hadoop code section C++hadoop-streaming

shell - 如何在 OOZIE 的决策节点中动态获取文件名？

我想检查文件是否存在，在HDFS位置使用oozie批处理。在我的HDFS位置，在每天晚上11点，我会得到像“test_08_01_2016.csv”、“test_08_02_2016.csv”这样的文件。所以我想在晚上11点15分之后检查文件是否存在，我可以在不使用决策节点时检查文件是否存在。通过使用以下工作流程。${fs:exists("/user/cloudera/file/input/test_08_01_2016.csv")}${jobTracker}${nameNode}jdbc:hive2://quickstart.cloudera:10000/default/user/c

点中何在 lt gt 34 shell hadoop oozie cloudera-cdh oozie-coordinator

scala - 与文件名中的冒号 ':' 作斗争

我有以下代码用于加载大量“csv.gz”并将它们转储到其他文件夹中，源文件名作为一列。objectDailyMergerextendsApp{defallFiles(path:File):List[File]={valparts=path.listFiles.toList.partition(_.isDirectory)parts._2:::parts._1.flatMap(allFiles)}valsqlContext=SparkSession.builder().appName("DailyMerger").master("local").getOrCreate()valfiles

冒号 amp apache org spark scala hadoop apache-spark

51 52 535455 56 57