草庐IT

regex - 文件名的一部分作为 Hive 表中的列

我想将文件名的第一部分作为Hive表中的一列Myfilenameis:20151102114450.46400_Always_1446482638967.xml我在MicrosoftAzure的Hive中使用正则表达式编写了一个查询(查询下方)以获取它的第一部分,即20151102114450但是当我运行查询时,我得到的输出为20151102164358selectCAST(regexp_replace(regexp_replace(regexp_replace(CAST(CAST(regexp_replace(split(INPUT__FILE__NAME,'[_]')[2],'.x

离子检查文件(路径,文件名)not_found_err

文件路径-file:///data/data/io.ionic.starter/data.json我想检查是否data.json'存在于上述路径中。但是我收到一个错误-{"code":1,"message":"NOT_FOUND_ERR"}目前该文件在路径中不存在,所以我期望承诺<>返回错误的,但最终丢了一个错误。示例代码:varfileName="data.json";this.file.checkFile(this.file.applicationStorageDirectory,fileName).then((result)=>{console.log('fileexists

scala - 使用 spark 仅列出文件夹中的文件名

我必须列出文件夹中的所有文件,并根据文件名将文件保存在不同的文件夹中,使用spark.我写了下面的代码但出现错误splitisnotamemberoforg.hadoop,whileusingoperatorsplit.下面是我的代码,任何人都可以建议我如何消除或克服这个错误。importorg.apache.spark.sql.SparkSessionimportscala.io.Sourceimportorg.apache.hadoop.conf.Configurationimportscala.io.Sourceimportorg.apache.spark.sql.functio

hadoop - 如何更改 hadoop mr 作业中的 reducer 输出文件名?

我有一个reducer脚本需要生成一堆xml文件。我想使用reducer键以编程方式设置文件名。我正在使用MultipleOutputs来完成如下操作。MultipleOutputsmos=newMultipleOutputs(context);mos.write(newText(key),newText(output),key+".xml");但输出文件名类似于key.xml-r-00000。如何从文件名中删除-r-*部分,以便它只是key.xml? 最佳答案 这里的-r-0000表示它是从reducer生成的。我们不能更改它,如

hadoop - 如何在Nifi中过滤文件名

我想从电子邮件附件中提取数据到我的HDFS路径,为此我正在使用Nifi处理器。附件中有多个文件,我想要一个特定的文件。如何在nifi中进行过滤? 最佳答案 如果每个附件文件都作为一个单独的FlowFile,并且您想使用文件名进行过滤,那么您可以使用RouteOnAttribute来过滤感兴趣的附件,然后将其连接到PutHDFS。对于上述场景,可以在RouteOnAttribute中设置如下属性:attachmentOfInterest:${filename:equals("")}如果您不想基于文件名而是基于其他内容进行过滤,您仍然可

hadoop ulimit 打开文件名

我有一个hadoop集群,我们假设它的性能非常“糟糕”。节点非常强大..24个内核,60+GRAM..等。我们想知道是否有一些基本的linux/hadoop默认配置阻止hadoop充分利用我们的硬件。有一个post这里描述了一些我认为可能是真的可能性。我尝试以root、hdfs和我自己的身份登录名称节点,并尝试查看lsof的输出以及ulimit的设置。这是输出,任何人都可以帮助我理解为什么设置与打开的文件数不匹配。例如,当我以root身份登录时。lsof看起来像这样:[root@box~]#lsof|awk'{print$3}'|sort|uniq-c|sort-nr7256cloud

java - 为什么 DistributedCache 会破坏我的文件名

我有一个奇怪的问题,DistributedCache似乎更改了我的文件的名称,它使用原始名称作为父文件夹并将文件添加为子文件夹。即文件夹\文件名.ext变成文件夹\文件名.ext\文件名.ext任何想法,我的代码如下。谢谢阿金塔约StringparamsLocation="/user/fwang/settings/ecgparams.txt";DistributedCache.addCacheFile(newURI(paramsLocation),firstStageConf);Path[]paths=DistributedCache.getLocalCacheFiles(job);f

hadoop - 使用 Hadoop 管道获取 Hadoop 映射器中的文件名

如何在HadoopPipes中获取正在hadoop映射器中执行的输入文件名称?我可以很容易地在基于java的mapreducer中获取文件名,比如FileSplitfileSplit=(FileSplit)context.getInputSplit();  Stringfilename=fileSplit.getPath().getName(); System.out.println("Filename"+filename);System.out.println("DirectoryandFilename"+fileSplit.getPath().toString());但是我怎样才能

shell - 如何在 OOZIE 的决策节点中动态获取文件名?

我想检查文件是否存在,在HDFS位置使用oozie批处理。在我的HDFS位置,在每天晚上11点,我会得到像“test_08_01_2016.csv”、“test_08_02_2016.csv”这样的文件。所以我想在晚上11点15分之后检查文件是否存在,我可以在不使用决策节点时检查文件是否存在。通过使用以下工作流程。${fs:exists("/user/cloudera/file/input/test_08_01_2016.csv")}${jobTracker}${nameNode}jdbc:hive2://quickstart.cloudera:10000/default/user/c

scala - 与文件名中的冒号 ':' 作斗争

我有以下代码用于加载大量“csv.gz”并将它们转储到其他文件夹中,源文件名作为一列。objectDailyMergerextendsApp{defallFiles(path:File):List[File]={valparts=path.listFiles.toList.partition(_.isDirectory)parts._2:::parts._1.flatMap(allFiles)}valsqlContext=SparkSession.builder().appName("DailyMerger").master("local").getOrCreate()valfiles