件名

java - 如何在spark RDD(JavaRDD)中获取记录的文件名

我正在使用JavaRDD加载多个文件JavaRDDallLines=sc.textFile(hdfs://path/*.csv);加载文件后，我修改了每条记录并想保存它们。但是，我还需要将原始文件名(ID)与记录一起保存，以备将来引用。无论如何，我可以从RDD中的单个记录中获取原始文件名吗？谢谢最佳答案您可以尝试执行以下代码段中的操作:JavaPairRDDjavaPairRDD=sc.newAPIHadoopFile("hdfs://path/*.csv",TextInputFormat.class,LongWritable.

何在 JavaRDD String Tuple2 Tuple java hadoop apache-spark hdfs

java - Spark 输出文件名并在写入时追加

我知道之前有人问过这个问题，但我无法得到明确的工作答案。result.saveAsTextFile(path);当使用sparksaveAsTextFile时，输出以“part-00”、“part-01”等名称保存。是否可以将此名称更改为自定义名称？saveAsTextFile是否可以附加到现有文件而不是覆盖它？我使用Java7进行编码，输出文件系统将是云(Azure、Aws) 最佳答案 1)saveAsTextFile方法没有直接支持控制文件输出名称。您可以尝试使用saveAsHadoopDataset来控制输出文件basenam

入时 Spark section saveAsTextFile 自定 java azure hadoop apache-spark

Hadoop DistCp 通过重命名处理相同的文件名

有什么方法可以运行DistCp，但可以选择在文件名冲突时重命名？也许用一个例子来解释是最容易的。假设我正在将hdfs:///foo复制到hdfs:///bar，foo包含这些文件:hdfs:///foo/ahdfs:///foo/bhdfs:///foo/cbar包含这些:hdfs:///bar/ahdfs:///bar/b然后在复制之后，我希望bar包含如下内容:hdfs:///bar/ahdfs:///bar/a-copy1hdfs:///bar/bhdfs:///bar/b-copy1hdfs:///bar/c如果没有这样的选择，最可靠/最有效的方法是什么？我自己开发的distc

过重命名 hdfs section code hadoop mapreduce distcp

java - 如何在 Hadoop Reduce 中获取当前文件名

我正在使用WordCount例如，在Reduce函数中，我需要获取文件名。publicstaticclassReduceextendsMapReduceBaseimplementsReducer{publicvoidreduce(Textkey,Iteratorvalues,OutputCollectoroutput,Reporterreporter)throwsIOException{intsum=0;while(values.hasNext()){sum+=values.next().get();}Stringfilename=((FileSplit)(.getContext())

何在 Hadoop code section IntWritable java

java - 运行 Hadoop MapReduce 作业时如何获取文件名/文件内容作为 MAP 的键/值输入？

我正在创建一个程序来分析PDF、DOC和DOCX文件。这些文件存储在HDFS中。当我开始我的MapReduce作业时，我希望map函数将文件名作为键，将二进制内容作为值。然后我想创建一个流阅读器，我可以将其传递给PDF解析器库。如何实现映射阶段的键/值对是文件名/文件内容？我正在使用Hadoop0.20.2这是启Action业的旧代码:publicstaticvoidmain(String[]args)throwsException{JobConfconf=newJobConf(PdfReader.class);conf.setJobName("pdfreader");conf.set

MapReduce Hadoop section conf class java distributed-system

java - 扩展 SequenceFileInputFormat 以包含文件名+偏移量

我希望能够创建一个自定义的InputFormat来读取序列文件，但另外公开记录所在文件中的文件路径和偏移量。退后一步，这里是用例:我有一个包含可变大小数据的序列文件。键大多是无关紧要的，值高达几兆字节，包含各种不同的字段。我想在elasticsearch中索引其中一些字段以及文件名和偏移量。这样，我就可以从elasticsearch中查询到那些字段，然后使用文件名和偏移量返回到序列文件并获取原始记录，而不是将整个东西存储在ES中。我将整个过程作为一个Java程序运行。SequenceFile.Reader类方便地提供了getPosition和seek方法来实现这一点。但是，最终会涉及到

偏移 SequenceFileInputFormat import PathOffsetWritable public java hadoop mapreduce sequencefile

shell - 如何只列出HDFS中的文件名

我想知道是否有任何命令/表达式可以只获取hadoop中的文件名。我只需要获取文件名，当我执行hadoopfs-ls时，它会打印整个路径。我在下面尝试过，但只是想知道是否有更好的方法。hadoopfs-ls|cut-d''-f17 最佳答案以下命令将只返回文件名:hdfsdfs-stat"%n"my/path/*:添加于2021年2月4日其实最近几年我都在用hdfsdfs-ls-d我的/路径/*|awk'{print$8}'和hdfsdfs-ls我的/路径|grep-e"^-"|awk'{print$8}'

shell HDFS section code hadoop

hadoop - 如何在 Hadoop 程序的映射器中获取输入文件名？

如何在映射器中获取输入文件的名称？我有多个输入文件存储在输入目录中，每个映射器可能读取不同的文件，我需要知道映射器读取了哪个文件。最佳答案首先您需要获取输入拆分，使用较新的mapreduceAPI可以按如下方式完成:context.getInputSplit();但为了获取文件路径和文件名，您需要先将结果类型转换为FileSplit。因此，为了获取输入文件路径，您可以执行以下操作:PathfilePath=((FileSplit)context.getInputSplit()).getPath();StringfilePathS

射器何在 section getInputSplit hadoop mapreduce

php - 小写和大写文件名

我在我的本地主机上使用了codeigniter框架，我在Windows上使用驼峰命名法(UserModel，DbModel)命名了我的一些模型和Controller。现在当我将文件上传到服务器(在linux上运行)时，脚本正在尝试加载全部小写的所有文件，所以我得到404错误，因为脚本正在寻找用户模型而不是用户模型，有什么办法可以解决这个问题？最佳答案欢迎来到“被残废的spl_autoload()实现激怒”俱乐部。你基本上可以1.将所有文件重命名为小写或2.编写/查找一个查找正确文件名的自动加载器。Here'sSymofony's

php 小写 section 命名俱乐 codeigniter camelcasing

PHP Mustache 2.1 部分加载不基于文件名

有没有一种方法可以根据文件名值数组加载部分文件？目前，如果我编写此{{>sidebar}}，它将查找views/sidebar.mustache。(基于模板加载器类，我可以在其中指定查找模板的位置)理想情况下，我希望{{>sidebar}}是一个变量名而不是文件名。如果我传递给加载程序，我想要实现的是寻找不基于文件名的边栏部分:$partials=array('sidebar'=>'folder1/somefile');这将转换为:views/folder1/somefile.mustache。最佳答案您可以通过添加新的部分加载

Mustache PHP code partials section partial-views

123 124 125126127 128 129