草庐IT

shell - 模式匹配 "hdfs ds -ls"输出时如何忽略时间戳?

我有存储在HDFS上的文件,其名称后缀有日期,与文件的修改日期不同,如下所示:$hdfsdfs-ls/a/b/c/d/e/*Found5itemsdrwxr-xr-x-xuserxuser02015-05-0113:59/a/b/c/d/e/exp_dt=2016-01-05drwxr-xr-x-xuserxuser02017-10-1015:42/a/b/c/d/e/exp_dt=2015-05-01我正在尝试查找仅具有给定exp_dt的文件。目前,努力如下:inputDir=/a/b/c/d/e/countCmd='hdfsdfs-ls$inputDir|grep'\.2015$'

hadoop - 并行运行 oozie 操作的任何其他选项

目前我的oozie工作流程中有6个操作,如下所示。在MainJob1完成后,所有第一个、第二个和第三个作业应该并行运行。MainJob2完成后,只有第二个和第三个作业应该并行运行。有没有可能解决上述工作流执行方式?....${executionModeeq"DEFAULT"}${executionModeeq"INVALID"}.............................................. 最佳答案 您可以将firstparalleljob、secondparalleljob和thirdparallel

java - 尝试使用 spark shell 计算托管在本地 HDFS 上的文件中的行数时出现 HadoopRDD 错误

我是ApacheSpark、Scala和Hadoop工具的新手。我已经设置了一个新的本地单节点Hadoop集群,如前所述here并且还设置了spark以提供对此Hadoop环境的引用,如前所述here.我能够验证spark-shell、sparkUI已启动并正在运行。此外,我可以使用localhost查看HDFS。.为了更进一步,我将示例文件上传到HDFS,并使用Hadooplocalhost验证它是否可用。现在,我尝试使用Java和spark-shell(Scala)来计算文件中的行数,但是这两个调用都因该堆栈跟踪而失败。Exceptioninthread"dag-scheduler

要打开的 Hadoop 3.1.0 端口

好的——我设法拼凑了三台CentOS7笔记本电脑,安装Hadoop3.1.0,并让所有三个节点运行。对我有好处。所以...需要在所有端口上打开哪些端口各种节点?正在检查http://namenode:9870不错的出现“DatanodeInformation”页面并显示所有三个节点启动并运行。此外,在任何设备上运行命令“hdfsdfsadmin-report”node显示所有正在运行的节点。然而...检查“集群的节点”页面在http://namenode:8088只显示名称节点...我是否也应该看到此页面上的所有数据节点?想知道我是否需要打开一些端口或者我的理解的“集群节点”需要更新.

apache-spark - 由于 java.io.FileNotFoundException :/hadoop/yarn/nm-local-dir/usercache/root/appcache/,Google Dataproc 上的 Spark 失败

几个月来,我一直在通过Zeppelin和Dataproc控制台在Dataproc上使用Spark/Hadoop,但最近我遇到了以下错误。Causedby:java.io.FileNotFoundException:/hadoop/yarn/nm-local-dir/usercache/root/appcache/application_1530998908050_0001/blockmgr-9d6a2308-0d52-40f5-8ef3-0abce2083a9c/21/temp_shuffle_3f65e1ca-ba48-4cb0-a2ae-7a81dcdcf466(Nosuchfil

MongoDB 和 Spark : difference between mongo-hadoop and mongo-spark

mongo-hadoop和mongo-spark连接器有什么区别,pymongo是否只能与mango-hadoop一起使用?pymongo是否只能与mongo-hadoop一起使用? 最佳答案 MongoDBConnectorforHadoop是一个库,它允许MongoDB(或其数据格式的备份文件,BSON)用作HadoopMapReduce任务的输入源或输出目标。它旨在提供更大的灵active和性能,并使MongoDB中的数据与Hadoop生态系统的其他部分(包括以下部分)轻松集成:pigSparkmap化简Hadoop流媒体hi

apache - 控制 HDFS 复制、映射器数量和 reducer 识别

我正在尝试以分布式方式(使用3台计算机的集群)运行ApacheHadoop2.65,并且我想决定映射器和缩减器的数量。我正在使用复制数为1的HDFS,我的输入是3个文件(表)。我想调整数据在系统中的流动方式,为此,我想通过以下方式获得一些帮助吗?以及如何以及在哪里可以更改它?HDFS的复制-我可以干扰HDFS的复制方式吗?例如,确保每个文件存储在不同的计算机上?如果可以,我可以选择哪个它将存储在计算机上吗?映射器数量-我可以更改映射器或输入拆分的数量吗?我知道这取决于输入拆分的数量和block大小。它在网上说我可以通过更改以下参数来做到这一点,但我不知道在哪里?-Dmapred.map

hadoop - AWS Athena 在分区加载后创建缩进并将值移动到错误的列中

我遇到了以下问题:我在没有分区的HDFS中的EMR集群中创建了一个Hive表并向其加载数据。我根据第1段中的表,但带有日期时间的分区列:PARTITIONEDBY(年STRING,月STRING,日STRING)。我将非分区表中的数据加载到分区表中并获得有效结果。我创建了一个Athena数据库和具有与Hive表相同结构的表。我从本地HDFS复制分区文件,并通过awss3sync将所有文件传输到S3空存储桶中。所有文件均已无误地传输,并且传输顺序与HDFS中Hive目录中的顺序相同。我通过MSCKREPAIRTABLE加载分区并且在输出中没有得到任何错误。之后我发现很多值都有缩进,例如需

hadoop - 将可选属性从主 oozie 工作流传递到子工作流

我有一个HDFS_file_path或属性需要从workflow-1传递到common_subworkflow。我还有没有该属性或HDFS_file_path的workflow-2。但是workflow-2调用common_subworkflow。在common_subworkflow中,我使用${HDFS_file_path}获取属性值。当workflow-1调用common_subworkflow时工作正常,但当workflow-2调用common_subworkflow时失败,因为HDFS_file_path在workflow-2中不存在。有什么办法可以读取动态属性(如果存在),

hadoop - Apache pig 错误 org.apache.pig.backend.hadoop.executionengine.Launcher - 错误 : org. apache.avro.file.DataFileWriter$AppendWriteException:

我正在尝试加载一些数据,按特定字段过滤并将输出存储到HDFS。我的代码如下所示:data=LOAD'$inputPath'usingAvroStorage();data=FILTERdatabycondition;STOREdataINTO'$outputPath'usingAvroStorage('schema','$SCHEMA');但我收到一条错误消息:ERRORorg.apache.pig.backend.hadoop.executionengine.Launcher-Error:org.apache.avro.file.DataFileWriter$AppendWriteEx