hdfs_clusters

java - 如何使用 java 从 hdfs 读取多个文件？

我一直在研究Hadoop，现在我正试图找出一种从目录中读取多个文件的方法。当我读取文件时，下面的代码工作正常。从hdfs读取多个文件并从每个文件读取每一行的最佳方法是什么。try{Pathpt=newPath("hdfs://profile/generate/work/output/errors.txt");FileSystemfs=FileSystem.get(job.getConfiguration());BufferedReaderbr=newBufferedReader(newInputStreamReader(fs.open(pt)));Stringline;line=br.

hadoop - 如何通过集群中的oozie工作流将文本文件加载到hdfs

我正在尝试使用oozie在配置单元脚本中加载文本/csv文件并每天安排它。文本文件在本地unix文件系统中。在oozie工作流中执行配置单元脚本之前，我需要将这些文本文件放入hdfs。在实时集群中，我们不知道作业将在哪个节点上运行。它会在集群中的任何一个节点上随机运行。谁能给我解决方案提前致谢。最佳答案不确定我明白你想做什么。在我看来，它行不通:Oozie服务器只能访问HDFS文件(与Hive相同)您的数据在某处的本地文件系统上那么为什么不事先将文件加载到HDFS中呢？可以在文件可用时(上游作业中的后处理操作)或在固定时间(使用

本文 hadoop section 配置单 hdfs oozie

hadoop - 是否可以使用 C# 应用程序连接 Ubuntu HDFS

我在Ubuntu环境中有HDFS，是否可以使用C#应用程序(Windows操作系统)连接UbuntuHDFS。所有系统都通过局域网连接。我想从HDFS读取简单的CSV文件。我想知道这是否可能。最佳答案如果您使用的是HortonworksAzureHDInsight，则可以直接使用C#访问HDFS。在您的情况下，您正在尝试从Windows操作系统读取。请尝试使用webhdfs。但它需要配置。详情请查看以下网址。网址:http://hadoop.apache.org/docs/r2.4.1/hadoop-hdfs-httpfs/

C#hadoop section

使用子进程 hdfs "cat: Illegal file pattern: Illegal character range near index 11"打开 Python HDFS 文件

我正在尝试加载存储在HDFS中的Hadoop集群上的informatica日志文件。我在Python中使用subprocess来执行此操作，但相信由于文件名而出现错误，我不确定如何解决它。我得到的错误是“cat:非法文件模式:索引11附近的非法字符范围”我的代码是:input=subprocess.Popen(["hadoop","fs","-cat",'/corp_staffs/IT/IICOE/process/infa_stats/WorkflowLogs/infra.[08-04-2015-(15_19)].1438719569664.log'],stdout=subproces

Illegal amp section subprocess 34 python hadoop hdfs cat

apache - 在从 drill 查询 HDFS 时需要帮助

我的笔记本电脑上安装了drill和zookeeper。我在笔记本电脑上启动了HDFS，发现可以查询HDFS中的csv和json文件。现在我想查询位于另一台笔记本电脑中的文件。因此，我在另一台笔记本电脑上启动了hdfs，当我给出select*查询时，它失败了(尽管我可以毫无问题地执行showfiles查询)。我收到的错误在保管箱链接中:https://www.dropbox.com/s/5bgyw4jetweczoj/drill.log?dl=0两台笔记本电脑都运行UbuntuApache钻孔版本:1.1.0我有以下问题:1)能否在hadoop集群外的机器上运行drill，查询集群内的h

apache drill section 笔记 hadoop hdfs apache-drill

hadoop - 显示仅在特定日期创建的 HDFS 上的 hadoop 文件

我想在特定日期创建的特定文件夹下显示HDFS上的hadoop文件，有执行此操作的命令/选项吗？提前致谢，林最佳答案据我所知，hadoop命令不支持这个。你可以写一个脚本来实现这个，这不是一个好的实现。我的建议:以更方便使用的方式组织您的文件。就你的情况而言，制作一个时间分区会更好。如果你想让数据分析更容易，使用一些基于hdfs的数据库，比如hive.hive支持分区和sql查询和插入。关于hive和hive分区的更多信息:https://hive.apache.org/https://cwiki.apache.org/confl

hadoop HDFS code section https

java - Hive 无法在 hdfs 中写入数据

我们编写了一个Storm三叉戟拓扑，它将使用配置单元将数据插入到hdfs中，但是我们遇到了以下异常。我不确定发生了什么，我也没有在谷歌上找到任何帮助:(2015-08-2412:35:40o.a.h.h.s.AbstractRecordWriter[ERROR]Failedcreatingrecordupdaterjava.io.IOException:java.lang.InterruptedExceptionatorg.apache.hadoop.ipc.Client.call(Client.java:1448)~[hadoop-common-2.6.0.2.2.6.0-2800.

java Hive hadoop apache apache-storm

linux shell - 检查今天的文件，如果今天没有就上传到hdfs 如果不是今天就不要上传。给出文件已存在的消息

我想检查一个目录是否在今天创建。如果是，则将其上传到HDFS，但如果目录的修改日期不同，则输出该目录已复制到HDFS。#!/bin/shexportDATA_PATH=/data/1/sanket#Wewillenterthedirectorywherewewanttocheckotherdirectoriescd$DATA_PATH#Detailsofdirectorieswillbetransferedintono_of_files.txtls-lh$DATA_PATH/>>temp/no_of_files.txt#Wewillextractnameofthefilefromabo

传到 linux code DATA_PATH date bash shell hadoop

hadoop - hadoop hdfs命令中的moveFromLocal vs put和CopyToLocal vs get之间有什么区别

基本上，moveFromLocal和copyToLocal之间的主要区别是什么，而不是在hadoop的CLI中使用put和get命令。最佳答案 moveFromLocal:类似于put命令，只是源localsrc复制后被删除。copyToLocal:与get命令类似，但目标仅限于本地文件引用。Source. 关于hadoop-hadoophdfs命令中的moveFromLocalvsput和CopyToLocalvsget之间有什么区别，我们在StackOverflow上找到一个类似的

hadoop moveFromLocal section strong

mysql - 问题 - 将数据从 mysql 导入 HDFS

我正在尝试将表“employee”从MySQL(安装在我的笔记本电脑上)导入HDFS(也在我笔记本电脑上的VM上)我也已经授予了MySQL的所有权限..成功地使用了以下命令授予root@192.168.56.1对.的所有权限，通过“root”WITHGRANTOPTION进行标识；可能是什么问题..请帮忙!!下面的错误来了[edureka@localhostsqoop-1.4.4]$bin/sqoopimport--connectjdbc:mysql://192.168.56.1/test--tableemployee--usernameroot-P--target-dir/out/1

mysql HDFS java apache sqoop hadoop import

113 114 115116117 118 119