hdfs_rtp

Hadoop hdfs 与 ext3

我在网上读到ext3文件系统适合运行hadoop。(http://wiki.apache.org/hadoop/DiskSetup见页尾)那为什么我们需要hdfs我假设hdfs是一个文件系统，ext3是另一种类型的文件系统请告诉我ext3和hdfs在hadoop中是如何工作的？谢谢。最佳答案 HDFS是分布式文件系统，这意味着文件被分成更小的部分，这些部分存储在不同的节点/服务器上。特定节点/服务器可以使用ext3文件系统，这意味着HDFS文件部分以ext3物理存储在磁盘上。关于Ha

python - 在 python 中运行 hdfs dfsadmin 命令

看着snakebite，它是一个很棒的python包，用于运行hadoopfs命令集我需要从python中运行hadoopdfsadmin命令集。编写需要运行命令的工具，例如hadoopdfsadmin-report和hadoopdfsadmin-refreshNodes那么，对于所有在hadoop操作任务上编写工具的优秀python开发人员，运行这些命令集的推荐方法是什么？脱壳很贵，有没有其他推荐的方法/建议？最佳答案您可以使用hdfsthrift库。我不确定图书馆有多完整，但这里有一些链接。最好的选择是为Python引用Cl

中运 python hadoop 命令集 section hdfs

hadoop - 与本地文件系统相比，序列文件是否有助于提高 HDFS 的读取性能？

我想比较HDFS和本地文件系统对1000个小文件(1-2mb)的性能。在不使用序列文件的情况下，与本地文件系统相比，HDFS读取1000个文件所花费的时间几乎是其两倍。我听说这里有序列文件-SmallFilesProbleminHDFS我想为HDFS显示比本地FS更好的响应时间来检索这些记录。序列文件会有帮助还是我应该寻找其他东西？(可能是HBase)编辑:我正在使用Java程序读取此处的文件HDFSReadthoughJava 最佳答案是的，对于简单的文件检索，抓取单个序列文件比抓取1000个文件要快得多。从HDFS读取时，您会

有助于有助 section HDFS 1000 hadoop filesystems performance-testing sequencefile

hadoop - Flume: kafka channel 和 hdfs sink get unable to deliver event 错误

我想尝试这个新的Flafka流程:只使用kafkachannel将数据传输到hdfssink。我从更容易监控的kafkachannel和记录器接收器中尝试了它。我的配置文件是:#Namethecomponentsonthisagenta1.sinks=sink1a1.channels=channel1a1.channels.channel1.type=org.apache.flume.channel.kafka.KafkaChannela1.channels.channel1.brokerList=localhost:9093,localhost:9094a1.channels.cha

channel deliver MonitoredCounterGroup apache hadoop hdfs apache-kafka flume flume-ng

java - 如何使用 java 从 hdfs 读取多个文件？

我一直在研究Hadoop，现在我正试图找出一种从目录中读取多个文件的方法。当我读取文件时，下面的代码工作正常。从hdfs读取多个文件并从每个文件读取每一行的最佳方法是什么。try{Pathpt=newPath("hdfs://profile/generate/work/output/errors.txt");FileSystemfs=FileSystem.get(job.getConfiguration());BufferedReaderbr=newBufferedReader(newInputStreamReader(fs.open(pt)));Stringline;line=br.

java hdfs section line BufferedReader hadoop

hadoop - 如何通过集群中的oozie工作流将文本文件加载到hdfs

我正在尝试使用oozie在配置单元脚本中加载文本/csv文件并每天安排它。文本文件在本地unix文件系统中。在oozie工作流中执行配置单元脚本之前，我需要将这些文本文件放入hdfs。在实时集群中，我们不知道作业将在哪个节点上运行。它会在集群中的任何一个节点上随机运行。谁能给我解决方案提前致谢。最佳答案不确定我明白你想做什么。在我看来，它行不通:Oozie服务器只能访问HDFS文件(与Hive相同)您的数据在某处的本地文件系统上那么为什么不事先将文件加载到HDFS中呢？可以在文件可用时(上游作业中的后处理操作)或在固定时间(使用

本文 hadoop section 配置单 hdfs oozie

hadoop - 是否可以使用 C# 应用程序连接 Ubuntu HDFS

我在Ubuntu环境中有HDFS，是否可以使用C#应用程序(Windows操作系统)连接UbuntuHDFS。所有系统都通过局域网连接。我想从HDFS读取简单的CSV文件。我想知道这是否可能。最佳答案如果您使用的是HortonworksAzureHDInsight，则可以直接使用C#访问HDFS。在您的情况下，您正在尝试从Windows操作系统读取。请尝试使用webhdfs。但它需要配置。详情请查看以下网址。网址:http://hadoop.apache.org/docs/r2.4.1/hadoop-hdfs-httpfs/

C#hadoop section

使用子进程 hdfs "cat: Illegal file pattern: Illegal character range near index 11"打开 Python HDFS 文件

我正在尝试加载存储在HDFS中的Hadoop集群上的informatica日志文件。我在Python中使用subprocess来执行此操作，但相信由于文件名而出现错误，我不确定如何解决它。我得到的错误是“cat:非法文件模式:索引11附近的非法字符范围”我的代码是:input=subprocess.Popen(["hadoop","fs","-cat",'/corp_staffs/IT/IICOE/process/infa_stats/WorkflowLogs/infra.[08-04-2015-(15_19)].1438719569664.log'],stdout=subproces

Illegal amp section subprocess 34 python hadoop hdfs cat

apache - 在从 drill 查询 HDFS 时需要帮助

我的笔记本电脑上安装了drill和zookeeper。我在笔记本电脑上启动了HDFS，发现可以查询HDFS中的csv和json文件。现在我想查询位于另一台笔记本电脑中的文件。因此，我在另一台笔记本电脑上启动了hdfs，当我给出select*查询时，它失败了(尽管我可以毫无问题地执行showfiles查询)。我收到的错误在保管箱链接中:https://www.dropbox.com/s/5bgyw4jetweczoj/drill.log?dl=0两台笔记本电脑都运行UbuntuApache钻孔版本:1.1.0我有以下问题:1)能否在hadoop集群外的机器上运行drill，查询集群内的h

apache drill section 笔记 hadoop hdfs apache-drill

hadoop - 显示仅在特定日期创建的 HDFS 上的 hadoop 文件

我想在特定日期创建的特定文件夹下显示HDFS上的hadoop文件，有执行此操作的命令/选项吗？提前致谢，林最佳答案据我所知，hadoop命令不支持这个。你可以写一个脚本来实现这个，这不是一个好的实现。我的建议:以更方便使用的方式组织您的文件。就你的情况而言，制作一个时间分区会更好。如果你想让数据分析更容易，使用一些基于hdfs的数据库，比如hive.hive支持分区和sql查询和插入。关于hive和hive分区的更多信息:https://hive.apache.org/https://cwiki.apache.org/confl

hadoop HDFS code section https

102 103 104105106 107 108