hdfs_rtp

azure - 如何在 hdfs 中启用校验和值？

如何在hdfs中启用校验和值。在azure的hdinsight集群顶部使用hadoop(Hadoop2.7.3)。我尝试使用此命令检查校验和值:-hadoopfs-checksum/filename.txt然后校验和值为NONE。阅读here“通常的校验和是‘无’。所以我的问题是如何启用校验和值？最佳答案请尝试在AzureHDInsight上为HDFS命令。hadoopfs-checksumwasbs://containername@xxxx.blob.core.windows.net/folder/filename.txt

何在 azure section hadoop code hdfs azure-hdinsight

hadoop - 在 HDFS 中递归合并多个文件

我在HDFS中的文件夹路径结构是这样的:/data/topicname/year=2017/month=02/day=28/hour=00/data/topicname/year=2017/month=02/day=28/hour=01/data/topicname/year=2017/month=02/day=28/hour=02/data/topicname/year=2017/month=02/day=28/hour=03在这些路径中，我有许多小的json文件。我正在编写一个shell脚本，它可以根据路径将所有这些单独目录中存在的所有文件合并为一个单独的文件名。例子:/data/

hadoop HDFS topicname 2017 code

java - NiFi - 自定义 orc 处理器为类 org.apache.hadoop.hdfs.DistributedFileSystem 提供 NoClassDefFoundError

我正在尝试在ApacheNiFi中开发一个自定义处理器，它将orc文件直接写入远程hadoop集群。为了编写它们，我正在使用orccoreapi.我尝试在本地FS上写入文件，它们没问题:hive，这是它们的“最终目的地”，读取它们没有问题。问题是，在尝试创建Writer对象时，我得到了org.apache.hadoop.hdfs.DistributedFileSystem类的NoClassDefFoundError。这是使用的代码:Configurationconf=newConfiguration();conf.addResource(newPath(hadoopConfigurat

自定 DistributedFileSystem hadoop section strong java hdfs apache-nifi orc

java - 如何设置 winutils.exe 的确切路径以使用 Java 访问 HDFS？

在我的系统变量中，HADOOP_HOME设置为C:\hadoop-2.7.2\bin我尝试使用以下代码访问HDFS:FileSystemhdfs=FileSystem.get(newConfiguration());PathhomeDir=hdfs.getHomeDirectory();运行时错误:17/03/1310:49:39ERRORutil.Shell:Failedtolocatethewinutilsbinaryinthehadoopbinarypathjava.io.IOException:CouldnotlocateexecutableC:\hadoop-2.7.2\bi

winutils 的确 FileSystem hadoop code java windows hdfs hadoop2

windows - 无法在项目 hadoop-hdfs :1. 上执行目标 maven maven-antrun-plugin : An Ant BuildException around Ant part hadoop-hdfsproject hadoop-hdfs:? 7

我正在尝试在装有Windows10家庭版的开发计算机上构建以下hadoop版本hadoop-2.7.3-src以下是我本地开发环境的详细信息:-Windows10家庭版-英特尔酷睿i5-6200UCPU@2.30GHz-RAM16GB-64位操作系统，基于x64的处理器-MicrosoftVisualStudioCommunity2015版本14.0.25431.01更新3-.NETFramework4.6.01586-cmake版本3.7.2-CYGWIN_NT-10.0LTPBCV82DUG2.7.0(0.306/5/3)2017-02-1213:18x86_64Cygwin-ja

hadoop hadoop-hdfs apache java windows build hdfs bigdata

hadoop - 使用 apache ignite 在 hdfs 上写一个文件

我想借助ignitewritethroughcache在hdfs中插入数据。我正在使用以下示例配置文件来运行点燃节点。ignite.sh/app/apache-ignite-fabric-1.9.0-bin/examples/config/filesystem/example-igfs.xml这是我的core-site.xml文件fs.defaultFShdfs://hmaster:9000/fs.file.implorg.apache.hadoop.fs.LocalFileSystemorg.apache.ignite.hadoop.fs.v1.IgniteHadoopFileSys

hadoop apache code gt lt hdfs ignite

excel - flume 加载 csv 文件优于 hdfs sink

我已将我的Flume源配置为Spooldir类型。我有很多CSV文件，.xl3和.xls，我希望我的Flume代理将所有文件从spooldir加载到HDFS接收器。但是flume代理返回异常这是我的水槽源配置:agent.sources.s1.type=spooldiragent.sources.s1.spoolDir=/my-directoryagent.sources.s1.basenameHeader=trueagent.sources.batchSize=10000和我的HDFS接收器:agent.sinks.sk1.type=hdfsagent.sinks.sk1.hdfs.

优于 excel agent hdfs agent1 csv hadoop flume

mongodb - 使用 Pig 将 HDFS 数据存储到 MongoDB

我是Hadoop新手，需要将Hadoop数据存储到MongoDB中。这里我使用Pig将Hadoop中的数据存储到MongoDB中。我下载并注册了以下驱动程序，以便在给定命令的帮助下在PigGruntshell中执行此操作，REGISTER/home/miracle/Downloads/mongo-hadoop-pig-2.0.2.jarREGISTER/home/miracle/Downloads/mongo-java-driver-3.4.2.jarREGISTER/home/miracle/Downloads/mongo-hadoop-core-2.0.2.jar在此之后，我使用以

mongodb hadoop apache 2017 apache-pig mongo-java-driver

hadoop - 在哪里可以查看最近的 HDFS 使用统计信息(文件夹、文件、时间戳)？

在过去的10天里，我发现HDFS上的磁盘使用量很大。正如我在ClouderaManager的Hosts选项卡上的DataNode主机和HDFS服务上的DiskUsage图表中看到的那样，服务使用率几乎增加了两倍，从~7TB到~20TB。起初我以为这是我在这10天中的第6天升级到CM和CDH时做错了什么，但后来意识到它已经开始发生了。我首先检查了ClouderaManager上的文件浏览器，但发现那里的大小数字与之前没有区别。我还有过去4天的磁盘使用报告，他们说没有增加。运行hdfsdfsadmin-report也会返回相同的结果。Linux上的dfs文件夹证实了使用量的增加，但我不知道

hadoop HDFS section 的 cloudera diskspace

hadoop - 如何使用 Sqoop 将列类型 SDO_GEOMETRY 从 Oracle 导入到 HDFS？

问题我正在使用Sqoop从Oracle获取数据并将其放入HDFS。与其他基本数据类型不同，我知道SDO_GEOMETRY用于空间数据。我的Sqoop作业在获取数据类型SDO_GEOMETRY时失败。需要帮助将数据类型为SDO_GEOMETRY的列Shape从Oracle导入到Hdfs。我有超过1000个具有SDO_GEOMETRY数据类型的表，当sqoop导入发生时，我如何处理一般数据类型？我已经尝试了--map-column-java和--map-column-hive，但我仍然遇到错误。error:ERRORtool.ImportTool:EncounteredIOExceptio

SDO_GEOMETRY GEOMETRY column section strong hadoop hive hdfs sqoop bigdata

140 141 142143144 145 146