hdfs-audit_草庐IT

hadoop - 为什么匿名 FTP 到 HDFS DistCp 不起作用？

我尝试使用以下命令将FTP数据复制到HDFS，hadoopdistcpftp://ftp.ncdc.noaa.gov/pub/data/noaa/1901/data/noaa/1901/这是我收到的错误15/03/0411:29:13INFOtools.DistCp:InputOptions:DistCpOptions{atomicCommit=false,syncFolder=false,deleteMissing=false,ignoreFailures=false,maxMaps=20,sslConfigurationFile='null',copyStrategy='unifo

匿名 hadoop apache DistCp ftp hdfs anonymous-users

r - 将 Hive 表从 HDFS 移动到 Amazon Redshift

我尝试将通过连接4-5个数据集创建的Hive表传输到Redshift。这个过程应该如何实现？我们在边缘节点上有可用的R。Hive表必须先传输到S3，然后从s3传输到Redshift。这是唯一的方法吗？是否可以使用R，即使用RHive包将我的数据集从HDFS移动到R，然后将该数据集从R移动到Redshift？最佳答案您可以使用RJDBC连接到Redshift(Redshift是pgsql)。因此，您可以使用从配置单元读取一行，并使用R中的RJDBC将其加载到Redshift。您创建1000个或更多的批处理并插入Redshift。如

Redshift Amazon section stackoverflow r hadoop hive amazon-redshift

hadoop - 如果我们使用Sqoop从MySql导入数据到HDFS，HDFS存储的文件格式是什么？

如果我们使用Sqoop从MySql导入数据到HDFS，HDFS存储的文件格式是什么最佳答案 Sqoop已将您的数据导入为逗号分隔的文本文件。它支持许多其他文件格式，可以使用下面列出的参数激活控制导入命令文件格式的mSqoop参数参数--as-avrodatafileDataisimportedasAvrofiles.--as-sequencefileDataisimportedasSequenceFiles.--as-textfileThedefaultfileformat,withimporteddataasCSVtextfil

HDFS hadoop section imported

security - 在 HDFS 中创建一次写入文件

我有一个正在努力解决的要求。我的目标是创建一个在后台自动捕获的用户进程和命令的历史文件，创建一个实时存档到Hadoop的历史文件。日志系统连接终止后，用户不应编辑或删除该文件。我当前的结构将我的日志系统通过管道传输到hadoopfs-put-命令。问题是创建的文件归用户所有，使他们能够删除该文件。有没有办法让目录级别的执行权限覆盖HDFS中的用户所有权权限？还有另一种方法可以解决这个问题吗？最佳答案我不确定，您是在寻找hdfs-chmod还是-chown命令？关于security-

建一中创 section 历史文件该文 security hadoop hdfs

hadoop - Jcascalog 查询 HDFS 上的 thrift 数据

我读了NathanMarz关于lambda架构的书。实际上，我正在对这个解决方案进行概念验证。我在构建Jcascalog查询时遇到困难。这是我们感兴趣的节俭模式的一部分:unionArticlePropertyValue{1:decimalquantity,2:stringname;}unionArticleID{1:intid;}structArticleProperty{1:requiredArticleIDid;2:requiredArticlePropertyValueproperty;}unionDataUnit{1:TicketPropertyticket_property

Jcascalog hadoop 34 predicate section hdfs thrift cascalog lambda-architecture

hadoop - 将 MS Access 数据 Sqooping 到 HDFS - Hadoop

我有一个用例，我需要将MicrosoftAccess数据导入/Sqoop到hdfs。是否有任何驱动程序可用于MS访问Sqoop数据。有没有人遇到过这样的情况。请留下您的评论和意见。最佳答案看起来不支持访问。Here是sqoop支持的数据库列表。最近的是MicrosoftSQL服务器here.主要要求是连接到数据库的jdbc驱动程序。关于hadoop-将MSAccess数据Sqooping到HDFS-Hadoop，我们在StackOverflow上找到一个类似的问题：

Sqooping hadoop section noreferrer noopener ms-access-2010 hdfs sqoop cloudera-cdh

hadoop - 插入 Hive 表时如何从 HDFS 中选择动态文件名

我有一个Hive表。现在我需要编写一个工作流程，每天工作都会在某个位置搜索文件-/data/data_YYYY-mm-dd.csvlike/data/data_2015-07-07.csv/data/data_2015-07-08.csv...因此每天工作流都会自动选择文件名并将数据加载到Hive表(MyTable)中。我正在编写如下加载脚本-在路径中加载数据“/data/${filepath}”覆盖到表MyTable。现在，在运行与普通配置单元作业相同的同时，我可以将文件路径设置为data_2015-07-07.csv，但如何在Oozie协调器中执行此操作，以便它自动选择名称为日期的

中选 hadoop gt lt 34 hive oozie oozie-coordinator

java - 如何从 Mapreduce 作业查询存储在 hdfs 中的嵌入式数据库？

我正在尝试从HadoopMapReduce映射器查询GeoLite数据库以解析IP地址的国家/地区。我尝试了两种方法:1.使用File仅适用于本地文件系统，我收到一个文件未找到异常Filedatabase=newFile("hdfs://localhost:9000/input/GeoLite2-City.mmdb");//2.使用流，但在运行时出现此错误Error:JavaHeapSpacePathpt=newPath("hdfs://localhost:9000/input/GeoLite2-City.mmdb");FileSystemfs=FileSystem.get(newCo

Mapreduce java section DatabaseReader code hadoop geolocation hdfs

hadoop - 为 julia 安装 HDFS 接口(interface)包

我是Julia语言的新手，觉得它很有趣。正如它所说的那样，它已经准备好hadoop我想使用我的本地hadoop集群来测试它。我在我的debian32位机器上安装了最新版本的julia，并编写了一些简单的脚本，类似于Helloworld之类的东西。现在，我已经从下面的站点中提取了HDFS和YARN接口(interface)包https://github.com/JuliaParallel/HDFS.jlhttps://github.com/JuliaParallel/Elly.jl不知道如何在我的机器上安装这些并使用这些包来查询HDFS集群并运行一些map-reduce任务。任何指针在这

interface hadoop section JuliaParallel https julia

azure - Pig 无法在 HDFS (riskfactor.pig) 中创建(或查找)pigjobs 文件

我在Azure上使用HortonWorks沙箱，并且正在研究Hadoop入门教程“实验室3-pig风险因素分析”。http://hortonworks.com/hadoop-tutorial/hello-world-an-introduction-to-hadoop-hcatalog-hive-and-pig/#section_5在执行完所有步骤之后，运行这个pig脚本:a=LOAD'geolocation'usingorg.apache.hive.hcatalog.pig.HCatLoader();b=filterabyevent!='normal';c=foreachbgenera

中创 riskfactor apache hadoop java azure apache-pig hdfs hortonworks-data-platform