hdfs_clusters_草庐IT

mysql - Scoop 选择性导出 hdfs 到 mysql

我在HDFS中有一个“test”表，其中包含列(id、name、city、salary)。我想将(name,city)导出到MySQL但是当我使用--columns使用SQOOP命令时，选择的MySQL列不是hdfs中的测试表列，hdfs中id列的数据被转移到name，hdfs的name列被转移到MySQL中的城市列。有什么方法可以从hdfs中选择一个特定的列并传递给它吗？最佳答案这里我们可以使用--hcatalog-tabletablename，它只会从hive表中获取所需的列，而不是--export-dir，它会获取一个目录

hadoop - 数据从 Kafka 流向 HDFS 时，Flume 空间不足错误

我们正在努力处理从Kafka到由Flume管理的HDFS的数据流。由于下述异常，数据未完全传输到hdfs。然而这个错误看起来误导了我们，我们在数据目录和hdfs中都有足够的空间。我们认为这可能是channel配置的问题，但我们对其他来源也有类似的配置，并且对它们工作正常。如果有人必须处理这个问题，我将不胜感激。17Aug201714:15:24,335ERROR[Log-BackgroundWorker-channel1](org.apache.flume.channel.file.Log$BackgroundWorker.run:1204)-Errordoingcheckpointj

流向 hadoop channel java agent2 apache-kafka hdfs flume flume-ng

hadoop - 通过 hdfs API 将文件上传到 hdfs 会导致文件被附加并预先加上签名

我的目标是上传文件，这是我的代码:headers={'Some_Auth_Stuff':_get_ca_cert(ROLE),'Host':host,}files={'upload_file':file}params=(('op','create'),('permission','755'))r=requests.put('https://proxystuff.hostname.com/fs%s'%hue_path,headers=headers,files=files,params=params)ifr.status_code==201:returnTruereturnFalse我正

hdfs 预先 section code 39 hadoop

hadoop - 从 HDFS 中以 dd-MM-yyyy 格式删除文件夹一年

如何按年删除hadoop中的一堆目录？该文件夹每天创建一次。命名方案是“dd-mm-yyyy”。如何删除特定年份的文件夹？我尝试获取像hadoopfs-find/"*1995"这样的文件夹列表，但我无法通过将它们传送到rm命令来删除它们。最佳答案 HadoopCLI支持递归rm(需要删除目录)和通配符:hadoopfs-rm-r-f/path/*-1995 关于hadoop-从HDFS中以dd-MM-yyyy格式删除文件夹一年，我们在StackOverflow上找到一个类似的问题：

dd-MM-yyyy hadoop section code hdfs

hadoop - hdfs dfs -put : Exception in createBlockOutputStream and java. io.EOFException:过早的 EOF:没有可用的长度前缀

并且我检查了显示处于不健康状态的数据节点的webUI。我不知道为什么会这样。最佳答案这是因为你的配置或datanode的任何异常终止(在那个节点上做任何操作)hdfsdfs-put没有内部问题，只需验证目录中的内容或使用命令hdfsdfs-ls/请说明您的问题，除非您不知道要做什么，否则错误不能成为问题陈述。关于hadoop-hdfsdfs-put:ExceptionincreateBlockOutputStreamandjava.io.EOFException:过早的EOF:没有

createBlockOutputStream EOFException section code stackoverflow hadoop hdfs

java - Hadoop Java - 将文件从Windows共享文件夹服务器复制到HDFS

我想从Windows共享文件夹服务器上传多个文件(例如//server_name/folder/)使用Java到我的HDFS我尝试过的方法列表org.apache.hadoop.fs.FileUtil设置输入路径=//server_name/folder/它说java.io.FileNotFoundException:文件//server_name/folder/不存在FileSystem.copyFromLocalFile(我认为这是从本地hadoop服务器到hdfs服务器)IOUtils.copyBytes与fileUtil相同>>文件不存在一个简单的File.renameTo与f

Windows Hadoop section FileSystem server_name java hdfs

hadoop - Apache Drill 无法从 HDFS 读取文件(资源错误 : Failed to create schema tree)

在我们的HDFS集群的一个边缘节点上设置drill后，我无法读取任何hdfs文件。我可以从本地文件查询数据(只要它们位于具有777权限的文件夹中)但是从hdfs查询数据失败并出现以下错误:Error:RESOURCEERROR:Failedtocreateschematree.[ErrorId:d9f7908c-6c3b-49c0-a11e-71c004d27f46onserver-name:31010](state=,code=0)查询:0:jdbc:drill:zk=local>select*fromhdfs.`/names/city.parquet`limit2;从本地文件查询工

hadoop Apache section code pre apache-drill

xml - Pyspark:hdfs 中没有这样的文件或目录

我正在尝试使用pyspark解析xml文件。我的文件存在于HDFS中。我在下面写了我的代码，但是当我执行它时，它无法识别位置。请帮忙-下面是我的代码代码:importxml.etree.ElementTreeasETfilenme=sc.wholeTextFiles("/user/root/CDs")defadd_hrk(file):tree=ET.parse(file)doc=tree.getroot()filenme.map(lambda(filename,content):filename).foreach(add_hrk)错误:IOError:[Errno2]Nosuchfil

Pyspark hdfs strong section code xml hadoop elementtree

hadoop - Hive 无法在 hdfs 中创建目录并且无法启动？

我正在远程模式下部署hive2.3，在另一台机器上使用mysql数据库作为Metastore。我即将完成整个过程，我正在通过运行bin/hive检查部署是否正常工作然后我得到这个错误:Exceptioninthread"main"java.lang.RuntimeException:Couldn'tcreatedirectory/user/hive/tmp/54de671c-0236-49e2-b967-7c3da8973f3a_resources我知道这是由hive-site.xml中的属性hive.downloaded.resources.dir设置的。我将其设置为/user/hi

hadoop Hive section code

scala - Cassandra 全表转储到 HDFS

我正在尝试使用来自Datastax的Spark-Cassandra连接器(v2.0.2，Sparkv2.0.0):valdf=sparkSession.sparkContext.cassandraTable[MyRec](keyspace,tableName).toDF()df.write.format("orc").save(hdfsLocation)它看起来非常简单并且运行了一段时间但我开始遇到这样的异常:Causedby:com.datastax.driver.core.exceptions.ReadFailureException:Cassandrafailureduringr

Cassandra scala code spark section hadoop apache-spark spark-dataframe