草庐IT

hdfs_clusters

全部标签

ubuntu - 将 csv 日志文件从 Windows 服务器转储到 ubuntu VirtualBox/hadoop/hdfs

我们每天都以csv的形式从应用程序中获取新文件,这些文件存储在Windows服务器中,比如c:/programfiles(x86)/webapps/apachetomcat/.csv每个文件中都有不同的数据,所以有没有hadoop组件将文件从Windows服务器传输到hadoophdfs,我遇到了flume,kafka但没有得到正确的例子,任何人都可以在这里遮光。所以每个文件都有单独的名称,大小可达10-20mb,每天的文件数超过200个文件,一旦文件添加到Windows服务器,flume/kafka应该能够将这些文件放入hadoop,以后的文件是从spark处理的HDFS导入并移动到

sql-server - 将 SQL Server 数据库导入 HDFS 或 HIVE

我在Azure上部署了一个hdinsight集群。我需要将SQL数据库复制到Hdfs位置或直接复制到配置单元。我是建立这些联系的新手。请让我知道建议。谢谢。 最佳答案 看来您并不清楚您到底需要什么。您能否提供有关此任务的更多详细信息?但同时我建议您验证Hive或HDFS的配置文件(.xml)和连接。以下链接可能对您的调试有帮助:https://learn.microsoft.com/en-us/azure/hdinsight/hdinsight-use-hivehttps://msdn.microsoft.com/en-us/lib

hadoop - 重启后 HDFS block 损坏

我在ubuntu16.10上安装了Hadoop一切正常:我能够在HDFS中上传输入文件并执行map-reduce操作。但是当我重新启动我的PC时,所有HDFSblock都已损坏并且NameNode以安全模式启动所以我必须1)退出安全模式2)删除所有损坏的blockhdfsfsck-delete3)重新上传输入文件然后它可以正常工作,直到下次重新启动。有人可以帮我解决这个问题吗?谢谢 最佳答案 我解决了我的问题。我使用此链接检查我的配置文件http://www.bogotobogo.com/Hadoop/BigData_hadoop_

hadoop - 从 HDFS 加载数据到 hive

这个问题在这里已经有了答案:HowtoloaddatatohivefromHDFSwithoutremovingthesourcefile?(3个答案)关闭5年前。谁能解释如何在不删除源文件的情况下将数据从HDFS加载到Hive外部表。如果我使用LOADDATAINPATH'/user/root/cards/deckofcards.txt'INTOTABLEdeck_of_cards;文件用户/user/root/cards会被删除吗?

java - 如何使用 Java 在 HDFS 中创建和填充 Parquet 文件?

在没有Hive或Impala库支持的情况下,使用Java在HDFS中创建和填充Parquet文件的最佳方法是什么?我的目标是将一个简单的csv记录(字符串)写入位于HDFS中的Parquet文件。之前提出的所有问题/答案都令人困惑。 最佳答案 好像parquet-mr是要走的路。他们提供Thrift和Avro的实现。自己的实现应该基于ParquetOutputFormat可能看起来类似于AvroParquetOutputFormat和AvroWriteSupport进行实际转换。 关于j

python hdfs 远程上传文件到hdfs

我想通过python模块“hdfs”将文件远程上传到我的hdfs。我的hadoop在我的linux上运行,但我想远程上传我windows(或其他电脑)上的文件。当我使用如下代码时:fromhdfsimportInsecureClientclient=InsecureClient('http://xx.xx.xx.xx:50070',user='user')我可以使用client.walk('/')查看目录,但我无法上传文件,它引发如下错误:requests.packages.urllib3.exceptions.NewConnectionError::Failedtoestablish

Java 代码无法完全从 HDFS 读取文件

我正在从HDFS读取文件。我正在使用下面的代码来实现这一点。publicclassClassMain{publicstaticvoidmain(String[]args)throwsIOException{Configurationconf=newConfiguration();FileSystemfs=FileSystem.get(conf);PathinFile=newPath(args[1]);PathoutFile=newPath(args[2]);FSDataInputStreamin=fs.open(inFile);FSDataOutputStreamout=fs.crea

java - 从数据帧 'java.lang.IllegalArgumentException: Wrong FS: file:/tmp/spark expected: hdfs://nameservice1' 创建 Hive 表时出错

我是spark的新手。我正在尝试开发一个使用Spark1.6将json数据保存到Hive表的应用程序。这是我的代码:valrdd=sc.parallelize(Seq(arr.toString))//arristheJsonarrayvaldataframe=hiveContext.read.json(rdd)dataframe.registerTempTable("RiskRecon_tmp")hiveContext.sql("DROPTABLEIFEXISTSRiskRecon_TOES")hiveContext.sql("CREATETABLERiskRecon_TOESasse

hadoop - HDFS 命令占用 100% cpu 的问题

我有一个hdfs服务器,我目前正在其中进行流式传输。我还定期使用以下类型命令访问此服务器以检查某些条件:hdfsdfs-find/user/cdh/streameddata/-name*_processed但是,在TOP中监视时,我开始看到此命令占用了我CPU的大部分:cdh1691919913:03?00:43:45/opt/jdk/bin/java-Xmx1000m-Djava.net.preferIPv4Stack=true-Dhadoop.log.dir=/var/log/hadoop-Dhadoop.log.file=hadoop.log-Dhadoop.home.dir=/

java - Spark SQL 看不到 hdfs 文件

我有一个spark应用程序,它在集群AWSEMR上运行。我已将文件添加到hdfs:javaSparkContext.addFile(filePath,recursive);hdfs上存在文件(可用日志:文件可读/可执行/可写),但我无法使用sparkSQLAPI从该文件读取信息:LOGGER.info("Sparkworkingdirectory:"+path);Filefile=newFile(path+"/test.avro");LOGGER.info("SPARKPATH:"+file);LOGGER.info("read:"+file.canRead());LOGGER.inf