hdfs_clusters

ubuntu - 将 csv 日志文件从 Windows 服务器转储到 ubuntu VirtualBox/hadoop/hdfs

我们每天都以csv的形式从应用程序中获取新文件，这些文件存储在Windows服务器中，比如c:/programfiles(x86)/webapps/apachetomcat/.csv每个文件中都有不同的数据，所以有没有hadoop组件将文件从Windows服务器传输到hadoophdfs，我遇到了flume，kafka但没有得到正确的例子，任何人都可以在这里遮光。所以每个文件都有单独的名称，大小可达10-20mb，每天的文件数超过200个文件，一旦文件添加到Windows服务器，flume/kafka应该能够将这些文件放入hadoop，以后的文件是从spark处理的HDFS导入并移动到

sql-server - 将 SQL Server 数据库导入 HDFS 或 HIVE

我在Azure上部署了一个hdinsight集群。我需要将SQL数据库复制到Hdfs位置或直接复制到配置单元。我是建立这些联系的新手。请让我知道建议。谢谢。最佳答案看来您并不清楚您到底需要什么。您能否提供有关此任务的更多详细信息？但同时我建议您验证Hive或HDFS的配置文件(.xml)和连接。以下链接可能对您的调试有帮助:https://learn.microsoft.com/en-us/azure/hdinsight/hdinsight-use-hivehttps://msdn.microsoft.com/en-us/lib

sql-server server section hdinsight https hadoop hive sqoop azure-hdinsight

hadoop - 重启后 HDFS block 损坏

我在ubuntu16.10上安装了Hadoop一切正常:我能够在HDFS中上传输入文件并执行map-reduce操作。但是当我重新启动我的PC时，所有HDFSblock都已损坏并且NameNode以安全模式启动所以我必须1)退出安全模式2)删除所有损坏的blockhdfsfsck-delete3)重新上传输入文件然后它可以正常工作，直到下次重新启动。有人可以帮我解决这个问题吗？谢谢最佳答案我解决了我的问题。我使用此链接检查我的配置文件http://www.bogotobogo.com/Hadoop/BigData_hadoop_

hadoop block section BigData_hadoop_Install_on_ubuntu_mapreduce hdfs namenode

hadoop - 从 HDFS 加载数据到 hive

这个问题在这里已经有了答案:HowtoloaddatatohivefromHDFSwithoutremovingthesourcefile?(3个答案)关闭5年前。谁能解释如何在不删除源文件的情况下将数据从HDFS加载到Hive外部表。如果我使用LOADDATAINPATH'/user/root/cards/deckofcards.txt'INTOTABLEdeck_of_cards;文件用户/user/root/cards会被删除吗？

hadoop HDFS section notice code

java - 如何使用 Java 在 HDFS 中创建和填充 Parquet 文件？

在没有Hive或Impala库支持的情况下，使用Java在HDFS中创建和填充Parquet文件的最佳方法是什么？我的目标是将一个简单的csv记录(字符串)写入位于HDFS中的Parquet文件。之前提出的所有问题/答案都令人困惑。最佳答案好像parquet-mr是要走的路。他们提供Thrift和Avro的实现。自己的实现应该基于ParquetOutputFormat可能看起来类似于AvroParquetOutputFormat和AvroWriteSupport进行实际转换。关于j

中创建和 parquet section apache java hadoop hdfs

python hdfs 远程上传文件到hdfs

我想通过python模块“hdfs”将文件远程上传到我的hdfs。我的hadoop在我的linux上运行，但我想远程上传我windows(或其他电脑)上的文件。当我使用如下代码时:fromhdfsimportInsecureClientclient=InsecureClient('http://xx.xx.xx.xx:50070',user='user')我可以使用client.walk('/')查看目录，但我无法上传文件，它引发如下错误:requests.packages.urllib3.exceptions.NewConnectionError::Failedtoestablish

hdfs python section code client hadoop

Java 代码无法完全从 HDFS 读取文件

我正在从HDFS读取文件。我正在使用下面的代码来实现这一点。publicclassClassMain{publicstaticvoidmain(String[]args)throwsIOException{Configurationconf=newConfiguration();FileSystemfs=FileSystem.get(conf);PathinFile=newPath(args[1]);PathoutFile=newPath(args[2]);FSDataInputStreamin=fs.open(inFile);FSDataOutputStreamout=fs.crea

Java HDFS code section buffer hadoop

java - 从数据帧 'java.lang.IllegalArgumentException: Wrong FS: file:/tmp/spark expected: hdfs://nameservice1' 创建 Hive 表时出错

我是spark的新手。我正在尝试开发一个使用Spark1.6将json数据保存到Hive表的应用程序。这是我的代码:valrdd=sc.parallelize(Seq(arr.toString))//arristheJsonarrayvaldataframe=hiveContext.read.json(rdd)dataframe.registerTempTable("RiskRecon_tmp")hiveContext.sql("DROPTABLEIFEXISTSRiskRecon_TOES")hiveContext.sql("CREATETABLERiskRecon_TOESasse

时出 IllegalArgumentException apache spark scala java hadoop apache-spark hive

hadoop - HDFS 命令占用 100% cpu 的问题

我有一个hdfs服务器，我目前正在其中进行流式传输。我还定期使用以下类型命令访问此服务器以检查某些条件:hdfsdfs-find/user/cdh/streameddata/-name*_processed但是，在TOP中监视时，我开始看到此命令占用了我CPU的大部分:cdh1691919913:03?00:43:45/opt/jdk/bin/java-Xmx1000m-Djava.net.preferIPv4Stack=true-Dhadoop.log.dir=/var/log/hadoop-Dhadoop.log.file=hadoop.log-Dhadoop.home.dir=/

hadoop HDFS section Dhadoop

java - Spark SQL 看不到 hdfs 文件

我有一个spark应用程序，它在集群AWSEMR上运行。我已将文件添加到hdfs:javaSparkContext.addFile(filePath,recursive);hdfs上存在文件(可用日志:文件可读/可执行/可写)，但我无法使用sparkSQLAPI从该文件读取信息:LOGGER.info("Sparkworkingdirectory:"+path);Filefile=newFile(path+"/test.avro");LOGGER.info("SPARKPATH:"+file);LOGGER.info("read:"+file.canRead());LOGGER.inf

Spark java 3Calculator scala hadoop apache-spark hdfs

121 122 123124125 126 127