草庐IT

write-host

全部标签

hadoop - 运行 ssh-host-config

我尝试在安装Cygwin后运行ssh-host-config。它因以下错误而失败:$**ssh-host-config**/usr/bin/ssh-host-config:line49:/usr/share/csih/cygwin-service-installation-helper.sh:Nosuchfileordirectory物理文件在路径中可用。我验证了PATH变量,它指向D:\cygwin\bin;D:\cygwin\usr\bin。我还运行了挂载命令:D:/cygwin/binon/usr/bintypentfs(binary,auto)D:/cygwin/libon/u

hadoop - Hadoop DataNode 错误 : host:port authority

伙计们。当我尝试运行hadoop集群时,但我没有成功。主要错误是这样的:但奇怪的是,除了dataNode,NameNode、JobTracker、SecondNameNode和TaskTracker都没问题。我的其他配置是这样的:hdfs-site.xml核心站点.xmlmapred-site.xml 最佳答案 我不确定它是否有帮助,但是checkthispage从那里引用,EventhoughtIconfiguredthecore-site.xml,mapred-site.xml&hdfs-site.xmlunder/usr/lo

hadoop - 无法启动 TaskTracker.Says 无法启动任务跟踪器,因为 java.lang.IllegalArgumentException : Does not contain a valid host:port authority:

编辑了mapred-site.xml、core-site.xml、hadoop-env.sh、hdfs-site.xml、masters和slaves。我有1个DataNode和2个Namenode。它们都成功启动,我可以在浏览器中看到它们。启动了start-mapred.sh并在Namenode上启动了JobTracker和TaskTracker,但无法在datanaode上启动Tasktracker。启动Tasktracker,输出如下。->hadooptasktrackerWarning:$HADOOP_HOMEisdeprecated.13/10/1703:21:55INFOm

hadoop -/etc/hosts文件如何影响datanode和namenode的连接?

我现在正在建立一个hadoop集群(4台机器包括1台运行namenode和jobTracker的master,3台运行dataNode和TaskTracker的slave)。但遗憾的是所有datanode无法连接到9000端口上的master。当我使用sudonetsat-ntlp,结果是:tcp000.0.0.0:521930.0.0.0:*LISTEN-tcp000.0.0.0:20490.0.0.0:*LISTEN-tcp000.0.0.0:392670.0.0.0:*LISTEN7284/rpc.mountdtcp000.0.0.0:332190.0.0.0:*LISTEN72

hadoop - 从非 hdfs 源读取时 namenode.LeaseExpiredException 而 df.write.parquet

我有一个在yarn集群上运行并使用databricks库将csv转换为parquet的spark代码。当csv源是hdfs时它工作正常。但是当csv源不是hdfs时(通常是这种情况),我遇到了这个异常。它不应该发生,因为相同的代码适用于hdfscsv源。问题的完整链接:https://issues.apache.org/jira/browse/SPARK-19344 最佳答案 如评论中所述。当文件位于驱动程序节点上,但节点无法访问时,读取将失败。当使用读取输入文件时(例如spark2.0中的spark.read),所有执行程序节点都

hadoop - 在配置单元 "Unable to retrieve URL for Hadoop Task logs. Does not contain a valid host:port authority: local"上出现错误

在涉及mapreduce的hive上执行任何查询时,我收到此错误。“UnabletoretrieveURLforHadoopTasklogs.Doesnotcontainavalidhost:portauthority:local” 最佳答案 报告的异常出现在旧版本的Hadoop中(即YARN之前)。大多数情况下,您使用的是旧版本的Hadoop。当mapred.job.tracker的值出现异常参数在local中设置为“mapred-site.xml”相反,它应该是:. 关于hadoop

scala - Spark 流 : Write Data to HDFS by reading from one HDFSdir to another

我正在尝试使用SparkStreaming将数据从一个HDFS位置读取到另一个位置下面是我在spark-shell上的代码片段但我看不到在HDFS输出目录上创建的文件能否指出如何在HDFS上加载文件scala>sc.stop()scala>importorg.apache.spark.SparkConfscala>importorg.apache.spark.streamingscala>importorg.apache.spark.streaming.{StreamingContext,Seconds}scala>valconf=newSparkConf().setMaster("l

Hadoop/MapReduce : Reading and writing classes generated from DDL

谁能带我了解使用从DDL生成的类读写数据的基本工作流程?我已经使用DDL定义了一些类似结构的记录。例如:classCustomer{ustringFirstName;ustringLastName;ustringCardNo;longLastPurchase;}我编译它以获得一个Customer类并将其包含到我的项目中。我可以很容易地看到如何将其用作映射器和缩减器的输入和输出(生成的类实现了可写),但看不到如何将其读取和写入文件。org.apache.hadoop.record包的JavaDoc谈到以二进制、CSV或XML格式序列化这些记录。我该怎么做呢?假设我的reducer生成In

hadoop - ArrayIndexOutOfBoundsException 在 MapOutputBuffer$Buffer.write 在 MapTask (Hadoop 2.7.1)

在Hadoop2.7.1上运行的Scalding驱Action业中出现ArrayIndexOutOfBounds的情况非常奇怪。下面的映射器日志转储。看起来Equator在spill2中以某种方式设置为负数。这正常吗?2015-08-1223:39:19,649INFO[main]org.apache.hadoop.mapred.MapTask:numReduceTasks:12015-08-1223:39:20,174INFO[main]org.apache.hadoop.mapred.MapTask:(EQUATOR)0kvi469762044(1879048176)2015-08

hadoop - sqlContext.read...load() 和 sqlContext.write...save() 代码在 Spark Cluster 上运行在哪里?

我正在使用SparkDataframeAPI从NFS共享加载/读取文件,然后将该文件的数据保存/写入HDFS。我有一个包含一个主节点和两个工作节点的三节点Spark集群。我的Spark集群使用YARN作为集群管理器,因此两个工作节点是YARNNodeManager节点,主节点是YarnResourceManager节点。我有一个远程位置,比如/data/files,它安装到所有三个YARN/SPARK节点,因为它是[/data/files],其中存在我想要读取的所有csv文件[多个]从并最终写入HDFS。我在我的主节点上运行以下代码importjava.io.Fileimportorg