草庐IT

client_address

全部标签

hadoop - 在 spark 上执行 hive 查询 - java.lang.NoClassDefFoundError org/apache/hive/spark/client/Job

我试图让HiveonSpark正常工作,但它似乎没有加载hive-exec-2.0.1.jar。我可以让Hiveonmr工作得很好。我正在使用Hive2.0.1和Spark1.6.1。遵循了HiveonSpark教程。我在hive-site.xml上设置了所有必要的属性,将sparkassemblyjar链接到hivelib文件夹中,我已经设置了所有环境变量(SPARK_HOME等)。我启动了Sparkmaster和worker。还以DEBUG级别启动了hiveserver2。尝试运行一个简单的查询“selectcount(*)...”,据我在配置单元日志中看到的那样,它执行带有所有必

hadoop - 配置 hadoop-client 以连接到其他机器/服务器中的 hadoop

在服务器A上,我有用于在hadoop上执行任务的hadoop和python脚本。在服务器B上,我有配置单元/hadoop。是否可以在服务器A上配置hadoop-client连接到服务器B上的hadoop? 最佳答案 不清楚您使用的是什么Python库,但假设是PySpark,您可以在客户端计算机上复制或配置HADOOP_CONF_DIR,它可以与任何外部Hadoop系统通信。至少,您需要配置一个core-site.xml来与HDFS通信,并配置一个hive-site.xml来与Hive通信。如果您使用PyHivelibrary,您只

hadoop - 报告平台应该选择 yarn-cluster 还是 yarn-client?

我打算做的是使用现有数据开发一个报告平台。我有一个包含大量记录的现有RDBMS。所以我在用。(Hadoop2.7,Spark,Hive,JasperReports,Scoop-Architecuture)Scoop-将数据从RDBMS提取到HadoopHadoop-存储平台Hive-数据仓库Spark-因为Hive更像是批处理Hive上的Spark会加快速度JasperReports-生成报告。鉴于我已经阅读了以下内容Whatisyarn-clientmodeinSpark?Differencebetweenyarn-clientmodeandyarn-clustermode我应该使用

python - 无法在 yarn-client 模式下运行 pyspark(pyspark standalone 正在运行)

我可以在输入以下命令时运行spark$pyspark和$pyspark--masterlocal[2]但当我运行这个时不是-$pyspark--masteryarn客户端它给了我一个巨大的堆栈跟踪,它在下面给出或更清楚地可用here$pyspark--masteryarn-clientPython2.7.6(default,Jun222015,17:58:13)[GCC4.8.2]onlinux2Type"help","copyright","credits"or"license"formoreinformation.Warning:Masteryarn-clientisdepreca

hadoop - fs.http.address ip 更改后,cloudera vm hadoop Hive 失败

我正在使用ClouderaVM(cdh3u2)作为模拟的分布式文件系统。为了从Web服务器执行文件创建和写入,我更改了fs.http.address属性以指向VMIP。此功能工作正常。当HIVE执行类似mapreduce的作业时,问题就出现了SELECTCOUNT(*)FROMtmp2;我得到的信息是:hive>selectcount(*)fromtmp2;TotalMapReducejobs=1LaunchingJob1outof1Numberofreducetasksdeterminedatcompiletime:1Inordertochangetheaverageloadfora

Eclipse MapReduce 插件错误 : Server IPC version 7 cannot cannot communicate with client version 3

当我尝试连接到MapReduce位置时,我的笔记本电脑(我有我的eclipse和mapreduce插件)是一个namenode和datanode的集群,我得到错误:服务器IPC版本7无法与客户端版本3通信。我试图在谷歌上找到一些信息,但找不到太多。是不是因为我的mapreduceeclipse插件使用旧版本的IPC而hadoop集群有更新的版本。所以只是我使用的是过时的插件?如何找到我的eclipse插件使用的IPC版本?有什么想法吗? 最佳答案 是的,这听起来像是版本不兼容。假设您的hadoop发行版有源代码,您可以为该版本重新编

hadoop - 使用不同的 hadoop-mapreduce-client-core.jar 运行 hadoop 集群

我在安装了CDH4.2.0的hadoop集群上工作并遇到了this错误。它已在更高版本的hadoop中得到修复,但我无权更新集群。有没有办法告诉hadoop在通过命令行参数运行我的工作时使用这个jarhadoopjarMyJob.jar-Dhadoop.mapreduce.client=hadoop-mapreduce-client-core-2.0.0-cdh4.2.0.jar新的mapreduce-client-core.jar文件是票证中的补丁jar。或者必须用这个新的jar完全重新编译hadoop?我是hadoop的新手,所以我不知道所有可能的命令行选项。

java - Hadoop - java.net.BindException : Address already in use

我的Hadoop安装工作正常,直到我尝试更改端口号。现在,当我运行任何hadoop程序时,我得到:java.net.BindException:Problembindingtolocalhost/127.0.0.1:9010:Addressalreadyinuse9010是在conf/mapred-site.xml中定义的JobTracker的端口号。我尝试更改它,但仍然出现相同的错误。我什至尝试通过bin/stop-all.sh停止Hadoop,然后通过netstat-nl|检查端口是否被使用|grep9010什么也没找到。感谢任何解决此问题的帮助。 最佳

postgresql - 大量导出时出现 Sqoop PSQLException "Sorry, too many clients already"

当从HDFS导出大型(超过200万行)表到Postgres时,我看到Sqoop抛出PSQLException“抱歉,客户端已经太多了”。我有几张较小的table(约300万张),它们似乎运行良好。即使大表出现故障,我的postgres表中似乎仍然有大约200万行,但我猜这只是来自那些没有死的worker,因为他们首先获得了其中一个连接。我的Postgres表配置为允许300个max_connections,并且有大约70个连接始终来自其他应用程序,因此SQOOP应该有大约230个可供使用。我尝试在我的SQOOP导出命令中将--num-mappers切换为2-8,但这似乎并没有太大的区别

hadoop - 错误配置 : namenode address dfs. namenode.servicerpc-address 或 dfs.namenode.rpc-address 没有配置

我正在尝试在ec2-instance上安装Hadoop-2.6.0。我下载并安装了Hadoop。我还设置了环境变量。尝试启动hdfs服务时出现以下错误。[ec2-user@ip-10-177-1-69sbin]$./start-dfs.sh配置不正确:namenode地址dfs.namenode.servicerpc-address或dfs.namenode.rpc-address没有配置。在[]上启动名称节点报错:找不到配置目录:/home/ec2-user/hadoop2.6.0/etc/hadoop报错:找不到配置目录:/home/ec2-user/hadoop2.6.0/etc