草庐IT

local-variables

全部标签

hadoop - 动态加载文件时的 Spark Streaming 和 Data Locality

我正在运行一个spark流应用程序,它从Kafka接收HDFS上的文件路径,应该打开这些文件并对它们执行某种计算。问题是我无法享受数据局部性的好处,因为执行程序可能在任何节点上运行,而打开文件的执行程序不一定是持有文件的执行程序。有没有一种方法可以按照我介绍的方式动态打开文件,同时保持数据局部性?谢谢,丹尼尔 最佳答案 我不确定你打开文件的意思,如果你能分享一些代码会很有帮助,但如果你使用的是sc.textFile,那是一个RDD转换。转换被集群管理器安排为任务,因此不一定会从运行DStream转换的执行器节点执行。

hadoop - 缺少 Hive 执行 Jar :/usr/local/apache-hive-2. 1.0-bin/lib/hive-exec-*.jar

运行hive时出现以下错误MissingHiveExecutionJar:/usr/local/apache-hive-2.1.0-bin/lib/hive-exec-*.jar查看所有相关帖子,例如MissingHiveExecutionJar:/usr/local/hadoop/hive/lib/hive-exec-*.jar但没有帮助..!!几乎什么都试过了按照这里的步骤安装http://www.bogotobogo.com/Hadoop/BigData_hadoop_Hive_Install_On_Ubuntu_16_04.php这是我的所有设置#HADOOPVARIABLES

hadoop - Data locality 概念是否也适用于 Reducers?

我的理解:数据局部性的概念仅适用于Mapper,因为它处理输入文件。Reducers在处理时是否也会使用Datalocality概念?数据局部性:数据局部性是指通过对数据进行计算而不是从其位置请求数据来处理数据所在的位置。在计算数据时,Mappers和Reducers会工作。映射器在计算数据时使用数据局部性。Reducers将输入作为Mappers的输出。假设Mappers输出(中间数据)存储在不同的数据节点。Reducers在计算时是否使用数据局部性? 最佳答案 不,数据局部性概念仅适用于MAPPERS。Reducer是根据par

java - Apache Spark : Update global variables in workers

我很好奇下面的简单代码是否可以在分布式环境中工作(它在独立环境中可以正常工作)?publicclassTestClass{privatestaticdouble[][]testArray=newdouble[4][];publicstaticvoidmain(String[]args){for(inti=0;itestRDD=sc.textFile("testfile",4).mapPartitionsWithIndex(newFunction2,Iterator>(){@OverridepublicIteratorcall(Integerind,Iterators){/*Update

java - 从 Windows 机器加载 Hive 表(Load data local inpath)

我正在尝试使用来自Windows的文件加载Hive表。但是我收到以下错误:java.sql.SQLException:Errorwhilecompilingstatement:FAILED:IllegalArgumentExceptionjava.net.URISyntaxException:Expectedscheme-specificpartatindex2:C:我正在使用TalendETL工具来处理文件。下面是Talend生成的代码:Stringpath_tHiveLoad_1="file:///C:/employee.txt";Stringtablename_tHiveLoad

variables - 获取当前日期并将其设置为变量,以便将其用作 HIVE 中的表名

我想以YYMMDD的形式获取当前日期,然后将其设置为变量以便将其用作表名。这是我的代码:setdates=date+%Y-%m-%d;CREATEEXTERNALTABLEIFNOTEXISTSdates(idSTRING,regionSTRING,citySTRING)但是这个方法不行,因为好像赋值不对。有什么想法吗? 最佳答案 Hive不计算变量,它按原样替换它们,在您的情况下,它将正是这个字符串'date+%Y-%m-%d'。也不可能使用像current_date()这样的UDF来代替DDL中的表名。解决方案是在shell中计

hadoop - 执行 Pig 脚本 -x local script.pig 和 just script.pig 之间的区别

目前我正在执行我的脚本:/usr/bin/pig/somepath/myscript.pig出于某种原因,pig总是卡在这个阶段。2014-01-2816:49:31,328[main]INFOorg.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MapReduceLauncher-0%complete如果我用`/usr/bin/pig-xlocal/somepath/myscript.pig`出于某种原因提示路径:Input(s):Failedtoreaddatafrom"file:///path_from_root

hadoop - "LOAD DATA LOCAL INPATH"如何到远程hiveserver

我想使用“LOADDATALOCALINPATH..”在本地机器上导入文件但是,我不能导入$beeline-ujdbc:hive2://example:10000-e"LOADDATALOCALINPATH'tmp/file_20161024.dat'OVERWRITEINTOTABLEsome_tablePARTITION(dt=20161024);"Connectingtojdbc:hive2://example:10000Connectedto:ApacheHive(version2.1.0)Driver:HiveJDBC(version1.2.1)Transactionisol

java - Jobtracker API 错误 - 调用 localhost/127.0.0.1 :50030 failed on local exception: java. io.EOFException

我正在尝试使用Java连接我的jobtracker。下面显示的是我正在尝试执行的程序publicstaticvoidmain(Stringargs[])throwsIOException{Configurationconf=newConfiguration();conf.addResource(newPath("/home/user/hadoop-1.0.3/conf/core-site.xml"));conf.addResource(newPath("/home/user/hadoop-1.0.3/conf/hdfs-site.xml"));conf.addResource(newP

java - Apache Spark :-Nullpointer Exception on broadcast variables (YARN Cluster mode)

我有一个简单的spark应用程序,我试图在YARN集群上广播一个String类型的变量。但是每次我尝试访问广播变量值时,我都会在任务中得到空值。如果你们可以提出建议,那将非常有帮助,我在这里做错了什么。我的代码如下:-publicclassTestAppimplementsSerializable{staticBroadcastmongoConnectionString;publicstaticvoidmain(String[]args){StringmongoBaseURL=args[0];SparkConfsparkConf=newSparkConf().setAppName(Co