local_variables

hadoop - Data locality 概念是否也适用于 Reducers？

我的理解:数据局部性的概念仅适用于Mapper，因为它处理输入文件。Reducers在处理时是否也会使用Datalocality概念？数据局部性:数据局部性是指通过对数据进行计算而不是从其位置请求数据来处理数据所在的位置。在计算数据时，Mappers和Reducers会工作。映射器在计算数据时使用数据局部性。Reducers将输入作为Mappers的输出。假设Mappers输出(中间数据)存储在不同的数据节点。Reducers在计算时是否使用数据局部性？最佳答案不，数据局部性概念仅适用于MAPPERS。Reducer是根据par

java - Apache Spark : Update global variables in workers

我很好奇下面的简单代码是否可以在分布式环境中工作(它在独立环境中可以正常工作)？publicclassTestClass{privatestaticdouble[][]testArray=newdouble[4][];publicstaticvoidmain(String[]args){for(inti=0;itestRDD=sc.textFile("testfile",4).mapPartitionsWithIndex(newFunction2,Iterator>(){@OverridepublicIteratorcall(Integerind,Iterators){/*Update

variables workers section 中工 String java hadoop mapreduce apache-spark

java - 从 Windows 机器加载 Hive 表(Load data local inpath)

我正在尝试使用来自Windows的文件加载Hive表。但是我收到以下错误:java.sql.SQLException:Errorwhilecompilingstatement:FAILED:IllegalArgumentExceptionjava.net.URISyntaxException:Expectedscheme-specificpartatindex2:C:我正在使用TalendETL工具来处理文件。下面是Talend生成的代码:Stringpath_tHiveLoad_1="file:///C:/employee.txt";Stringtablename_tHiveLoad

Windows inpath section tHiveLoad 34 java hadoop hive talend

variables - 获取当前日期并将其设置为变量，以便将其用作 HIVE 中的表名

我想以YYMMDD的形式获取当前日期，然后将其设置为变量以便将其用作表名。这是我的代码:setdates=date+%Y-%m-%d;CREATEEXTERNALTABLEIFNOTEXISTSdates(idSTRING,regionSTRING,citySTRING)但是这个方法不行，因为好像赋值不对。有什么想法吗？最佳答案 Hive不计算变量，它按原样替换它们，在您的情况下，它将正是这个字符串'date+%Y-%m-%d'。也不可能使用像current_date()这样的UDF来代替DDL中的表名。解决方案是在shell中计

并将用作 code section date variables hadoop hive hiveql

hadoop - 执行 Pig 脚本 -x local script.pig 和 just script.pig 之间的区别

目前我正在执行我的脚本:/usr/bin/pig/somepath/myscript.pig出于某种原因，pig总是卡在这个阶段。2014-01-2816:49:31,328[main]INFOorg.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MapReduceLauncher-0%complete如果我用`/usr/bin/pig-xlocal/somepath/myscript.pig`出于某种原因提示路径:Input(s):Failedtoreaddatafrom"file:///path_from_root

script pig strong code hadoop apache-pig

hadoop - "LOAD DATA LOCAL INPATH"如何到远程hiveserver

我想使用“LOADDATALOCALINPATH..”在本地机器上导入文件但是，我不能导入$beeline-ujdbc:hive2://example:10000-e"LOADDATALOCALINPATH'tmp/file_20161024.dat'OVERWRITEINTOTABLEsome_tablePARTITION(dt=20161024);"Connectingtojdbc:hive2://example:10000Connectedto:ApacheHive(version2.1.0)Driver:HiveJDBC(version1.2.1)Transactionisol

hiveserver amp 20161024 code section hadoop hive beeline

java - Jobtracker API 错误 - 调用 localhost/127.0.0.1 :50030 failed on local exception: java. io.EOFException

我正在尝试使用Java连接我的jobtracker。下面显示的是我正在尝试执行的程序publicstaticvoidmain(Stringargs[])throwsIOException{Configurationconf=newConfiguration();conf.addResource(newPath("/home/user/hadoop-1.0.3/conf/core-site.xml"));conf.addResource(newPath("/home/user/hadoop-1.0.3/conf/hdfs-site.xml"));conf.addResource(newP

java EOFException hadoop conf mapreduce hdfs

java - Apache Spark :-Nullpointer Exception on broadcast variables (YARN Cluster mode)

我有一个简单的spark应用程序，我试图在YARN集群上广播一个String类型的变量。但是每次我尝试访问广播变量值时，我都会在任务中得到空值。如果你们可以提出建议，那将非常有帮助，我在这里做错了什么。我的代码如下:-publicclassTestAppimplementsSerializable{staticBroadcastmongoConnectionString;publicstaticvoidmain(String[]args){StringmongoBaseURL=args[0];SparkConfsparkConf=newSparkConf().setAppName(Co

Nullpointer Exception section mongoConnectionString javaSchemaRDD java hadoop apache-spark cloud hadoop-yarn

hadoop - 在 Hive 中， "Load data local inpath"是覆盖现有数据还是追加？

我希望在cron上运行到Hive的导入，并且希望只使用“将数据本地输入路径‘/tmp/data/x’加载到表X”到表中就足够了。后续命令会覆盖表中已有的内容吗？还是会追加？最佳答案本站http://wiki.apache.org/hadoop/Hive/LanguageManual在处理Hive时是你的friend。:)解决将数据加载到Hive的页面是http://wiki.apache.org/hadoop/Hive/LanguageManual/DML该页面指出iftheOVERWRITEkeywordisusedthent

amp hadoop section Hive the hbase hdfs

hadoop - PIG local和mapreduce模式的区别

在本地运行PIG脚本和在mapreduce上运行的实际区别是什么？我了解mapreduce模式是在安装了hdfs的集群上运行它。这是否意味着本地模式不需要HDFS，因此甚至不会触发mapreduce作业？有什么区别，你什么时候和另一个？最佳答案本地模式将构建一个模拟的mapreduce作业，该作业从磁盘上的本地文件运行。理论上相当于MapReduce，但它不是“真正的”mr工作。从用户的角度来看，您不应该能够分辨出差异。本地模式非常适合开发。关于hadoop-PIGlocal和ma

mapreduce hadoop section stackoverflow hdfs apache-pig

66 67 686970 71 72