草庐IT

row-number

全部标签

hadoop - Apache spark 1.2.1 独立集群中的剂量, 'number of executors equals to number of SPARK_WORKER_INSTANCES'?

Apachespark1.2.1Standalone集群中的Dose,“执行程序的数量等于SPARK_WORKER_INSTANCES的数量”?Ihavedonebelowsettinginconf/spark-env.shSPARK_EXECUTOR_CORES=4SPARK_NUM_EXECUTORS=3SPARK_EXECUTOR_MEMORY=2G如果没有,谁能告诉我如何增加独立集群中的执行程序数量?提前致谢。 最佳答案 在独立模式下,总执行器数量等于集群中的总工作器数量。spark-env.sh中的SPARK_WORKER

hadoop - pig SUM FOREACH GROUP ClassCastException : java. lang.String 无法转换为 java.lang.Number

我在hadoop中有一组URL和关联的事务时间。我正在尝试编写一个pig脚本来为我提供每个URL的总交易时间。每次尝试对事务时间求和时,我都会收到ClassCastException。我第一次尝试pig所以任何帮助表示赞赏。我不知道我做错了什么。这是一些输出:url和交易时间grunt>DESCRIBEuLogUrlsuLogUrls:{url:chararray,et:int}grunt>DUMPuLogUrls(/index.jsp,344)(/another/Access.jsp,517)(/index.jsp,5)(/another/NoAccess.jsp,4)(/index

java - 如何将 over rows 与 Spark 和 Java 集成?

我目前正在尝试用Java编写一个Spark作业来计算数据集中列的积分。数据如下所示:DateTimevelocity(inkm/h)vehicle2016-03-2811:00:4580A2016-03-2811:00:4575A2016-03-2811:00:4670A2016-03-2811:00:4768A2016-03-2811:00:4872A2016-03-2811:00:4875A...2016-03-2811:00:4768B2016-03-2811:00:4872B2016-03-2811:00:4875B要计算每条线路的距离(以公里为单位),我必须定义当前线路和下一

hadoop - Row 格式 serde 是创建 Hive 表时要使用的强制参数吗

我像这样在文本文件之上创建了一个临时配置单元表:CREATEEXTERNALTABLEtc(fcString,cnoString,csString,trString,atString,actString,waString,dnString,pnmString,rskString,ttpString,tteString,amlString,pnString,ttnString)ROWFORMATDELIMITEDFIELDSTERMINATEDBY‘,’STOREDASTEXTFILElocation'/home/hbaseuser/tc';然后我创建了一个这样的ORC表:CREATEE

hadoop - 亚马逊弹性 MapReduce : the number of launched map task

在MapReduce作业流程步骤的“系统日志”中,我看到以下内容:JobCountersLaunchedreducetasks=4Launchedmaptasks=39启动的maptask数是否包含失败的任务?我使用NLineInputFormat类作为输入格式来管理maptask的数量。但是,对于完全相同的输入,我偶尔会得到略有不同的数字,或者取决于实例的数量(10、15和20)。谁能告诉我为什么我看到启动的任务数量不同? 最佳答案 这很可能是推测性执行的启动。当Hadoop有可用资源时,它可能会选择同时运行同一任务的两次尝试。启

hadoop - 自定义分区程序 : N number of keys to N different files

我的要求是编写自定义分区程序。例如,我有N个来自映射器的键('jsa'、'msa'、'jbac')。长度不固定。事实上,它可以是任何词。我的要求是以这样一种方式编写自定义分区程序,它将所有相同的key数据收集到同一个文件中。键数不固定。在此先感谢您。谢谢,萨提斯。 最佳答案 因此,您有多个映射器正在输出的键,并且您希望每个键都有不同的缩减器,并且每个键都有一个单独的文件。因此,首先编写Partitioner可能是实现该目标的一种方式。默认情况下,hadoop有自己的内部逻辑,它在键上执行,并根据它调用reducer。因此,如果您想编

hadoop - 如何修复 java.lang.IllegalArgumentException : Unrecognized Hadoop major version number: 3. 1.0?

我在查询中得到一个java.lang.IllegalArgumentException:UnrecognizedHadoopmajorversionnumber:3.1.0exception。这是查询:WITHt1as(select*frombrowserdatajoincitydataoncityid=id),t2as(selectuap.deviceasdevice,uap.osasos,uap.browserasbrowser,nameascitynamefromt1lateralviewParseUserAgentUDTF(UserAgent)uapasdevice,os,br

variables - 在 HIVE 中增加现有的 row_sequence

我们正在尝试创建一个HIVE表,其中将包含一个序列,该序列将充当唯一标识符。该表将每天附加数据,我们希望保持序列运行。对于初始加载,我们使用了“org.apache.hadoop.hive.contrib.udf.UDFRowSequence”这对于future的key来说显然是不够的,因为它总是从0开始。我们考虑过在每次运行之前从表中存储最大键,然后在每次加载操作时将其添加到序列中,但似乎无法使其在HIVE中工作。我们面临的问题是我们无法将查询结果保存到变量中理想情况下它会执行以下操作(伪代码):创建临时函数row_sequence作为'org.apache.hadoop.hive.

json - 配置单元是否允许列名为 "rows"?

我知道每个hive版本都有一些保留关键字,不能用作列名。但问题是我的数据来自json,而我的列名是根据json值。当然我不能修改数据。还有其他选择吗??这里是一行示例数据和表格。{"id":"eew7-9yf2","name":"StudentLoanComplaints","averageRating":0,"createdAt":1434385453,"description":"Eachweekwesendthousandsofconsumers'complaintsaboutfinancialproductsandservicestocompaniesforresponse.C

Hadoop : Number of input records for reducer

无论如何,每个reducer进程都可以确定它必须处理的元素或记录的数量吗? 最佳答案 简短回答-提前不,reducer不知道可迭代对象支持多少个值。您可以执行此操作的唯一方法是在迭代时进行计数,但您不能再对可迭代对象进行重新迭代。长答案-支持可迭代对象实际上是序列化键/值对的排序字节数组。reducer有两个比较器-一个用于按键顺序对键/值对进行排序,然后第二个用于确定键之间的边界(称为键分组器)。通常,键分组器与键排序比较器相同。当迭代特定键的值时,底层上下文检查数组中的下一个键,并使用分组比较器与前一个键进行比较。如果比较器确定