草庐IT

transform-only

全部标签

hadoop - 为 map-only 作业运行 Hadoop Map Reduce 时出错

我想在HadoopMapReduce中运行一个仅限map的作业,这是我的代码:Configurationconf=newConfiguration();Jobjob=newJob(conf);job.setJobName("import");job.setMapperClass(Map.class);//CustomMapperjob.setInputFormatClass(TextInputFormat.class);job.setNumReduceTasks(0);TextInputFormat.setInputPaths(job,newPath("/home/jonathan/i

hadoop - 复制文件 : Could only be replicated to 0 nodes, 而不是 1 时出现 HDFS 错误

将文件从本地系统复制到HDFS时出现以下错误,我正在使用单节点13/08/0410:50:02警告hdfs.DFSClient:DataStreamer异常:java.io.IOException:文件/user/vishu/input只能复制到0个节点,而不是1我删除了dfs/Name和dfs/data目录,格式化了Namenode还是没有用。并且我有足够的空间来复制数据。谁能帮忙解决这个问题?问候,维斯瓦 最佳答案 有时数据节点可能启动缓慢,这可能会导致上述问题。在dfs和mapred恶魔启动后保持一些等待时间。bin/hado

Hadoop DataStreamer 异常 : File could only be replicated to 0 nodes instead of minReplication (=1)

我尝试从我的本地加载json数据到hadoophdfs,我使用这些命令,它抛出异常:hadoopfs-copyFromLocalpath/files/file.jsoninput/hadoopfs-putpath/files/file.jsoninput/我使用jps命令检查,发现hadoop正在运行。26039ResourceManager30858SecondaryNameNode35605Jps26147NodeManager30714DataNode这是异常的详细信息:WARNhdfs.DFSClient:DataStreamerExceptionorg.apache.hado

hadoop - Apache Spark Ec2 : could only be replicated to 0 nodes, 而不是 1

我有一个在Ec2d2.xlarge实例上运行的2Node集群,我有一个10Gb的文件要通过Spark处理,我在spark上安装了一个本地磁盘并在那里生成了10gb的数据集,但是当我我试图将其放入Hdfs中,它向我抛出错误"couldonlybereplicatedto0nodes,insteadof1"如下16/03/0921:44:25WARNhdfs.DFSClient:DataStreamerException:org.apache.hadoop.ipc.RemoteException:java.io.IOException:File/vinit/inputfile.txtcou

hadoop - 我可以在没有 IBM Cognos Transformer 的情况下自己编写 mdc 吗?

我想在CognosMDC文件中使用Hadoop/Mapreduce生成cube,但似乎mdc文件只能通过CognosTransformer生成?那么,我可以在没有CognosTransformer的情况下编写MDC文件吗? 最佳答案 你不能自己制作cube,但是如果你想在congosBI中使用hadoop生态系统,你可以使用congosFramework数据源,或者transformer数据源。这可能对你有帮助UsingApacheHadoopinaCognosBIenvironment

ModuleNotFoundError: No module named ‘transformers‘,已经安装了transformers库

明明已经安装了transformers库了,运行代码时却说找不到。先说明我的环境。系统:windowsIDE:pycharm框架:PyTorch包管理:Anaconda我用的windows环境跑的模型,有时候重新开机,会出现说我没有安装transformers库,之前重开几次就可以了没太在意,今天终于知道原因了。。。我这里的原因是:没有切换到pytorch环境(对应项目的环境,我这里起的名字就叫pytorch),还在base环境,因此程序返回说没有找到transformers库。1.先排查你的原因是否和我一样:输入以下命令,看你所在的环境condainfo-e比如我的是显示这个表示我还在bas

hadoop - 将环境变量传递给 Hive Transform 或 MapReduce

我正在尝试将自定义环境变量传递给Hive转换中使用的可执行文件(下例中的my-mapper.script)例如:SELECTTRANSFORM(x,y,z)USING'my-mapper.script'FROM(SELECTx,y,zFROMtable)我知道在Hadoop流中可以使用-cmdenvEXAMPLE_DIR=/home/example/dictionaries/但我不知道如何在HiveTransform/MapReduce中执行此操作。有什么想法吗? 最佳答案 您可以使用简单的两行bash脚本包装您的脚本来设置环境。例

hadoop - PIG 存储函数 : storing only certain fields is possible?

我有一个用例,我只需要将某些字段存储到HDFS。我知道我可以做一些foreach等等来保留感兴趣的领域,但我想知道这在Store函数中是否可行。 最佳答案 这可以使用您自定义的Store函数:http://ofps.oreilly.com/titles/9781449302641/load_and_store_funcs.html但一般来说,使用GENERATE并将所需字段存储在一些其他元组中要容易得多,这些元组将仅在STORE函数中使用 关于hadoop-PIG存储函数:storing

hadoop - Map only 任务中会出现 Shuffle 和 sort 吗?

shuffle和sort阶段是在map任务结束之前进行,还是在map任务生成输出之后进行,以便不再回头查看map任务。这是一个让我感到困惑的“仅限maptask”案例。如果在Maponly任务中没有Shuffle和sort,谁能解释一下数据是如何写入最终输出文件的。 最佳答案 当你有一个map-only任务时,根本没有混洗,这意味着映射器会将最终输出直接写入HDFS。另一方面,当你有一个完整的Map-Reduce程序时,带有映射器和缩减器,是的,洗牌可以在缩减阶段开始之前开始。引用thisveryniceanswer所以:First

java.io.IOException : ensureRemaining: Only 0 bytes remaining, 试图读取 1

我在使用giraph中的自定义类时遇到了一些问题。我制作了VertexInput和Output格式,但我总是收到以下错误:java.io.IOException:ensureRemaining:Only*bytesremaining,tryingtoread*在“*”所在的位置具有不同的值。这是在单节点集群上测试的。当vertexIterator执行next()并且没有更多的顶点时,会发生此问题。这个迭代器是从flush方法调用的,但我基本上不明白为什么“next()”方法失败。这里有一些日志和类...我的日志如下:15/09/0800:52:21INFObsp.BspService: