草庐IT

read-replication

全部标签

ubuntu - hadoop 启动错误 : datanode, tasktracker won't start and data replication error

我正在尝试在一个由5台机器组成的(测试)集群上安装Hadoop1.2.1,其中一个节点用作JobTracker、NameNode和SecondaryNameNode。其余4台机器都是从机。有两个问题。1)在master的conf/masters和conf/slaves文件中,我分别提供了master和slaves的IP地址。在从机上,masters文件是空的,slaves文件包含自己的IP。当启动hadoop(bin/start-all.sh)时,TaskTracker和DataNode不启动。我将这些机器的主机名放入/etc/hosts文件中,并尝试将它们的主机名也放入masters

python - hadoop 流中的 pd.read_csv 问题

我是Python新手,正在尝试从hadoop流中读取数据。这是我的python代码,var_list=get_config()工作正常。if__name__=="__main__":var_list=get_config()dat=pd.read_table(lines,delimiter=',',header=0)#print(dat)print(dat.dtypes)#print(dat['var8'])这是我传递的文件,第一行作为标题。$catdataclient_id,var1,var2,var3,var4,var5,var6,var7,var8121,1,2,3,4,5,6,

hadoop - 通过 spark.read.json() 加载时从 JSON 中删除一列

我陷入了一个非常奇怪的境地。例如,我有一个包含这三个JSON的文件。{"uploadTimeStamp":"1500618037189","ID":"123ID","data":[{"Data":{"unit":"rpm","value":"0"},"EventID":"E1","Timestamp":1500618037189,"pii":{}},{"Data":{"heading":"N","loc1":"false","loc2":"13.022425","loc3":"77.760587","loc4":"false","speed":"10"},"EventID":"E2",

Hadoop HDFS : Read/Write parallelism?

在网上找不到足够的信息所以在这里问:假设我正在将一个巨大的文件写入磁盘,数百TB,这是mapreduce(或spark或其他)的结果。mapreduce如何将这样的文件高效地(可能是并行的?)写入HDFS,以便稍后以并行方式读取?我的理解是HDFS只是基于block(例如128MB)。因此,为了写入第二个block,您必须已经写入了第一个block(或者至少确定哪些内容将进入block1)。假设它是一个CSV文件,文件中的一行很可能会跨越两个block——我们如何将这样的CSV读取到mapreduce中的不同映射器?它是否必须执行一些智能逻辑来读取两个block、连接它们并读取正确的行

java - MapReduce 多个输出 : File Could Only Be Replicated to 0 Nodes, 而不是 1

我有一个Reduce作业,我收到上述错误,文件只能复制到0个节点而不是1个。我在网上搜索过,发现这可能是数据节点的问题,但我正在运行此工作流中的其他MapReduce作业都在工作。我看到的唯一区别是我使用了多个输出并指定了一个文件夹,但我确信路径是正确的。这是多输出写入行:mos.write("mosName",newLongWritable(key),value,outputFilePath);我得到的确切错误是:org.apache.hadoop.ipc.RemoteException(java.io.IOException):Filexxxcouldonlybereplicate

hadoop - 合流 HDFS 连接器 : How can I read from the latest offset when there are no hdfs files?

我们有一个运行了几天的生产者应用程序,它正在为topicA生产数据。我们想启动hdfs连接器以从topicA读取而不是从偏移量0读取(因为这将导致巨大的滞后)。我们想从最新偏移量开始(一直有新数据进入topicA)。1)由于连接器从hdfs中的主题名称获取偏移量信息,我们如何从最新的偏移量中读取,因为hdfs中不存在任何文件?2)我能想到的一个选项是为每个分区手动创建具有最新偏移量的虚拟文件,但我们在这里讨论的是topicA中的60个分区,所以有没有更优雅的方法来做到这一点? 最佳答案 NoName,最近添加了HDFS连接器在HDF

Hadoop 作业失败 : Error Reading IndexFile?

如何解决这样的错误Mapoutputlost,rescheduling:getMapOutput(attempt_201204251959_0001_m_000000_0,0)failed:java.io.IOException:ErrorReadingIndexFileatorg.apache.hadoop.mapred.IndexCache.readIndexFileToCache(IndexCache.java:113)atorg.apache.hadoop.mapred.IndexCache.getIndexInformation(IndexCache.java:66)ator

windows - mapred.JobClient : Error reading task output http:. .. 在 Windows 操作系统上从 Cygwin 运行 hadoop 时

我在Windows上运行来自Cygwin的“MahoutinAction”一书中的“从文档生成向量”样本。Hadoop仅在本地计算机上启动。下面是我的运行命令:$bin/mahoutseq2sparse-ireuters-seqfiles/-oreuters-vectors-ow但是下面显示java.io.IOException,有谁知道这个问题是什么原因造成的?提前致谢!Runningonhadoop,usingHADOOP_HOME=my_hadoop_pathHADOOP_CONF_DIR=my_hadoop_conf_path13/05/1318:38:03WARNdriver

hadoop - 接口(interface)错误 : TSocket read 0 bytes when using hue with hbase

这是我在hueconfig中的设置[hbase]#以逗号分隔的HBaseThrift服务器列表#集群,格式为“(name|host:port)”。hbase_clusters=(集群|MasterIP:ThriftPort)#在截断之前获取的每行的行数或列数的硬限制。##truncate_limit=500但是当我连接到hue网页并切换到Hbase选项卡时,它显示日志:[08/Dec/201319:30:13+0000]中间件信息处理异常:Api错误:TSocket读取0字节:回溯(最近调用最后):文件“/home/ubuntu/workspaces/hue/hue-master/bu

java - Hadoop + Jackson 解析: ObjectMapper reads Object and then breaks

我正在使用Jackson在Hadoop中实现一个JSONRecordReader。到目前为止,我正在使用JUnit+MRUnit在本地进行测试。每个JSON文件包含一个对象,在一些header之后,它有一个字段,其值是一个条目数组,我希望将每个条目理解为一个记录(因此我需要跳过这些header)。我可以通过将FSDataInputStream推进到读取点来做到这一点。在我的本地测试中,我执行以下操作:fs=FileSystem.get(newConfiguration());in=fs.open(newPath(filename));longoffset=getOffset(in,"H