草庐IT

不可重复读

全部标签

hadoop - Sqoop 导出插入重复条目

我想了解sqoop导出的工作原理。我在mysql中有一个表站点,其中包含两列id和url,并且包含两行1,www.yahoo.com2,www.gmail.com表没有主键当我通过执行以下命令将条目从HDFS导出到mysql站点表时,它会插入重复的条目我在HDFS中有以下条目1,www.one.com2,www.2.com3,www.3.com4,www.4.comsqoopexport--tablesite--connectjdbc:mysql://localhost/loudacre--用户名训练--密码训练--export-dir/site/--update-modeallowi

python - 为什么在调用 impala.dbapi.connect() 时出现“"TypeError: ' 模块对象不可调用”?

我正在尝试连接到impala,我正在关注impylaguide.但是当我执行connect()时出现此错误。错误如下所示:In[27]:importimpala.dbapiasconnectIn[28]:conn=connect(host="some798.xyz.something",...:port=22,...:user="username",...:password="password")Traceback(mostrecentcalllast):File"",line4,inpassword="password")TypeError:'module'objectisnotca

hadoop - 为什么 hadoop 输入和输出目录不可见?

我是hadoop的新手。我刚刚安装并开始使用它。一切都正常运行,但我无法在笔记本电脑中找到通过以下命令创建的input和output目录。hadoopfs-mkdir/home/hadoop/input和hadoopfs-mkdir/home/hadoop/output我想再说一遍,我可以对这些input和output目录进行操作,但是这些目录没有显示出来以下命令$ls/home/hadoop请回答为什么我看不到目录。谢谢.. 最佳答案 命令hadoopfs-mkdir/home/hadoop/input在分布式文件系统上创建该目录

Java Elasticsearch-Hadoop 配置的节点都不可用

所以我正在运行一个Hadoop查询,该查询需要来自在AmazonEC2上运行的ElasticSearch索引中的字段的信息。问题是,我不断收到“配置的节点均不可用”错误。更令人沮丧的是,我几天前就开始工作了,然后由于缺少CPU操作,它在查询中间退出了。但我的搭档并不知道这一点,所以他试图弄清楚为什么它在查询中间失去连接的尝试似乎导致了这个问题。他不记得自己做了什么。我知道之前有人问过这个问题,但我确定我的集群名称是正确的,而且我在ES上运行的查询不应该导致超时,而且之前运行时也没有。此外,不应该有防火墙问题,因为我直接在EC2实例上运行程序。而且是使用yarn的伪分布式单节点集群。EC

java - 由于不可序列化的对象,Spark 作业失败

我正在运行一个spark作业来为我的HBase数据存储生成HFiles。它曾经在我的Cloudera集群上运行良好,但是当我们切换到EMR集群时,它失败并显示以下堆栈跟踪:Serializationstack:-objectnotserializable(class:org.apache.hadoop.hbase.io.ImmutableBytesWritable,value:5031363132373033345f493635383431353835);notretryingSerializationstack:-objectnotserializable(class:org.apa

hadoop - 在hive(hadoop)中添加文件后,在仓库中不可见?

我可以像这样在配置单元中添加一个文件:hive>addfile/home/vis/Documents/def.txt;hive>listfiles;/home/vis/Documents/def.txt现在的问题是,上面的文件在我的仓库里是看不到的。是否可以在hive仓库(/user/hive/warehouse)中看到。如果没有,那么我如何在配置单元中看到该文件? 最佳答案 Hiveaddcommandputsthefileindistributedcache.这是mapred.local.dir。分布式缓存旨在分发需要存在于所有

java - 使用 hadoop reducer 在将批量写入操作写入 mongodb 时检查重复记录

我正在使用hadoopmap-reduce来处理XML文件。我直接将JSON数据存储到mongodb中。如何实现在执行BulkWriteOperation之前只将不重复的记录存储到数据库中?重复记录标准将基于产品图片和产品名称,我不想使用吗啡层,我们可以在其中为类成员分配索引.这是我的reducer类:publicclassXMLReducerextendsReducer{privatestaticfinalLoggerLOGGER=Logger.getLogger(XMLReducer.class);protectedvoidreduce(Textkey,Iterablevalues

Hadoop/Hive Collect_list 没有重复项

根据帖子,Hive0.12-Collect_list,我试图找到Java代码来实现一个UDAF,它将完成这个或类似的功能,但没有重复序列。例如,collect_all()返回一个序列A,A,A,B,B,A,C,C我想要返回序列A,B,A,C。依次重复的项目将被删除。有没有人知道Hive0.12中的函数将完成或已经编写了他们自己的UDAF?一如既往,感谢您的帮助。 最佳答案 我前一段时间遇到了类似的问题。我不想写一个完整的UDAF所以我只是用brickhousecollect做了一个组合和我自己的UDF。假设你有这些数据idvalue

java - 如何多次重复 map/reduce 任务?

为了多次重复同一个map/reduce任务,我应该把循环放在哪里?我知道它应该在主程序中,我不知道它应该在runJob附近还是其他地方? 最佳答案 这是一个很好的例子来做你想做的事情,摘自ThomasJungblut'sawesomeblog这是我前段时间看到的:while(counter>0){//reusetheconfreferencewithafreshobjectconf=newConfiguration();//setthedepthintotheconfigurationconf.set("recursion.dept

Hadoop LZO native 库和 JAR 不可用

我从http://apache.techartifact.com/mirror/hadoop/common/hadoop-1.1.2/hadoop-1.1.2-bin.tar.gz下载了Hadoop1.1.2.它的native目录没有LZOnative库。$找到~/softwares/hadoop-1.1.2/lib/native//home/deepakkv/softwares/hadoop-1.1.2/lib/native//home/deepakkv/softwares/hadoop-1.1.2/lib/native/Linux-i386-32/home/deepakkv/sof