草庐IT

java - Hbase 中的行数,其中一列具有特定值

我正在使用hbase将我的数据存储在hdfs中,我的表中有一个包含user_details的列族,我在其中存储用户值,例如-userdetails->userid->"ui011"userdetails->userName->"John"userdetails->emailid->"john@xyz.com"现在可以通过java和hbaseshell计算在用户名和电子邮件ID中具有特定值的行。我是hbase的新手,我们将不胜感激。 最佳答案 看看Hbase协处理器AggregationClient。AggregationClient

java - 获取异常 java.sql.SQLException : socket creation error

我试着在eclipse中运行下面的代码publicstaticvoidmain(String[]args){Connectionconnection=null;ResultSetresultSet=null;Statementstatement=null;try{Class.forName("org.hsqldb.jdbcDriver");connection=DriverManager.getConnection("jdbc:hsqldb:hsql://localhost/URLAccess","SA","");statement=connection.createStatement

hadoop - SQL 到 MapReduce - 怎么做?

关闭。这个问题是opinion-based.它目前不接受答案。想要改进这个问题?更新问题,以便editingthispost可以用事实和引用来回答它.关闭8年前。Improvethisquestion我在ETL过程中使用了一个复杂的查询(基于SQL)。它太大了,放不下,但通常几个表和一些使用窗口函数和其他“好东西”的BL之间的内部连接很少。我需要将它移植到HadoopMapReduce。只需将FROM案例中的所有表转储为CSV格式并将文件j带到HDFS。然后编写复制SQL中实现的逻辑的MapReduce作业。我想知道:在将SQL移植到MapReduce时,是否有任何我应该注意的最佳实践

java - 合并大量小文件以进行 mapreduce 输入

我是Hadoop和MapReduce的新手。我们正在开发一个网络监控工具(在java中)。我们定期收集被监控设备的各种信息,比如每5秒一次。并通过java客户端将该信息作为新文件写入HDFS(因为我们没有使用hdfs附加工具)。在HDFS中,我们的数据组织将是这样的:/monitored_info/f1.txt/f2.txt......./f1020010.txt因此每个文件的大小通常小于2KB。我知道每个maptask最多可以占用1个文件,它会产生与maptask一样多的文件,并且工作效率低下。为了摆脱这种情况,我们在提交作业之前使用了FileUtil的合并功能:FileUtil.c

optimization - Hadoop 作业 - 使用我机器中的所有内核

我使用默认配置的hadoop作业->本地文件系统上的本地模式没有使用我系统中的所有内核(16)->通过使用所有内核,我的意思是,我可以在各种实例中看到所有内核的事件。但是,我的CPU使用率[fromtop]从未超过200%,因此我在conf中更改了这些配置。mapred.tasktracker.map.tasks.maximum将其设置为8,mapred.tasktracker.reduce.tasks.maximum也将其设置为8。我的核心使用率仍然低于300%。如何通过使用所有核心从机器获得最大吞吐量?此外,我的文件大小约为1TB。这是作业运行的示例日志。我看到它在运行作业时创建了

hadoop - 如何使用 pig 剥离字符串并提取字符串的数字部分

我有一个字符串wtr,如下所示重量10好911.v.好我正在尝试使用pig从该字符串中提取数字部分。这是我尝试过的xx=FOREACHxyz_process{wtr_split=STRSPLIT(wtr,'\\.');GENERATEwtr_split;};我一直收到以下警告和空白xx2013-12-0417:41:10,130[main]WARNorg.apache.pig.PigServer-EncounteredWarningUSING_OVERLOADED_FUNCTION1time(s).2013-12-0417:41:10,130[main]WARNorg.apache.p

python - Hadoop Streaming "comparator.options"未被尊重

我有一个python映射器和缩减器,我正在使用它和Hadoop流式API。在命令行上,这些脚本可以正常工作并执行预期的工作。我有一个NASA网络访问日志示例,您可以在此处看到它已正确处理和排序。tail-n10NASA_access_log_Jul95|./mapper.py|sort|./reducer.py|sort-r-k1,14163.205.53.141tornado.umd.edu在mapreduce作业中尝试相同的操作时,排序没有得到遵守。hadoopjar/usr/lib/hadoop-0.20-mapreduce/contrib/streaming/hadoop-st

java - 如何用eclipse配置hadoop

我是hadoop的新手,我已经下载了hortonworkssanbox镜像并使用virtualBox安装了它。当我在Chrome中输入192.168.56.101/时,sanboxui将进入本地主机。我也可以使用hue/hadoop用户名密码登录到hadoopshell。现在我想在eclipse中运行一个简单的程序。我已将hadoop-0.18.3-eclipse-plugin添加到eclipse,然后尝试了以下步骤。1.choosedmap/reducefromeclipse.2.wenttohadooplocationediterlocalhostname:localhostund

java - 在 Hadoop 2.2.0 中打开缓存文件

在使用job.addCacheFile()将缓存文件添加到作业并使用我的映射器使用context.getCacheFiles()将其拉下后。如何打开缓存文件。我试过使用:BufferedReaderreader=newBufferedReader(newFileReader(filename));(下面注释)其中文件名是URI的toString(),但我收到一个IOException,指出该文件不存在。谁能帮我吗?importjava.io.*;importjava.net.*;importjava.util.*;importjava.util.regex.*;importorg.ap

java - 应该使用mapper类的哪个方法来读取分布式缓存中的文件

您想要填充关联数组以执行映射端连接。你已经决定将这些信息放在一个文本文件中,将该文件放入DistributedCache并在您的处理任何记录之前的映射器。确定应该使用Mapper中的哪个方法来实现读取文件的代码,以及填充关联数组?映射或配置?? 最佳答案 我相信您正在寻找setup()方法。http://hadoop.apache.org/docs/current/api/org/apache/hadoop/mapreduce/Mapper.html#setup%28org.apache.hadoop.mapreduce.Mappe