草庐IT

all-database

全部标签

windows - Hadoop start-all.cmd 命令 : datanode shutting down

我正在尝试在我的windows10中安装hadoop引用:https://github.com/MuhammadBilalYar/Hadoop-On-Window/wiki/Step-by-step-Hadoop-2.8.0-installation-on-Window-10Hadoopstart-all.cmd命令成功启动namenode、resourceManager和nodeManager但datanode没有启动错误::checker.StorageLocationChecker:ExceptioncheckingStorageLocation[DISK]file:/C:/ha

java - Hbase mapreduce 作业 : all column values are null

我正在尝试在HBase数据库的表上用Java创建一个map-reduce作业。使用here中的示例和互联网上的其他东西,我设法成功地编写了一个简单的行计数器。但是,尝试编写一个实际对列中的数据执行某些操作的程序是不成功的,因为接收到的字节始终为空。我的Driver工作的一部分是这样的:/*Setmain,mapandreduceclasses*/job.setJarByClass(Driver.class);job.setMapperClass(Map.class);job.setReducerClass(Reduce.class);Scanscan=newScan();scan.se

Python 和 MapReduce : beyond basics -- how to do more tasks on one database

我有一个巨大的txt数据存储,我想在其中收集一些统计数据。使用Hadoop流和Python我知道如何实现MapReduce以在单个列上收集统计信息,例如计算100个类别中的每个类别有多少条记录。我创建了一个简单的mapper.py和reducer.py,并将它们分别作为-mapper和-reducer插入到hadoop-streaming命令中。现在,我对如何实际处理更复杂的任务有点不知所措:除了上述类别(例如地理位置、类型、日期等)之外,还收集各种其他列的各种统计数据。所有这些数据都在同一个txt文件中。我是否将mapper/reducer任务链接在一起?我是否传递最初很长的键值对(

ubuntu - Hadoop - start-all.sh 未执行

我今天更新到Ubuntu16.04,当我执行start-all.sh时,它会抛出这个:ThisscriptisDeprecated.Insteadusestart-dfs.shandstart-yarn.sh/usr/local/hadoop/bin/hdfs:line304:/usr/lib/jvm/java-7-openjdk-amd64/bin/java:NosuchfileordirectoryStartingnamenodeson[]localhost:startingnamenode,loggingto/usr/local/hadoop/logs/hadoop-hduser

database - 解析维基百科页面链接数据集

我下载了WikipediaPagelinks数据集(在WikiDumps上可用-http://dumps.wikimedia.org/enwiki/20140102/)。我想在数据集上运行PageRank算法,但是,我无法解析数据,因为它没有很好的记录。这是下载的数据集示例。给出的字段是p1_from、p1_namespace和p1_title。网上查了一下,p1_namespace是一个表示文章类型的数字,但是不知道p1_from是什么。要实现pagerank算法,我需要链接到特定文章的文章数量,但是,我不知道p1_from代表什么。顾名思义,这听起来像是离开该文章的链接数量,而不是

ubuntu - Accumulo 的 Start-all.sh 抛出多个关于 : Max open files on localhost 的警告

我收到关于以下内容的多个警告:WARN:Maxopenfilesonlocalhostis1024,recommend32768我不确定这是关于什么的。/usr/local/accumulo$./bin/start-all.sh&[1]27142/usr/local/accumulo$StartingmonitoronlocalhostWARN:Maxopenfilesonlocalhostis1024,recommend32768Startingtabletservers....doneStartingtserveronlocalhostWARN:Maxopenfilesonloca

database - 如何在不查询的情况下估计 HIVE 中的表大小?

我想计算表的大小而不在HIVE中查询。我如何在HIVE中执行此操作?(如果没有在数据库中选择,我没有任何权限,所以我不能使用显示属性等)(例如)数据行数:100columnName(Type):userName(string),userNumber(int),userCode(bigint),userAge(int)用户名的最大长度:36我是这样计算表格大小的。我以为string是8bytes,int是4bytes,bigint是8bytes(我没有考虑记录标题大小和列标题大小)100*((8*36)+4+8+4)总大小:30,400字节你能给我一些建议吗?

database - 执行查询时,hive 是否运行 hadoop?

我正在尝试了解hive和hadoop是如何交互的。从我读过的教程看来,在运行HIVE查询之前,您运行一个map/reduce作业来获取输入数据。这对我来说似乎适得其反,如果我已经运行map/reduce作业并以易于解析的格式获取数据,为什么我不将数据放入传统数据库中。感谢您的帮助,弥敦道 最佳答案 Hive对存储在HDFS上的文件进行操作。除了最简单的查询之外,Hive会生成并运行mapreduce作业。对于非常简单的查询(SELECT*FROMMyTable),它只会将文件流出磁盘。输入数据不需要来自MapReduce-它可以是上

database - 大数据——存储与查询

关闭。这个问题需要更多focused.它目前不接受答案。想改进这个问题吗?更新问题,使其只关注一个问题editingthispost.关闭3年前。Improvethisquestion我们有大约3亿条记录的庞大数据,每3-6个月更新一次。我们需要查询这些数据(连续、实时)以获取一些信息。有哪些选项-一个RDBMS(mysql)或Hadoop等其他选项。哪个更好?

hadoop - Pig Latin 中的 STRSPLIT 和 REGEXP_EXTRACT_ALL

我有以下文件:File----12-3John1215-1Sam122该文件是制表符(\t)分隔的。我将行加载为line:chararray,因为我希望数据不会在各个字段中拆分。现在,我想提取详细信息(12-3和5-1)并将其存储为单独的数据。我正在尝试使用STRSPLIT和REGEX_EXTRACT_ALL,但数据似乎不匹配。splitdata=FOREACHfiledata{regex=REGEX_EXTRACT_ALL(line,'^([0-9]*)\\-([0-9]*)');split=STRSPLIT(line,'\\t',1);GENERATEregex,split;};这