草庐IT

relational-databases

全部标签

database - 如何找出 Hive 数据库的总大小

我有一个包含10个表的数据库。所有10个表数据都存储在不同的不同位置。在10个表中,一些是托管表,一些是外部表。一些表位置是/apps/hive/warehouse/一些表位置是/warehouse/hive/managed/一些表位置是/warehouse/hive/external/有什么方法可以找出数据库的总大小而无需进入每个位置并找到大小,还有其他选择吗? 最佳答案 在HiveMetastoreDB中运行时的以下查询将帮助您获得Hive中所有表占用的总大小。注意:只有当所有表的统计信息都已更新时,您为该查询获得的结果才会10

database - 如何仅当 hdfs 中有文件时才执行命令

我在Ambari的HDPsnadbox中使用NiFi和Hive。我有一个NiFi流,我将修改后的文件上传到hdfs,然后使用generateflowfile,我将查询loaddatainpath'hdfs/path/'intotabletablename传递给puthiveql处理器。效果很好,但我只想在“hdfs/path”指定的路径中有文件时这样做,因为当命令loadinpath执行时,hdfs目录会清空。我不知道我该怎么做。非常感谢! 最佳答案 使用ListHDFS处理器并将处理器配置为频繁运行(例如每分钟..等),Direc

hadoop - pig : Select records from a relaltion only if it is present in another relation

我有以下电影数据库的数据集:Ratings:UserID,MovieID,RatingMovies:MovieID,Genre我使用以下方法过滤掉类型为“Action”或“war”的电影:movie_filter=filterMoviesby(genrematches'.*Action.*')OR(genrematches'.*War.*');现在,我必须计算war片或Action片的平均收视率。但是评级存在于评级文件中。为此,我使用查询:movie_groups=GROUPmovie_filterBYMovieID;result=FOREACHmovie_groupsGENERATE

database - 将 GZIP HDFS 数据复制到 vertica

我想将HDFS(gzip压缩)数据复制到Vetica。我正在使用以下命令。但它不起作用COPYpix001SOURCEHdfs(url='http://hadoopnemenode.com:50070/webhdfs/v1/bq-upload/pix/m=03/d=01/03-01.txt.gz',username='xyz')GZIPDELIMITERE'\t';谁知道更好的方法谢谢 最佳答案 是的,有GZIP支持,只需要编译GZIP库[VerticaGuys终于帮了我:)]步骤如下:#cd/opt/vertica/sdk/exa

hadoop - 映射减少作业 : Protobuf related error

我在运行MapReduce作业时遇到错误:Exceptioninthread"main"java.lang.NoSuchMethodError:org.apache.hadoop.yarn.proto.YarnProtos$LocalResourceProto.hashLong(J)Iatorg.apache.hadoop.yarn.proto.YarnProtos$LocalResourceProto.hashCode(YarnProtos.java:11655)atorg.apache.hadoop.yarn.api.records.impl.pb.LocalResourcePBI

database - 将 CSV 加载到表格时出错

我的CSV文件包含有关公司员工的详细信息。一栏包含员工的薪水(例如-4,000美元)。因此,当我编写脚本以通过“,”分隔将数据加载到表中时,它将我的薪水列分别作为4和000。如何处理?CSV文件示例-澳大利亚,35-39岁,咨询,创业(1-25),Web应用程序开发人员,"$10,001-$25,000",企业表格代码-createtablesurvey(countrystring,agestring,industryTypestring,companyTypestring,occupationstring,salarystring,projectstring)rowformatdel

database - 结合 Hadoop MapReduce 和数据库查询

我正在运行的某个作业需要在处理一些大型HDFS文件之前从数据库(MySQL,尽管这不是很相关)收集一些元数据。此元数据将添加到文件中的数据中,并传递到后面的映射/合并/缩减阶段。我想知道放置此查询的“正确”位置可能在哪里。我需要元数据在映射器开始时可用,但将它放在那里似乎是多余的,因为每个映射器都将执行相同的查询。我如何(如果有的话)执行一次此查询并在所有映射器之间共享其结果?是否有一种通用方法可以在执行任务的所有节点之间共享数据(除了将其写入HDFS之外)?谢谢。 最佳答案 您可以在主函数中进行MYSql查询,查询结果可以存储在字

mysql - 配置单元.HiveImport : FAILED: SemanticException [Error 10072]: Database does not exist:

我正在尝试将MySQL数据库导入Hive以根据Blog分析大型MySQL数据有几种方法可以做到这一点非实时:Sqoop实时:MySQL的Hadoop应用程序所以我决定采用“非实时”方法,并且我设置了具有4个节点的Hadoop集群、Sqoop和Hive,它们在以下版本中运行良好名称版本ApacheHadoop2.6.0ApacheHivehive-0.14.0ApacheSqoopsqoop-1.4.5.bin__hadoop-2.0.4-alpha现在,当我尝试使用以下命令导入数据时导入命令sqoop-import-all-tables--verbose--connectjdbc:my

database - HIVE 数据库不存在 SemanticException 10072

我使用命令CREATEDATABASEFIRST_DB;在HIVE中创建了一个数据库,并创建了一个数据库。然后我在其中创建了几个表,它正在查找。名为FIRST_DB.db的目录是在我的hdfs仓库位置创建的。然后我退出我的HIVEshell。第二天,当我启动我的HIVE并尝试使用命令USEFIRST_DB;进行连接时,它给出了一个错误:SemanticException[error10072]:databasedoesnotexistFIRST_DB但是当我检查我的hdfs时,FIRST_DB.db存在并且其下的表也存在。即使在我退出HIVEsession后,请帮助我永久设置此数据库。

database - 聊天/对话数据库

出于个人兴趣,我尝试定义一个模拟AI,它基于他学到的信息和互联网搜索,以便提供比系统知道的更多的细节。我举了一个child的例子,当他出生时他需要学习一切,他听到了很多然后提出了一些答案。他的妈妈/爸爸告诉他答案是否合适。为了做到这一点,我想在hadoop系统中存储大量聊天对话并解析所有这些对话以确定哪些是最常给出的答案。为此,我想构建一个神经元数据库,其中包含具有确定答案的对话类型。所以我的问题是我可以在互联网上的某个地方合法地找到一个或多个任何格式的聊天/对话数据库吗?(文件、数据库、csv、...)我拥有的最多的数据就是能够正确确定答案的机会;)感谢您的帮助和欢呼,弗雷德里克PS