database-create

database - 创建 Hive Metastore 数据库表错误

我正在运行ClouderaManager(免费版)，我到达了向导创建HiveMetastore数据库的地步。显示此错误并停止配置过程。使用/var/run/cloudera-scm-agent/process/40-hive-metastore-create-tables/hadoop-conf作为HADOOP_CONF_DIR我似乎找不到任何可能导致此问题的信息？到目前为止，一切都已正确配置，安装的一切以及用户名和密码都是正确的。有人以前见过这个错误吗？想法？错误日志:atsun.reflect.DelegatingConstructorAccessorImpl.newInstanc

database - 将数据从 HDFS 加载到 Vertica

从HDFS加载数据到vertica时出现以下错误我只是停止了以前工作的数据库并在Vertica中创建了新数据库。然后我跑了vsql-f[AggregateFunctions.sql,AnalyticFunctions.sql,FilterFunctions.sql,JavaFunctions.sql,JavaUDLFunctions.sql,ParserFunctions.sql,SourceFunctions.sql,TransformFunctions.sql]当我尝试使用以下命令从HDFS加载数据时COPYexploded001SOURCEHdfs(url='http://had

database Vertica section code sql hadoop hdfs webhdfs

database - 如何按频率对 Google 数据库(或托管在 AWS 上的数据库)中的 ngram 进行排序

我正在寻找一种按频率订购GoogleBook的Ngram的方法。原始数据集在这里:http://books.google.com/ngrams/datasets.在每个文件中，ngram按字母顺序排序，然后按时间顺序排序。我的电脑不够强大，无法处理2.2TB的数据，所以我认为唯一的排序方式是“在云端”。AWS托管版本在这里:http://aws.amazon.com/datasets/8172056142375670.是否有经济有效的方法来找到10,000个最常见的1grams、2grams、3grams、4grams和5grams？麻烦的是，数据集包含多年的数据:Asanexampl

database Google section code grams hadoop

hadoop - 配置单元 : Drop database

我需要在配置单元中删除一个大数据库，但我找不到选项here跳过垃圾，如purge删除表。当为垃圾应用空间配额时，这可能会造成麻烦!任何仅使用配置单元DDL命令的建议？要清楚:我做什么:Dropdatabasecascade;我在寻找什么或类似的东西:Dropdatabasecascadepurge; 最佳答案配置单元默认.xmlhive.warehouse.data.skipTrashtrueSetthistotrueifyoudonotwanttabledatatobemovedtotrashwhiledroppingtable

配置单 database section code hadoop hive

hadoop - java.sql.SQLException : Failed to start database '/var/lib/hive/metastore/metastore_db' in hive 异常

我是hive的初学者。当我尝试执行任何配置单元命令时:hive>显示表格；它显示以下错误:FAILED:Errorinmetadata:javax.jdo.JDOFatalDataStoreException:Failedtostartdatabase'/var/lib/hive/metastore/metastore_db',seethenextexceptionfordetails.NestedThrowables:java.sql.SQLException:Failedtostartdatabase'/var/lib/hive/metastore/metastore_db',se

metastore hive section hadoop

hadoop - 使用配置单元初始化数据库时出现 java.sql.SQLException : Failed to start database 'metastore_db' ERROR,

我在3个集群上安装了Hadoop和Hive。我能够从运行HIVE的集群节点登录到配置单元。root@NODE_3hive]#hiveLogginginitializedusingconfigurationinjar:file:/usr/lib/hive/lib/hive-common-0.10.0-cdh4.2.0.jar!/hive-log4j.propertiesHivehistoryfile=/tmp/root/hive_job_log_root_201304020248_306369127.txthive>showtables;OKTimetaken:1.459secondsh

时出配置单 metastore hive metastore_db hadoop permissions mapreduce hdfs

hadoop - 为什么 Hive "create external table"在 S3 上将数据存储在子文件夹 "-ext-10000"下？

下面的Hive代码突然开始在一个额外的子文件夹下存储数据；DROPTABLEIFEXISTSfolder_test;CREATEEXTERNALTABLEIFNOTEXISTSfolder_test(col1STRING,col2INT,col3INT)ROWFORMATDELIMITEDFIELDSTERMINATEDBY","LOCATION's3n://bucket_name/folder_name';insertoverwritetablefolder_testselectcol1,col2,col3fromdata_tablelimit10;因此，数据不是存储在“s3n://

amp 34 section folder name hadoop amazon-web-services amazon-s3 hive

java.lang.NoClassDefFoundError : com/google/common when trying to create a Configuration object 错误

我正在尝试从java中与我的HDFS进行交互。当我尝试创建一个新的Configuration对象时配置conf=newConfiguration();我的应用程序抛出这个错误Exceptioninthread"main"java.lang.NoClassDefFoundError:com/google/common/base/Preconditionsatorg.apache.hadoop.conf.Configuration$DeprecationDelta.(Configuration.java:306)atorg.apache.hadoop.conf.Configuration$

NoClassDefFoundError Configuration section hadoop java hdfs

scala - Spark-Scala HBase 表创建失败(MetaException(消息 :file:/user/hive/warehouse/src is not a directory or unable to create one)

我的VM中运行着hortonworks沙盒。我已经完成了所有的hive-site.xml配置并放置在Spark/conf文件中。我可以使用PySpark访问HBase并创建/更新表，但是当我在Scala中执行相同的实现时，会出现以下错误:FAILED:ExecutionError,returncode1fromorg.apache.hadoop.hive.ql.exec.DDLTask.MetaException(message:file:/user/hive/warehouse/srcisnotadirectoryorunabletocreateone)我也更改了对“hive/war

MetaException Spark-Scala strong section hive scala hadoop hbase apache-spark pyspark

database - 将记录存储在 HDFS 或 HBase 中

我有以下场景:测量数据以文件形式通过网络服务上传这些文件随后被复制到HDFS每个测量包含一个或多个参数的许多特征(值)测量值的数量可能不同使用Hadoop上的机器学习算法处理测量值并非所有测量都进行了，而是针对特定用户在特定时间段进行的(例如，对用户X在Y-Z期间上传的文件进行处理)中间结果存储在HDFS，最终结果也是如此我的问题与第二点有关-这些文件后来被复制到HDFS-我担心存在大量小文件(例如1MB)可能是个问题。我的想法是将该文件存储在数据库中，这样我就可以避免小文件的问题，并且还能够查询数据(为用户选择一段时间的数据)。这是更好的方法吗？如果答案是肯定的，我可以使用哪些数据库

database HBase li section 量值 hadoop

65 66 676869 70 71