db_user_草庐IT

scala - Spark-Scala HBase 表创建失败(MetaException(消息 :file:/user/hive/warehouse/src is not a directory or unable to create one)

我的VM中运行着hortonworks沙盒。我已经完成了所有的hive-site.xml配置并放置在Spark/conf文件中。我可以使用PySpark访问HBase并创建/更新表，但是当我在Scala中执行相同的实现时，会出现以下错误:FAILED:ExecutionError,returncode1fromorg.apache.hadoop.hive.ql.exec.DDLTask.MetaException(message:file:/user/hive/warehouse/srcisnotadirectoryorunabletocreateone)我也更改了对“hive/war

multithreading - 为什么hadoop任务的real时间明显大于user+sys时间？

在hadoop任务上运行time命令时，出现如下结果:real0m25.839suser0m1.362ssys0m0.184我在VM上运行单个节点，并尝试在基准测试中记录hadoop任务的时间。最佳答案假设为I/O休眠所花费的时间不是原因，也许是VM本身作为主机上的进程运行这一事实导致了巨大的差异。实时表示挂钟时间。此处报告的user+sys时间是任务在VM处理器上花费的时间。因此，报告的实时时间将包括VM上运行的其他进程以及主机上运行的VM以外的进程使用的时间。关于multith

multithreading hadoop section 机上 time multiprocessing virtual-machine

sql - sqoop如何在向hive导入数据时自动修剪db2中的一些char类型的列？

我有一个很大的db2表，其中包含许多char类型的列。我尝试通过sqoop将数据提取到hive中以满足不同的需求。以前写Hivesql的时候都是手动把char类型的colums全部剪掉但是，有太多的列需要修剪，以至于我总是忘记其中的一些，这可能会导致一些困惑的问题，如下所示:假设BANK_TABLE是hive的目标表，2323423232323是表中已经存在的卡号。如果我执行:hive-e"select*fromBANK_TABLEwherecard_no='2323423232323'"结果是什么都没有，因为我在写sql导入数据到hive的时候忘记修剪了column:card_no所

何在 sqoop section hive 的 sql hadoop db2

hadoop - spark-submit --proxy-user 在 yarn 集群模式下不工作

目前我使用的是clouderahadoop单节点集群(启用了kerberos。)在客户端模式下我使用以下命令kinitspark-submit--masteryarn-client--proxy-userclouderaexamples/src/main/python/pi.py这很好用。在集群模式下，我使用以下命令(没有完成kinit并且缓存中没有TGT)spark-submit--principal--keytab--masteryarn-clusterexamples/src/main/python/pi.py也很好用。但是当我在集群模式下使用以下命令时(没有完成kinit并且缓

spark-submit proxy-user section hadoop apache-spark hadoop-yarn

hadoop - 在 Windows 上安装 Titan DB 时出错

遵循TitanDB的官方指南here，并尝试运行命令:graph=TitanFactory.open('conf/titan-cassandra-es.properties')我遇到了这个错误:Backendshorthandunknown:conf/titan-cassandra-es.properties很明显，原因是的路径不正确titan-cassandra-es.properties文件。所以我将其更改为:graph=TitanFactory.open('../conf/titan-cassandra-es.properties')得到这个错误:Encounteredunreg

时出 Windows code titan section hadoop groovy cassandra gremlin

scala - 每个列值的 Spark 计数和百分比异常处理和加载到 Hive DB

在下面的ScalaSpark代码中，我需要找到不同列的计数及其值的百分比。为此，我需要对每一列使用withColumn方法，例如date、usage、payment、dateFinal，usageFinal，paymentFinal。对于每个计算，我都需要使用withColumn来获取总和和聚合。有什么方法可以让我不用写，.withColumn("SUM",sum("count").over()).withColumn("fraction",col("count")/sum("count").over()).withColumn("Percent",col("fraction")*10

scala Spark 34 coll withColumn apache-spark hadoop hive apache-spark-sql

MySQL新建表：1044 - Access denied for user ‘root‘@%‘ to database ‘XXX‘终极解决方案

1.问题描述情况一：Navicat连接远程mysql数据库，创建数据库时出现错误：情况二：在linux中命令创建数据库出现如下报错：2.原因分析root权限不够，先使用“SELECThost,user,Grant_priv,Super_privFROMmysql.user;”查询，发现已经是Y了。通过SELECT*FROMmysql.user;命令查询权限信息，可以看到root对应的很多权限都是N，如下图所示：至于为什么会出现root权限不够，可能是安装mysql的时候MySQL权限配置不正确，或者修改了相关的配置文件等。3.解决方案将root权限全部修改为Y，执行如下代码（记得退出mysql

lsquo 终极 span class token mysql 数据库

Hadoop hive : How to allow regular user continuously write data and create tables in warehouse directory?

我在单个节点上运行Hadoop2.2.0.2.0.6.0-101。我正在尝试运行JavaMRD程序，该程序在普通用户下从Eclipse将数据写入现有的Hive表。我得到异常:org.apache.hadoop.security.AccessControlException:Permissiondenied:user=dev,access=WRITE,inode="/apps/hive/warehouse/testids":hdfs:hdfs:drwxr-xr-x发生这种情况是因为普通用户对仓库目录没有写权限，只有hdfs用户有:drwxr-xr-x-hdfshdfs02014-03-0

continuously directory warehouse hdfs code hadoop permissions hive data-warehouse

scala - 使用 Spark hadoop API 创建 RDD 以访问 Cassandra DB

我正在运行一个节点cassandra2.0.3和ApacheSpark2.0.3我创建了一个scala程序来使用SparkhadoopAPI创建RDD以访问CassandraDB。还应该在bashrc中为spaark设置哪些环境变量，因为我在spark-env.sh中使用以下配置exportSPARK_MASTER_IP="10.0.3.15"exportSPARK_MASTER_PORT="7077"exportSCALA_HOME="/home/Desktop/CD/scala-2.9.3"exportSPARK_WORKER_MEMORY=1gexportSPARK_WORKER

Cassandra hadoop ClusterTaskSetManager cluster 16 scala cassandra-2.0 apache-spark

java - HADOOP HTTPFS : giving error "User: ubuntu is not allowed to impersonate ubuntu" while accessing the application through Http

我在我的集群上安装了hadoop1.0.4，有1个主机和3个从机，现在我正在安装HTTPFS(hadoop-hdfs-httpfs-0.20.2-cdh3u5-SNAPSHOT)以使用http协议(protocol)访问HDFS内容，我可以通过它访问正常的页面curl-i"http://myhost:14000"它工作正常:)但是如果我尝试访问HDFS然后它给我错误(ubantu是我的用户):(curl-i"http://myhost:14000/webhdfs/v1?user.name=ubantu&op=OPEN"错误:{"RemoteException":{"message"

ubuntu application section 34 hadoop java hdfs bigdata