草庐IT

query-cache

全部标签

hadoop - Sqoop 无法识别导入作业命令中的 --query 参数

我正在尝试将数据从mssql服务器导出到配置单元。我正在使用以下命令将数据从用户表导出到配置单元。sqoopimport--connect"jdbc:sqlserver://{ip}\LOCAL_INSTANCE;database=TEST_DB;user=sa;password=****"--table"Users_Table"--create-hive-table--hive-tableusers_export--target-dir/cdc/export/users--append--query"select*fromUsers_Table"我收到以下错误消息。至少,您必须指定-

caching - 将一个大文件(~6 GB)从 S3 复制到 Elastic MapReduce 集群的每个节点

事实证明,在引导操作中将大文件(~6GB)从S3复制到ElasticMapReduce集群中的每个节点并不能很好地扩展;管道只有这么大,随着#个节点变大,到节点的下载会受到限制。我正在运行一个包含22个步骤的作业流程,其中可能有8个步骤需要此文件。当然,我可以从S3复制到HDFS并在每一步之前缓存文件,但这是一个主要的速度killer(并且会影响可伸缩性)。理想情况下,作业流将从每个节点上的文件开始。至少有一些StackOverflow问题间接地解决了通过作业流程持久化缓存文件的问题:Re-usefilesinHadoopDistributedcache,Lifeofdistribut

hadoop - 使用 Hive Query 分析时间序列数据

我在Hive中有一个表,显示我们系统的每个用户(user_id)的登录时间(connect_date)。这是表结构:hive>describeaccess_log;OKuser_iddoublefromdeserializerconnect_datetimestampfromdeserializeripstringfromdeserializerlogout_datetimestampfromdeserializersession_idstringfromdeserializer我的目标是找出特定时间段内每个用户登录之间的平均时间,让我们使用过去7天来回答这个问题。HiveQuery如

ubuntu - 权限被拒绝 : u'/opt/cloudera/parcel-cache/CDH-5. 3.3-1.cdh5.3.3.p0.5-precise.parcel.part'

我正在尝试安装具有3个节点的hadoopcloudera集群,所有这些节点都是ubuntu12.04机器。为此,我做了以下事情。我已经在所有机器上创建了hduser,并通过以下命令授予它root权限。sudoaddgrouphadoopsudoadduser--ingrouphadoophdusersudoadduserhdusersudosudosuhduser然后在所有机器上通过以下命令为无密码ssh生成无密码key。机器详细信息:master-1ip:192.168.0.101slave-1ip:192.168.0.102slave-2ip:192.168.0.103命令:ssh

hadoop - 使用 -query 和 --as-parquetfile 运行 Sqoop : java. lang.NullPointerException 时出现异常

我正在尝试将表数据从Redshift导入到HDFS(使用Parquet格式)并遇到如下所示的错误:15/06/2511:05:42ERRORsqoop.Sqoop:GotexceptionrunningSqoop:java.lang.NullPointerExceptionjava.lang.NullPointerExceptionatorg.apache.sqoop.tool.CodeGenTool.generateORM(CodeGenTool.java:97)atorg.apache.sqoop.tool.ImportTool.importTable(ImportTool.jav

hadoop - super 用户未授权连接 : hcat"when trying to query Hive through WebHCat

我正在尝试使用WebHCat/Templeton执行Hive查询。我将查询发布到/templeton/v1/hive,并将“执行”参数设置为等于我的查询(现在是一个简单的“selectcount(*)”查询)。但是当我这样做的时候,我总是得到这个错误:{"error":"Unauthorizedconnectionforsuper-user:hcatfromIP172.31.27.207"}从目前我所发现的情况来看,这些“super用户未经授权的连接”错误似乎通常与代理用户设置有关,因此我将以下内容添加到我的core-site.xml中:hadoop.proxyuser.hcat.ho

hadoop - 失败 : NullPointerException null in HIVE QUERY

以下是我正在使用的HIVE查询,我还使用了排名功能。我在我的本地机器上运行它。SELECTnumeric_id,location,Rank(location),followers_countFROM(SELECTnumeric_id,location,followers_countFROMtwitter_dataDISTRIBUTEBYnumeric_id,locationSORTBYnumeric_id,location,followers_countdesc)aWHERERank(location)我的Rank函数如下:packageorg.apache.hadoop.hive.c

java - 带有 LIKE 的 Spring JPA @Query

我正在尝试在CrudRepository中创建一个方法,该方法能够为我提供用户列表,其用户名类似于输入参数(不仅以输入参数开头,而且还包含它)。我尝试使用方法"findUserByUsernameLike(@Param("username")Stringusername)"但正如Spring文档中所述,此方法等于“user.usernamelike?1”。这对我不好,因为我已经告诉过我正在尝试获取用户名包含的所有用户...我为该方法编写了一个查询,但它甚至没有部署。@RepositorypublicinterfaceUserRepositoryextendsCrudRepository

java - 带有 LIKE 的 Spring JPA @Query

我正在尝试在CrudRepository中创建一个方法,该方法能够为我提供用户列表,其用户名类似于输入参数(不仅以输入参数开头,而且还包含它)。我尝试使用方法"findUserByUsernameLike(@Param("username")Stringusername)"但正如Spring文档中所述,此方法等于“user.usernamelike?1”。这对我不好,因为我已经告诉过我正在尝试获取用户名包含的所有用户...我为该方法编写了一个查询,但它甚至没有部署。@RepositorypublicinterfaceUserRepositoryextendsCrudRepository

python - 使用 Thrift 在 Python 脚本中运行 Hive-Query 时出现 `Connection Refused`

全部,我正在尝试使用Python的Thrift库在Python脚本中运行配置单元查询。我能够运行不执行M/R的查询,例如createtable和select*fromtable等。但是当我执行执行M/R作业的查询时(如select*fromtablewhere...),我得到以下异常。startinghiveserver...Hivehistoryfile=/tmp/root/hive_job_log_root_201212171354_275968533.txtTotalMapReducejobs=1LaunchingJob1outof1Numberofreducetasksdete