草庐IT

不插入

全部标签

hadoop - 插入分桶表产生空表

我正在尝试插入分桶表。当我运行查询时,一切看起来都很好,我在报告中看到了一些写入的字节数。Hive日志中也没有任何错误。但是当我查看表格时,我什么都没有:(创建表测试(测试日期字符串,test_id字符串,test_title字符串,)聚类为(文本日期)进入100个桶行格式分隔由“|”终止的字段由'\n'终止的行存储为兽人地点'hdfs://myserver/data/hive/databases/test.db/test'TBL属性('skip.header.line.count'='1','交易'='真')插入测试.test从test2.green中选择“test_date”、“t

scala - 使用 Spark 和 Scala 将数据插入 Hive 表时出现问题

我是Spark的新手。这是我想做的事情。我创建了两个数据流;第一个从文本文件中读取数据并使用hivecontext将其注册为temptable。另一个不断从Kafka获取RDD,对于每个RDD,它创建数据流并将内容注册为temptable。最后,我将这两个临时表连接到一个键上以获得最终结果集。我想将该结果集插入配置单元表中。但我没有想法。试图遵循一些示例,但只在配置单元中创建一个包含一列的表,而且该表也不可读。你能告诉我如何在特定的数据库和配置单元表中插入结果吗?请注意,我可以使用show函数看到连接的结果,因此真正的挑战在于插入配置单元表。下面是我使用的代码。imports.....

arrays - Hive Array<Struct<>>插入显示null

我创建了一个包含结构数组的临时表createtabletemp(regionkeysmallint,namestring,commentstring,nationsarray>)ROWFORMATDELIMITEDFIELDSTERMINATEDBY'|'COLLECTIONITEMSTERMINATEDBY',';然后我将数据加载到表中LOADDATALOCALINPATH'/DataSets/region.csv'INTOTABLEtemp;什么时候需要的输出select*fromtemp;是4EUROPELowsaleBusinessRegion[{"n_nationkey":2

hadoop - 配置单元 - 为不同的列值插入行

老实说,我不知道如何简单地在标题行中描述问题而不是展示示例。我有一个包含两列的配置单元表:ID和日期IDDate3101-01-20173101-02-20173101-03-201712301-01-201712301-01-2017...在这个表中,我想包括另一列是小时,如下所示IDDateHour3101-01-2017003101-01-2017013101-01-2017023101-01-2017033101-01-201704...3101-01-2017233101-02-2017003101-02-201701...基本上,对于每一行,我想添加一个小时值从00到23的

hadoop - Presto 查询无法将数据插入 Hive

我正在尝试将数据插入配置单元。为此,我使用Presto。这是我的查询:insertintocard_transactions_part_buckpartition(tran_year,tran_month,tran_day)selecttran_id,tran_uid,tran_date,tran_category,tran_category_id,tran_type,tran_type_id,tran_ingress_ip_address,tran_ingress_api_name,tran_ingress_api_id,platform,platform_id,card_type,

hadoop - 插入 HIVE 表时转换值

我已经创建了名为emp_bucket的分桶表,分为4个桶,这些桶聚集在salary列上。表的结构如下:hive>describeConsultant_Table_Bucket;OKidintageintgenderstringrolestringsalarydoubleTimetaken:0.069seconds,Fetched:5row(s)我还有一个暂存表,我可以从中将数据插入到上面的分桶表中。以下是暂存表中的示例数据:idageGenderrolesalary-----------------------------------------------------93838Fco

Java spark 到 hive 表插入到动态分区异常

我有以下代码,其中我将数据插入到表txnaggr_rt_fact中,该表有2列分区txninterval和intervaltype。我在sparksql中启用了动态分区。如果分区已经存在则没有问题。数据正在插入到表中,但如果分区不存在,则会出现异常,但如果分区已经存在,则没有问题。SparkSessionspark=SparkSession.builder().appName("JavaSparkHiveExample").config("spark.sql.warehouse.dir","hdfs://localhost:8020/user/hive/warehouse").conf

hadoop - 热点使用hive插入Cassandra

使用EC2datastaxami评估DSE3.1.3Cassandra.测试设置5xm1.xlarge在一次测试中:4vcpus,15G,4x420G实例店铺。另一个5xhi1.4xlarge:16vcpus,60G,2x1TBSSD实例存储。数据5000多个apache日志文件,约60GB,60MM行。工作流程通过dsehadoopfs-put加载到CFS使用RegexSerDe从CFS加载到Hive。通过键空间日志中的CQL在Cassandra中创建事件表。通过INSERTINTOlogs.event从hive插入Cassandra。总体而言,前两个步骤的性能以及基本查询与其他ha

java - Add() 与 addAll() 插入 Java 优先堆

我一直在研究在Java堆中添加值的不同可能性。我正在使用PriorityHeap类。当我注意到我的应用程序运行时间缓慢时,我决定看一看。我添加了几千个,有时是数百万个自定义条目(我有一个自定义类,它有3个字段:一个int、一个LongWritable和Text,都来自hadoop.io;this仪器代理说我的记录有200个字节平均)。使用addAll()而不是add()方法将条目放入堆中显然会提高性能吗,仅仅是因为这会避免几个heapify操作?我使用以下新示例尝试了不同的策略:packageSorting;importjava.io.IOException;importjava.ut

sql - 通过选择在 Hive 中插入值

我正在尝试在配置单元列中插入某些派生值,并想知道为什么它不起作用。我的代码如下。Insertintomonthasselectmonth(datestamp)asmonthfromgc_1;此处month列已存在,其中包含NULL值,gc_1是表名。我不确定是否可以使用month、date等函数从另一列添加到hive中。 最佳答案 从你的问题来看,我认为你正在努力实现以下目标:有一个名为gc_1的表,其中已经存在一个名为datestamp的列,它可能包含一个日期适合作为month函数参数的字符串。然后您想在gc_1中创建一个名为mo