草庐IT

single_table

全部标签

hadoop - Spark 1.2 : Write single record into multiple files (blacklisted)

我尝试将RDD中的每条记录写入多个文件(每个黑名单一个,并按键分组)到HDFS,并在每个文件集上应用黑名单。首先,我将MultipleTextOutputFormat与keyBy结合使用,按记录中的字段对输出文件进行分组,效果很好。所以我的输出文件现在由一个键命名,来自记录,记录在这个文件中分组。但我现在的问题是,我需要在输出上应用黑名单并分别保存这些输出中的每一个。我使用一个简单的过滤器做到了这一点。现在发生的情况是,应用此文件管理器会导致作业针对x个不同的黑名单完成X次。对于大量记录,这是NotAcceptable。即使之前在Dataframe上调用缓存函数。为了弄清楚我想要什么,

hadoop - 如何在 S3 上指定 Hive EXTERNAL TABLE 数据的文件大小

我可以在Hive中创建一个EXTERNALTABLE,其中数据以Gzip格式存储在S3存储桶中。但是,这些文件非常大(每个超过6GB)。能否配置Hive使EXTERNALTABLE中的文件具有特定大小,比如512MB? 最佳答案 这对我来说听起来很奇怪,默认情况下,我的外部表通常有大约300MB的文件大小。无论如何,最简单的调整方法是使用PARTITIONBY键(可能是基于时间戳的东西),这将强制文件变小,并且具有使数据更容易的附加优势查询。此外,您应该考虑使用像Parquet这样的可拆分格式,因为这样文件大小就不再重要了。

hadoop - 配置单元 hadoop : selecting data from table getting error

我在Hive中创建了一个外部表后,我想知道推文的数量,所以我写了下面的查询,但是我得到了这个错误,请问如何解决这个问题,这是mapred-site.xml的配置mapred.job.trackerlocalhost:8021hive>selectcount(*)fromtweet;TotalMapReducejobs=1LaunchingJob1outof1Numberofreducetasksdeterminedatcompiletime:1Inordertochangetheaverageloadforareducer(inbytes):sethive.exec.reducers.

hadoop - 如何在 hive create table "TBLPROPERTIES"中引用 HBase 命名空间

我正在尝试使用HBase表('test_table)作为源创建Hive外部表。HBase表是在HBase命名空间“test_namespace”下创建的。在应用程序的其他部分,我使用以下语法访问表test_namespace:test_table或hbase://test_namespace:test_table按照同样的方法我创建了一个配置单元脚本CREATEEXTERNALTABLEIFNOTEXISTSTEST_INDIVIDUAL(keystring,teststring,photostring,locationstring)STOREDBY'org.apache.hadoop

sql - 如何正确格式化 "select top 1000 * from schema.table_name;"以在 Toad 4 Apache Hadoop 中工作?

尝试在Toad4ApacheHadoop(Hive)中运行它,它无法识别top函数。我该如何重新格式化?selecttop1000*fromFinance.ACCT_LIST 最佳答案 您可以使用LIMIT:select*fromFinance.ACCT_LISTorderbysomecolumnlimit1000如果你想得到一组一致的行,你应该添加一个orderby子句。 关于sql-如何正确格式化"selecttop1000*fromschema.table_name;"以在Toad

hadoop - Sqoop如何导入表table1, table2, table3?

一位雇主问如何在单数据库和多数据库中导入表1和表2、表3? 最佳答案 你可以试试:多个表:尝试使用“import-all-tables”和逗号分隔的“exclude-tables”选项:sqoopimport-all-tables--connectjdbc:mysql://localhost/sqoop--usernameroot--passwordhadoop--target-dir'/sqoop'--exclude-tablestable1,table2多表:在Sqoop1.99中有一个用于执行自定义SQL查询的选项-您可以检查

hadoop - SAP 沃拉 : Not able to add Vora table as Virtual table via Smart Data Access in HANA Studio

我正在使用带有HANAExpress2SP01的虚拟机。在一个小型测试集群上,我安装了HortonworksDataPlatform2.6和Spark1.6.3,还添加了HANAVora1.4和SparkController2.1。我遵循了SAPVora安装和管理指南:https://help.sap.com/http.svc/rc/f09ec811fe634f588647c342cac84c38/1.4/en-US/SAP_Vora_Installation_Admin_Guide_1.4_en.pdf直到第2.9章。一切正常,但Zeppelin部分与%jdbc解释器:%jdbcse

hadoop - 当我们 select * table_name where id = 10; 时运行了多少映射器和缩减器;在 hive

当我们select*table_namewhereid=10;时运行了多少映射器和缩减器;在hive?它是基于输入分割还是文件大小?在这种情况下如何确定映射器和缩减器的数量?有什么建议吗? 最佳答案 对于输入表的每个输入拆分,将调度一个映射器,其中输入拆分的默认大小将是block大小。您可以通过修改mapreduce.input.fileinputformat.split.maxsize来改变映射器的数量和mapreduce.input.fileinputformat.split.minsize属性。谈到Hive中的reducer数

hadoop - SQOOP 从 Teradata 导入 : Create table Ok but without data

我使用sqoop通过我的TD数据库拨号。当我尝试这个时,一切正常(我的表是在默认配置单元数据库中创建的)sqoopimport\-libjars$LIB_JARS\-Dteradata.db.input.job.type=hive\-Dteradata.db.input.target.table=hive_table\-Dteradata.db.input.target.table.schema="c1bigint"\-m1\--connectjdbc:teradata://PRD/Database=database\--connection-managerorg.apache.sqo

SQL 查询 : How to select multiple instances of a single item without collapsing into a group?

我正在尝试在Impala中执行SQL查询。我有一个数据表,其中(除其他外)有两列,其值相交多次。例如,假设我们有一个表,其中包含两列相关的姓名和电话号码:姓名电话号码约翰·史密斯(123)456-7890罗伯·约翰逊(123)456-7890格雷格·jackson(123)456-7890汤姆格林(123)456-7890jack·马西斯(123)456-7890约翰·史密斯(234)567-8901罗伯·约翰逊(234)567-8901乔·沃尔夫(234)567-8901迈克·托马斯(234)567-8901吉姆·摩尔(234)567-8901约翰·史密斯(345)678-9012罗