single_table

hadoop - Spark 1.2 : Write single record into multiple files (blacklisted)

我尝试将RDD中的每条记录写入多个文件(每个黑名单一个，并按键分组)到HDFS，并在每个文件集上应用黑名单。首先，我将MultipleTextOutputFormat与keyBy结合使用，按记录中的字段对输出文件进行分组，效果很好。所以我的输出文件现在由一个键命名，来自记录，记录在这个文件中分组。但我现在的问题是，我需要在输出上应用黑名单并分别保存这些输出中的每一个。我使用一个简单的过滤器做到了这一点。现在发生的情况是，应用此文件管理器会导致作业针对x个不同的黑名单完成X次。对于大量记录，这是NotAcceptable。即使之前在Dataframe上调用缓存函数。为了弄清楚我想要什么，

blacklisted multiple 黑名 section strong hadoop apache-spark apache-spark-sql

hadoop - 如何在 S3 上指定 Hive EXTERNAL TABLE 数据的文件大小

我可以在Hive中创建一个EXTERNALTABLE，其中数据以Gzip格式存储在S3存储桶中。但是，这些文件非常大(每个超过6GB)。能否配置Hive使EXTERNALTABLE中的文件具有特定大小，比如512MB？最佳答案这对我来说听起来很奇怪，默认情况下，我的外部表通常有大约300MB的文件大小。无论如何，最简单的调整方法是使用PARTITIONBY键(可能是基于时间戳的东西)，这将强制文件变小，并且具有使数据更容易的附加优势查询。此外，您应该考虑使用像Parquet这样的可拆分格式，因为这样文件大小就不再重要了。

何在 EXTERNAL section code hadoop amazon-s3 hive

hadoop - 配置单元 hadoop : selecting data from table getting error

我在Hive中创建了一个外部表后，我想知道推文的数量，所以我写了下面的查询，但是我得到了这个错误，请问如何解决这个问题，这是mapred-site.xml的配置mapred.job.trackerlocalhost:8021hive>selectcount(*)fromtweet;TotalMapReducejobs=1LaunchingJob1outof1Numberofreducetasksdeterminedatcompiletime:1Inordertochangetheaverageloadforareducer(inbytes):sethive.exec.reducers.

配置单 hadoop Cumulative reduce Stage hive hadoop-streaming hadoop-partitioning flume-twitter

hadoop - 如何在 hive create table "TBLPROPERTIES"中引用 HBase 命名空间

我正在尝试使用HBase表('test_table)作为源创建Hive外部表。HBase表是在HBase命名空间“test_namespace”下创建的。在应用程序的其他部分，我使用以下语法访问表test_namespace:test_table或hbase://test_namespace:test_table按照同样的方法我创建了一个配置单元脚本CREATEEXTERNALTABLEIFNOTEXISTSTEST_INDIVIDUAL(keystring,teststring,photostring,locationstring)STOREDBY'org.apache.hadoop

TBLPROPERTIES 何在 hivehbase krishna ratings hadoop namespaces hive hbase

sql - 如何正确格式化 "select top 1000 * from schema.table_name;"以在 Toad 4 Apache Hadoop 中工作？

尝试在Toad4ApacheHadoop(Hive)中运行它，它无法识别top函数。我该如何重新格式化？selecttop1000*fromFinance.ACCT_LIST 最佳答案您可以使用LIMIT:select*fromFinance.ACCT_LISTorderbysomecolumnlimit1000如果你想得到一组一致的行，你应该添加一个orderby子句。关于sql-如何正确格式化"selecttop1000*fromschema.table_name;"以在Toad

中工 table_name section code 中运 sql apache hadoop format toad

hadoop - Sqoop如何导入表table1, table2, table3？

一位雇主问如何在单数据库和多数据库中导入表1和表2、表3？最佳答案你可以试试:多个表:尝试使用“import-all-tables”和逗号分隔的“exclude-tables”选项:sqoopimport-all-tables--connectjdbc:mysql://localhost/sqoop--usernameroot--passwordhadoop--target-dir'/sqoop'--exclude-tablestable1,table2多表:在Sqoop1.99中有一个用于执行自定义SQL查询的选项-您可以检查

table hadoop section blockquote sqoop hdfs bigdata

hadoop - SAP 沃拉 : Not able to add Vora table as Virtual table via Smart Data Access in HANA Studio

我正在使用带有HANAExpress2SP01的虚拟机。在一个小型测试集群上，我安装了HortonworksDataPlatform2.6和Spark1.6.3，还添加了HANAVora1.4和SparkController2.1。我遵循了SAPVora安装和管理指南:https://help.sap.com/http.svc/rc/f09ec811fe634f588647c342cac84c38/1.4/en-US/SAP_Vora_Installation_Admin_Guide_1.4_en.pdf直到第2.9章。一切正常，但Zeppelin部分与%jdbc解释器:%jdbcse

沃拉 table section Vora noreferrer hadoop hana apache-zeppelin hana-studio

hadoop - 当我们 select * table_name where id = 10; 时运行了多少映射器和缩减器；在 hive

当我们select*table_namewhereid=10;时运行了多少映射器和缩减器；在hive？它是基于输入分割还是文件大小？在这种情况下如何确定映射器和缩减器的数量？有什么建议吗？最佳答案对于输入表的每个输入拆分，将调度一个映射器，其中输入拆分的默认大小将是block大小。您可以通过修改mapreduce.input.fileinputformat.split.maxsize来改变映射器的数量和mapreduce.input.fileinputformat.split.minsize属性。谈到Hive中的reducer数

射器缩减 section code hadoop hive

hadoop - SQOOP 从 Teradata 导入 : Create table Ok but without data

我使用sqoop通过我的TD数据库拨号。当我尝试这个时，一切正常(我的表是在默认配置单元数据库中创建的)sqoopimport\-libjars$LIB_JARS\-Dteradata.db.input.job.type=hive\-Dteradata.db.input.target.table=hive_table\-Dteradata.db.input.target.table.schema="c1bigint"\-m1\--connectjdbc:teradata://PRD/Database=database\--connection-managerorg.apache.sqo

Teradata without section database Dteradata hadoop import hive sqoop

SQL 查询 : How to select multiple instances of a single item without collapsing into a group?

我正在尝试在Impala中执行SQL查询。我有一个数据表，其中(除其他外)有两列，其值相交多次。例如，假设我们有一个表，其中包含两列相关的姓名和电话号码:姓名电话号码约翰·史密斯(123)456-7890罗伯·约翰逊(123)456-7890格雷格·jackson(123)456-7890汤姆格林(123)456-7890jack·马西斯(123)456-7890约翰·史密斯(234)567-8901罗伯·约翰逊(234)567-8901乔·沃尔夫(234)567-8901迈克·托马斯(234)567-8901吉姆·摩尔(234)567-8901约翰·史密斯(345)678-9012罗

collapsing instances 罗伯 phone_number number sql hadoop impala

164 165 166167168 169 170