草庐IT

some_bucket

全部标签

hadoop - Hive bucketing 生成的文件比预期的多,为什么?

我有一个分区和集群的配置单元表(使用配置单元1.2):hive>describeformattedmyClusteredTable;#col_namedata_typeutc_timestamptimestamp...clusteredIdbigint#PartitionInformation#col_namedata_typedatePartitionstring#DetailedTableInformationNumBuckets:100BucketColumns:[clusteredId]SortColumns:[Order(col:clusteredId,order:1),Or

hadoop - Bucketed Hive ORC 表的 sqoop 导入失败

我已经使用下面的DDL在Hive中创建了ORCBucketed表:createtableEmployee(EmpIDSTRING,EmpNameSTRING)clusteredby(EmpID)into10bucketsstoredasorcTBLPROPERTIES('transactional'='true');然后运行​​Sqoop导入:sqoopimport--verbose\--connect'RDBMS_JDBC_URL'\--driverJDBC_DRIVER\--tableEmployee\--null-string'\\N'\--null-non-string'\\N

hadoop - Flink bucketing sink 以保存点重启导致数据丢失

我正在使用Flinkbucketingsink从Kafka到HDFS。Flink的版本是1.4.2。我发现每次重新启Action业时都会丢失一些数据,即使有保存点也是如此。我发现如果我设置编写器SequenceFile.CompressionType.RECORD而不是SequenceFile.CompressionType.BLOCK就可以解决这个问题。看来Flink在保存checkpoint的时候,有效长度和实际长度不一样,应该包括压缩数据。但如果我们由于磁盘使用而无法使用CompressionType.BLOCK,则可能会出现问题。如何在重新启Action业时使用block压缩来

amazon-web-services - 从 hadoop 访问 amazon S3 bucket 从命令行指定 SecretAccessKey

我正在尝试使用hdfs命令访问amazonS3存储桶。这是我运行的命令:$hadoopfs-lss3n://:@/tpt_files/-ls:InvalidhostnameinURIs3n://:@/tpt_filesUsage:hadoopfs[genericoptions]-ls[-d][-h][-R][...]我的SecretAccessKey包含“/”。这可能是造成这种行为的原因吗?与此同时,我在此服务器上安装了awscli,我可以使用awscli毫无问题地访问我的存储桶(在.aws/credentials中配置的AccessKeyId和SecretAccessKey):aws

r - 通过 sparklyr 连接到 s3 bucket 时出现签名错误

当我尝试使用sparklyr从Rstudio连接到s3存储桶时遇到错误。s3存储桶位于eu-central-1(Frankfurt)区域。Spark版本-2.1.0,Hadoop2.7。我收到带有签名不匹配错误的403响应代码。但是,当我尝试获取s3a存储桶时,却收到了400响应代码。任何关于通过Rstudio中的spark连接到s3buckets的替代方法的任何消息,也很受欢迎。在没有Spark的情况下,与s3的连接工作正常。这是代码,#install.packages("devtools")#devtools::install_github("rstudio/sparklyr")l

java - 尽管配置相同,但 Cassandra 集群 : some nodes reporting "no other nodes seen",

这个问题不太可能帮助任何future的访问者;它只与一个小的地理区域、一个特定的时间点或一个非常狭窄的情况有关,这些情况并不普遍适用于互联网的全局受众。为了帮助使这个问题更广泛地适用,visitthehelpcenter.关闭10年前。我正在尝试设置一个8节点开发集群。我对配置做了最小的改动。我将其中一个节点设置为所有节点上的种子。3个节点连接到种子,但还有4个不连接。我检查过所有非连接节点都可以访问种子的IP(它们甚至在同一子网上)。我的网络没问题。我验证了所有IP都是正确的。一个非连接节点显然访问了种子:INFO17:30:16,272StartingMessagingServic

apache - 没有分区的 Hive Bucketing?

我正在尝试使用桶映射连接在我的星型模式中进行查询。我有一些小维度表和一个大事实表。我会:通过FK键对事实表进行存储按ID键存储桶维度但是如果我尝试对没有任何分区的表进行存储,在插入数据后我只能在表文件夹中看到1个文件(num_files:1)。CREATETABLEuser_dimension(idSTRING,...nameSTRING)CLUSTEREDBY(id)INTO24BUCKETS;>>OKINSERTINTOTABLEuser_dimensionSELECTid,nameFROMdatasource;>>Tableuser_dimensionstats:[num_par

amazon-web-services - 使用 NiFi 写入启用 MFA 的 AWS S3 Bucket

在MFA处于事件状态时,是否可以使用NiFi处理器PutS3Object将数据写入S3存储桶?如果没有,考虑将数据从hive/HDFS写入S3的替代方案是什么? 最佳答案 从1.8.0版开始,我认为ApacheNiFi*S3Object处理器(或AWSCredentialsProviderControllerService)不支持此功能。我建议在Jirasite上打开功能请求票.您可以使用以下选项之一立即完成此操作:使用ExecuteStreamCommand或ExecuteProcess调用终端命令或shell脚本使用AWSS3C

hadoop - hive中partitioning和bucketing的比较区别

我们能否定义一种方法来决定是否应该进行分桶或分区? 最佳答案 通常Hive中的分区提供了一种将Hive表数据分离到多个文件/目录中的方法。但是分区在以下情况下会产生有效的结果,分区数量有限大小相当的分区但这可能并非在所有情况下都可行,例如当我们根据国家/地区等地理位置对我们的表进行分区时,一些较大的国家/地区将有较大的分区(例如:4-5个国家/地区本身贡献了总数据的70-80%),其中小国家数据将创建小分区(世界上其余所有国家可能只占总数据的20-30%)。因此,在这些情况下,分区将不是理想的。为了克服过度分区的问题,Hive提供了

python - Spark : pyspark crash for some datasets - ubuntu

我正在使用Ubuntu和本地Spark安装(spark-2.0.2)。我的数据集很小,我的代码运行在我有一个小数据。如果我用更多行增加数据集(txt文件),则会发生错误。我在安装了Hadoop的ClouderaVM上尝试了完全相同的代码,并且运行良好。所以,这一定是我的Ubuntu机器上的一些内存问题或限制。还有一些其他类似的问题,例如:ApacheSpark:pysparkcrashforlargedataset但在我的情况下它没有帮助。我没有Hadoop集群,只有Spark、python2.7和java1.8。它工作正常,只是当有一些更复杂的计算或数据集更大时它崩溃了。有什么线索吗