草庐IT

S3Connection

全部标签

scala - Spark : SAXParseException while writing to parquet on s3

我正在尝试读取一些json,推断模式,然后将其作为parquet再次写出到s3(s3a)。出于某种原因,在运行的写入部分进行了大约三分之一的过程中,spark总是出错并出现以下错误。我找不到任何明显的问题原因:它不是内存不足;没有长时间的GC暂停。各个执行者的日志中似乎没有任何其他错误消息。该脚本在我拥有的另一组数据上运行良好,它具有非常相似的结构,但小了几个数量级。我正在运行spark2.0.1-hadoop-2.7并使用FileOutputCommitter。算法版本似乎并不重要。编辑:对于格式错误的json或损坏的文件,这似乎不是问题。我已经解压缩并单独读取每个文件,没有错误。这

hadoop - 您可以使用 Spark SQL/Hive/Presto 直接从 Parquet/S3 复制到 Redshift 吗?

我们有大量服务器数据存储在S3中(很快将采用Parquet格式)。数据需要一些转换,因此它不能是S3的直接副本。我将使用Spark来访问数据,但我想知道是否可以不使用Spark来处理它,写回S3,然后复制到Redshift,如果我可以跳过一个步骤,运行查询以提取/转换数据,然后将其直接复制到Redshift? 最佳答案 没问题,完全有可能。读取parquet的Scala代码(取自here)valpeople:RDD[Person]=...people.write.parquet("people.parquet")valparquet

hadoop - Namenode-HDFS "Connection refused"错误(Hadoop 问题)

当我们看到使用jps命令时,我的所有节点都已启动并正在运行,但我仍然无法连接到hdfs文件系统。每当我在HadoopNamenodelocalhost:8020页面上单击Browsethefilesystem时,我得到的错误是ConnectionRefused。我也尝试过格式化并重新启动名称节点,但错误仍然存​​在。谁能帮我解决这个问题。 最佳答案 检查您的所有服务是否都在运行JobTracker、Jps、NameNode。DataNode、TaskTracker通过运行jps命令。尝试一个一个地运行它们:./bin/stop-al

amazon-web-services - 亚马逊 S3 架构

按照目前的情况,这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持,但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开,visitthehelpcenter指导。关闭10年前。虽然帖子@http://highscalability.com/amazon-architecture总体上解释了Amazon的架构,我很想知道AmazonS3是如何实现的。我的一些猜测是像HDFS这样的分布式文件系统http://hadoop.apache.org/core/docs/current/hdfs_design.html像CouchDB这样

hadoop - 如何在Parquet中输出多个s3文件

写入Parquet数据可以通过如下方式完成。但是,如果我试图写入多个文件,而且还想输出到多个s3文件,以便读取单个列不会读取所有s3数据,这怎么办?AvroParquetWriterwriter=newAvroParquetWriter(file,schema);GenericData.Recordrecord=newGenericRecordBuilder(schema).set("name","myname").set("favorite_number",i).set("favorite_color","mystring").build();writer.write(record)

MySQL Aborted connection分析

一、问题背景    最近在线上的日志巡查中,发现了如下的异常日志,应用程序不能获取JDBC连接,连接被关闭。Requestprocessingfailed;nestedexceptionisorg.springframework.transaction.TransactionSystemException:CouldnotrollbackJDBCtransaction;nestedexceptionisjava.sql.SQLException:Connectionisclosed。紧随其后,系统里日志记录信息如下:CouldnotrollbackJDBCtransaction;nestede

php - 使用 AWS api 检查 amazon s3 上是否存在对象

我正在使用AWSapi,但在检查现有对象(文件夹)时遇到问题。我经历了this问题,它对我没有帮助,因为我使用的是最新更新的SDK。我搜索了SDK并找到了this这应该可以工作,即doesObjectExist,但我无法在任何地方找到函数定义。我的s3.php文件没有此功能。Here是我的S3.php类。我还了解到S3不支持文件夹结构,但由于平面文件系统,它只是在视觉上让它看起来像是存储在一个文件夹中。现在,如果我必须在S3上搜索文件夹1024x768,我是否只检查存储桶的根目录?我的意思是这样的$chkFileExist=$s3->doesObjectExist($bucketNam

php - Gitlab CI Symfony : SQLSTATE[HY000] [2002] Connection refused

每次有人推送代码时,我都会使用gitlab运行单元测试。我在composer安装过程中收到此错误。>Incenteev\ParameterHandler\ScriptHandler::buildParametersCreatingthe"app/config/parameters.yml"file>Sensio\Bundle\DistributionBundle\Composer\ScriptHandler::buildBootstrap>Sensio\Bundle\DistributionBundle\Composer\ScriptHandler::clearCache[Doctri

php - PHP 的 Heroku 内存错误和从 S3 读取大文件

我正在使用适用于PHP的AWS2.3.2SDK尝试使用他们的流包装器从S3中提取一个大文件(~4g),这应该允许我使用fopen/fwrite将文件写入磁盘并不缓冲到内存中。引用如下:http://docs.aws.amazon.com/aws-sdk-php-2/guide/latest/service-s3.html#downloading-data这是我的代码:publicfunctiondownload(){$client=S3Client::factory(array('key'=>getenv('S3_KEY'),'secret'=>getenv('S3_SECRET'))

php - 将 Cloudfront 与动态图像大小调整和 S3 存储集成

我已经阅读了很多关于动态图像处理、存储和内容交付的文章,我工作的公司已经在他们的一些服务中使用了AWS。我正在开发的应用程序,将文档图像存储到S3存储桶(不限于),我需要按需显示它们。此应用程序的第一个版本,将图像存储在本地并在同一台服务器上按需执行图像处理。现在,文档存储量增加了,并且存储了大量图像,所有这些都是通过Web应用程序进行的,这意味着一个用户可能会上传100多张图像,服务器需要尽可能快地处理它们。这就是为什么将图像上传到EC2实例并在内部流式传输到S3存储桶的原因,这就是我们首先保存原始图像的方式,这里没有缩略图以加快上传过程。然后不同的用户可能想要预览这些图像或以原始大