草庐IT

s3DistCp

全部标签

python - 从 PySpark 连接到 S3 数据

我正在尝试从Amazons3读取一个JSON文件,以创建一个spark上下文并使用它来处理数据。Spark基本上是在一个docker容器中。所以把文件放在docker路径也是PITA。因此将其推到S3。下面的代码解释了其余的内容。frompysparkimportSparkContext,SparkConfconf=SparkConf().setAppName("first")sc=SparkContext(conf=conf)config_dict={"fs.s3n.awsAccessKeyId":"**","fs.s3n.awsSecretAccessKey":"**"}bucke

python - 亚马逊 S3 权限

试图了解S3...如何限制对上传到S3的文件的访问?例如,在Web应用程序中,每个用户都有可以上传的文件,但是您如何限制访问权限以便只有该用户可以访问该文件?查询字符串身份验证似乎需要一个到期日期,这对我不起作用,还有其他方法吗? 最佳答案 有多种方法可以控制对S3对象的访问:使用查询字符串auth-但如您所述,这确实需要到期日期。你可以在未来走得更远,这对我所做的大多数事情来说已经足够好了。使用S3ACLS-但这需要用户拥有AWS账户并通过AWS进行身份验证才能访问S3对象。这可能不是您要找的。您通过应用程序代理对S3对象的访问,

python - 如何将图像文件从 S3 存储桶直接读入内存?

我有以下代码importmatplotlib.pyplotaspltimportmatplotlib.imageasmpimgimportnumpyasnpimportboto3s3=boto3.resource('s3',region_name='us-east-2')bucket=s3.Bucket('sentinel-s2-l1c')object=bucket.Object('tiles/10/S/DG/2015/12/7/0/B01.jp2')object.download_file('B01.jp2')img=mpimg.imread('B01.jp2')imgplot=pl

Mangopi MQ-R:T113-s3编译Tina Linux系统(三)独立编译Qt5

文章目录一、将TinaSDK里面的交叉编译器加到系统环境中去二、使用TinaSDK的tslib三、使用TinaSDK的交叉编译器编译Qt源码0、下载源码解压1、修改qmake.conf文件2、配置编译选项文件3、编译Qt4、安装Qt报错:需要增加四、拷贝到开发板上去拷贝文件的时候居然inodes耗尽了!解决inodes耗尽的问题拷贝成功后,添加环境到/etc/profile添加触摸屏五、适配屏幕附加:编译成功一、将TinaSDK里面的交叉编译器加到系统环境中去在ubuntu虚拟机里面的/etc/profile添加TinaSDK使用的交叉编译器#T113-s3Tina-LinuxPathexpo

Mangopi MQ-R:T113-s3编译Tina Linux系统(三)独立编译Qt5

文章目录一、将TinaSDK里面的交叉编译器加到系统环境中去二、使用TinaSDK的tslib三、使用TinaSDK的交叉编译器编译Qt源码0、下载源码解压1、修改qmake.conf文件2、配置编译选项文件3、编译Qt4、安装Qt报错:需要增加四、拷贝到开发板上去拷贝文件的时候居然inodes耗尽了!解决inodes耗尽的问题拷贝成功后,添加环境到/etc/profile添加触摸屏五、适配屏幕附加:编译成功一、将TinaSDK里面的交叉编译器加到系统环境中去在ubuntu虚拟机里面的/etc/profile添加TinaSDK使用的交叉编译器#T113-s3Tina-LinuxPathexpo

python - 使用 pycurl 中断的 S3 上传

我正在使用pycurl作为botoPython库的后端。它非常快速且用途广泛,但我遇到的问题是大文件的上传经常在连接重置时失败。当我将普通boto与普通httplib一起使用时,它更加可靠。我在使用Wireshark时发现,一段时间后(或者有时很快),我的机器停止接收来自S3的ACK,因此它会重置连接。似乎pycurl速度如此之快以至于它阻塞了连接。如果我限制上传(我使用多接口(interface))或使用较慢的互联网连接,上传运行正常。我仍然想知道我可能做错了什么。我还尝试使用.NETS3SDK上传。它慢了大约3倍,但成功了。此外,这一切都在Windows7上,同一网络上的OSX机器

python - get_bucket() 为我未通过 Boto 创建的 S3 存储桶提供 'Bad Request'

我正在使用Boto尝试获取AmazonS3中的存储桶,但当我对某些存储桶使用get_bucket()时它返回错误请求。我开始怀疑这是否是Boto的错误,因为我可以使用get_all_buckets()获取存储桶。>>>fromboto.s3.connectionimportS3Connection>>>conn=S3Connection(S3_ACCESS_KEY,S3_SECRET_KEY)>>>buckets=conn.get_all_buckets()>>>buckets[]>>>buckets[0]>>>conn.get_bucket('mysite-backups')Trac

python - 无法使用boto连接aws s3 bucket

AWS_ACCESS_KEY_ID=''AWS_SECRET_ACCESS_KEY=''Bucketname='Bucket-name'importbotofromboto.s3.keyimportKeyimportboto.s3.connectionconn=boto.connect_s3(AWS_ACCESS_KEY_ID,AWS_SECRET_ACCESS_KEY,host='s3.ap-southeast-1.amazonaws.com',is_secure=True,#uncommmntifyouarenotusingsslcalling_format=boto.s3.con

python - mrjob:无效的引导操作路径,必须是 Amazon S3 中的一个位置

我在Windows7上。我安装了mrjob,当我运行exampleword_countfile时从网站上看,它在本地机器上运行良好。但是,我在尝试在AmazonEMR上运行它时遇到错误。我什至测试了仅使用boto连接到amazons3并且它有效。mrjob.conf文件runners:emr:aws_access_key_id:xxxxxxxxxxxxxaws_region:us-east-1aws_secret_access_key:xxxxxxxxec2_key_pair:bzyec2_key_pair_file:C:\aa.pemec2_instance_type:m1.smal

python - 一段时间后,将 Django 的 collectstatic 与 boto S3 一起使用会抛出 "Error 32: Broken Pipe"

我将boto与S3结合使用来存储我的Django站点的静态文件。使用collectstatic命令时,它会完美地上传大量文件,然后在文件处停止并抛出“错误32:损坏的管道。”当我尝试运行再次命令,它会跳过它已经上传的文件并从它停止的文件开始,然后在没有上传任何新内容的情况下抛出相同的错误。 最佳答案 关键似乎是指定哪个AWSEndpoint你的桶位于。我尝试了很多不同的方法,但最终对我有用的解决方案是为boto创建一个配置文件,如documentation中指定的那样。.这是我在~/.boto创建的配置文件的内容:[Credenti