草庐IT

report_service

全部标签

web-services - 如何使用 hbase 处理 Web 请求

我有大约300万份pdf、文档和图像文档。我已经建立了一个网站,如果用户从网站界面搜索,我必须根据需要提供那些hbase存储的文档。HowcanIdoit?Isitgoodtousehbaseforservingwebdocuments(infuturethesedocumentswillbefurtherincreased)?我的hadoop版本是1.2.1,hbase是0.94。 最佳答案 在这种情况下,我更喜欢有一个搜索服务器来索引这些数据,并且网络将与这个搜索服务器api集成,例如:Solr,是一个开源搜索服务器。希望这对您

amazon-web-services - AWS EMR 集群失败,因为磁盘已满

我在具有约10个节点的awsemr集群上运行一些Map-Reduce-Jobs。(emr4.7.11,m3.xlarge)当作业正在运行时,工作节点在约4小时后开始一个接一个地死亡。在日志中我发现了以下错误:“1/3本地目录错误:/mnt/yarn;1/1日志目录错误:/var/log/hadoop-yarn/containers”当节点出现故障时,工作节点上的磁盘使用率为96%。所以我假设节点上的磁盘达到100%,并且没有文件可以写入磁盘。所以我尝试为每个实例附加一个500GB的EBS卷。但是Hadoop只使用了/mnt,并没有使用额外的Volume(/mnt2)。如何配置AWSEM

amazon-web-services - 尝试从本地计算机访问 AWS 上的 HDFS 文件时出现错误

我已经在thistutorial之后在AWSEC2上成功安装了hadoop和spark.我可以从AWS上的spark访问HDFS。但是,当我尝试通过以下方式从本地计算机访问HDFS文件时vallines=sc.textFile("hdfs://namenode_public_DNS:9000/datasets/wikipedia/wikipedia.dat")lines.first()我明白了17/04/1016:35:41WARNBlockReaderFactory:I/Oerrorconstructingremoteblockreader.org.apache.hadoop.net

amazon-web-services - 列出 EMR 上的 S3 文件夹

我无法理解如何在Spark作业期间简单地列出EMR上S3存储桶的内容。我想做以下事情Configurationconf=spark.sparkContext().hadoopConfiguration();FileSystems3=S3FileSystem.get(conf);Listlist=toList(s3.listFiles(newPath("s3://mybucket"),false))这总是失败并出现以下错误java.lang.IllegalArgumentException:WrongFS:s3://*********/,expected:hdfs://*********

amazon-web-services - 将文件从 SFTP 复制到 Amazon S3

我正在尝试将文件从SFTP复制到S3。我不想登陆文件中间服务器,请给我建议方法。 最佳答案 我假设您无权访问/控制sftp服务器。如果您确实有访问权限,那就很容易了。否则,选择您选择的语言并流式传输数据。例如,对于Python,您可以使用paramiko的sftp.getfo()并将该文件流指向Boto的s3.key.send_file()。这使您无需将文件下载到磁盘。但是,无法告诉随机SFTP服务器将其发送到S3。 关于amazon-web-services-将文件从SFTP复制到Am

amazon-web-services - Spark/Hadoop 不支持 AWS S3 上的 SSE-KMS 加密

我正在尝试使用KMSkey(SSE-KMS)通过服务器端加密在S3上保存一个rdd,但出现以下异常:Exceptioninthread"main"com.amazonaws.services.s3.model.AmazonS3Exception:StatusCode:400,AWSService:AmazonS3,AWSRequestID:695E32175EBA568A,AWSErrorCode:InvalidArgument,AWSErrorMessage:Theencryptionmethodspecifiedisnotsupported,S3ExtendedRequestID:

amazon-web-services - Jupyter notebook、pyspark、hadoop-aws 问题

我正在尝试结合使用Jupyter、PySpark和S3文件(通过s3a协议(protocol))。我需要org.apache.hadoop.fs.s3a.TemporaryAWSCredentialsProvider,因为我们需要使用s3sessiontoken。这是添加到hadoop-aws2.8.3+。我正在尝试以下代码:importosfrompyspark.sqlimportSparkSessionos.environ['PYSPARK_SUBMIT_ARGS']='--packagesorg.apache.hadoop:hadoop-aws:3.0.0pyspark-shel

amazon-web-services - 在 Amazon EMR 中的何处查找 Hive UDF 的控制台输出

我在java中创建了一个可以在Hive查询中调用的UDF,在UDF中我放入了System.out.prinln(msg)希望在控制台中输出一些东西。它在我本地的工作场所按预期工作,但当部署到亚马逊EMR时,stderr日志文件不显示来self的UDF函数的任何输出消息。我在哪里可以找到包含我的消息输出的文件? 最佳答案 如果Hive将查询提交给M/R,那么任何输出都将被捕获到您提交的作业控制台输出中。参见WheredoeshadoopmapreduceframeworksendmySystem.out.print()statemen

amazon-web-services - EMR 上 Hadoop 作业的 S3 文件的最佳文件大小?

我正在尝试确定存储在S3中的文件的理想大小,该文件将用于EMR上的Hadoop作业。目前我有大约5-10gb的大文本文件。我担心将这些大文件复制到HDFS以运行MapReduce作业会延迟。我可以选择缩小这些文件。我知道在MapReduce作业中使用S3作为输入目录时,S3文件会被并行复制到HDFS。但是,是使用单线程将单个大文件复制到HDFS,还是将该文件作为多个部分并行复制?另外,Gzip压缩是否影响将单个文件分成多个部分复制? 最佳答案 有两个因素需要考虑:压缩文件不能在任务之间拆分。例如,如果您有一个大型压缩输入文件,则只有

amazon-web-services - 保存时挂起的 Spark Dataframe

我一直在努力找出我的spark作业有什么问题,它无限期地卡在我尝试将其写出到S3或HDFS(约100GParquet格式的数据)的地方。导致挂起的行:spark_df.write.save(MY_PATH,format='parquet',mode='append')我已经在覆盖和追加模式下尝试过此操作,并尝试保存到HDFS和S3,但无论如何作业都会挂起。在Hadoop资源管理器GUI中,它显示spark应用程序的状态为“正在运行”,但看起来似乎Spark实际上没有做任何事情,当我查看SparkUI时,没有作业在运行。让它起作用的一件事是在集群处于挂起状态时增加集群的大小(我在AWS上