草庐IT

df_source

全部标签

python - 将 PySpark DF 写入专用格式的文件

我正在使用PySpark2.1,我需要想出一种方法将我的数据帧写入专门格式的.txt文件;所以不是典型的json或csv,而是CTF格式(对于CNTK)。该文件不能有额外的括号或逗号等。它遵循以下形式:|labelval|featuresvalvalval...val|labelval|featuresvalvalval...val显示这一点的一些代码可能如下所示:l=[('Ankit',25),('Jalfaizy',22),('saurabh',20),('Bala',26)]rdd=sc.parallelize(l)people=rdd.map(lambdax:Row(name=

linux - 异常(exception)如下。 org.apache.flume.FlumeException : Unable to load source type in flume twitter analysis 异常

我正在尝试使用Flume和Hive进行Twitter分析。为了从twitter获取推文,我在flume.conf文件中设置了所有必需的参数(consumerKey、consumerSecret、accessToken和accessTokenSecret)。TwitterAgent.sources=TwitterTwitterAgent.channels=MemChannelTwitterAgent.sinks=HDFSTwitterAgent.sources.Twitter.type=com.cloudera.flume.source.TwitterSourceTwitterAgent

apache-spark - PySpark:使用具有 1000 个字段但具有可变列数的行的模式创建 RDD->DF->Parquet

我正在尝试读取一个ElasticSearch索引,它有数百万个文档,每个文档都有可变数量的字段。我有一个模式,其中有1000个字段,每个字段都有自己的名称和类型。现在,当我通过ES-Hadoop连接器创建一个RDD并稍后通过指定模式转换为一个DataFrame时,它没有说-Inputrowdoesn'thaveexpectednumberofvaluesrequiredbytheschema我有几个问题。1.是否有可能有一个RDD/DF的行包含可变数量的字段?如果不是,除了为每列中缺失的字段添加空值外,还有什么替代方法?我看到默认情况下Spark将所有内容转换为StringType,因

scala - Source.fromFile 不适用于 HDFS 文件路径

我正在尝试从我的hdfs中读取文件内容,因为我正在使用Source.fromFile()。当我的文件在本地系统中时它工作正常,但当我尝试从HDFS读取文件时抛出错误。objectCheckFile{defmain(args:Array[String]){for(line错误:java.io.FileNotFoundException:hdfs:/quickstart.cloudera:8080/user/cloudera/xxxx/File(Nosuchfileordirectory)我进行了搜索,但找不到任何解决方案。请帮忙 最佳答案

scala - 创建像 TextLine 这样的 Scalding Source,将多个文件组合成单个映射器

我们有很多小文件需要合并。在Scalding中,您可以使用TextLine将文件读取为文本行。问题是我们每个文件有1个映射器,但我们想要组合多个文件,以便它们由1个映射器处理。我知道我们需要将输入格式更改为CombineFileInputFormat的实现,这可能涉及使用级联CombinedHfs。我们不知道如何做到这一点,但它应该只是几行代码来定义我们自己的Scalding源,例如CombineTextLine。非常感谢任何可以提供代码的人。作为附带问题,我们在s3中有一些数据,如果给定的解决方案适用于s3文件,那就太好了——我想这取决于CombineFileInputFormat还

hadoop - 为什么 DataFrame.saveAsTable ("df") 将表保存到不同的 HDFS 主机?

我已经用Spark(1.4.0)配置了Hive(1.13.1),我可以从hive访问所有数据库和表,我的仓库目录是hdfs://192.168.1.17:8020/用户/hive/仓库但是,当我尝试使用df.saveAsTable("df")函数通过Spark-Shell(使用master)将Dataframe保存到Hive中时,我遇到了这个错误。15/07/0314:48:59INFOaudit:ugi=userip=unknown-ip-addrcmd=get_database:default15/07/0314:48:59INFOHiveMetaStore:0:get_table

maven - 为什么 Maven 试图将我的代码编译为 -source 1.3?

我在Ubuntu12.04中收到此错误mvn-epackage:[ERROR]Failedtoexecutegoalorg.apache.maven.plugins:maven-compiler-plugin:2.0.2:compile(default-compile)onprojectHadoopSkeleton:Compilationfailure:Compilationfailure:[ERROR]/home/jesvin/dev/hadoop/HadoopMahoutSkeleton-master/src/main/java/HadoopSkeleton/App.java:[2

implementation - Hadoop MR source : HDFS vs HBase. 各有什么好处?

如果我正确理解Hadoop生态系统,我可以运行我的MapReduce作业,从HDFS或HBase获取数据。假设之前的假设是正确的,我为什么要选择一个而不是另一个?使用HBase作为MR源在性能、可靠性、成本或易用性方面是否有优势?我能找到的最好的引用是这句话,“HBase是当您需要对非常大的数据集进行实时读/写随机访问时使用的Hadoop应用程序。”-TomWhite(2009)Hadoop:权威指南,第1版 最佳答案 在HDFS上直接使用HadoopMap/Reduce,您的输入和输出通常存储为平面文本文件或HadoopSeque

hadoop - 为什么每次都需要source bash_profile

我已经安装了Hadoop,每次我想运行它时,首先我必须这样做:source~/.bash_profile否则它不会识别命令hadoop这是为什么?我在OSX10.8上 最佳答案 现在我们已经缩小了问题的范围:在命令行中运行ps-p$$以检查您实际上是否在使用bashshell。意识到您在zsh中,这意味着您应该在.zshrc中编辑您的配置文件。将有问题的行从.bash_profile复制到.zshrc,或者修改您的.zshrc以直接获取您的.bash_profile。更新:执行@TC1在评论中提到的操作,并将特定于shell的代码保

java - 与 Resin Professional 相比,Quercus PHP 在 Resin Open Source 上的速度有多快(慢)?

Caucho的聪明人很快指出Quercus比直接mod_php(没有APC)快3-5倍。但是深入研究文档,您会发现PHP到字节码的编译仅在ResinPro(699美元)中可用。我想知道的是,ResinOpenSource执行PHP代码的速度有多快(即多慢)?是的,我知道我可以测试它,这取决于应用程序,它取决于环境,等等等等。但我只需要以前做过的任何人的一个轶事数据点,无论它是否具有统计显着性......都没关系! 最佳答案 Quercus独立于Resin(开源或商业),并且它本身是开源的。我们在Jetty和Tomcat上运行Quer