spark-ml

android - 从字符串加载 OpenCV 的 ML (SVM)

我目前正在开发一种基于机器学习的纹理分类算法，主要是支持vector机(SVM)。我能够在我的测试数据上获得一些非常好的结果，现在想在生产环境中使用SVM。在我的案例中，高效意味着，它将在多个桌面和移动平台(即Android、iOS)上运行，并且始终在native线程的深处运行。出于软件结构和平台访问策略的原因，我无法从使用SVM的位置访问文件系统。但是，我的框架支持在授予文件系统访问权限的环境中读取文件，并将文件内容作为std::string传送到我的应用程序的SVM部分。配置SVM的标准过程是使用文件名，OpenCV直接从文件中读取:cv::SVM_svm;_svm.load("/

scala - 使用 apache spark 自动运行任务

我是apachespark的新手，我正在尝试使用spark运行测试应用程序。我面临的问题是，当我使用要处理的数据集合创建RDD时，它会被创建但它不会开始处理它，除非我调用RDD类中存在的.collect方法.这样，我必须等待spark来处理RDD。有什么方法可以让spark在我形成RDD后立即自动处理集合，然后我可以随时调用.collect方法来获取处理后的数据，而不必等待spark？还有什么方法可以使用spark将处理后的数据放入数据库而不是返回给我？我使用的代码如下:objectappMainextendsApp{valspark=newSparkContext("local","

apache scala spark section val hadoop apache-spark

java - Spark 与 Hadoop 集成 InputFormat 混淆

我目前正在尝试将自定义InputSplit和RecordReader与ApacheSpark的SparkContexthadoopRDD()函数结合使用。我的问题如下:InpuSplit.getLenght()和/或RecordReader.getProgress()返回的值是否会影响map()的执行SparkRuntime中的函数？我问是因为我在ApacheHadoop上使用了这两个自定义类，它们按预期工作。但是，在Spark中，我看到在运行时生成了新的InputSplit对象，这是我不希望我的代码执行的操作。更准确地说:在执行开始时，我在我的日志文件中看到生成了正确数量的Input

混淆 InputFormat code InputSplit section java hadoop apache-spark

python - 在 apache spark/Storm 中运行 python 脚本

我有一个用python编写的算法(不兼容hadoop，即不是mapper.py和reducer.py)，它在本地系统(不是hadoop)中运行完美。我的目标是在hadoop中运行它。选项1:Hadoop流式处理。但是，我需要将这个python脚本转换为mapper和reducer。还有其他办法吗？选项2:通过Storm运行此python脚本。但是，我使用的是没有Storm的cloudera。我需要在cloudera中安装storm或需要使用Spark。如果我在cloudera中安装storm。这是更好的选择吗？选项3:通过Spark(Cloudera)运行此python脚本。可能吗。此

中运 python section hadoop apache-spark

hadoop - Spark : Avro RDD to csv

我能够将arvo文件读入avroRDD并尝试转换为csvRDD，其中包含以逗号分隔的所有值。使用以下代码，我可以将特定字段读入csvRDD。valcsvRDD=avroRDD.map({case(u,_)=>u.datum.get("empname")})如何将所有值读入csvRDD而不是指定字段名称。我的结果csvRDD应该包含如下记录(100,John,25,IN)(101,Ricky,38,AUS)(102,Chris,68,US) 最佳答案将Spark1.2+与Spark-Avrointegrationlibrary结合使

hadoop Spark code section 读入 apache-spark cloudera-cdh rdd

hadoop - 如何在 Cloudera 中配置 Yarn 以在所有集群节点上运行 Spark 执行程序？

我们有一个Cloudera集群，其中包含3个数据节点和相应的yarn节点管理器。然而，当我们以yarn-client模式向集群提交一个spark脚本时，其中一个节点被处理为applicationmaster，只有另外两个节点被处理为Sparkexecutor。这显示在下面的spark日志中，其中只有节点2和节点3被设置为执行者:Usingpropertiesfile:/opt/cloudera/parcels/CDH-5.3.0-1.cdh5.3.0.p0.30/lib/spark/conf/spark-defaults.confAddingdefaultproperty:spark.

何在 Cloudera 15 INFO 20 hadoop apache-spark hadoop-yarn

azure - hdinsight actionscript 安装 spark 1.2

有谁知道如何为hdisights创建ActionScript？我现在正在使用actoinscript安装spark1.0.2，但希望集群上的spark1.2.x获得更多的配置单元支持。我读过ScriptActionDevelopmentwithHDInsight当我尝试通过修改Microsoft提供的actionscript使用1.2创建spark集群时。这样做之后我得到一个错误，spark不理解文件url'wasb://'并且它需要采用'hdfs://'格式。在文章中它谈到了ConfigurethecustomcomponentstouseWASB它说:Thecustomcompon

actionscript hdinsight section spark noreferrer azure hadoop apache-spark hdfs azure-hdinsight

scala - 来自 Spark 的 Hive 查询 - 解析失败

我正在尝试在spark-shell中执行此操作:valhiveCtx=neworg.apache.spark.sql.hive.HiveContext(sc)vallistTables=hiveCtx.hql("showtables")第二行执行失败并显示此消息:warning:therewere1deprecationwarning(s);re-runwith-deprecationfordetailsorg.apache.spark.sql.hive.HiveQl$ParseException:Failedtoparse:showtablesatorg.apache.spark.s

scala Spark apache hive hadoop apache-spark hiveql

python - Spark .stdev() Python 问题

所以我正在尝试做一些统计分析，我一直在做sum与stdev有点不同。Sum可以像这样正常工作:stats[0]=myData2.map(lambda(Column,values):(sum(values))).collect()Stdev的格式不同，无法正常工作:stats[4]=myData2.map(lambda(Column,values):(values)).stdev()我收到以下错误:TypeError:unsupportedoperandtype(s)for-:'ResultIterable'and'float' 最佳答案

python sum section code hadoop apache-spark

python - 具有一些空值的数组上的 Spark Stats

我有以下代码:myData3=myData.map(lambdaline:line.split(',')).map(lambdafields:("Column",float(fields[0]))).map(lambda(column,value):(value)).persist(StorageLevel.MEMORY_AND_DISK)我将if语句放在那里是因为现在我有一些包含整列的数据集。float(fields[0])映射在遇到任何null时会导致错误。如何编写spark代码以允许我获取示例数组:[1,2,3,4,,5,,19]并处理它？最佳答案

具有一 python section fields map hadoop apache-spark

175 176 177178179 180 181