统计

python - 统计机器翻译的短语提取算法

我用SMT的短语提取算法编写了以下代码。GitHub#-*-coding:utf-8-*-defphrase_extraction(srctext,trgtext,alignment):"""Phraseextractionalgorithm."""defextract(f_start,f_end,e_start,e_end):phrases=set()#return{}iffend==0iff_end==0:return#forall(e,f)∈Adofore,finalignment:#return{}ifeeendifee_end:returnfs=f_start#repeat-

短语 python start end phrase algorithm machine-learning nlp machine-translation

python - 统计字符串中某个字符出现的次数

我刚刚接触Python，正在构建一个程序来分析一组单词并返回每个字母在文本中出现的次数。即“A:10、B:3、C:5...等”。到目前为止，它运行良好，除了我正在寻找一种压缩代码的方法，所以我不会将程序的每个部分都写出26次。这就是我的意思......print("Entertexttobeanalyzed:")message=input()A=0b=0c=0...etcforletterinmessage:ifletter=="a":a+=1ifletter=="b":b+=1ifletter=="c":c+=1...etcprint("A:",a,"B:",b,"C:",c...e

python 字符 letter section code

python - 边缘遍历成本高的树中总节点的统计估计

我有一个有向树，我想知道它的大小。我没有关于它的深度或节点分布的信息。有两个主要障碍:1)树非常大(~十亿个节点)2)边遍历是昂贵的。是否可以使用统计方法快速估计其大小(节点数)且误差有限？不幸的是，谷歌搜索只会产生精确计数算法，在这些限制条件下该算法的性能会很差。奖金如果我放宽从树到DAG(有向无环图)的约束，我能否同时获得它的大小和唯一路径的数量？例如。对于这个DAG(每条边都指向下方)有19个节点(大小)和23条路径(4条额外的路径，因为红色边缘为其目标节点提供了1条路径，并为其目标节点的子节点提供了3条路径)我尝试过的事情对于树的案例，我正在考虑以下内容:amounts=[]d

python 边缘的 section strong algorithm tree statistics duplicates

Python 统计模型 : Using SARIMAX with exogenous regressors to get predicted mean and confidence intervals

我正在使用statsmodels.tsa.SARIMAX()来训练具有外生变量的模型。当使用外生变量训练模型以便返回的对象包含预测均值和置信区间而不仅仅是一组预测均值结果时，是否存在get_prediction()的等价物？predict()和forecast()方法采用外生变量，但只返回预测平均值。SARIMA_model=sm.tsa.SARIMAX(endog=y_train.astype('float64'),exog=ExogenousFeature_train.values.astype('float64'),order=(1,0,0),seasonal_order=(2,

confidence regressors statsmodels 外生 section python time-series forecasting confidence-interval

python - MATLAB和Python，哪个更适合做统计分析？

很难说出这里要问什么。这个问题模棱两可、含糊不清、不完整、过于宽泛或夸夸其谈，无法以目前的形式得到合理的回答。如需帮助澄清此问题以便重新打开，visitthehelpcenter.关闭12年前。这两种语言中哪一种语言适合统计分析？除了可访问性之外，它们各自的优缺点是什么？

适合 python section notice class matlab statistics analysis

python - 我使用什么 scipy 统计测试来比较样本均值？

假设样本量不相等，在以下情况下我用什么检验来比较样本均值(如果以下任何一项不正确，请更正):正态分布=True和方差同质性=Truescipy.stats.ttest_ind(sample_1,sample_2)正态分布=True和方差同质性=Falsescipy.stats.ttest_ind(sample_1,sample_2,equal_var=False)正态分布=假和方差同质性=真scipy.stats.mannwhitneyu(sample_1,sample_2)正态分布=假和方差同质性=假??? 最佳答案快速回答:正

python scipy strong sample code numpy statistics

python - 继承的公共(public)方法是否可以从 Pylint 的统计数据中排除？

Pylint不断报告以下代码的错误(R:73,0:MyLogging:Toomanypublicmethods(22/20)):classMyLogging(logging.Logger):deffoo(self):passdefbar(self):pass起初我认为这是Pylint中的一个错误，因为MyLogging类正好有22行代码，但后来我意识到，它包括基类中的所有公共(public)方法logging.Logger同样，它在统计中增加了20。是否可以从Pylint统计信息中排除基类的公共(public)方法？PS.:我知道我可以将max-public-methods更改为更大的

中排统计数据 code methods public python pylint

python - 在 Python 中，如何计算两个数据数组之间的相关性和统计显着性？

我有一组数据，其中包含两个等长的数据数组，或者我可以制作一个包含两项条目的数组，我想计算数据所代表的相关性和统计显着性(可能紧密相关，或者可能没有统计上显着的相关性)。我正在使用Python编程并安装了scipy和numpy。我看了看发现CalculatingPearsoncorrelationandsignificanceinPython，但这似乎希望对数据进行操作，使其落入指定范围。我想，要求scipy或numpy给我两个数组的相关性和统计显着性的正确方法是什么？最佳答案如果你想计算Pearson相关系数，那么scipy.s

python section code stackoverflow numpy statistics scipy correlation

python - 实时统计分析

我需要进行一些实时数据分析以监控操作错误。更具体地说，我正在控制浮标上的绞车，该浮标正在将仪器包降低到水中。我需要检测它是否触底，如果触底则停止。我有以下数据:传感器的深度，绞车脱线的速度。我以1Hz的频率获得更新，整个过程持续大约5分钟。如果传感器触及底部，深度值通常会急剧减慢并最终停止可以假设在理想情况下下降率是线性的，但由于波浪，可能会有相当多的噪音。我想到了这个方法:'''Thevariablessensor_depth,winch_velocityandsample_timeareassumedtobeupdatedinthebackgroundbyanotherthread

python 实时 11 10 14 numpy

python - 如何获得 NumPy 数组的描述性统计信息？

我使用以下代码创建一个numpy-ndarray。该文件有9列。我明确键入每一列:dataset=np.genfromtxt("data.csv",delimiter=",",dtype=('|S1',float,float,float,float,float,float,float,int))现在我想获得每列的一些描述性统计数据(最小值、最大值、标准差、平均值、中值等)。难道不应该有一种简单的方法来做到这一点吗？我试过这个:fromscipyimportstatsstats.describe(dataset)但这会返回一个错误:TypeError:cannotperformreduc

描述性 python section describe code numpy multidimensional-array scipy

111 112 113114115 116 117